Provide an automatized training customized by adjustments for different convolutional neural networks to classify characters in a real environment based on generated data

Jonas Laux

You are here:

University of Vienna
PHAIDRA
Detail o:1347916

Title (eng)

Provide an automatized training customized by adjustments for different convolutional neural networks to classify characters in a real environment based on generated data

Author

Jonas Laux

Advisor

Wolfgang Klas

Co-Advisor

Elaheh Momeni-Ortner

Assessor

Wolfgang Klas

Abstract (deu)

Dank modernster Technologien hat Machine Learning (ML) in den letzten Jahren die Leistungen von Computervision übertroffen. ML Prozesse erfordern ein Training. Um ein gutes Trainingsprogramm zu erstellen, das benötigt wird um ein Netzwerk funktionstüch- tig zu machen, muss der für das Training verwendete Datenpool zufriedenstellend sein. Der Erwerb vorbereiteter und annotierter Daten kann jedoch kosten- und zeitintensiv sein, was durch die Generierung der Daten umgangen werden kann. Um bei solchen Aufgaben zur Vorbereitung des Trainingsaufbaus und des Trainings selbst gute Leistungen zu erbringen, bedarf es einer Kenntnis des Basiswissens. Um diese Probleme anzugehen, stelle ich ein System vor, dass alle erforderlichen Schritte in einem einfachen Ablauf vereint. Betrachtet man das folgende Beispiel. Ein User hat einen Anwendungsfall im Bereich Optical Character Recognition (OCR) und möchte ein Modell erhalten, dass auf einer spezifischen Schriftart, welches den Kern des Datansatzes repräsentiert, trainiert ist. Durch die Modifikation dieses Kerns, der aus den extrahierten Zeichen der bereitgestell- ten Font-Datei besteht, wird ein Datenset erstellt, dass bei einem Training des neuronalen Netzwerks verwendet wird. Die Parameter für den optimalen Ablauf des Trainings, sowie die Parameter der Gene- rierung der Trainings-Datensätze werden in dieser Arbeit untersucht. Darüber hinaus wird die Architektur, Struktur und Leistung des Netzwerks angepasst, so dass es in der Industrie verwendet werden kann - zum Beispiel in Mobiltelefonen. Um einen Vergleich der verschiedenen Ansätze zu gewährlisten, evaluiere ich meine Methoden, indem ich ein Validierungs-Datenset erstelle und jedes erstellte Modell mit diesem Set teste. Die daraus resultierende Genauigkeit wird zur Bewertung verwendet.

Abstract (eng)

Thanks to state-of-the-art implementations ML has out-performed computer vision tasks in recent years. ML processes require training. To create a good training program to enable a network to perform, the pool of data used for the training must be satisfying. However, the acquisition of prepared and annotated data can be a costly and time- consuming task. This can be circumvented by generating the data. To perform well in such tasks for the preparation of the training setup and the training itself, one requires a knowledge of the underlying processes. To address these issues, we present a system which combines all the required steps in one simple workflow. Consider the following example. A user has a use case in the OCR scope and wants to receive a model trained on a specific font, which s/he uploads to present the ground truth. By modifying the ground truth of the extracted characters from the font file provided, a data set is created which is used in the training of the neural network model. The training’s hyperparameters and the parameters of the augmentation are studied so that the training performs optimally. In addition, the architecture, structure, and performance of the network is adjusted so it can be used in production in the industry—for example, by mobile phones. We evaluate our methods by creating a validation set and testing every model against this to determine the accuracy the model is scoring on the set.

Keywords (eng)

Convolutional Neural NetworksDeep LearningData AugmentationOptical Character RecognitionTensorflow

Keywords (deu)

Convolutional Neural NetworksDeep LearningData AugmentationOptical Character RecognitionTensorflow

Subject (deu)

Maschinelles Sehen

Subject (deu)

Künstliche Intelligenz

Type (deu)

Masterarbeit

Persistent identifier

https://phaidra.univie.ac.at/o:1347916

URN

urn:nbn:at:at-ubw:1-13772.91137.315066-8

URI

https://utheses.univie.ac.at/detail/48070

Extent (deu)

xv, 96 Seiten : Diagramme

Number of pages

113

Study plan

Masterstudium Medieninformatik

[UA]

[066]

[935]

Association (deu)

Fakultät für Informatik

Title (eng)

Provide an automatized training customized by adjustments for different convolutional neural networks to classify characters in a real environment based on generated data

Author

Jonas Laux

Abstract (deu)

Dank modernster Technologien hat Machine Learning (ML) in den letzten Jahren die Leistungen von Computervision übertroffen. ML Prozesse erfordern ein Training. Um ein gutes Trainingsprogramm zu erstellen, das benötigt wird um ein Netzwerk funktionstüch- tig zu machen, muss der für das Training verwendete Datenpool zufriedenstellend sein. Der Erwerb vorbereiteter und annotierter Daten kann jedoch kosten- und zeitintensiv sein, was durch die Generierung der Daten umgangen werden kann. Um bei solchen Aufgaben zur Vorbereitung des Trainingsaufbaus und des Trainings selbst gute Leistungen zu erbringen, bedarf es einer Kenntnis des Basiswissens. Um diese Probleme anzugehen, stelle ich ein System vor, dass alle erforderlichen Schritte in einem einfachen Ablauf vereint. Betrachtet man das folgende Beispiel. Ein User hat einen Anwendungsfall im Bereich Optical Character Recognition (OCR) und möchte ein Modell erhalten, dass auf einer spezifischen Schriftart, welches den Kern des Datansatzes repräsentiert, trainiert ist. Durch die Modifikation dieses Kerns, der aus den extrahierten Zeichen der bereitgestell- ten Font-Datei besteht, wird ein Datenset erstellt, dass bei einem Training des neuronalen Netzwerks verwendet wird. Die Parameter für den optimalen Ablauf des Trainings, sowie die Parameter der Gene- rierung der Trainings-Datensätze werden in dieser Arbeit untersucht. Darüber hinaus wird die Architektur, Struktur und Leistung des Netzwerks angepasst, so dass es in der Industrie verwendet werden kann - zum Beispiel in Mobiltelefonen. Um einen Vergleich der verschiedenen Ansätze zu gewährlisten, evaluiere ich meine Methoden, indem ich ein Validierungs-Datenset erstelle und jedes erstellte Modell mit diesem Set teste. Die daraus resultierende Genauigkeit wird zur Bewertung verwendet.

Abstract (eng)

Thanks to state-of-the-art implementations ML has out-performed computer vision tasks in recent years. ML processes require training. To create a good training program to enable a network to perform, the pool of data used for the training must be satisfying. However, the acquisition of prepared and annotated data can be a costly and time- consuming task. This can be circumvented by generating the data. To perform well in such tasks for the preparation of the training setup and the training itself, one requires a knowledge of the underlying processes. To address these issues, we present a system which combines all the required steps in one simple workflow. Consider the following example. A user has a use case in the OCR scope and wants to receive a model trained on a specific font, which s/he uploads to present the ground truth. By modifying the ground truth of the extracted characters from the font file provided, a data set is created which is used in the training of the neural network model. The training’s hyperparameters and the parameters of the augmentation are studied so that the training performs optimally. In addition, the architecture, structure, and performance of the network is adjusted so it can be used in production in the industry—for example, by mobile phones. We evaluate our methods by creating a validation set and testing every model against this to determine the accuracy the model is scoring on the set.

Keywords (eng)

Convolutional Neural NetworksDeep LearningData AugmentationOptical Character RecognitionTensorflow

Keywords (deu)

Convolutional Neural NetworksDeep LearningData AugmentationOptical Character RecognitionTensorflow

Subject (deu)

Maschinelles Sehen

Subject (deu)

Künstliche Intelligenz

Type (deu)

Masterarbeit

Persistent identifier

https://phaidra.univie.ac.at/o:1347917