Diplomarbeit, 2007
106 Seiten, Note: 1,0
1 Einleitung
2 Erkennung von gerendertem Text
2.1 Eigenschaften gerenderten Textes
2.2 Bisheriges OCR-System
2.2.1 Vorverarbeitung
2.2.2 Hybride Klassifikation
2.2.3 Nachbearbeitung
2.3 Aktueller Stand und Optimierungsmöglichkeiten
3 Lern- und Testdaten
3.1 Kategorisierung gerenderter Texte
3.2 Format der Datenbanken
3.3 Erweiterung der Datenbasis
4 Konstruktion und Test einzelner Klassifikatoren
4.1 Konstruktion von Klassifikatoren
4.2 Analyse und Vergleich von Klassifikatoren
4.3 Erzielte Testergebnisse
4.3.1 Klassifikatortests
4.3.2 Systemtests
5 Konstruktion und Test von Multi-Classifier-Systemen
5.1 Ansätze zur Kombination mehrerer Klassifikatoren
5.2 Erzielte Testergebnisse
5.2.1 Klassifikatortests
5.2.2 Systemtests
6 Fazit und Ausblick
A Trainingsdaten der Version 2006
A.1 Lern- und Testdaten der Screen-Char-Datenbank
A.2 Testdaten der Screen-Word-Datenbank
A.3 Format der alten Datenbanken
B Trainingsdaten der Version 2007-MCS
B.1 Lern- und Testdaten der Screen-Char-Datenbank
B.2 Testdaten der Screen-Word-Datenbank
C Resultate durchgeführter Testläufe
C.1 Resultate durchgeführter Klassifikatortests
C.2 Resultate durchgeführter Systemtests
Ziel dieser Arbeit ist die Optimierung der Klassifikationskomponente eines bestehenden OCR-Systems zur Erkennung von gerendertem Text. Dies soll durch die Implementierung und Evaluation eines Multi-Classifier-Systems (MCS) erreicht werden, welches die Schwächen einzelner Klassifikatoren durch die Stärken anderer kompensiert, um die Effektivität des Gesamtsystems zu steigern.
2.1 Eigenschaften gerenderten Textes
Gerenderter Text ist bei pixelbasierten Ausgabegeräten wie z.B. Monitoren oder Displays zu finden. Die Darstellung von Schriftzeichen (und anderen Grafikobjekten) auf einem Pixelraster ist Aufgabe des Renderings. Die Informationen über die Konturen eines Schriftzeichens der jeweiligen Schriftart — des jeweiligen Fonts — liegen i.d.R. in Form von Geradensegmenten und Bézierkurven vor. Anhand der vorgegebenen Geometrie finden Entscheidungen darüber statt, welche Pixel der Rastergrafik dem Schriftzeichen und welche dem Hintergrund zuzuordnen sind.
Das optische Erscheinungsbild gerenderter Texte ist gegenüber dem klassischer Anwendungen der automatischen Texterkennung von eingescannten Dokumenten ein anderes. Während klassische OCR-Anwendungen mit Verzerrungen der Textzeilen, verschmutzten Dokumenten und Bildstörungen konfrontiert werden, scheint die Erkennung von „sauber“ gerenderten Texten mit weitaus geringeren Herausforderungen einherzugehen. Tatsächlich sind die Herausforderungen keine geringeren, sondern andere. Im Folgenden werden die durch das Rendering bedingten Eigenschaften vorgestellt, die wesentliche Herausforderungen bei der automatischen Erkennung gerenderter Texte bilden.
Die Bewältigung der Rendering-Aufgabe ist insbesondere bei geringen Auflösungen keinesfalls trivial. Daher gibt es mehrere Techniken, die den Text unter jeweils verschiedenen Gesichtspunkten rendern. Die Wahl der Technik hat einen starken Einfluss auf das resultierende Erscheinungsbild. Abbildung 2.1 zeigt drei geläufige Ansätze: Ein Rendering, das völlig auf Glättung verzichtet, also nur harte Pixel voller Intensität verwendet, erzeugt als Aliasing bezeichnete Treppeneffekte. Dem gegenüber steht das Antialiasing, das verschiedene Pixelintensitäten unterscheidet, um den Stufen des Alias-Effekts entgegenzuwirken.
1 Einleitung: Diese Einleitung erläutert die Relevanz der automatischen Erkennung von gerendertem Text auf pixelbasierten Displays und definiert das Ziel der Arbeit, die Klassifikationskomponente durch ein Multi-Classifier-System zu optimieren.
2 Erkennung von gerendertem Text: Das Kapitel analysiert die spezifischen Eigenschaften gerenderter Schriftzeichen und stellt die Funktionsweise sowie die Komponenten des existierenden OCR-Systems vor.
3 Lern- und Testdaten: Dieses Kapitel behandelt die Kategorisierung der Schriftzeichen, die Anpassung der Datenhaltung sowie die strategische Erweiterung und Versionierung der Datengrundlage.
4 Konstruktion und Test einzelner Klassifikatoren: Hier werden verschiedene Merkmalsgruppen und Klassifikatoren entwickelt und deren Effektivität sowie Analysemethoden evaluiert.
5 Konstruktion und Test von Multi-Classifier-Systemen: Dieses Kapitel beschreibt die Ansätze zur Kombination mehrerer Klassifikatoren mittels Fusion und Selektion und präsentiert die erzielten Testergebnisse.
6 Fazit und Ausblick: Das Fazit fasst die Ergebnisse der Arbeit zusammen und diskutiert mögliche weitere Entwicklungsschritte.
OCR, Multi-Classifier-System, MCS, Klassifikator, Textsegmentierung, Wortsegmentierung, Zeichenerkennung, gerenderter Text, Zoning, Merkmalsextraktion, Konfusionsmatrix, Klassifikationsgenauigkeit, Trainingsdaten, Bildverarbeitung, Zeichenerkennung.
Die Arbeit beschäftigt sich mit der Verbesserung eines automatischen Texterkennungssystems (OCR) für gerenderte Schriftarten auf digitalen Bildschirmen.
Die zentralen Schwerpunkte liegen auf dem Design und der Implementierung eines Multi-Classifier-Systems, der Kategorisierung von Trainingsdaten und der Evaluierung verschiedener Kombinationsstrategien für Klassifikatoren.
Das Ziel ist die Optimierung der Klassifikationskomponente des bestehenden Systems, um die Erkennungsgenauigkeit durch die Kombination verschiedener Klassifikatoren zu erhöhen.
Es werden verschiedene Klassifikationsansätze basierend auf Zoning-Methoden und Ableitungsmerkmalen entwickelt und deren Performance durch statistische Tests wie den McNemar-Test und Cochrans Q-Test sowie Kreuzvalidierungen überprüft.
Der Hauptteil befasst sich mit der Analyse bestehender Komponenten, der Erstellung eines neuen Datenbanksystems zur Verwaltung der Trainingsdaten, der Konstruktion einzelner Klassifikatoren und deren gruppenweiser Kombination.
Die wichtigsten Begriffe umfassen OCR, Multi-Classifier-System, Zeichenerkennung, Merkmalsextraktion und Klassifikationsgenauigkeit.
Gerenderter Text auf Displays weist eine wesentlich geringere Auflösung und gröbere Rasterung auf, was die Segmentierung der einzelnen Schriftzeichen und deren Unterscheidung bei verschiedenen Rendering-Techniken erschwert.
Durch die Kombination lässt sich erreichen, dass die Schwächen eines einzelnen Klassifikators – beispielsweise bei der Erkennung spezifischer Schriftkombinationen – durch die Stärken anderer Klassifikatoren kompensiert werden, was die Gesamterkennungsrate verbessert.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

