Doktorarbeit / Dissertation, 2008
308 Seiten, Note: cum laude
1 Einleitung
1.1 Historische Entwicklung der Schrift
1.2 Überblick über Schrift am Computer
1.3 Ziel dieser Arbeit
1.4 Aufbau dieser Arbeit
2 Verwandte Arbeiten
2.1 Fremde Suchansätze
2.1.1 Rubines Algorithmus
2.1.2 ScriptSearch
2.1.3 Scribble Matching
2.1.4 Scribbler
2.1.5 Automatische Indexgenerierung für Handschrift
2.1.6 Word-Spotting nach Jain & Namboodiri
2.1.7 Suche mittels Texterkennung
2.1.8 Stiftbasierte Bildersuche
2.1.9 Zusammenfassung
2.2 Beispielanwendungen des Pen-Computing
2.2.1 Audio Notebook
2.2.2 Interaktive Whiteboards
2.2.3 E-Book- und digitale Notizsysteme
2.2.4 Stiftbasiertes Prototyping
2.2.5 Zusammenfassung
3 Gerätetypen und Datenformate
3.1 Optische Positionsbestimung
3.2 Elektrostatische und elektromagnetische Positionsbestimmung
3.3 Akustische Positionsbestimmung
3.4 Resistive-Film-Technologie
3.5 Elektromechanische Positionsbestimmung
3.6 Dateiformate für On-line Handschriftdaten
3.6.1 JOT
3.6.2 UNIPEN
3.6.3 InkML
3.6.4 Weitere Standards und Datenformate
3.7 Zusammenfassung
4 Aufbau des Systems
4.1 Auswahl der Handschriftgeräte
4.2 Modulbeschreibung
5 Merkmalsgewinnung
5.1 Datenvorverarbeitung
5.1.1 Entfernen doppelter Abtastpunkte
5.1.2 Strokesegmentierung
5.1.3 Neuabtastung der Handschrift
5.2 Gitterbasierte Richtungsmerkmale
5.2.1 Quadratische Gitter
5.2.2 Dreiecksgitter
5.3 Lokale Schriftrichtung
5.4 Lokale Schriftkrümmung
5.5 Lokale Schriftneigung
5.6 Zusammenfassung
6 Suche mit Fehlern
6.1 Ähnlichkeiten von Zeichenketten
6.1.1 Editierabstand
6.1.2 Varianten des Editierabstandes
6.2 Approximative Stringsuche mittels dynamischer Programmierung
6.3 Alternative Suchalgorithmen
6.4 Zusammenfassung
7 Fusion
7.1 Überblick über Biometrie und biometrische Fusion
7.2 Fusionsstrategien der Handschriftsuche
7.2.1 Multi-Sample-Fusion
7.2.2 Multialgorithmische Fusion
7.3 Zusammenfassung
8 Evaluation
8.1 Grundlagen
8.2 Datenbank
8.3 Vorgehen bei der Evaluation
8.3.1 Evaluation der Systemteile ohne Fusion
8.3.2 Evaluation der Fusionsstrategien
8.3.3 Automatische Bestimmung individueller Schwellwerte
8.4 Zusammenfassung
9 Diskussion der Resultate
9.1 Resultate der Suche ohne Fusion
9.1.1 Quadratische Gitter
9.1.2 Dreiecksgitter
9.1.3 Lokale Schriftrichtung
9.1.4 Lokale Schriftkrümmung
9.1.5 Lokale Schriftneigung
9.2 Resultate für Multi-Sample-Fusion
9.2.1 Fusion auf Vergleichsebene
9.2.2 Fusion auf Entscheidungsebene
9.3 Resultate für multialgorithmische Fusion
9.3.1 Fusion auf Merkmalsebene
9.3.2 Fusion auf Vergleichsebene
9.3.3 Fusion auf Entscheidungsebene
9.4 Versuch der automatischen Bestimmung individueller Schwellwerte
9.5 Resultate verwandter Suchverfahren
9.6 Zusammenfassung
10 Fazit und Ausblick
10.1 Fazit
10.2 Erweiterungen und Verbesserungen
10.3 Ausblick
Die vorliegende Arbeit befasst sich mit der Entwicklung und Evaluation eines Systems zur Volltextsuche innerhalb von digital erfassten, handschriftlichen Dokumenten. Das zentrale Forschungsziel ist es, ein Verfahren zu etablieren, das ohne eine fehleranfällige, inhaltsbasierte Texterkennung auskommt und stattdessen die geometrische Gestalt des Schriftbildes zur Identifizierung von handschriftlichen Passagen, Symbolen und Skizzen nutzt, um die Fehlerraten bei der Suche zu minimieren.
1.3 Ziel dieser Arbeit
Das Thema dieser Arbeit, also die Volltextsuche für digitale Handschriftdokumente, basiert auf on-line erfassten Daten, deren Verarbeitung nicht unmittelbar nach der Erfassung, sondern verzögert zu einem späteren Zeitpunkt geschieht. Die Daten selbst sind hierbei textueller Natur, jedoch können ohne Veränderungen am System im gleichen Maße auch nicht-textuelle Daten gesucht werden, da die Art der Daten für die in dieser Arbeit untersuchten und entwickelten Algorithmen vollständig transparent sind – es wird lediglich auf Basis geometrischer Formen der Stifteingaben gearbeitet.
Damit grenzt sich diese Arbeit ebenso von der Suche in Handschriftdokumenten auf Papier ab (beispielsweise Handschriftensammlungen in Archiven und Bibliotheken), welche naturgemäß den Charakter von off-line Daten besitzen, wie auch von den Zielen der klassischen Texterkennung. Gleichwohl wird in dieser Arbeit auf bestimmte Techniken aus dem Gebiet der Texterkennung zurückgegriffen.
Als wissenschaftliche Vorarbeit untersucht der Autor in Kapitel 3 relevante technische Systeme und Geräte zur Handschrifterfassung und versucht, diese anhand der ihnen zugrundeliegenden physikalischen Prinzipien und Wirkungsweisen zu unterscheiden, um so eine entsprechende Klassifikation zu entwickeln.
Neben der Entwicklung eines Suchsystems für Handschriftdokumente stellt die experimentelle Evaluation der zugrundeliegenden Algorithmen einen wesentlichen Bestandteil dieser Arbeit dar. Ein weiterer wichtiger Aspekt besteht in dem Versuch, Verfahren der, unter anderem aus dem Bereich der Biometrie bekannten, Fusion auf ihre Eignung für die Handschriftverarbeitung zu untersuchen. Diese Verwendung von Fusionsverfahren zielt darauf ab, die Anzahl der Fehler, welche beispielsweise bei der Suche in zum Teil unsauber geschriebenen Dokumenten auftreten können, zu verringern und somit die Suchergebnisse zu optimieren.
1 Einleitung: Diese Einleitung führt in die Bedeutung von TabletPCs und stiftbasierten Systemen ein und definiert das Forschungsziel der effizienten Volltextsuche für handschriftliche Dokumente.
2 Verwandte Arbeiten: Hier wird der Stand der Technik im Bereich der Suche in digitalen Handschriftdokumenten diskutiert und bestehende Ansätze von der eigenen Arbeit abgegrenzt.
3 Gerätetypen und Datenformate: Dieses Kapitel klassifiziert technische Systeme zur Handschrifterfassung und erläutert relevante Dateiformate für on-line erfasste Handschriftdaten.
4 Aufbau des Systems: Der globale Aufbau des entwickelten Suchsystems wird vorgestellt, inklusive der zentralen Module für die Datenvorverarbeitung, Merkmalsextraktion und Suche.
5 Merkmalsgewinnung: Das Kapitel beschreibt Methoden zur Extraktion lokaler Schriftmerkmale, wie Gitterkodierungen sowie lokale Schriftrichtung, -krümmung und -neigung.
6 Suche mit Fehlern: Hier werden die Suchalgorithmen behandelt, die auf der approximativen Stringsuche beruhen, um trotz Ungenauigkeiten eine robuste Suche zu ermöglichen.
7 Fusion: Dieses Kapitel untersucht die Übertragung von Fusionsstrategien aus der biometrischen Benutzerauthentifikation auf das Problem der Handschriftvolltextsuche.
8 Evaluation: Das Vorgehen bei der experimentellen Validierung des Suchsystems sowie die verwendete Datenbasis werden detailliert dargelegt.
9 Diskussion der Resultate: Die gewonnenen Ergebnisse der Evaluation werden analysiert, mit anderen Systemen verglichen und im Kontext der Fusionsstrategien diskutiert.
10 Fazit und Ausblick: Diese abschließenden Abschnitte fassen die zentralen Ergebnisse der Arbeit zusammen und skizzieren zukünftige Entwicklungspotenziale.
Handschriftdokumente, Volltextsuche, Stifteingabe, on-line Handschrifterkennung, biometrische Fusion, Merkmalsgewinnung, Gitterkodierung, approximative Stringsuche, Editierabstand, Handschriftenverarbeitung, Dokument-Retrieval, Parameteroptimierung, Precision, Recall, AUC.
Die Arbeit entwickelt ein neuartiges System, das eine Volltextsuche in handschriftlichen Dokumenten ermöglicht, ohne dass eine klassische, inhaltliche Texterkennung notwendig ist.
Die zentralen Themen sind die Erfassung von on-line Handschriftdaten, die Extraktion geometrischer Merkmale, die Implementierung fehlertoleranter Suchalgorithmen und die Anwendung biometrischer Fusionsstrategien zur Ergebnisoptimierung.
Das Hauptziel ist es, ein leistungsfähiges Suchsystem zu schaffen, das flexibel genug ist, um nicht nur Text, sondern auch Skizzen und Symbole in handschriftlichen Dokumenten zu finden, indem ausschließlich die geometrische Form ausgewertet wird.
Der Autor nutzt Ansätze der Signalverarbeitung, um Stiftdaten zu quantisieren, sowie Methoden der Stringology (approximative Stringsuche), um die Ähnlichkeit zwischen Suchanfragen und Dokumentinhalten zu berechnen. Zudem werden Techniken der biometrischen Fusion zur Fehlerreduktion adaptiert.
Der Kern des Hauptteils umfasst die detaillierte Beschreibung der Merkmalsgewinnung (Gitter, Schriftrichtung, Krümmung), die Algorithmen für die fehlertolerante Suche und die systematische Untersuchung verschiedener Fusionsansätze zur Verbesserung der Suchqualität.
Die Arbeit lässt sich maßgeblich durch Begriffe wie Handschriftvolltextsuche, Merkmalsextraktion, Gitterquantisierung, approximative Stringsuche und biometrische Fusion charakterisieren.
Der Verzicht auf die Texterkennung ermöglicht es, nicht nur Text, sondern auch Skizzen, Zeichnungen und Symbole in handschriftlichen Notizen zu suchen, da lediglich die geometrische Form des Schriftbildes analysiert wird.
Fusionsverfahren werden eingesetzt, um die Fehlerraten bei der Suche zu verringern. Durch die Kombination verschiedener Merkmals- oder Entscheidungsebenen kann die Zuverlässigkeit des Suchsystems deutlich gesteigert werden.
Der Ähnlichkeitsschwellwert steuert, wie strikt das System Übereinstimmungen interpretiert. Ein passender Schwellwert ist entscheidend für das Gleichgewicht zwischen Precision (Genauigkeit) und Recall (Vollständigkeit).
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

