Suche in on-line erfassten digitalen Handschriftdokumenten

Doktorarbeit / Dissertation, 2008
308 Seiten, Note: cum laude

Informatik - Angewandte Informatik

Leseprobe

Inhaltsverzeichnis

1 Einleitung

1.1 Historische Entwicklung der Schrift

1.2 Überblick über Schrift am Computer

1.3 Ziel dieser Arbeit

1.4 Aufbau dieser Arbeit

2 Verwandte Arbeiten

2.1 Fremde Suchansätze

2.1.1 Rubines Algorithmus

2.1.2 ScriptSearch

2.1.3 Scribble Matching

2.1.4 Scribbler

2.1.5 Automatische Indexgenerierung für Handschrift

2.1.6 Word-Spotting nach Jain & Namboodiri

2.1.7 Suche mittels Texterkennung

2.1.8 Stiftbasierte Bildersuche

2.1.9 Zusammenfassung

2.2 Beispielanwendungen des Pen-Computing

2.2.1 Audio Notebook

2.2.2 Interaktive Whiteboards

2.2.3 E-Book- und digitale Notizsysteme

2.2.4 Stiftbasiertes Prototyping

2.2.5 Zusammenfassung

3 Gerätetypen und Datenformate

3.1 Optische Positionsbestimung

3.2 Elektrostatische und elektromagnetische Positionsbestimmung

3.3 Akustische Positionsbestimmung

3.4 Resistive-Film-Technologie

3.5 Elektromechanische Positionsbestimmung

3.6 Dateiformate für On-line Handschriftdaten

3.6.1 JOT

3.6.2 UNIPEN

3.6.3 InkML

3.6.4 Weitere Standards und Datenformate

3.7 Zusammenfassung

4 Aufbau des Systems

4.1 Auswahl der Handschriftgeräte

4.2 Modulbeschreibung

5 Merkmalsgewinnung

5.1 Datenvorverarbeitung

5.1.1 Entfernen doppelter Abtastpunkte

5.1.2 Strokesegmentierung

5.1.3 Neuabtastung der Handschrift

5.2 Gitterbasierte Richtungsmerkmale

5.2.1 Quadratische Gitter

5.2.2 Dreiecksgitter

5.3 Lokale Schriftrichtung

5.4 Lokale Schriftkrümmung

5.5 Lokale Schriftneigung

5.6 Zusammenfassung

6 Suche mit Fehlern

6.1 Ähnlichkeiten von Zeichenketten

6.1.1 Editierabstand

6.1.2 Varianten des Editierabstandes

6.2 Approximative Stringsuche mittels dynamischer Programmierung

6.3 Alternative Suchalgorithmen

6.4 Zusammenfassung

7 Fusion

7.1 Überblick über Biometrie und biometrische Fusion

7.2 Fusionsstrategien der Handschriftsuche

7.2.1 Multi-Sample-Fusion

7.2.2 Multialgorithmische Fusion

7.3 Zusammenfassung

8 Evaluation

8.1 Grundlagen

8.2 Datenbank

8.3 Vorgehen bei der Evaluation

8.3.1 Evaluation der Systemteile ohne Fusion

8.3.2 Evaluation der Fusionsstrategien

8.3.3 Automatische Bestimmung individueller Schwellwerte

8.4 Zusammenfassung

9 Diskussion der Resultate

9.1 Resultate der Suche ohne Fusion

9.1.1 Quadratische Gitter

9.1.2 Dreiecksgitter

9.1.3 Lokale Schriftrichtung

9.1.4 Lokale Schriftkrümmung

9.1.5 Lokale Schriftneigung

9.2 Resultate für Multi-Sample-Fusion

9.2.1 Fusion auf Vergleichsebene

9.2.2 Fusion auf Entscheidungsebene

9.3 Resultate für multialgorithmische Fusion

9.3.1 Fusion auf Merkmalsebene

9.3.2 Fusion auf Vergleichsebene

9.3.3 Fusion auf Entscheidungsebene

9.4 Versuch der automatischen Bestimmung individueller Schwellwerte

9.5 Resultate verwandter Suchverfahren

9.6 Zusammenfassung

10 Fazit und Ausblick

10.1 Fazit

10.2 Erweiterungen und Verbesserungen

10.3 Ausblick

Zielsetzung & Themen

Die vorliegende Arbeit befasst sich mit der Entwicklung und Evaluation eines Systems zur Volltextsuche innerhalb von digital erfassten, handschriftlichen Dokumenten. Das zentrale Forschungsziel ist es, ein Verfahren zu etablieren, das ohne eine fehleranfällige, inhaltsbasierte Texterkennung auskommt und stattdessen die geometrische Gestalt des Schriftbildes zur Identifizierung von handschriftlichen Passagen, Symbolen und Skizzen nutzt, um die Fehlerraten bei der Suche zu minimieren.

Entwicklung technischer Verfahren zur on-line Handschrifterfassung
Methoden der Merkmalsgewinnung basierend auf Gitterstrukturen und lokalen Schriftmerkmalen
Anwendung von Fusionsstrategien aus der Biometrie zur Optimierung der Suchgenauigkeit
Implementierung von Suchalgorithmen basierend auf approximativer Stringsuche (unscharfe Suche)
Umfangreiche experimentelle Evaluation und Validierung des Suchsystems auf einer eigenen Datenbasis

Auszug aus dem Buch

1.3 Ziel dieser Arbeit

Das Thema dieser Arbeit, also die Volltextsuche für digitale Handschriftdokumente, basiert auf on-line erfassten Daten, deren Verarbeitung nicht unmittelbar nach der Erfassung, sondern verzögert zu einem späteren Zeitpunkt geschieht. Die Daten selbst sind hierbei textueller Natur, jedoch können ohne Veränderungen am System im gleichen Maße auch nicht-textuelle Daten gesucht werden, da die Art der Daten für die in dieser Arbeit untersuchten und entwickelten Algorithmen vollständig transparent sind – es wird lediglich auf Basis geometrischer Formen der Stifteingaben gearbeitet.

Damit grenzt sich diese Arbeit ebenso von der Suche in Handschriftdokumenten auf Papier ab (beispielsweise Handschriftensammlungen in Archiven und Bibliotheken), welche naturgemäß den Charakter von off-line Daten besitzen, wie auch von den Zielen der klassischen Texterkennung. Gleichwohl wird in dieser Arbeit auf bestimmte Techniken aus dem Gebiet der Texterkennung zurückgegriffen.

Als wissenschaftliche Vorarbeit untersucht der Autor in Kapitel 3 relevante technische Systeme und Geräte zur Handschrifterfassung und versucht, diese anhand der ihnen zugrundeliegenden physikalischen Prinzipien und Wirkungsweisen zu unterscheiden, um so eine entsprechende Klassifikation zu entwickeln.

Neben der Entwicklung eines Suchsystems für Handschriftdokumente stellt die experimentelle Evaluation der zugrundeliegenden Algorithmen einen wesentlichen Bestandteil dieser Arbeit dar. Ein weiterer wichtiger Aspekt besteht in dem Versuch, Verfahren der, unter anderem aus dem Bereich der Biometrie bekannten, Fusion auf ihre Eignung für die Handschriftverarbeitung zu untersuchen. Diese Verwendung von Fusionsverfahren zielt darauf ab, die Anzahl der Fehler, welche beispielsweise bei der Suche in zum Teil unsauber geschriebenen Dokumenten auftreten können, zu verringern und somit die Suchergebnisse zu optimieren.

Zusammenfassung der Kapitel

1 Einleitung: Diese Einleitung führt in die Bedeutung von TabletPCs und stiftbasierten Systemen ein und definiert das Forschungsziel der effizienten Volltextsuche für handschriftliche Dokumente.

2 Verwandte Arbeiten: Hier wird der Stand der Technik im Bereich der Suche in digitalen Handschriftdokumenten diskutiert und bestehende Ansätze von der eigenen Arbeit abgegrenzt.

3 Gerätetypen und Datenformate: Dieses Kapitel klassifiziert technische Systeme zur Handschrifterfassung und erläutert relevante Dateiformate für on-line erfasste Handschriftdaten.

4 Aufbau des Systems: Der globale Aufbau des entwickelten Suchsystems wird vorgestellt, inklusive der zentralen Module für die Datenvorverarbeitung, Merkmalsextraktion und Suche.

5 Merkmalsgewinnung: Das Kapitel beschreibt Methoden zur Extraktion lokaler Schriftmerkmale, wie Gitterkodierungen sowie lokale Schriftrichtung, -krümmung und -neigung.

6 Suche mit Fehlern: Hier werden die Suchalgorithmen behandelt, die auf der approximativen Stringsuche beruhen, um trotz Ungenauigkeiten eine robuste Suche zu ermöglichen.

7 Fusion: Dieses Kapitel untersucht die Übertragung von Fusionsstrategien aus der biometrischen Benutzerauthentifikation auf das Problem der Handschriftvolltextsuche.

8 Evaluation: Das Vorgehen bei der experimentellen Validierung des Suchsystems sowie die verwendete Datenbasis werden detailliert dargelegt.

9 Diskussion der Resultate: Die gewonnenen Ergebnisse der Evaluation werden analysiert, mit anderen Systemen verglichen und im Kontext der Fusionsstrategien diskutiert.

10 Fazit und Ausblick: Diese abschließenden Abschnitte fassen die zentralen Ergebnisse der Arbeit zusammen und skizzieren zukünftige Entwicklungspotenziale.

Schlüsselwörter

Handschriftdokumente, Volltextsuche, Stifteingabe, on-line Handschrifterkennung, biometrische Fusion, Merkmalsgewinnung, Gitterkodierung, approximative Stringsuche, Editierabstand, Handschriftenverarbeitung, Dokument-Retrieval, Parameteroptimierung, Precision, Recall, AUC.

Häufig gestellte Fragen

Worum geht es in dieser Forschungsarbeit grundlegend?

Die Arbeit entwickelt ein neuartiges System, das eine Volltextsuche in handschriftlichen Dokumenten ermöglicht, ohne dass eine klassische, inhaltliche Texterkennung notwendig ist.

Was sind die zentralen Themenfelder der Arbeit?

Die zentralen Themen sind die Erfassung von on-line Handschriftdaten, die Extraktion geometrischer Merkmale, die Implementierung fehlertoleranter Suchalgorithmen und die Anwendung biometrischer Fusionsstrategien zur Ergebnisoptimierung.

Welches primäre Ziel verfolgt der Autor?

Das Hauptziel ist es, ein leistungsfähiges Suchsystem zu schaffen, das flexibel genug ist, um nicht nur Text, sondern auch Skizzen und Symbole in handschriftlichen Dokumenten zu finden, indem ausschließlich die geometrische Form ausgewertet wird.

Welche wissenschaftliche Methodik kommt zum Einsatz?

Der Autor nutzt Ansätze der Signalverarbeitung, um Stiftdaten zu quantisieren, sowie Methoden der Stringology (approximative Stringsuche), um die Ähnlichkeit zwischen Suchanfragen und Dokumentinhalten zu berechnen. Zudem werden Techniken der biometrischen Fusion zur Fehlerreduktion adaptiert.

Was bildet den inhaltlichen Kern des Hauptteils?

Der Kern des Hauptteils umfasst die detaillierte Beschreibung der Merkmalsgewinnung (Gitter, Schriftrichtung, Krümmung), die Algorithmen für die fehlertolerante Suche und die systematische Untersuchung verschiedener Fusionsansätze zur Verbesserung der Suchqualität.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit lässt sich maßgeblich durch Begriffe wie Handschriftvolltextsuche, Merkmalsextraktion, Gitterquantisierung, approximative Stringsuche und biometrische Fusion charakterisieren.

Warum wird in dieser Arbeit auf eine textuelle Handschrifterkennung verzichtet?

Der Verzicht auf die Texterkennung ermöglicht es, nicht nur Text, sondern auch Skizzen, Zeichnungen und Symbole in handschriftlichen Notizen zu suchen, da lediglich die geometrische Form des Schriftbildes analysiert wird.

Welche Rolle spielen Fusionsverfahren bei der Suche?

Fusionsverfahren werden eingesetzt, um die Fehlerraten bei der Suche zu verringern. Durch die Kombination verschiedener Merkmals- oder Entscheidungsebenen kann die Zuverlässigkeit des Suchsystems deutlich gesteigert werden.

Warum ist das Thema des "Schwellwerts" für die Suchgenauigkeit so wichtig?

Der Ähnlichkeitsschwellwert steuert, wie strikt das System Übereinstimmungen interpretiert. Ein passender Schwellwert ist entscheidend für das Gleichgewicht zwischen Precision (Genauigkeit) und Recall (Vollständigkeit).

Ende der Leseprobe aus 308 Seiten - nach oben

Details

Titel: Suche in on-line erfassten digitalen Handschriftdokumenten
Hochschule: Otto-von-Guericke-Universität Magdeburg (Fakultät für Informatik)
Note: cum laude
Autor: Sascha Schimke (Autor:in)
Erscheinungsjahr: 2008
Seiten: 308
Katalognummer: V125036
ISBN (eBook): 9783640300075
ISBN (Buch): 9783640304929
Dateigröße: 11063 KB
Sprache: Deutsch
Schlagworte: Dokumentverarbeitung Handschriftsuche Handschrifterkennung Textalgorithmen
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 46,99
Preis (Book): US$ 60,99

Arbeit zitieren: Sascha Schimke (Autor:in), 2008, Suche in on-line erfassten digitalen Handschriftdokumenten, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/125036