Diplomarbeit, 2005
110 Seiten, Note: 1.3
1 Einführung
1.1 Motivation
1.2 Aufgabenstellung und Abgrenzung
1.3 Aufbau der Arbeit
2 Bestehende Ansätze, Verfahren und Systeme
2.1 Profilerhebung
2.1.1 Implizite Verfahren
2.1.2 Explizite Verfahren
2.1.3 Erweiterte Ansätze
2.1.4 Zusammenfassung und Diskussion
2.2 Dialogsysteme
2.2.1 Kategorisierung
2.2.2 Typische Systemkomponenten
2.2.3 Zusammenfassung und Diskussion
2.3 Disambiguierung
2.3.1 Ambiguität
2.3.2 Disambiguierung von Wortbedeutungen - ein Überblick
2.3.3 Einsatzgebiete von Disambiguierungsverfahren
2.3.4 Kategorisierung
2.3.5 Stochastische Verfahren
2.3.6 KI-basierte, nicht-stochastische Verfahren
2.3.7 Hybridverfahren
2.3.8 Evaluierung
3 Ausgangssituation
3.1 Darstellung des Profilerhebungssystems
3.1.1 Konzeptbeschreibung
3.1.2 Aufbau und Struktur des Benutzerprofils
3.2 Architektur des Profilerhebungssystems
3.2.1 Language Analysis
3.2.2 Profile Manager
3.2.3 Target Group Matching
3.2.4 Dialog Manager
3.3 GermaNet
3.3.1 Architektur
3.3.2 Relationen
3.3.3 Einsatzmöglichkeit
3.4 Ablauf/Kontrollfluss
3.5 Zusammenfassung und Diskussion
4 Anforderungsanalyse
4.1 Funktionale Anforderungen
4.2 Nicht-funktionale Anforderungen
5 Entwicklung der Disambiguierungskomponente
5.1 Betrachtung und Auswahl bestehender Ansätze
5.1.1 Situationsspezifische Betrachtung
5.1.2 Semantische Verwandtschaft/Ähnlichkeit - Begriffe
5.1.3 Semantische Verwandtschaft/Ähnlichkeit - Verfahren
5.1.4 Semantische Verwandtschaft/Ähnlichkeit - Bewertung
5.1.5 Auswahl und Einordnung des Verfahrens
5.2 Algorithmus zur Disambiguierung
5.2.1 Vorausgehende Überlegungen
5.2.2 Beschreibung des Algorithmus
5.3 Systemdesign
5.4 Implementierung
5.4.1 Konfiguration
5.4.2 Packages und Klassen
5.4.3 Methoden
5.4.4 Datenmodelle
5.5 Evaluierung
5.6 Zusammenfassung und Diskussion
6 Zusammenfassung und Ausblick
Die Arbeit verfolgt das Ziel, für ein bestehendes Profilerhebungssystem ein Verfahren zur Disambiguierung (Auflösung von Mehrdeutigkeiten) von natürlichsprachlichen Kundeneingaben zu entwickeln und in das Dialogmanagement zu integrieren, um die Qualität und Genauigkeit der generierten Benutzerprofile zu erhöhen.
2.3.1 Ambiguität
Ambiguität ist ein mehrschichtiges Problem [43] und zieht sich durch verschiedene Ebenen des Verarbeitungsprozesses von Text und (natürlicher) Sprache. Grob kann man dabei drei Bereiche von Ambiguität unterscheiden:
1. syntaktische Ambiguität
2. pragmatische Ambiguität
3. semantische Ambiguität
ad 1.)
Die Unerwünschtheit von Mehrdeutigkeiten syntaktischer Beschreibungsmechanismen, wie z.B. Grammatiken oder sogar inhärent mehrdeutiger Sprachen ist bereits aus den Informatikbereichen ’formale Sprachen’ und ’Compilerbau’ bekannt. Aber auch Sätze in natürlichen Sprachen lassen sich ggf. mehrfach analysieren (parsen) und damit deuten. Um die richtige Variante auszuwählen sind im Fall gesprochener Sprache der Sprechakt [33] (d.h. die Sprechhandlung inkl. Mimik, Gestik, usw.) und die Absicht des Sprechers ausschlaggebend. Im Fall geschriebener Sprache ist weder für einen Computer noch für einen Menschen zwangsläufig klar, welche Deutung die richtige ist, selbst wenn Kontext vorhanden wäre (d.h. ein Satz eingebettet in einen Textabschnitt). Beispiel 2.1 vermittelt eine Vorstellung dieser Situation.
1 Einführung: Das Kapitel führt in den Kontext des Sonderforschungsbereichs 582 und die Motivation ein, Kundenprofile durch einen natürlichsprachlichen, adaptiven Dialog effizient und individuell zu erstellen.
2 Bestehende Ansätze, Verfahren und Systeme: Dieses Kapitel gibt einen Überblick über Methoden der Profilerhebung, verschiedene Typen von Dialogsystemen und den Problemkreis der Disambiguierung von Mehrdeutigkeiten.
3 Ausgangssituation: Es wird das bestehende Profilerhebungssystem im Detail beschrieben, seine Architektur erläutert und die Rolle von GermaNet als lexikalisch-semantische Wissensressource dargelegt.
4 Anforderungsanalyse: Hier werden die funktionalen und nicht-funktionalen Anforderungen an das zu entwickelnde WSD-Verfahren spezifiziert, insbesondere die Integration in das bestehende System ohne externe Ressourcen.
5 Entwicklung der Disambiguierungskomponente: Dieses Hauptkapitel behandelt die Auswahl bestehender Ansätze, den Entwurf des WSD-Algorithmus unter Verwendung von GermaNet, das Systemdesign sowie die Implementierung und Evaluierung des Moduls.
6 Zusammenfassung und Ausblick: Die Arbeit schließt mit einer Zusammenfassung der Ergebnisse und einem Ausblick auf mögliche Optimierungen sowie zukünftige Entwicklungen im Bereich der automatischen Wortbedeutungs-Disambiguierung.
Dialogsystem, Profilerhebung, Disambiguierung, WSD, GermaNet, Benutzerprofil, natürlichsprachlicher Dialog, semantische Ähnlichkeit, Wortbedeutung, Hybridverfahren, Information Content, Bayes-Klassifikator, Knowledge Acquisition, Information Retrieval, Natural Language Processing.
Die Arbeit befasst sich mit der Weiterentwicklung eines Dialog Managers für ein Profilerhebungssystem, wobei der Schwerpunkt auf der automatischen Auflösung von sprachlichen Mehrdeutigkeiten (Disambiguierung) bei Kundeneingaben liegt.
Die zentralen Themen sind Profilerhebung bei Kunden, Typologien von Dialogsystemen und verschiedene wissenschaftliche Verfahren zur Disambiguierung von Wortbedeutungen (WSD).
Das primäre Ziel ist die Entwicklung und Implementierung einer effizienten Strategie zur Disambiguierung, um die Qualität der in Kundenprofilen gespeicherten Informationen durch eine genauere Zuordnung von Wortbedeutungen zu steigern.
Die Arbeit kombiniert als Hybrid-Ansatz statistische Methoden zur Bestimmung semantischer Ähnlichkeit (wie den Jiang & Conrath-Algorithmus) mit wissensbasierten Ansätzen, die auf dem lexikalisch-semantischen Wortnetz GermaNet basieren.
Der Hauptteil analysiert die bestehende Systemarchitektur, definiert die funktionalen Anforderungen, begründet die Wahl der Algorithmen (modLesk und modJcn) und beschreibt deren Implementierung innerhalb des bestehenden Software-Frameworks.
Die Arbeit wird durch Begriffe wie Dialogsysteme, Profilerhebung, WSD (Word Sense Disambiguation), GermaNet, semantische Ähnlichkeit und Natural Language Processing charakterisiert.
Das Projekt SFB582 bildet den praktischen Rahmen; die Arbeit integriert sich als spezifisches WSD-Modul in das dort entwickelte System zur Erstellung individualisierter Kundenprofile.
GermaNet dient als lexikalisch-semantische Wissensbasis, die es ermöglicht, die Bedeutung von Wörtern in Hierarchien einzuordnen und semantische Beziehungen zwischen Begriffen rechnergestützt auszuwerten, was für die Disambiguierung unerlässlich ist.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

