Examensarbeit, 2007
58 Seiten, Note: 1,0
0. EINFÜHRUNG
I. THEORETISCHER HINTERGRUND
1. MERKMALE DES KORPUS
2. RELATA, RELATOREN UND RELATIONEN
3. DIE RELATOREN
3.1 Präpositionen
3.1.1 MIT
3.1.2 FÜR
3.1.3 OHNE
3.1.4 IN
3.1.5 ZU
3.1.6 AUS
3.1.7 VON
3.1.8 GEGEN
3.1.9 AUF
3.2 Präpositionalphrasen
3.2.1 Präposition – Adjektiv
3.2.2 Präposition – Substantiv
3.2.3 Präposition – Verb
3.2.4 Präposition – sonstige Wortarten
3.3 Konjunktionen
3.3.1 UND
3.3.2 ODER
3.4 Verben
3.5 Weitere wortbasierte Relatoren
3.6 Symbole
3.7 Beobachtungen und Probleme
4. KLASSEN VON RELATOREN UND TYPOLOGIE DER RELATA
4.1 Relatorenklasse: MIT
4.1.1 Paradigmatische Realisierung
4.1.2 Syntagmatische Realisierung
4.1.3 Typologie des Nachfeldes
4.1.3.1 Konkreta
4.1.3.2 Abstrakta
4.2 Relatorenklasse: FÜR
4.2.1 Paradigmatische Realisierung
4.2.2 Syntagmatische Realisierung
4.2.3 Typologie des Nachfeldes
4.2.3.1 Konkreta
4.2.3.2 Abstrakta
4.3 Relatorenklasse: OHNE
4.3.1 Paradigmatische Realisierung
4.3.2 Syntagmatische Realisierung
4.3.3 Typologie des Nachfeldes
4.3.3.1 Konkreta
4.3.3.2 Abstrakta
5. ZUSAMMENFASSUNG UND AUSBLICK
II. EINE BEISPIELANWENDUNG
1. DER HINTERGRUND
1.1 Einbettung in die Prozeßarchitektur
1.2 Ansätze für die Konstruktion von IE-Komponenten
2. DAS WERKZEUG
3. DIE RESSOURCEN
3.1 Das Korpus
3.1.1 Kennzeichen
3.1.2 Vorverarbeitung
3.1.2.1 Normalisierung
3.1.2.2 Tokenisierung
3.1.2.3 Lexikalisches Parsing
3.2 Die Lexika
3.3 Graphen
4. HEURISTIK
4.1 Erstellung der Lexika
4.1.1 Arbeitsschritte
4.1.2 Übersicht über die Lexikondateien
4.1.2.1 Lexika der Relatoren
4.1.2.2 Lexika der generischen Konkreta
4.1.2.3 Lexika der Eigennamen (Marken- und Modellnamen)
4.1.2.4 Lexika der Attribute
4.1.2.5 Lexika der Vertrags- und Anbieterdaten
4.1.2.6 Sonstige Lexika
4.2 Erstellen der Lokalen Grammatiken
4.2.1 Abstrahieren von Schemata
4.2.2 Der Hauptgraph main.grf
4.2.3 Die Subgraphen auf der zweiten Ebene
4.2.3.1 Angebote mit Telefon – Relator – Vertragsbestandteil
4.2.3.2 Angebote mit Telefon – Relator – Vertragsbestandteil – weiteres Element
4.2.4 Die Subgraphen auf der dritten Ebene
4.3 Anwenden der Grammatiken auf das Korpus
4.4 Nachbearbeitung des annotierten Korpus
5. EVALUATION UND ZUSAMMENFASSUNG
5.1 Evaluation
5.1.1 Vollständigkeit
5.1.2 Präzision
5.1.3 Wahrheitsmatrix
5.1.4 Bewertung
5.2 Zusammenfassung
Die vorliegende Arbeit zielt darauf ab, deutschsprachige Angebotsbeschreibungen von Online-Shopping-Portalen durch eine linguistisch-strukturelle Analyse zu erschließen. Dabei steht die Optimierung der Produktsuche durch Informationsextraktion im Vordergrund, indem wiederkehrende Muster und Relationen innerhalb der oft unstrukturierten Angebotstexte mittels rekursiver Transitionsnetzwerke formalisiert und extrahiert werden.
3.1 Merkmale des Korpus
Das Korpus, das die Grundlage dieser Untersuchung bildet, zeichnet sich durch eine Reihe von prägnanten Merkmalen aus, die es zum einen zwar deutlich von üblichen Korpora unterscheiden und eine besondere Behandlung erfordern, zum anderen aber auch eine interessante Analyse ermöglichen.
Das Korpus setzt sich aus kurzen Angebotsbeschreibungen zusammen, die Händler aus den Eckdaten der Produkte verfassen und die dann auf Shopping-Portalen erscheinen. Thematisch handelt es sich um Angebote aus allen Produktbereichen, von Computern über Haushaltsgeräte bis hin zu Kleidung. Für die Untersuchung der Zusammensetzung und der Struktur der Angebote wird jedoch von vornherein die Kategorie Medien ausgeschlossen, da dort das Vorkommen von Eigennamen und festen Titeln die Untersuchungsergebnisse verzerren würde.
Auffälligstes Merkmal des Korpus ist, daß es sich nicht um Fließtext handelt. Die einzelnen Angebotsbeschreibungen bestehen vielmehr aus einer Aneinanderreihung von Produktinformationen zu Textfragmenten und weisen nur eine rudimentäre Grammatik auf. Dies mag vielerlei Gründe haben, insbesondere natürlich die Platzbegrenzung auf den Einkaufsportalen, die die Händler zwingt, möglichst viele Informationen zu einem Angebot mit sehr wenig Text zu vermitteln.
Der Text ist folglich stark segmentiert, als Analyseeinheit dienen voneinander unabhängige Angebote, die jeweils nur eine Zeile umfassen. Es kommen zudem lediglich bestimmte offene und geschlossene Wortarten vor. Dies sind vor allem bedeutungstragende Wortarten, wobei der Stil ausgeprägt nominal ist, d.h. den größten Anteil haben Nomen (Substantive, Adjektive). Verben kommen hingegen nur sporadisch vor. Von den funktionstragenden Wortarten treten fast ausschließlich Präpositionen auf. Darüber hinaus enthält das Korpus viele Sonderzeichen.
EINFÜHRUNG: Diese Einleitung erläutert die Relevanz der automatischen Verarbeitung von Produktdaten für den Online-Handel und führt in das Ziel der Arbeit, die Informationsextraktion mittels linguistischer Analyse, ein.
THEORETISCHER HINTERGRUND: Hier werden die spezifischen Merkmale des zugrundeliegenden Korpus analysiert und die zentralen Konzepte von Relata und Relatoren als strukturelle Ankerpunkte der Texte definiert.
DIE RELATOREN: Dieses Kapitel bietet eine detaillierte linguistische Kategorisierung der im Korpus auftretenden Relatoren, wobei insbesondere Präpositionen, Konjunktionen und andere wortbasierte Markierungen untersucht werden.
KLASSEN VON RELATOREN UND TYPOLOGIE DER RELATA: Hier erfolgt eine tiefergehende Systematisierung der wichtigsten Relatorenklassen (MIT, FÜR, OHNE) hinsichtlich ihrer syntagmatischen Realisierung und der semantischen Typologie ihrer Nachfelder.
ZUSAMMENFASSUNG UND AUSBLICK: Das Kapitel fasst die gewonnenen Erkenntnisse über die Struktur von Angebotsbeschreibungen zusammen und diskutiert das Potenzial zur Verbesserung der Produktsuche.
EINE BEISPIELANWENDUNG: Dieser Teil beschreibt die praktische Umsetzung der linguistischen Analyse mithilfe der Software Unitex, von der Korpusvorverarbeitung über die Erstellung von Lexika bis zur Entwicklung lokaler Grammatiken.
EVALUATION UND ZUSAMMENFASSUNG: Dieses abschließende Kapitel bewertet die Leistungsfähigkeit des entwickelten IE-Systems anhand der Metriken Vollständigkeit und Präzision und zieht ein Fazit zur praktischen Anwendbarkeit des Ansatzes.
Computerlinguistik, Informationsextraktion, Online-Einkaufsportale, Angebotsbeschreibungen, Relatoren, Lokale Grammatiken, Unitex, Syntaktische Analyse, Korpuslinguistik, Set-Relation, Produktklassifizierung, Knowledge Engineering, Sprachverarbeitung, Information Retrieval, Datensegmentierung
Die Arbeit beschäftigt sich mit der automatischen Verarbeitung und Strukturierung von Angebotsbeschreibungen aus Online-Einkaufsportalen durch computerlinguistische Methoden.
Die zentralen Felder sind die Analyse der syntaktischen Struktur von Angebotstexten, die Identifikation von Relatoren zur Verknüpfung von Produkteigenschaften und die praktische Informationsextraktion.
Das Ziel ist es, durch die Analyse linguistischer Muster zu erreichen, dass Produkte in Online-Portalen präziser klassifiziert und Suchanfragen effektiver bearbeitet werden können.
Es wird ein Knowledge Engineering Ansatz verfolgt, der mittels lokaler Grammatiken und rekursiver Transitionsnetzwerke innerhalb der Plattform Unitex umgesetzt wird.
Der Hauptteil analysiert die morphologischen und syntaktischen Eigenschaften von Relatoren wie "MIT", "FÜR" und "OHNE" und beschreibt die konkrete Entwicklung von Lexika und Graphen zur automatischen Annotation.
Wichtige Begriffe sind Informationsextraktion, Relatoren, Lokale Grammatiken, Unitex und die linguistische Modellierung von E-Commerce-Daten.
Die Arbeit erkennt an, dass die Händler aus Platzgründen eine rudimentäre, stark nominale Grammatik nutzen, und passt die Analysemethoden (z.B. Verzicht auf klassische Satzsegmentierung) an diese spezifische Korpusbeschaffenheit an.
Relatoren dienen als Ankerpunkte im Angebotstext, die zwischen Hauptprodukt und zusätzlichen Attributen (wie Zubehör, Verträgen oder Eigenschaften) vermitteln und somit die semantische Relation im Text explizit machen.
Unitex wurde gewählt, weil es eine modulare, graphbasierte Modellierung von Grammatiken erlaubt und sich durch seine Erweiterbarkeit für domänenspezifische Anwendungen besonders eignet.
Die Evaluation erfolgt quantitativ durch die Berechnung von Recall (Vollständigkeit) und Precision (Präzision) anhand eines repräsentativen Teilkorpus, wobei eine hohe Präzision von 96,7 % erreicht wurde.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

