Titel: Angebotsbeschreibungen für Online-Einkaufsportale zur automatischen Klassifizierung und Informationsextraktion mittels Rekursiver Transitionsnetzwerke

Angebotsbeschreibungen für Online-Einkaufsportale zur automatischen Klassifizierung und Informationsextraktion mittels Rekursiver Transitionsnetzwerke

Eine linguistisch-strukturelle Analyse

Examensarbeit, 2007
58 Seiten, Note: 1,0

Informatik - Internet, neue Technologien

Leseprobe

Inhaltsverzeichnis

0. EINFÜHRUNG

I. THEORETISCHER HINTERGRUND

1. MERKMALE DES KORPUS

2. RELATA, RELATOREN UND RELATIONEN

3. DIE RELATOREN

3.1 Präpositionen

3.1.1 MIT

3.1.2 FÜR

3.1.3 OHNE

3.1.4 IN

3.1.5 ZU

3.1.6 AUS

3.1.7 VON

3.1.8 GEGEN

3.1.9 AUF

3.2 Präpositionalphrasen

3.2.1 Präposition – Adjektiv

3.2.2 Präposition – Substantiv

3.2.3 Präposition – Verb

3.2.4 Präposition – sonstige Wortarten

3.3 Konjunktionen

3.3.1 UND

3.3.2 ODER

3.4 Verben

3.5 Weitere wortbasierte Relatoren

3.6 Symbole

3.7 Beobachtungen und Probleme

4. KLASSEN VON RELATOREN UND TYPOLOGIE DER RELATA

4.1 Relatorenklasse: MIT

4.1.1 Paradigmatische Realisierung

4.1.2 Syntagmatische Realisierung

4.1.3 Typologie des Nachfeldes

4.1.3.1 Konkreta

4.1.3.2 Abstrakta

4.2 Relatorenklasse: FÜR

4.2.1 Paradigmatische Realisierung

4.2.2 Syntagmatische Realisierung

4.2.3 Typologie des Nachfeldes

4.2.3.1 Konkreta

4.2.3.2 Abstrakta

4.3 Relatorenklasse: OHNE

4.3.1 Paradigmatische Realisierung

4.3.2 Syntagmatische Realisierung

4.3.3 Typologie des Nachfeldes

4.3.3.1 Konkreta

4.3.3.2 Abstrakta

5. ZUSAMMENFASSUNG UND AUSBLICK

II. EINE BEISPIELANWENDUNG

1. DER HINTERGRUND

1.1 Einbettung in die Prozeßarchitektur

1.2 Ansätze für die Konstruktion von IE-Komponenten

2. DAS WERKZEUG

3. DIE RESSOURCEN

3.1 Das Korpus

3.1.1 Kennzeichen

3.1.2 Vorverarbeitung

3.1.2.1 Normalisierung

3.1.2.2 Tokenisierung

3.1.2.3 Lexikalisches Parsing

3.2 Die Lexika

3.3 Graphen

4. HEURISTIK

4.1 Erstellung der Lexika

4.1.1 Arbeitsschritte

4.1.2 Übersicht über die Lexikondateien

4.1.2.1 Lexika der Relatoren

4.1.2.2 Lexika der generischen Konkreta

4.1.2.3 Lexika der Eigennamen (Marken- und Modellnamen)

4.1.2.4 Lexika der Attribute

4.1.2.5 Lexika der Vertrags- und Anbieterdaten

4.1.2.6 Sonstige Lexika

4.2 Erstellen der Lokalen Grammatiken

4.2.1 Abstrahieren von Schemata

4.2.2 Der Hauptgraph main.grf

4.2.3 Die Subgraphen auf der zweiten Ebene

4.2.3.1 Angebote mit Telefon – Relator – Vertragsbestandteil

4.2.3.2 Angebote mit Telefon – Relator – Vertragsbestandteil – weiteres Element

4.2.4 Die Subgraphen auf der dritten Ebene

4.3 Anwenden der Grammatiken auf das Korpus

4.4 Nachbearbeitung des annotierten Korpus

5. EVALUATION UND ZUSAMMENFASSUNG

5.1 Evaluation

5.1.1 Vollständigkeit

5.1.2 Präzision

5.1.3 Wahrheitsmatrix

5.1.4 Bewertung

5.2 Zusammenfassung

Zielsetzung & Themen

Die vorliegende Arbeit zielt darauf ab, deutschsprachige Angebotsbeschreibungen von Online-Shopping-Portalen durch eine linguistisch-strukturelle Analyse zu erschließen. Dabei steht die Optimierung der Produktsuche durch Informationsextraktion im Vordergrund, indem wiederkehrende Muster und Relationen innerhalb der oft unstrukturierten Angebotstexte mittels rekursiver Transitionsnetzwerke formalisiert und extrahiert werden.

Linguistische Analyse von Angebotsbeschreibungen im E-Commerce
Identifikation und Klassifikation von Relatoren (z.B. MIT, FÜR, OHNE)
Entwicklung lokaler Grammatiken zur Informationsextraktion
Implementierung mittels der Softwareplattform Unitex
Evaluation der Extraktionsleistung anhand von Recall und Precision

Auszug aus dem Buch

3.1 Merkmale des Korpus

Das Korpus, das die Grundlage dieser Untersuchung bildet, zeichnet sich durch eine Reihe von prägnanten Merkmalen aus, die es zum einen zwar deutlich von üblichen Korpora unterscheiden und eine besondere Behandlung erfordern, zum anderen aber auch eine interessante Analyse ermöglichen.

Das Korpus setzt sich aus kurzen Angebotsbeschreibungen zusammen, die Händler aus den Eckdaten der Produkte verfassen und die dann auf Shopping-Portalen erscheinen. Thematisch handelt es sich um Angebote aus allen Produktbereichen, von Computern über Haushaltsgeräte bis hin zu Kleidung. Für die Untersuchung der Zusammensetzung und der Struktur der Angebote wird jedoch von vornherein die Kategorie Medien ausgeschlossen, da dort das Vorkommen von Eigennamen und festen Titeln die Untersuchungsergebnisse verzerren würde.

Auffälligstes Merkmal des Korpus ist, daß es sich nicht um Fließtext handelt. Die einzelnen Angebotsbeschreibungen bestehen vielmehr aus einer Aneinanderreihung von Produktinformationen zu Textfragmenten und weisen nur eine rudimentäre Grammatik auf. Dies mag vielerlei Gründe haben, insbesondere natürlich die Platzbegrenzung auf den Einkaufsportalen, die die Händler zwingt, möglichst viele Informationen zu einem Angebot mit sehr wenig Text zu vermitteln.

Der Text ist folglich stark segmentiert, als Analyseeinheit dienen voneinander unabhängige Angebote, die jeweils nur eine Zeile umfassen. Es kommen zudem lediglich bestimmte offene und geschlossene Wortarten vor. Dies sind vor allem bedeutungstragende Wortarten, wobei der Stil ausgeprägt nominal ist, d.h. den größten Anteil haben Nomen (Substantive, Adjektive). Verben kommen hingegen nur sporadisch vor. Von den funktionstragenden Wortarten treten fast ausschließlich Präpositionen auf. Darüber hinaus enthält das Korpus viele Sonderzeichen.

Zusammenfassung der Kapitel

EINFÜHRUNG: Diese Einleitung erläutert die Relevanz der automatischen Verarbeitung von Produktdaten für den Online-Handel und führt in das Ziel der Arbeit, die Informationsextraktion mittels linguistischer Analyse, ein.

THEORETISCHER HINTERGRUND: Hier werden die spezifischen Merkmale des zugrundeliegenden Korpus analysiert und die zentralen Konzepte von Relata und Relatoren als strukturelle Ankerpunkte der Texte definiert.

DIE RELATOREN: Dieses Kapitel bietet eine detaillierte linguistische Kategorisierung der im Korpus auftretenden Relatoren, wobei insbesondere Präpositionen, Konjunktionen und andere wortbasierte Markierungen untersucht werden.

KLASSEN VON RELATOREN UND TYPOLOGIE DER RELATA: Hier erfolgt eine tiefergehende Systematisierung der wichtigsten Relatorenklassen (MIT, FÜR, OHNE) hinsichtlich ihrer syntagmatischen Realisierung und der semantischen Typologie ihrer Nachfelder.

ZUSAMMENFASSUNG UND AUSBLICK: Das Kapitel fasst die gewonnenen Erkenntnisse über die Struktur von Angebotsbeschreibungen zusammen und diskutiert das Potenzial zur Verbesserung der Produktsuche.

EINE BEISPIELANWENDUNG: Dieser Teil beschreibt die praktische Umsetzung der linguistischen Analyse mithilfe der Software Unitex, von der Korpusvorverarbeitung über die Erstellung von Lexika bis zur Entwicklung lokaler Grammatiken.

EVALUATION UND ZUSAMMENFASSUNG: Dieses abschließende Kapitel bewertet die Leistungsfähigkeit des entwickelten IE-Systems anhand der Metriken Vollständigkeit und Präzision und zieht ein Fazit zur praktischen Anwendbarkeit des Ansatzes.

Schlüsselwörter

Computerlinguistik, Informationsextraktion, Online-Einkaufsportale, Angebotsbeschreibungen, Relatoren, Lokale Grammatiken, Unitex, Syntaktische Analyse, Korpuslinguistik, Set-Relation, Produktklassifizierung, Knowledge Engineering, Sprachverarbeitung, Information Retrieval, Datensegmentierung

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit beschäftigt sich mit der automatischen Verarbeitung und Strukturierung von Angebotsbeschreibungen aus Online-Einkaufsportalen durch computerlinguistische Methoden.

Welche zentralen Themenfelder werden behandelt?

Die zentralen Felder sind die Analyse der syntaktischen Struktur von Angebotstexten, die Identifikation von Relatoren zur Verknüpfung von Produkteigenschaften und die praktische Informationsextraktion.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist es, durch die Analyse linguistischer Muster zu erreichen, dass Produkte in Online-Portalen präziser klassifiziert und Suchanfragen effektiver bearbeitet werden können.

Welche wissenschaftliche Methode kommt zum Einsatz?

Es wird ein Knowledge Engineering Ansatz verfolgt, der mittels lokaler Grammatiken und rekursiver Transitionsnetzwerke innerhalb der Plattform Unitex umgesetzt wird.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil analysiert die morphologischen und syntaktischen Eigenschaften von Relatoren wie "MIT", "FÜR" und "OHNE" und beschreibt die konkrete Entwicklung von Lexika und Graphen zur automatischen Annotation.

Welche Schlüsselwörter charakterisieren die Arbeit?

Wichtige Begriffe sind Informationsextraktion, Relatoren, Lokale Grammatiken, Unitex und die linguistische Modellierung von E-Commerce-Daten.

Wie geht die Arbeit mit dem Problem der Platzbegrenzung in den Angeboten um?

Die Arbeit erkennt an, dass die Händler aus Platzgründen eine rudimentäre, stark nominale Grammatik nutzen, und passt die Analysemethoden (z.B. Verzicht auf klassische Satzsegmentierung) an diese spezifische Korpusbeschaffenheit an.

Welche Rolle spielen die "Relatoren" für die Extraktion?

Relatoren dienen als Ankerpunkte im Angebotstext, die zwischen Hauptprodukt und zusätzlichen Attributen (wie Zubehör, Verträgen oder Eigenschaften) vermitteln und somit die semantische Relation im Text explizit machen.

Warum wird die Plattform Unitex für dieses Projekt genutzt?

Unitex wurde gewählt, weil es eine modulare, graphbasierte Modellierung von Grammatiken erlaubt und sich durch seine Erweiterbarkeit für domänenspezifische Anwendungen besonders eignet.

Wie werden die Ergebnisse der Arbeit bewertet?

Die Evaluation erfolgt quantitativ durch die Berechnung von Recall (Vollständigkeit) und Precision (Präzision) anhand eines repräsentativen Teilkorpus, wobei eine hohe Präzision von 96,7 % erreicht wurde.

Ende der Leseprobe aus 58 Seiten - nach oben

Details

Titel: Angebotsbeschreibungen für Online-Einkaufsportale zur automatischen Klassifizierung und Informationsextraktion mittels Rekursiver Transitionsnetzwerke
Untertitel: Eine linguistisch-strukturelle Analyse
Hochschule: Ludwig-Maximilians-Universität München (Centrum für Informations- und Sprachverarbeitung)
Note: 1,0
Autor: Anja Klein (Autor:in)
Erscheinungsjahr: 2007
Seiten: 58
Katalognummer: V81077
ISBN (eBook): 9783638837705
ISBN (Buch): 9783668147935
Dateigröße: 1144 KB
Sprache: Deutsch
Anmerkungen: Examensarbeit für den Aufbaustudiengang Computerlinguistik
Schlagworte: Eine Analyse Angebotsbeschreibungen Online-Einkaufsportale Klassifizierung Informationsextraktion Rekursiver Transitionsnetzwerke
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 21,99
Preis (Book): US$ 32,99

Arbeit zitieren: Anja Klein (Autor:in), 2007, Angebotsbeschreibungen für Online-Einkaufsportale zur automatischen Klassifizierung und Informationsextraktion mittels Rekursiver Transitionsnetzwerke, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/81077