Forschungsarbeit, 2009
21 Seiten, Note: 1
1 Einführung und Zielbeschreibung
2 Informationsextraktion – Genese, Ziele und Probleme
2.1 Geschichte der Informationsextraktion
2.2 Ziele der Informationsextraktion
2.3 Probleme bei der Informationsextraktion
2.4 Verfahren der Informationsextraction
3 Informationsextraktion mit RoadRunner
3.1 Allgemeines
3.2 Ablauf der Extraktion bei RoadRunner
3.2.1 Eingabe
3.2.2 Verarbeitung
3.2.3 Ausgabe
4 Fazit
Die vorliegende Arbeit zielt darauf ab, die Grundlagen der Informationsextraktion zu erläutern und die Funktionsweise des spezialisierten Tools RoadRunner anhand praktischer Anwendungsbeispiele detailliert zu demonstrieren.
2.3 Probleme bei der Informationsextraktion
Das Finden der Webseiten durch das Verfolgen von Hyperlinks ist nur theoretisch ganz banal. Dieses Problem bezieht sich eigentlich auf die Suche von Dokumenten, aus denen die gewünschten Informationen wiedergewonnen werden sollen. Oft sind die gewünschten Informationen auf mehreren Seiten verteilt. Häufig steht auf einer Seite ein Link, der zur weiteren Seite mit Detailinformationen führt (z.B. in einem Online-Shop). Das Informationsextraktionssystem muss also in der Lage sein, solchen relevanten Hyperlinks zu folgen und nicht relevante Verweise zu ignorieren. Dabei unterscheidet man zwischen mehreren Webpage-Klassen: one-level (eine einzelne Seite beinhaltet alle Informationen die man braucht), one-level-multipage (mehrere Links müssen verfolgt werden), two-level (für jedes Item im ersten Level muss einem Link gefolgt werden, der dorthin führt, wo sich alle Informationen zu besagtem Item befinden).
Das weitere Problem stellt die unsaubere HTML-Struktur dar. Die im Internet vorhandenen Webseiten sind oft nicht mit HTML-Standard konform. Auch ihre Struktur ist nicht immer eindeutig. Die Browser akzeptieren in den meisten Fällen auch fehlende HTML-Tags und zeigen die Seiten trotzdem korrekt an. Bei der Informationsextraktion müssen solche Fehler berücksichtigt werden. Eine bewahrte Lösung des Problems ist, noch vor der Analyse ein fehlerhaftes HTML-Dokument in ein XML-konformes HTML (XHTML), das keine Fehler toleriert, zu überführen. Einige Verfahren transformieren das HTML der Zielseite in eine eigene, individuelle Struktur.
1 Einführung und Zielbeschreibung: Die Einleitung beleuchtet den wachsenden Datenbestand im Web und definiert den Fokus der Arbeit auf das Tool RoadRunner zur Informationsextraktion.
2 Informationsextraktion – Genese, Ziele und Probleme: Dieses Kapitel behandelt die theoretischen Grundlagen, Ziele sowie die verschiedenen Problemklassen und Verfahren im Bereich der Informationsextraktion.
3 Informationsextraktion mit RoadRunner: Das Hauptkapitel beschreibt die technische Funktionsweise von RoadRunner, insbesondere den Ablauf von Eingabe, Verarbeitung und Ausgabe anhand von Praxisbeispielen.
4 Fazit: Das Fazit fasst die Ergebnisse zusammen und bewertet die Vor- und Nachteile von RoadRunner als spezialisiertes Extraktionstool.
Informationsextraktion, RoadRunner, Web Scraping, HTML-Struktur, Wrapper, Data Mining, Deep Web, XML, Information Retrieval, Syntaxanalyse, Mustererkennung, Parser, Automatisierung, Datenaufbereitung, Semistrukturierte Daten.
Die Arbeit beschäftigt sich mit den theoretischen Grundlagen der Informationsextraktion aus Webseiten und untersucht das automatische Extraktionstool RoadRunner.
Die Themen umfassen die Geschichte der Extraktion, spezifische Herausforderungen wie unsaubere HTML-Strukturen und die methodische Vorgehensweise bei der Nutzung von Wrapper-Tools.
Das Ziel ist die Darstellung der Arbeitsweise von RoadRunner und die Veranschaulichung dessen Anwendung in der Praxis anhand von konkreten Beispielen.
Es wird eine Analyse bestehender Informationsextraktions-Verfahren durchgeführt, kombiniert mit einer praktischen Implementierung des Tools RoadRunner zur automatisierten Datenextraktion.
Der Hauptteil gliedert sich in die theoretische Herleitung der verschiedenen Extraktionsmethoden und die detaillierte Beschreibung des RoadRunner-Prozesses (Eingabe, Verarbeitung, Ausgabe).
Zentrale Begriffe sind Informationsextraktion, Wrapper-Technologien, HTML-Struktur, semistrukturierte Daten und Automatisierung.
RoadRunner erzeugt lokale Grammatiken und identifiziert "Tag Mismatches" sowie "String Mismatches", um veränderliche Inhalte von sich wiederholenden Struktur-Elementen zu trennen.
Das Tool erfordert für jede Extraktion eine neue Generierung der Grammatik und funktioniert nicht bei Webseiten, die auf unterschiedlichen Templates basieren.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

