Informationsextraktion von Webseiten via RoadRunner

Forschungsarbeit, 2009
21 Seiten, Note: 1

Leseprobe

Inhaltsverzeichnis

Einführung und Zielbeschreibung
Informationsextraktion - Genese, Ziele und Probleme
- Geschichte der Informationsextraktion
- Ziele der Informationsextraktion
- Probleme bei der Informationsextraktion
- Verfahren der Informationsextraction
Informationsextraktion mit RoadRunner
- Allgemeines
- Ablauf der Extraktion bei RoadRunner
  - Eingabe
  - Verarbeitung
  - Ausgabe
Fazit
Literaturverzeichnis

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit befasst sich mit der Informationsextraktion von Webseiten mithilfe des Tools RoadRunner. Ziel ist es, die Funktionsweise von RoadRunner anhand konkreter Beispiele zu erläutern und die Ergebnisse zu diskutieren.

Genese, Ziele und Probleme der Informationsextraktion
Funktionsweise von RoadRunner
Anwendungen und Einsatzbereiche der Informationsextraktion
Herausforderungen und zukünftige Entwicklungen

Zusammenfassung der Kapitel

Das erste Kapitel führt in die Thematik der Informationsextraktion ein und beleuchtet die historische Entwicklung, die Ziele und die Herausforderungen dieses Bereichs. Es werden verschiedene Verfahren der Informationsextraktion vorgestellt und die Bedeutung der Web Informationsextraktion im Kontext des wachsenden Datenvolumens im Internet hervorgehoben.

Das zweite Kapitel konzentriert sich auf das Tool RoadRunner und beschreibt dessen Funktionsweise im Detail. Es werden die einzelnen Schritte des Extraktionsprozesses, von der Eingabe bis zur Ausgabe, erläutert und anhand von Beispielen veranschaulicht. Die Vorteile und Grenzen von RoadRunner werden ebenfalls diskutiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Informationsextraktion, Web Informationsextraktion, RoadRunner, Datenextraktion, HTML-Dokumente, semi-strukturierte Daten, Natural Language Processing (NLP), Information Retrieval, Precision, Recall.

Ende der Leseprobe aus 21 Seiten - nach oben

Details

Titel: Informationsextraktion von Webseiten via RoadRunner
Hochschule: Ludwig-Maximilians-Universität München (Centrum für Informations- und Sprachverarbeitung)
Veranstaltung: Web Data Mining
Note: 1
Autor: M.A. Pawel Broda (Autor:in)
Erscheinungsjahr: 2009
Seiten: 21
Katalognummer: V141716
ISBN (eBook): 9783640518449
ISBN (Buch): 9783640518647
Dateigröße: 913 KB
Sprache: Deutsch
Schlagworte: informationsextraktion wrapper information retrieval web data mining roadrunner webseiten internet extraktion von webseiten information extraktion
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 14,99
Preis (Book): US$ 19,99

Arbeit zitieren: M.A. Pawel Broda (Autor:in), 2009, Informationsextraktion von Webseiten via RoadRunner, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/141716

Kommentare

Melden Sie sich an, um einen Kommentar zu schreiben

Noch keine Kommentare.