Forschungsarbeit, 2009
21 Seiten, Note: 1
Die vorliegende Arbeit befasst sich mit der Informationsextraktion von Webseiten mithilfe des Tools RoadRunner. Ziel ist es, die Funktionsweise von RoadRunner anhand konkreter Beispiele zu erläutern und die Ergebnisse zu diskutieren.
Das erste Kapitel führt in die Thematik der Informationsextraktion ein und beleuchtet die historische Entwicklung, die Ziele und die Herausforderungen dieses Bereichs. Es werden verschiedene Verfahren der Informationsextraktion vorgestellt und die Bedeutung der Web Informationsextraktion im Kontext des wachsenden Datenvolumens im Internet hervorgehoben.
Das zweite Kapitel konzentriert sich auf das Tool RoadRunner und beschreibt dessen Funktionsweise im Detail. Es werden die einzelnen Schritte des Extraktionsprozesses, von der Eingabe bis zur Ausgabe, erläutert und anhand von Beispielen veranschaulicht. Die Vorteile und Grenzen von RoadRunner werden ebenfalls diskutiert.
Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Informationsextraktion, Web Informationsextraktion, RoadRunner, Datenextraktion, HTML-Dokumente, semi-strukturierte Daten, Natural Language Processing (NLP), Information Retrieval, Precision, Recall.
Informationsextraktion ist ein Verfahren, um relevante Daten automatisch aus unstrukturierten oder semi-strukturierten Dokumenten (wie Webseiten) zu gewinnen und in strukturierte Formate zu überführen.
RoadRunner ist ein Tool zur automatischen Informationsextraktion, das durch den Vergleich von zwei oder mehr Webseiten derselben Quelle ein Extraktionsschema (Wrapper) erstellt, ohne dass manuelle Regeln nötig sind.
Da dynamische Seiten erst bei einer Anfrage aus Datenbanken generiert werden, sind sie für herkömmliche Suchmaschinen-Crawler oft schwerer zugänglich und weisen komplexe Strukturen auf.
Das sind Daten, die keinem starren Datenbankschema folgen, aber Markierungen (wie HTML-Tags) enthalten, die zur Trennung von Inhalten und zur Strukturierung genutzt werden können.
Es sind Qualitätsmaße: Precision gibt an, wie viele der extrahierten Daten korrekt sind, während Recall angibt, wie viele der tatsächlich relevanten Daten gefunden wurden.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

