Forschungsarbeit, 2009
21 Seiten, Note: 1
1 Einführung und Zielbeschreibung
2 Informationsextraktion - Genese, Ziele und Probleme
2.1 Geschichte der Informationsextraktion
2.2 Ziele der Informationsextraktion
2.3 Probleme bei der Informationsextraktion
2.4 Verfahren der Informationsextraction
3 Informationsextraktion mit RoadRunner
3.1 Allgemeines
3.2 Ablauf der Extraktion bei RoadRunner
3.2.1 Eingabe
3.2.2 Verarbeitung
3.2.3 Ausgabe
4 Fazit
5 Literaturverzeichnis
Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt. Das wundert es kaum, wenn man die Anzahl der registrierten Domänen in Betracht zieht. Im Jahre 2007 gab es ca. 118 Mio. registrierte Domänen und davon ca. 54 Mio. aktiv.1 Zwei Jahre später hat die Zahl der registrierten Domänen schon 240 Mio. überschritten. Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt.2 In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.
Im ersten Kapitel der vorliegenden Arbeit werden Genese, Ziele, Probleme und Verfahren der Informationsextraktion dargestellt.
Der Hauptfokus dieser Arbeit besteht darin, das ausgewählte Tool zur Informationsextraktion von Webseiten (RoadRunner) darzustellen und an konkreten Beispielen seine Arbeitsweise in einzelnen Schritten zu erläutern. Zum Schluss werden die Ergebnisse der Arbeit im Fazit diskutiert.
Die vorliegende Arbeit besteht aus fünf aufeinander folgenden Kapiteln: Einführung und Zielsetzung, Informationsextraktion- Genese, Ziele und Probleme, Informationsextraktion mit RoadRunner, Fazit und Literaturverzeichnis.
Bei der Web Informationsextraktion sollen relevante Daten aus beliebigen Quellen (Dokumenten) extrahiert und zum Zweck der Weiterverarbeitung in einem strukturierten Format abgespeichert werden. Wichtig ist es dabei nicht, dass die Informationsextraktion Tools die Quellen bzw. die Input-Daten verstehen, sondern, dass sie anhand erkannter Strukturen und Regelmäßigkeiten die Teilbereiche jedes Dokumentes analysieren, das relevante Informationen enthält.3 Im Web macht man sich genau diese Tatsache zu Nutze, da bei den HTML-Dokumenten eine bestimmte Teilstruktur bereits vorgegeben ist.4
Die Genese der Informationsextraktion geht auf die Analyse der natürlichsprachlichen Texte zurück und kann somit als ein Unterbereich des Natural Language Processing (NLP) angesehen werden. Der Gegenstand der IE bezog sich einerseits auf natürlichsprachliche Texte ohne erkennbare Struktur und andererseits auf stark strukturierte Dokumente. Mit der Entwicklung des Webs entstand der Bedarf auf die Extraktion von Informationen aus semi-strukturierten Texten.
Bevor Informationen aus den Dokumenten extrahiert werden, müssen sie zuerst gefunden werden. Das Suchen und Finden von Dokumenten ist eine Aufgabe von Information Retrieval. Obwohl beide Disziplinen eng miteinander verbunden sind, basieren sie auf verschiedenen Grundsätzen. Während Information Retrieval durch Statistik sowie Informations- und Wahrscheinlichkeitstheorie geprägt wurde, bezieht sich Informationsextraktion auf die Forschung rund um regelbasierte Systeme in der Computerlinguistik und Natural Language Processing.
Mit der Informationsextraktion werden folgende Ziele angestrebt:
- Automatisches Verfahren für das Extrahieren von Informationen
- Extraktion von beliebigen Informationen aus verschiedenen Quellen
- Erreichen einer möglichst hohen Qualität der extrahierten Informationen
Die Verfahren der Informationsextraktion zielen darauf ab, eine möglichst hohe Qualität der extrahierten Daten zu erreichen. Unterwegs dorthin sollen aber oft verschiedene Kompromisse geschlossen und Probleme gelöst werden. Bei einem erhöhten Automatisierungsgrad wird die Qualität verschlechtert und die Wahrscheinlichkeit erhöht, dass auch Datenmüll extrahiert wird. Wird dagegen auf die Automatisierung verzichtet und der User muss zu viel Eigenarbeit leisten, ist das unter jeder Hinsicht zu aufwendig. Sehr wichtig ist auch der Einsatzbereich des jeweiligen Verfahrens. Manche Systeme beziehen sich nur auf einen engen Bereich, wie z.B. die Web News Extraktion, was natürlich einfacher umzusetzen ist. Das Ziel sollte es jedoch sein, ein Verfahren bereit zu stellen, das möglichst beliebige Daten aus verschiedensten Webseiten extrahieren kann.5
Die Qualität der Ergebnisse ist ein Maßstab für die Effektivität der Data Extraktion Technologien. Hierzu werden zunächst zwei wesentliche Merkmale eingesetzt, nämlich Precision und Recall. Letzteres ist ein Informationsmaß, wie viele Teile der Information korrekt extrahiert wurden, und Precision beschreibt ob die extrahierten Teile korrekt sind (Zuverlässigkeit der Information). Graphisch kann dies wie folgt abgebildet werden:6
Bei der Informationsextraktion wurden folgende Problemklassen lokalisiert:7
- Finden der Webseiten durch das Verfolgen von Hyperlinks
- Unsaubere HTML-Struktur
- Statisch vs. Dynamisch, Surface vs. Hidden Web
- Das Hyperlink Dilemma
- Struktur Synthese Problem
- Data Mapping und Data Integration Problem
Das Finden der Webseiten durch das Verfolgen von Hyperlinks ist nur theoretisch ganz banal. Dieses Problem bezieht sich eigentlich auf die Suche von Dokumenten, aus denen die gewünschten Informationen wiedergewonnen werden sollen. Oft sind die gewünschten Informationen auf mehreren Seiten verteilt. Häufig steht auf einer Seite ein Link, der zur weiteren Seite mit Detailinformationen führt (z.B. in einem Online-Shop). Das Informationsextraktionssystem muss also in der Lage sein, solchen relevanten Hyperlinks zu folgen und nicht relevante Verweise zu ignorieren. Dabei unterscheidet man zwischen mehreren Webpage-Klassen:8 one-level (eine einzelne Seite beinhaltet alle Informationen die man braucht), one-level-multipage (mehrere Links müssen verfolgt werden), two-level (für jedes Item im ersten Level muss einem Link gefolgt werden, der dorthin führt, wo sich alle Informationen zu besagtem Item befinden).
Das weitere Problem stellt die unsaubere HTML-Struktur dar. Die im Internet vorhandenen Webseiten sind oft nicht mit HTML-Standard konform. Auch ihre Struktur ist nicht immer eindeutig. Die Browser akzeptieren in den meisten Fällen auch fehlende HTML-Tags und zeigen die Seiten trotzdem korrekt an. Bei der Informationsextraktion müssen solche Fehler berücksichtigt werden. Eine bewahrte Lösung des Problems ist, noch vor der Analyse ein fehlerhaftes HTML-Dokument in ein XML-konformes HTML (XHTML), das keine Fehler toleriert, zu überführen. Einige Verfahren transformieren das HTML der Zielseite in eine eigene, individuelle Struktur.9
[...]
1 Vgl.: http://news.netcraft.com (12.10.2009)
2 Vgl. :Jung,Weisse (2003), S.:1
3 Vgl. Eikvil (1999)
4 Vgl. Aigner (2006), S.: 1
5 Vgl. Aigner (2006), S.: 2
6 Vgl. ebenda, S.: 3
7 Vgl. Aigner (2006), S. 2
8 Vgl. ebenda, S.:3
9 Vgl. ebenda
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!
Kommentare