Masterarbeit, 2006
109 Seiten, Note: 1
1 Einleitung
1.1 Motivation
1.2 Aufgabenstellung
1.3 Vorgehensweise und Struktur der Arbeit
2 Information Retrieval
2.1 Einfuhrung und Definition des Information Retrieval
2.2 Struktur und Funktionsweise eines Information-Retrieval-Systems
2.3 Beurteilung von IR-Systemen
2.4 Gewinnung von Indextermen
2.5 Das Vektorraummodell
2.6 Auflosen von Mehrdeutigkeiten
2.7 Thesauren
3 Cross-language Information Retrieval
3.1 Einfuhrung und Definition des Cross-language Information Retrieval
3.2 Architekturen von CLIR-Systemen
3.3 Auflosen von Mehrdeutigkeiten im CLIR
3.4 Interlingual Retrieval
3.5 Erkennung der Sprache eines Textes mit n-Grammen
4 Serviceorientierte Architekturen
4.1 Einordnung der serviceorientierten Architektur
4.2 Elemente einer serviceorientierten Architektur
4.3 Merkmale einer serviceorientierten Architektur
4.4 Web Services
5 Anforderungen und Entwurf des Systems
5.1 Vorbedingungen und Anforderungen an das System
5.2 Systemarchitektur und Systementwurf
5.3 1. Phase: Entwurf der Interlingua-Worterbucher und Konzepterkennung
5.4 2. Phase: Entwurf des Indexierungsprozesses
5.5 3. Phase: Entwurf des Suchprozesses
5.6 Abschließender Systemuberblick
6 Verwendete Methoden und Werkzeuge
6.1 Allgemeine Werkzeuge
6.2 Apache Lucene
6.3 Lucene Erweiterungen und sonstige Werkzeuge
7 Implementierung der Suchanwendung
7.1 Allgemeines uber das entwickelte System
7.2 Nutzung des Systems
7.3 Implementierung der Interlingua-Worterbucher und Ubersetzung
7.4 Implementierung der Indexierung
7.5 Implementierung der Suche als Webseite
7.6 Implementierung der Suche als Web Service
7.7 Beispielanfragen an die Suchanwendung
7.8 Uberblick uber die Projektdateien
8 Bewertung des Systems und mogliche Erweiterungen
8.1 Das Interlingua-Konzept
8.2 Bewertung der Indexierung
8.3 Bewertung der Suche
9 Zusammenfassung und Ausblick
Das Hauptziel dieser Arbeit ist die Entwicklung eines Prototyps für eine erweiterbare, sprachübergreifende Suchmaschine (Cross-language Information Retrieval), die auf einer serviceorientierten Architektur (SOA) basiert. Dabei soll ein System geschaffen werden, das Dokumente automatisiert indexiert, sprachübergreifend durchsuchbar macht und mittels Interlingua-Ansatz eine semantische Konzepterkennung ermöglicht.
1.1.1 Entwicklung der Sprachanteile im Internet
Durch die schnelle Verbreitung des Internets in den letzten zehn Jahren ist ein Zustand eingetreten, in dem annähernd der gesamten Welt ein normiertes, digitales Kommunikationsmedium zur Verfügung steht. Standards wie etwa TCP/IP, HTTP und HTML sorgen für einen weltweit vereinheitlichten Datenaustausch – sei es in Form von Webseiten, E-Mails oder multimedialen Datenströmen. Es hat sich eine allgemein akzeptierte Technologie etabliert, die einen grenzüberschreitenden Nachrichten- und Datenaustausch ermöglicht.
Trotz aller Bemühungen, die internationale und interkulturelle Kommunikation zu vereinfachen, kann das Internet (zur Zeit) nicht mehr sein als ein Medium, das zuverlässig und schnell Daten überträgt, jedoch die Bedeutung dieser Daten in den seltensten Fällen interpretieren kann. Unter dem Namen Web 2.0 oder Semantic Web wurden bereits Entwicklungen vorgestellt, bei denen die im Internet publizierten Informationen durch entsprechende Beschreibungsmethoden mit Bedeutungen versehen werden. Eine starke Verbreitung dieser neuen Nutzungsmöglichkeiten hat bisher allerdings noch nicht eingesetzt.
1 Einleitung: Beschreibt die Motivation hinter dem Projekt, die Problematik der Sprachbarrieren im Internet sowie die Zielsetzung und Struktur der Arbeit.
2 Information Retrieval: Erläutert die theoretischen Grundlagen des Information Retrievals, einschließlich Modellierung, Indizierung, Ranking und Problemen wie Synonymie und Polysemie.
3 Cross-language Information Retrieval: Führt in die Thematik der sprachübergreifenden Suche ein, diskutiert Architekturen und Verfahren zur Mehrdeutigkeitsauflösung sowie das Konzept der Interlingua.
4 Serviceorientierte Architekturen: Behandelt die Konzepte serviceorientierter Architekturen (SOA) sowie die praktische Implementierung mittels Web Services, SOAP und WSDL.
5 Anforderungen und Entwurf des Systems: Definiert die Systemanforderungen und beschreibt den detaillierten Entwurf des CLIR-Systems, unterteilt in die Phasen Konzepterkennung, Indexierung und Suche.
6 Verwendete Methoden und Werkzeuge: Stellt die eingesetzten Software-Technologien vor, insbesondere Apache Lucene als Suchframework, cngram zur Spracherkennung und Snowball-Stemmer.
7 Implementierung der Suchanwendung: Beschreibt den konkreten Implementierungsprozess des Systems, inklusive der Erstellung der Interlingua-Wörterbücher sowie der Weboberfläche und Web-Service-Schnittstellen.
8 Bewertung des Systems und mogliche Erweiterungen: Liefert eine kritische Würdigung des entwickelten Prototyps und diskutiert Ansätze zur Optimierung sowie zukünftige Erweiterungsmöglichkeiten.
9 Zusammenfassung und Ausblick: Fasst die Ergebnisse der Arbeit zusammen und gibt einen Ausblick auf die zukünftige Bedeutung sprachübergreifender Suchtechnologien.
Information Retrieval, Cross-language Information Retrieval, CLIR, Serviceorientierte Architektur, SOA, Web Services, Interlingua, Konzepterkennung, Apache Lucene, Indexierung, Spracherkennung, Mehrdeutigkeitsauflösung, Thesaurus, Suchmaschine, Sprachbarriere
Die Arbeit befasst sich mit der Entwicklung einer sprachübergreifenden Suchmaschine, die Dokumente verschiedener Sprachen (Deutsch, Englisch, Japanisch) in einem gemeinsamen Konzeptindex zusammenführt.
Zentral sind das Information Retrieval, das Cross-language Information Retrieval (CLIR) unter Verwendung einer Interlingua sowie die Implementierung einer serviceorientierten Architektur (SOA) mit Web Services.
Ziel ist der Entwurf und die Implementierung eines Prototyps, der eine sprachübergreifende Suche ermöglicht, ohne dass eine vollständige maschinelle Übersetzung aller Dokumente erforderlich ist.
Die Arbeit nutzt den Ansatz des Interlingual Retrieval, kombiniert mit dem Vektorraummodell für das Ranking sowie statistischen und lexikalischen Verfahren (wie N-Grammen und Stemming) zur Sprach- und Konzepterkennung.
Der Hauptteil gliedert sich in theoretische Grundlagen (IR, CLIR, SOA), den Systementwurf, die Beschreibung der verwendeten Werkzeuge (Lucene) und die detaillierte Implementierung der Suchanwendung.
Kritische Begriffe sind Interlingua, Cross-language Information Retrieval, Apache Lucene, Serviceorientierte Architektur, Konzepterkennung und Indexierung.
Bei der Indexierung erfolgt die Auflösung automatisiert durch den Vergleich von Kontextvektoren, bei der Suche wird dem Benutzer eine Auswahlmöglichkeit über ein Formular zur Konzepterkennung geboten.
Die Interlingua dient als gemeinsame semantische Basis, in die Dokumente und Suchanfragen überführt werden, um einen sprachunabhängigen Suchprozess zu ermöglichen.
Lucene bietet als frei verfügbares Java-Framework leistungsfähige Funktionen für die Indizierung und Suche, die sich durch eigene Erweiterungen wie den ConceptAnalyzer für das Projekt anpassen lassen.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

