Diplomarbeit, 1999
71 Seiten, Note: 1,0
1 Einleitung
1.1 Zweck von Metasuchmaschinen
1.2 Mittelpunkt dieser Arbeit
1.3 Überblick über diese Arbeit
2 Datenbanken und Metasuchmaschinen
2.1 Webdatenbanken
2.1.1 Funktionsweise
2.1.2 Vorgaben für die Suche
2.1.3 Anwendung auf WWW-Adressen
2.2 Metasuchmaschinen
2.2.1 Funktionsweise
2.2.2 Besondere Anforderungen
2.2.3 Client- und Serverapplikationen
2.2.4 Kriterien für Metasuchmaschinen
2.2.5 Anwendung auf WWW-Adressen
2.2.5.1 Unterstützte Datenbanktypen
2.2.5.2 Vergleich der Ausgabe mit der von Suchdiensten
2.2.5.3 Kommunikation mit den Suchdiensten
3 Objektorientierte Entwicklung
3.1 Planung
3.1.1 Webserver
3.1.2 Programmiersprache
3.1.3 Suchdienste
3.1.3.1 Crawler
3.1.3.2 Verzeichnisse
3.1.3.3 Andere Datenbanken
3.2 Analyse
3.3 Entwurf
3.4 Implementation
4 Weiterentwicklung einer bestehenden Metasuchmaschine
4.1 Aufbau der übernommenen Metasuchmaschine
4.2 Anpassung an internationale Suchdienste
4.3 Änderung der Programmarchitektur
4.3.1 Integration externer Programmteile
4.3.1.1 Phrasenerkennung
4.3.1.2 Doublettenerkennung
4.3.1.3 Existenzprüfung
4.3.1.4 Ausgabe
4.3.2 Parametrisierung der Suchdiensteigenschaften
4.4 Berechnung der Relevanz
4.5 Sicherheit
5 Performance
5.1 Performancemessungen
5.1.1 Benchmark
5.1.2 Profiling
5.2 Performanceverbesserungen
5.2.1 mod_perl
5.2.2 Compiler
6 Bedienung
6.1 Benutzung als Suchhilfe
6.2 Installation
6.3 Parametereinstellungen
6.4 Administration
6.4.1 Anpassen des Ausgabeformats
6.4.2 Ändern der Datenbankeigenschaften
6.4.3 Hinzufügen und Entfernen von Datenbanken
6.4.3.1 Ermitteln der Datenbankeigenschaften
6.4.3.2 Erstellen der Datenbankmodule
6.4.3.3 Test
6.4.4 Ändern der QuickTips
7 Ergebnisse
7.1 Vergleich mit bestehenden Metasuchmaschinen
7.1.1 Kriterien
7.1.2 Resultate
7.2 Weitere Verbessserungen
8 Zusammenfassung und Ausblick
Das Hauptziel dieser Arbeit ist die Entwicklung einer internationalen Metasuchmaschine namens MetaWorld, die aufbauend auf existierendem Programmcode skalierbar für eine hohe Anzahl an Zugriffen implementiert werden soll, während sie gleichzeitig alle Qualitäts- und Funktionalitätskriterien für moderne Metasuchmaschinen erfüllt.
2.2.2 Besondere Anforderungen
Im Vergleich zu normalen Suchdiensten ergeben sich spezielle Anforderungen an Metasuchmaschinen. Diese finden sich insbesondere in den Bereichen der Suchmöglichkeiten, der Doublettenerkennung, der Relevanzfindung, des Ausgleichs von Unzulänglichkeiten der Suchdienste und der Ausgabe.
Die Suchmöglichkeiten der Metasuchmaschinen unterscheiden sich von den Suchmöglichkeiten der Web-Datenbanken in drei Punkten. Erstens können meist nur Optionen unterstützt werden, die auch von allen darunterliegenden Datenbanken angeboten werden. Sobald eine Datenbank eine bestimmte Art der Suche nicht versteht, würden unter Umständen auch Datensätze zurückgeliefert werden, die nicht mit der Anfrage übereinstimmen. Diese würden dann die Qualität des Suchergebnisses verschlechtern. Die einstellbare Anzahl der zurückgelieferten Datensätze ist bei jeder Datenbank verschieden. Dies wird bei einer Metasuchmaschine dadurch umgangen, daß die maximale Anzahl von Datensätzen pro Suchdienst vom Benutzer angegeben werden kann.
Eine zweite zusätzliche Suchoption bei Metasuchmaschinen besteht in der Festlegung, welche Suchdienste aktiviert werden sollen. Meist kann man diese direkt auswählen, manche Metasuchmaschinen haben jedoch einen eingebauten Algorithmus, der die geeignetsten Datenbanken aussucht. Das ist deshalb sinnvoll, weil manche Datenbanken sich auf spezielle Gebiete wie zum Beispiel Shareware beschränken. Die Metasuchmaschine ProFusion kontaktiert beispielsweise immer drei Suchdienste, die sie in Abhängigkeit von den Suchwörtern auswählt [13]. Die Auswahl geschieht mit Hilfe eines Wörterbuchs, daß zu jedem enthaltenen Wort die Suchmaschine mit den meisten Ergebnissen speichert. Die Metasuchmaschine SavvySearch dagegen bestimmt nach Analyse der Netz und der Arbeitslast, wie viele Suchdienste kontaktiert werden [10, 11]. Die Auswahl der Suchdienste erfolgt ebenfalls auf Grund eines Wörterbuchs, aber auch durch die Performance des Suchdienstes.
1 Einleitung: Beschreibt die Motivation hinter Metasuchmaschinen und legt den Fokus dieser Diplomarbeit auf die Entwicklung von MetaWorld.
2 Datenbanken und Metasuchmaschinen: Erläutert die grundlegende Funktionsweise von Webdatenbanken und Metasuchmaschinen sowie die speziellen Anforderungen an letztere.
3 Objektorientierte Entwicklung: Dokumentiert den Versuch, eine neue Metasuchmaschine mittels objektorientierter Methoden in Perl zu entwerfen und zu implementieren.
4 Weiterentwicklung einer bestehenden Metasuchmaschine: Beschreibt die Anpassung des bestehenden MetaGer-Codes zur Erstellung der internationalen Suchmaschine MetaWorld.
5 Performance: Analysiert Messmethoden für Skripte und beschreibt Optimierungen zur Steigerung der Systemleistung.
6 Bedienung: Bietet detaillierte Anleitungen für die Nutzung und Administration der Software.
7 Ergebnisse: Vergleicht MetaWorld mit anderen Systemen und diskutiert potenzielle zukünftige Verbesserungen.
8 Zusammenfassung und Ausblick: Resümiert die Arbeit und gibt einen Ausblick auf die zukünftige Entwicklung von Metasuchmaschinen im E-Commerce-Bereich und für automatisierte Programmschnittstellen.
Metasuchmaschine, MetaWorld, Suchdienste, Webdatenbanken, Perl, Performance, Crawler, Verzeichnisse, Relevanz, Doublettenerkennung, Existenzprüfung, Internetsuche, Informatik, CGI, Softwareentwicklung.
Die Diplomarbeit behandelt die Entwicklung einer internationalen Metasuchmaschine, die Suchergebnisse verschiedener Suchdienste im World Wide Web bündelt, um dem Benutzer eine effizientere Recherche zu ermöglichen.
Zu den zentralen Themen zählen die Architektur von Metasuchmaschinen, die Systemperformance, die Integration verschiedener Web-Datenbanken sowie Strategien zur Relevanzbewertung und Qualitätsverbesserung der Suchergebnisse.
Das Ziel ist die Erstellung einer skalierbaren internationalen Metasuchmaschine, die alle wissenschaftlichen Qualitätskriterien für solche Systeme erfüllt und gleichzeitig eine hohe Performance bietet.
Es werden sowohl objektorientierte Softwareentwicklungs-Methoden (OMT) zur Modellierung als auch klassische iterative Programmierverfahren zur Weiterentwicklung von bestehendem Programmcode in Perl eingesetzt.
Der Hauptteil gliedert sich in die theoretischen Grundlagen zu Suchmaschinen, den Entwurfsprozess (Analyse und Implementierung), die konkrete Weiterentwicklung des MetaWorld-Codes sowie detaillierte Messungen zur Performance.
Die Arbeit lässt sich primär mit Begriffen wie Metasuchmaschine, Perl, Web-Datenbanken, Information Retrieval, Performance-Optimierung und Suchdienst-Integration beschreiben.
Performancemessungen zeigten, dass der objektorientierte Ansatz in Perl aufgrund des höheren Speicherverbrauchs und der langsameren Zugriffe auf Objektattribute für ein hochfrequentiertes System wie MetaWorld ineffizient war.
Das System nutzt einen speziellen Programmteil, der empfangene URLs und Beschreibungen vergleicht. Identische Ergebnisse werden ignoriert, während bei Inhalten mit unterschiedlichen Beschreibungen die Relevanz addiert und der Eintrag entsprechend in der Liste neu sortiert wird.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

