Diplomarbeit, 2003
99 Seiten, Note: 1,3
1 Einleitung
2 Theorie
2.1 Wissen und Wissensmanagement
2.1.1 Einführung und Begriffserklärung
2.1.2 Sprache und Ihre Bedeutung
2.2 Wissensmanagement (KM)
2.3 Konzepte der Wissensstrukturierung
2.3.1 Index
2.3.2 Thesaurus
2.3.3 Semantisches Netz
2.3.4 Taxonomie
2.4 Topic Maps
2.4.1 Einführung und Begriffserklärung
2.4.2 Topic
2.4.3 Occurrences
2.4.4 Associations
2.4.5 Scopes
2.4.6 Facets
2.4.7 XML Topic Maps (XTM)
2.5 Künstliche Neuronale Netze (KNN)
2.6 Suchmaschinen
2.6.1 Einführung und Begriffserklärung
2.6.2 Indexierungsmechanismen
2.6.3 Ranking
2.7 Suchverfeinerungsmechanismen
2.7.1 Linguistische Ansätze
2.7.2 Statistische Ansätze
2.7.2.1 Transformation von Merkmalen
2.7.2.2 Kontingenztabelle
2.7.2.3 Faktorenanalyse
2.7.2.4 Clusteranalyse
2.7.2.4.1 Distanz- bzw. Ähnlichkeitsmaß
2.7.2.4.2 Klassifikationsverfahren
2.7.2.5 Rocchio-Algorithmus
2.7.3 Fuzzy-Technologie
3 Umsetzung
3.1 Überblick: Auftrag- und Arbeitgeber
3.1.1 Stadtverwaltung Stuttgart
3.1.2 CIT GmbH
3.2 Arbeitsumgebung
3.2.1 Servlet / Jsp
3.2.2 Topic Maps for Java (TM4J)
3.2.3 Lucene - Java Such API
3.2.4 Informationsportal
3.3 Anforderungen
3.4 Prototypisches Vorgehensmodell
3.5 Phasen der Analyse und der Konzeption
3.5.1 Darstellung der Dokumentengrundlage
3.5.2 Statistische Auswertung
3.5.3 Fuzzy Technik
3.5.4 Semantik
3.5.5 Aufbau eigener Daten
3.5.6 Korrelationsanalyse
3.5.7 Dokumentensichtung
3.5.8 Bewertung
3.5.9 Antwort-Datenbank Lexika
3.6 Layout
3.7 Navigation
3.7.1 Benutzereingaben
3.7.2 Filtersystem
3.8 Technische Dokumentation
3.8.1 Ablaufplan
3.8.2 Klassendiagramm (Packages)
3.8.2.1 Anfrageanalyse (myQueryAnalyser)
3.8.2.2 Historie
3.8.2.3 Antwort Analyse (ResponseAnalyser)
3.8.2.4 Common
3.8.2.5 Grundgesamtheit (GG)
3.8.3 ERM
4 Zusammenfassung
Die vorliegende Arbeit befasst sich mit der Entwicklung und prototypischen Implementierung eines Suchverfeinerungssystems für ein Topic-Map-basiertes Informationsportal der Landeshauptstadt Stuttgart. Ziel ist es, den Suchenden in einer unübersichtlichen Informationsflut durch intelligente Navigations- und Filtermechanismen bei der gezielten Informationssuche zu unterstützen und Suchtreffermengen sinnvoll zu strukturieren.
2.4.1 Einführung und Begriffserklärung
In der Literatur werden Topic Maps (TM) oft als das „GPS“ (Global Positioning System) des „Informationsuniversums“ betitelt. Nach Verabschiedung des ISO/IEC Standard 13250:2000 am 3. Dezember 1999 machten sich einige Firmen die Technik zu Eigen, oftmals um Ihr Wissen in grafischer Art und Weise darzustellen. Aber auch um mittels dieser Technik Ihre Unternehmensstrukturen besser abbilden zu können und Wissensnetze aufzubauen.
Der ISO/IEC Standard 13250:2000 beschreibt TM und Ihre Elemente und erklärt die Syntax die hinter dem Konzept steht. Die Syntax und die Bezeichnungen einiger TM-Elemente wurden durch den XML Topic Maps (XTM) 1.0 Standard etwas abgewandelt, um auf die Anforderungen der XML-Technologie besser einzugehen (siehe auch Kap.2.4.7). Jedoch wurde an dem Grundgedanken von TM keine Veränderung vorgenommen.
Das Grundkonzept einer TM ist einfach, zugleich aber sehr mächtig: die Idee besteht daraus, beliebige Themen (Topics) mit anderen Themen via Assoziation typisiert zu verknüpfen und mittels Occurences auf Ressourcen zu verweisen. Themen (Topics) können dabei Konzepte, Objekte, Ideen, oder beliebige Dinge der realen Welt darstellen, über die man Aussagen mit der Topic Map treffen möchte. Dabei kann ein Thema einen oder mehrere Namen tragen. Ressourcen sind Vorkommensangaben und beziehen sich entweder auf externe Dokumente, Bilder, Dateien etc. oder können im Topic als Wert definiert werden.
1 Einleitung: Die Arbeit beleuchtet die Problematik der unübersichtlichen Treffermengen bei Suchanfragen in öffentlichen Institutionen und stellt das Ziel vor, diese mittels Wissensmanagement und Topic Maps effizienter zu gestalten.
2 Theorie: Dieses Kapitel erläutert theoretische Grundlagen zu Wissensmanagement, Topic Maps, Künstlichen Neuronalen Netzen sowie Suchmaschinen- und Verfeinerungsmethoden.
3 Umsetzung: Hier wird der prototypische Aufbau des Suchverfeinerungssystems für das Stuttgarter Informationsportal „Korvis“ detailliert beschrieben, einschließlich der verwendeten Java-Technologien und statistischen Analyseansätze.
4 Zusammenfassung: Das abschließende Kapitel resümiert, dass eine intelligente Suchverfeinerung auf Basis von Topic Maps und statistischen Methoden notwendig ist, um die Informationsfindung für Anwender zu optimieren.
Wissensmanagement, Topic Maps, Suchverfeinerung, Information Retrieval, Suchmaschinen, Fuzzy-Technologie, Clusteranalyse, Metadaten, Informationsportal, Wissensstrukturierung, Lucene, Java, Korrelationsanalyse, Semantik, Datenextraktion
Die Arbeit beschäftigt sich mit der Konzeption und Entwicklung eines Suchverfeinerungssystems, das in einem bestehenden, auf Topic Maps basierenden Informationsportal der Stadtverwaltung Stuttgart eingesetzt wird, um die Suchergebnisse für Anwender zu verbessern.
Die Schwerpunkte liegen auf Wissensmanagement, semantischen Netzen (insbesondere Topic Maps), statistischen Analyse- und Klassifikationsmethoden sowie der praktischen Implementierung von Suchwerkzeugen in einer Java-Umgebung.
Das Ziel ist es, durch die Kombination von Topic-Map-Daten und statistischen Verfahren Mechanismen zu entwickeln, die den Benutzer dabei unterstützen, Suchanfragen zu verfeinern und die resultierende Informationsmenge strukturiert und kontextbezogen zu filtern.
Es werden Ansätze aus der Statistik wie die Cluster- und Korrelationsanalyse, linguistische Verfahren zur Wortstammreduktion, Fuzzy-Logik sowie Methoden der Künstlichen Intelligenz (KNN) zur Modellbildung verwendet.
Der Hauptteil dokumentiert die technische Umsetzung des Prototyps, die Integration von Lucene und TM4J, den Aufbau von Analysedatenbanken (mySQL) sowie die Gestaltung von Navigations- und Benutzeroberflächen mittels Servlets und JSP.
Wichtige Begriffe sind Wissensmanagement, Topic Maps, Suchverfeinerung, Information Retrieval, Fuzzy-Technologie, Clusteranalyse und semantische Wissensstrukturierung.
Das System nutzt vorhandene Topic-Map-Strukturen und kombiniert diese mit einer eigenen Statistik-Datenbank, um die Treffermengen durch intelligente Filter und Assoziationsanalysen (semantische Vorschläge) für den Benutzer verständlicher zu machen.
Die Fuzzy-Technologie wird eingesetzt, um Eingabefehler bei Suchanfragen zu korrigieren und eine Unschärfe-Suche zu ermöglichen, die über exakte Treffer hinausgeht, indem Ergebnisse basierend auf Ähnlichkeitsdistanzen gewichtet werden.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

