Diplomarbeit, 2010
130 Seiten
1 Einführung
2 Grundlagen
2.1 Eigenschaften komplexer Datentypen
2.1.1 Komplexe Datentypen und ihre primitiven Bestandteile
2.1.2 Das XML-Transport-Dokumentformat
2.1.3 Feste und lose Strukturen
2.1.4 Das RDF-System zur Beschreibung von Ressourcen
2.2 Distanz-Berechnungsvorschriften in Räumen
2.2.1 Suchräume
2.2.2 Edit-Distanzen
2.2.3 Werte-Distanzen
2.2.4 PlusMinus-Ähnlichkeit
2.2.5 Bildung von Teilmengen
2.3 Logische Kombination der Distanzwerte
2.3.1 Aussagenlogik
2.3.2 Prädikatenlogik
2.4 Abfragesprachen mit Datenstrukturen
2.4.1 Abfragesprachen
2.4.2 Datenstrukturen
2.4.3 Bekannte Ansätze auf Datenstrukturen
2.4.4 Ontologien
3 Problemstellung und Abgrenzung
3.1 Problemstellung
3.2 Existierende Ansätze
3.3 Abgrenzung
3.3.1 Baumsignaturen
3.3.2 Similarity Join Frameworks
3.3.3 Tamino & XXL Ontologie
3.3.4 Kernel-Funktionen
4 Lösungsansatz (Konzept)
4.1 Das SimSearch Framework
4.1.1 SimSearch CMD-Engine
4.1.2 Grafische Darstellung der Suchergebnisse
4.2 Strukturelle Ähnlichkeitssuche
4.2.1 Lineare-Baumsignatur (Herleitung)
4.2.2 Strukturelle Ähnlichkeitssuche (Berechnung)
4.3 Inhaltliche Ähnlichkeitssuche
4.3.1 Das abstrakte Datenschema (Herleitung)
4.3.2 Inhaltliche Ähnlichkeitssuche (Berechnung)
4.4 (Teil)Baum-Ähnlichkeitssuche
4.4.1 Bottom-Up Gleichheitssuche
4.4.2 Bottom-Up Ähnlichkeitssuche
5 Lösungsansatz (Validierung)
5.1 Externe Komponenten (Laufzeit)
5.2 Eigene Komponenten (Laufzeit & Validierung)
6 Zusammenfassung und Ausblick
6.1 Zusammenfassung
6.2 Ausblick
Diese Arbeit widmet sich der Entwicklung eines Verfahrens zur Suche nach komplexen Daten, wobei insbesondere die strukturelle Ähnlichkeit neben der inhaltlichen Komponente in den Fokus gerückt wird. Das primäre Ziel besteht darin, durch die Implementierung des "SimSearch Frameworks" eine automatisierte Vergleichbarkeit von heterogenen XML-Dokumenten zu ermöglichen, die über einfache exakte Suchen hinausgeht und auch unscharfe, semantisch gestützte Übereinstimmungen erkennt.
Strukturelle Ähnlichkeitssuche
Im Sinne der strukturellen Ähnlichkeit (i. S. s. Ä.) können ohne weitere Aussagen über die semantische Bedeutung einzelner Elemente auf der Datenebene lediglich die Verschachtelungen einzelner Elemente ineinander betrachtet werden. Diese geben Auskunft über die strukturelle Zusammensetzung einzelner Komponenten. Um den Aufwand des Vergleichs hierarchischer Strukturen minimal zu halten, wird im SimSearch Framework die zweidimensionale Baumstruktur eines XML-Dokumentes auf eine lineare, eindimensionale Signatur reduziert. Diese Art der Dimensionsreduktion (s. 2.2.5) ermöglicht sowohl den direkten Vergleich zweier Baumstrukturen als auch die Extraktion und Hinterlegung von Informationen innerhalb der Signatur, die nur im Gesamtzusammenhang erkennbar sind.
Diese Informationen betreffen einerseits die Unterscheidung zwischen festen und losen Strukturen (s. 2.1.3) und andererseits auch die Unterscheidung zwischen elementaren und komplexen Elementen. Beide Unterscheidungen können erst hinreichend präzise getroffen werden, wenn mehrere Ausprägungen eines Elementes herangezogen werden. Andersherum ist diese Unterscheidung bei einmaligem Vorkommen durchaus möglich, kann jedoch bei mehrfachem Aufkommen und damit zusätzlicher Informationsbasis zu anderen Ergebnissen führen. Der Vergleich zweier Signaturen gegenüber dem Vergleich zweier Bäume bringt auch den Vorteil, dass die zuvor erwähnten Unterscheidungsinformationen nur einmal pro Komponente berechnet und somit nicht beim Vergleich selbst immer wieder berechnet werden müssen. Da die Erstellung der Signatur und die damit verbundenen Paradigmen sowie die Vorgehensweise hier den Schlüssel zur Erkennung struktureller Ähnlichkeit darstellt, wird diese im Folgenden genauer erläutert.
Einführung: Motiviert die Notwendigkeit unscharfer Suchalgorithmen für komplexe Datenstrukturen am Beispiel des Automobilsektors.
Grundlagen: Erläutert die mathematischen und informationstechnischen Voraussetzungen, darunter XML, Distanzmaße und Logik, für die Ähnlichkeitssuche.
Problemstellung und Abgrenzung: Analysiert bestehende Ansätze und grenzt das eigene Framework gegen herkömmliche Methoden der Baum-Edit-Distanzen ab.
Lösungsansatz (Konzept): Stellt das SimSearch Framework vor, inklusive der Linearen-Baumsignatur und der inhaltlichen sowie strukturellen Berechnungsmodelle.
Lösungsansatz (Validierung): Bewertet das Laufzeitverhalten der implementierten Komponenten und validiert die Korrektheit des gewählten Bottom-Up Ansatzes.
Zusammenfassung und Ausblick: Resümiert die erbrachten Leistungen und skizziert künftige Erweiterungsmöglichkeiten durch semantische Integration.
Ähnlichkeitssuche, XML-Dokumente, Komplexe Datentypen, SimSearch Framework, Strukturelle Ähnlichkeit, Inhaltliche Ähnlichkeit, Baumsignatur, Edit-Distanz, Ontologien, Bottom-Up Algorithmus, Bereichssuche, Datenmodellierung, Wissensbasis, Information Retrieval, Laufzeiteffizienz.
Die Arbeit befasst sich mit dem Entwurf und der Implementierung eines Verfahrens, um komplexe Daten – insbesondere XML-Dokumente – automatisiert auf ihre Ähnlichkeit hin zu untersuchen, wobei sowohl die inhaltliche als auch die strukturelle Ebene berücksichtigt wird.
Die zentralen Themen umfassen XML-Datenverarbeitung, die mathematische Berechnung von Distanzen in hochdimensionalen Räumen, ontologische Datenmodelle sowie die Entwicklung effizienter Suchalgorithmen (Similarity Join).
Das Ziel ist die Überwindung starrer Suchkriterien in traditionellen Algorithmen, um bei komplexen, heterogenen Datensätzen – etwa in der Automobilindustrie – flexiblere und semantisch wertvolle Suchergebnisse zu generieren.
Es wird ein heuristischer Bottom-Up-Ansatz gewählt, der auf der Umwandlung von Baumstrukturen in lineare Signaturen basiert, kombiniert mit ontologischen Methoden zur Inhaltsanalyse.
Der Hauptteil erarbeitet das Konzept des "SimSearch Frameworks", stellt die mathematischen Berechnungsvorschriften für strukturelle Signaturen auf und beschreibt die Implementierung der inhaltlichen Suche durch Mapping- und Scoring-Verfahren.
Die Arbeit wird maßgeblich durch Begriffe wie "Strukturelle Ähnlichkeit", "XML-Transformation", "SimSearch" und "Bottom-Up Algorithmus" charakterisiert.
Während XQuery eine präzise, meist exakte Navigation innerhalb von XML-Strukturen erfordert, ermöglicht SimSearch eine unscharfe Suche, die semantische Ähnlichkeiten gewichtet und somit auch Dokumente findet, die nicht exakt den gleichen strukturellen Aufbau haben.
Baumsignaturen dienen der Dimensionenreduktion. Sie bilden komplexe hierarchische XML-Strukturen auf eine lineare Repräsentation ab, was den Vergleich dieser Strukturen massiv beschleunigt und somit die Laufzeit optimiert.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

