Diplomarbeit, 2010
130 Seiten
Die vorliegende Diplomarbeit beschäftigt sich mit der Entwicklung eines Verfahrens zur Analyse komplexer Daten, insbesondere auf strukturelle Ähnlichkeit. Ziel ist es, einen einheitlichen Ansatz zu schaffen, der sowohl die inhaltlichen als auch die strukturellen Aspekte von Daten berücksichtigt. Der Fokus liegt dabei auf der Identifizierung ähnlicher Teilbäume innerhalb komplexer Datentypen, die in XML-Dokumenten dargestellt werden.
Das erste Kapitel liefert eine Einführung in die Thematik der Ähnlichkeitssuche und die Motivation für die Entwicklung des Verfahrens. Kapitel 2 befasst sich mit den Grundlagen der Analyse komplexer Daten, einschließlich der Eigenschaften von komplexen Datentypen, dem XML-Transport-Dokumentformat und Distanz-Berechnungsvorschriften. Kapitel 3 beschreibt die Konzeption und Implementierung des entwickelten Verfahrens zur Analyse komplexer Daten auf strukturelle Ähnlichkeit.
Komplexe Daten, Ähnlichkeitssuche, strukturelle Ähnlichkeit, XML-Dokumentformat, Teilbaum-Vergleich, Distanz-Berechnungsvorschriften, RDF, Ontologien
Strukturelle Ähnlichkeit bezieht sich auf den Aufbau und die Zusammensetzung von Datenobjekten, unabhängig von ihrem rein textuellen Inhalt. Es geht darum, wie Teilbäume und Hierarchien innerhalb eines Datensatzes organisiert sind.
XML dient als Transportformat, da es komplexe Datenstrukturen hierarchisch abbilden kann. Das System abstrahiert diese Dokumente, um stilistische Unterschiede bei der Serialisierung zu ignorieren.
Das Resource Description Framework (RDF) wird als System zur Beschreibung von Ressourcen und deren Beziehungen untereinander genutzt, was für die Analyse komplexer Datentypen essenziell ist.
Edit-Distanzen sind Maße dafür, wie viele Änderungen (Einfügen, Löschen, Ersetzen) nötig sind, um eine Struktur in eine andere zu überführen. Sie dienen als mathematische Grundlage für den Ähnlichkeitsvergleich.
Das vorgestellte Verfahren berechnet beide Werte separat. Durch logische Kombinationen (z. B. Prädikatenlogik) können komplexe Abfragen über den Gesamtaufbau und den Inhalt der Daten gestellt werden.
Ziel ist es, innerhalb beliebig komplexer Datentypen Muster oder Segmente zu finden, die einander strukturell oder inhaltlich gleichen, auch wenn sie in unterschiedlichen Kontexten stehen.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

