Masterarbeit, 2021
129 Seiten, Note: 1.7
1. Einleitung
1.1 Motivation
1.2 Zielsetzung
1.3 Abgrenzung
1.4 Aufbau der Arbeit
2. Grundlagen
2.1 Die Welt der Daten
2.1.1 Daten, Informationen, Wissen
2.1.2 Dimensionen von Daten
2.1.3 Datenmodell
2.2 Modellierungstechniken
2.2.1 Strukturierte Daten
2.2.2 Halbstrukturierte Daten
2.2.3 Unstrukturierte Daten
2.3 Data Vault Modell
2.3.1 Motivation für Data Vault
2.3.2 Data Vault Grundlagen
2.3.3 Regeln der Data Vault Modellierung
2.3.4 Architektur
2.3.5 Data Vault 1.0 und 2.0
3. Stand der Technik und Forschung
3.1 Integration halbstrukturierter Daten
3.1.1 JavaScript Object Notation
3.1.2 Extensible Markup Language
3.2 Integration unstrukturierter Daten
4. Konzeption
4.1 Erweiterungen zur Integration halbstrukturierter Daten
4.1.1 Abflachen eines eingebetteten JSON-Dokuments
4.1.2 JSON-Array Daten im Data Vault Modell
4.1.3 Modellierung von XML-Dokumenten in das Data Vault Modell
4.2 Integration unstrukturierter Daten
5. Entwurf
5.1 Anwendungsfall
5.2 Zielsetzung
5.3 Analyse der Quelldaten
5.3.1 Stammdaten
5.3.2 Bewegungsdaten
5.4 Planung
5.4.1 Erstellung der ETL-Prozesse
5.4.2 Gesamtarchitektur
5.4.3 Source
5.4.4 Staging
5.4.5 Core
5.4.6 Mart
5.5 Mehrwert des Entwurfs
6. Implementierung
6.1 Eingesetzte Technologien
6.2 Beschreibung der Implementierung
6.2.1 Extraktion
6.2.2 Integration
6.2.3 Data Mart
6.3 Bereitstellung von Dashboards
7. Evaluierung
7.1 Überprüfung des Core-Datenmodells
7.1.1 Flexibilität und Erweiterbarkeit
7.1.2 Historisierung
7.2 Validierung der Daten
7.3 Optimierung des Dashboards
7.4 Bewertung der Implementierung
8. Schlussbetrachtung
8.1 Zusammenfassung
8.2 Ausblick
A. Anhang
A.1 Beigelegte CD
A.2 Datenmodell
A.3 Gespeicherte Prozedur
A.4 Dashboard
Diese Masterarbeit untersucht die Herausforderungen und Lösungsansätze für die Integration von halbstrukturierten (insbesondere JSON und XML) und unstrukturierten Daten in ein Data Vault Modell. Das primäre Ziel ist die Entwicklung von Erweiterungsmöglichkeiten für bestehende Konzepte, um eine konsistente Datenintegration in einer agilen Data-Warehouse-Umgebung zu ermöglichen, ohne die Integrität des Data Vault Modells zu gefährden.
Mapping-Regel 1 (MR1):
„Each document id is translated into a business key, while the hash key of the hub is calculated and added to the hub.“ [KC18]
Gemäß MR1 wird für jedes Dokument eine id erstellt, die dazu beiträgt, dieses Dokument eindeutig zu identifizieren. Diese id entspricht in der Abbildung 3.6 der Customer_id. Sie wird im Hub als Business Key übersetzt. Dieser Regel nach wird ein Hub_Customer mit der Customer_id als Business Key erstellt. Ein Hash Key Customer HK wird mithilfe des Business Keys generiert.
1. Einleitung: Beschreibt die zunehmende Datenflut in Unternehmen und definiert die Problemstellung der Integration polystrukturierter Daten in ein Data Vault Modell.
2. Grundlagen: Erläutert die theoretischen Grundlagen der Datenmodellierung, verschiedene Datenarten und die Funktionsweise des Data Vault Modells.
3. Stand der Technik und Forschung: Analysiert bestehende Ansätze zur Integration von halbstrukturierten und unstrukturierten Daten, insbesondere unter Verwendung von JSON und XML.
4. Konzeption: Entwickelt spezifische Erweiterungsansätze für die Integration von JSON-Array-Strukturen und XML-Dokumenten sowie Strategien für unstrukturierte Daten.
5. Entwurf: Konzipiert einen Anwendungsfall im Bereich Customer Relationship Management und plant die ETL-Prozesse sowie die Architektur für das Data Warehouse.
6. Implementierung: Dokumentiert die praktische Umsetzung der ETL-Anwendung mit Talend und die Einbindung der Daten in Power BI zur Visualisierung.
7. Evaluierung: Überprüft das implementierte Modell hinsichtlich Flexibilität, Erweiterbarkeit und Performance sowie die Korrektheit der Daten mittels Testfällen.
8. Schlussbetrachtung: Fasst die wesentlichen Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf zukünftige Forschungsmöglichkeiten.
Data Vault, Datenintegration, Polystrukturierte Daten, Business Intelligence, Data Warehouse, JSON, XML, Modellierung, ETL, CRM, Kundendaten, Hash-Key, Historisierung, Flexibilität, Skalierbarkeit
Die Arbeit beschäftigt sich mit der Herausforderung, unterschiedlich strukturierte Daten – wie JSON und XML – in ein bestehendes Data-Vault-Modell zu integrieren, um eine einheitliche und agile Datenanalyse zu ermöglichen.
Die zentralen Themen sind die Data-Vault-Methodik, Integrationsstrategien für halbstrukturierte Formate (JSON/XML) und die praktische Umsetzung in einem CRM-Data-Warehouse-Szenario.
Das Ziel ist es, Mapping-Regeln und Konzepte zu entwickeln, um polystrukturierte Daten ohne Informationsverlust in ein Data-Vault-Modell zu überführen und dabei dessen Kernvorteile wie Flexibilität zu erhalten.
Es wird eine forschungsbasierte Methode angewandt: Analyse des aktuellen Stands der Technik, Konzeption von Mapping-Regeln, prototypische Implementierung mit ETL-Tools und anschließende Evaluation der Modellqualität anhand von Kennzahlen.
Der Hauptteil gliedert sich in die theoretische Fundierung, die Konzeption neuer Mapping-Regeln (insb. für Arrays), den Entwurf einer Data-Warehouse-Architektur sowie die praktische Implementierung und Performance-Evaluierung.
Die Arbeit wird maßgeblich durch Begriffe wie Data Vault, Datenintegration, polystrukturierte Daten, ETL, JSON, XML und agile Modellierung charakterisiert.
JSON-Arrays repräsentieren oft 1:N-Beziehungen oder Bewegungsdaten ohne festen Identifikator. Im Data Vault Modell müssen hierfür spezielle Konstrukte wie der "Multi-Active Satellite" genutzt werden, um die Datenstruktur sauber abzubilden.
Die Mapping-Regel 5 ermöglicht es, komplexe JSON-Array-Strukturen auf "Multi-Active Satellites" abzubilden, wodurch Transaktionsdaten effizient mit dem Hub verknüpft werden können, ohne die Modellstruktur zu kompromittieren.
Data Vault 2.0 nutzt Hash-Keys anstelle von Sequenz-IDs. Dies eliminiert Abhängigkeiten beim Ladevorgang und ermöglicht eine deutlich bessere Parallelisierung der Datenverarbeitung bei großen Datenmengen.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

