Datenintegration von polystrukturierte Daten in ein Data Vault Modell

Masterarbeit, 2021
129 Seiten, Note: 1.7

Informatik - Wirtschaftsinformatik

Leseprobe

Inhaltsverzeichnis

1. Einleitung

1.1 Motivation

1.2 Zielsetzung

1.3 Abgrenzung

1.4 Aufbau der Arbeit

2. Grundlagen

2.1 Die Welt der Daten

2.1.1 Daten, Informationen, Wissen

2.1.2 Dimensionen von Daten

2.1.3 Datenmodell

2.2 Modellierungstechniken

2.2.1 Strukturierte Daten

2.2.2 Halbstrukturierte Daten

2.2.3 Unstrukturierte Daten

2.3 Data Vault Modell

2.3.1 Motivation für Data Vault

2.3.2 Data Vault Grundlagen

2.3.3 Regeln der Data Vault Modellierung

2.3.4 Architektur

2.3.5 Data Vault 1.0 und 2.0

3. Stand der Technik und Forschung

3.1 Integration halbstrukturierter Daten

3.1.1 JavaScript Object Notation

3.1.2 Extensible Markup Language

3.2 Integration unstrukturierter Daten

4. Konzeption

4.1 Erweiterungen zur Integration halbstrukturierter Daten

4.1.1 Abflachen eines eingebetteten JSON-Dokuments

4.1.2 JSON-Array Daten im Data Vault Modell

4.1.3 Modellierung von XML-Dokumenten in das Data Vault Modell

4.2 Integration unstrukturierter Daten

5. Entwurf

5.1 Anwendungsfall

5.2 Zielsetzung

5.3 Analyse der Quelldaten

5.3.1 Stammdaten

5.3.2 Bewegungsdaten

5.4 Planung

5.4.1 Erstellung der ETL-Prozesse

5.4.2 Gesamtarchitektur

5.4.3 Source

5.4.4 Staging

5.4.5 Core

5.4.6 Mart

5.5 Mehrwert des Entwurfs

6. Implementierung

6.1 Eingesetzte Technologien

6.2 Beschreibung der Implementierung

6.2.1 Extraktion

6.2.2 Integration

6.2.3 Data Mart

6.3 Bereitstellung von Dashboards

7. Evaluierung

7.1 Überprüfung des Core-Datenmodells

7.1.1 Flexibilität und Erweiterbarkeit

7.1.2 Historisierung

7.2 Validierung der Daten

7.3 Optimierung des Dashboards

7.4 Bewertung der Implementierung

8. Schlussbetrachtung

8.1 Zusammenfassung

8.2 Ausblick

A. Anhang

A.1 Beigelegte CD

A.2 Datenmodell

A.3 Gespeicherte Prozedur

A.4 Dashboard

Zielsetzung & Themen

Diese Masterarbeit untersucht die Herausforderungen und Lösungsansätze für die Integration von halbstrukturierten (insbesondere JSON und XML) und unstrukturierten Daten in ein Data Vault Modell. Das primäre Ziel ist die Entwicklung von Erweiterungsmöglichkeiten für bestehende Konzepte, um eine konsistente Datenintegration in einer agilen Data-Warehouse-Umgebung zu ermöglichen, ohne die Integrität des Data Vault Modells zu gefährden.

Grundlagen der Datenmodellierung und Data Vault Architektur
Integrationstechniken für JSON- und XML-Datenformate
Konzeptionelle Ansätze zur Einbindung unstrukturierter Daten
Prototypische Implementierung in einem CRM-Anwendungsfall
Evaluierung der Flexibilität, Erweiterbarkeit und Historisierung

Auszug aus dem Buch

Mapping-Regel 1 (MR1):

„Each document id is translated into a business key, while the hash key of the hub is calculated and added to the hub.“ [KC18]

Gemäß MR1 wird für jedes Dokument eine id erstellt, die dazu beiträgt, dieses Dokument eindeutig zu identifizieren. Diese id entspricht in der Abbildung 3.6 der Customer_id. Sie wird im Hub als Business Key übersetzt. Dieser Regel nach wird ein Hub_Customer mit der Customer_id als Business Key erstellt. Ein Hash Key Customer HK wird mithilfe des Business Keys generiert.

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt die zunehmende Datenflut in Unternehmen und definiert die Problemstellung der Integration polystrukturierter Daten in ein Data Vault Modell.

2. Grundlagen: Erläutert die theoretischen Grundlagen der Datenmodellierung, verschiedene Datenarten und die Funktionsweise des Data Vault Modells.

3. Stand der Technik und Forschung: Analysiert bestehende Ansätze zur Integration von halbstrukturierten und unstrukturierten Daten, insbesondere unter Verwendung von JSON und XML.

4. Konzeption: Entwickelt spezifische Erweiterungsansätze für die Integration von JSON-Array-Strukturen und XML-Dokumenten sowie Strategien für unstrukturierte Daten.

5. Entwurf: Konzipiert einen Anwendungsfall im Bereich Customer Relationship Management und plant die ETL-Prozesse sowie die Architektur für das Data Warehouse.

6. Implementierung: Dokumentiert die praktische Umsetzung der ETL-Anwendung mit Talend und die Einbindung der Daten in Power BI zur Visualisierung.

7. Evaluierung: Überprüft das implementierte Modell hinsichtlich Flexibilität, Erweiterbarkeit und Performance sowie die Korrektheit der Daten mittels Testfällen.

8. Schlussbetrachtung: Fasst die wesentlichen Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf zukünftige Forschungsmöglichkeiten.

Schlüsselwörter

Data Vault, Datenintegration, Polystrukturierte Daten, Business Intelligence, Data Warehouse, JSON, XML, Modellierung, ETL, CRM, Kundendaten, Hash-Key, Historisierung, Flexibilität, Skalierbarkeit

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit beschäftigt sich mit der Herausforderung, unterschiedlich strukturierte Daten – wie JSON und XML – in ein bestehendes Data-Vault-Modell zu integrieren, um eine einheitliche und agile Datenanalyse zu ermöglichen.

Was sind die zentralen Themenfelder?

Die zentralen Themen sind die Data-Vault-Methodik, Integrationsstrategien für halbstrukturierte Formate (JSON/XML) und die praktische Umsetzung in einem CRM-Data-Warehouse-Szenario.

Was ist das primäre Ziel oder die Forschungsfrage?

Das Ziel ist es, Mapping-Regeln und Konzepte zu entwickeln, um polystrukturierte Daten ohne Informationsverlust in ein Data-Vault-Modell zu überführen und dabei dessen Kernvorteile wie Flexibilität zu erhalten.

Welche wissenschaftliche Methode wird verwendet?

Es wird eine forschungsbasierte Methode angewandt: Analyse des aktuellen Stands der Technik, Konzeption von Mapping-Regeln, prototypische Implementierung mit ETL-Tools und anschließende Evaluation der Modellqualität anhand von Kennzahlen.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in die theoretische Fundierung, die Konzeption neuer Mapping-Regeln (insb. für Arrays), den Entwurf einer Data-Warehouse-Architektur sowie die praktische Implementierung und Performance-Evaluierung.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird maßgeblich durch Begriffe wie Data Vault, Datenintegration, polystrukturierte Daten, ETL, JSON, XML und agile Modellierung charakterisiert.

Warum sind JSON-Arrays eine Herausforderung im Data Vault Modell?

JSON-Arrays repräsentieren oft 1:N-Beziehungen oder Bewegungsdaten ohne festen Identifikator. Im Data Vault Modell müssen hierfür spezielle Konstrukte wie der "Multi-Active Satellite" genutzt werden, um die Datenstruktur sauber abzubilden.

Was ist der Mehrwert der entwickelten Mapping-Regel 5?

Die Mapping-Regel 5 ermöglicht es, komplexe JSON-Array-Strukturen auf "Multi-Active Satellites" abzubilden, wodurch Transaktionsdaten effizient mit dem Hub verknüpft werden können, ohne die Modellstruktur zu kompromittieren.

Warum wurde Data Vault 2.0 für die Implementierung gewählt?

Data Vault 2.0 nutzt Hash-Keys anstelle von Sequenz-IDs. Dies eliminiert Abhängigkeiten beim Ladevorgang und ermöglicht eine deutlich bessere Parallelisierung der Datenverarbeitung bei großen Datenmengen.

Ende der Leseprobe aus 129 Seiten - nach oben

Details

Titel: Datenintegration von polystrukturierte Daten in ein Data Vault Modell
Hochschule: Hochschule Darmstadt
Note: 1.7
Autor: Jie Xin (Autor:in)
Erscheinungsjahr: 2021
Seiten: 129
Katalognummer: V1015269
ISBN (eBook): 9783346412775
Sprache: Deutsch
Schlagworte: Data Vault DWH Big Data JSON XML
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 42,99

Arbeit zitieren: Jie Xin (Autor:in), 2021, Datenintegration von polystrukturierte Daten in ein Data Vault Modell, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/1015269