Entwicklung von Big-Data-Anwendungen. Aspekte der Datenerzeugung und Datenhaltung

Masterarbeit, 2021
67 Seiten, Note: 1.7

Informatik - Wirtschaftsinformatik

Leseprobe

Inhaltsverzeichnis

1 Die Bedeutung von Big Data

1.1 Motivation und Ziel der Arbeit

1.2 Methodischer Aufbau der Arbeit

2 Aspekte der Datenerzeugung und Datenhaltung

2.1 Daten und Informationen

2.1.1 Strukturierte Daten

2.1.2 Unstrukturierte Daten

2.1.3 Datenklassen

2.2 Speichermedien und Datenhaltungssysteme

2.2.1 Speicherkapazität

2.2.2 Computer Cluster

2.2.3 Datenbanksysteme

3 Anforderungen an Big-Data-Anwendungen

3.1 Die 5 V’s

3.1.1 Volume

3.1.2 Veracity

3.1.3 Variety

3.1.4 Velocity

3.1.5 Value

3.2 Notwendige Eigenschaften jeder Anwendung

3.2.1 Allgemeingültigkeit

3.2.2 Belastbarkeit

3.2.3 Skalierbarkeit und Erweiterbarkeit

3.2.4 Fehlertoleranz

3.2.5 Lesen und Aktualisieren mit geringen Latenzzeiten

3.2.6 Ad-hoc-Abfragen und Echtzeitauswertungen

4 Umsetzung von Big-Data-Anwendungen

4.1 Lambda-Architektur

4.1.1 Batch-Layer

4.1.2 Serving-Layer

4.1.3 Speed-Layer

4.2 Datenspeicherung

4.2.1 Rohdaten werden zu Stammdaten

4.2.2 Stammdaten speichern

4.2.3 Datenverteilung

4.3 Big-Data-Analysen

4.3.1 MapReduce Algorithmus

4.3.2 Korrelation und Kausalität

4.3.3 Marktforschung

4.3.4 Verkehrssteuerung

4.3.5 Big Data in der Medizin

4.4 Rechtliche Grundlagen

4.4.1 Privatsphäre

4.4.2 Zweckbindung der Daten

4.4.3 Datensparsamkeit

4.4.4 Social Media Analysen

5 Kernbausteine von Big-Data-Anwendungen

5.1 Technische Notwendigkeiten

5.1.1 Skalierbare Datenverarbeitung

5.1.2 Redundante Datenhaltung

5.1.3 Daten sind unveränderlich

5.1.4 Parallelisierung der Operation

5.1.5 Optimierung der Datenstrukturen

5.2 Konzeptionelle Notwendigkeiten

5.2.1 Datenqualität

5.2.2 Zusammenhänge richtig deuten

5.2.3 Privacy by Design

6 Zusammenfassung und Ausblick

6.1 Zusammenfassung

6.2 Ausblick

Zielsetzung & Themen

Die vorliegende Master-Thesis untersucht die notwendigen technologischen sowie konzeptionellen Anforderungen an moderne Big-Data-Anwendungen. Das zentrale Forschungsziel besteht darin, die essenziellen Grundbausteine zu identifizieren, die für eine effiziente, skalierbare und rechtskonforme Verarbeitung massiver, heterogener Datenmengen erforderlich sind, um aus diesen wertvolle Informationen und Erkenntnisse zu generieren.

Identifikation der technischen Anforderungen durch die 5 V's (Volume, Veracity, Variety, Velocity, Value).
Analyse der Lambda-Architektur als theoretischer Rahmen für die Umsetzung.
Untersuchung von Datenspeicherungskonzepten und -verteilung (HDFS, Stammdaten).
Methoden der Big-Data-Analyse unter Berücksichtigung von Korrelation, Kausalität und Algorithmen wie MapReduce.
Diskussion rechtlicher Rahmenbedingungen wie Datenschutz (DSGVO), Zweckbindung und Privacy by Design.

Auszug aus dem Buch

4.1.1 Batch-Layer

Aus Gründen der Zeit- und Ressourcenersparnis nutzt die Lambda-Architektur die Erstellung des sogenannten Batch-View. Dieser ist eine Vorabberechnung der eigentlichen Abfragefunktion. Die Variablen ZBatch steht für das Abfrageergebnis und wird ebenfalls durch eine Funktion, die auf sämtliche Daten zugreift, erzeugt. Als Batch-View Gleichung ergibt sich:

ZBatch = f(XDaten) f(ZBatch) ∈ XDaten (2)

Nun liegen vorab berechnetet Ergebnisse im Batch-View vor. Bei einer Anfrage ist es somit nicht mehr notwendig, das gewünschte Ergebnis im laufenden Betrieb zu berechnen, sondern es kann aus dem vorab berechneten Batch-View entnommen werden. Für die Abfrage YAb f rage entsteht dadurch eine neue Gleichung, die nicht mehr auf alle Daten, sondern nur auf den Batch-View ZBatch zugreift:

YAb f rage = f(ZBatch) f(YAb f rage) ∈ ZBatch (3)

Diese Abfrage ist wiederum indiziert, sodass wahlfrei lesend darauf zugegriffen werden kann.95 Zusammenfassend wird also einmal die Funktion f(XDaten) mit sämtlichen Daten ausgeführt, um die Batch-View ZBatch zu erhalten. Wenn ein konkretes Ergebnis gesucht wird und eine Abfrage YAb f rage ausgeführt, kommt die Funktion f(ZBatch) mit dem Batch-View zum Einsatz. Sie kann die angefragten Werte sehr schnell zur Verfügung stellen, ohne erst sämtliche Werte zu durchsuchen und berechnen zu müssen.

Zusammenfassung der Kapitel

1 Die Bedeutung von Big Data: Einleitung in die Thematik von Big Data mit Fokus auf Datenmengenwachstum und der Notwendigkeit einer zielgerichteten Datennutzung zur Wertschöpfung.

2 Aspekte der Datenerzeugung und Datenhaltung: Untersuchung von Datentypen, Speicherkategorien, der Rolle von Computer-Clustern und der Limitierungen klassischer Datenbanksysteme.

3 Anforderungen an Big-Data-Anwendungen: Detaillierte Betrachtung der 5 V's und Ableitung notwendiger systemischer Eigenschaften wie Belastbarkeit, Skalierbarkeit und Fehlertoleranz.

4 Umsetzung von Big-Data-Anwendungen: Beschreibung der Lambda-Architektur, Datenspeicherung mittels Hadoop/HDFS, Big-Data-Analysen inklusive MapReduce sowie eine Analyse der rechtlichen Grundlagen.

5 Kernbausteine von Big-Data-Anwendungen: Synthese der technischen Anforderungen an die Datenverarbeitung und die konzeptionelle Bedeutung von Datenqualität und Privacy by Design.

6 Zusammenfassung und Ausblick: Retrospektive der erarbeiteten Aspekte und Einschätzung zukünftiger Entwicklungen in Bezug auf Big-Data-Anwendungen in Gesellschaft und Wirtschaft.

Schlüsselwörter

Big Data, Lambda-Architektur, Hadoop, HDFS, Batch-Layer, Speed-Layer, MapReduce, Datenqualität, Korrelation, Kausalität, Datenschutz, DSGVO, Datensparsamkeit, Privacy by Design, NoSQL.

Häufig gestellte Fragen

Worum geht es in dieser Master-Thesis primär?

Die Arbeit behandelt die grundlegenden technischen und konzeptionellen Anforderungen an die Entwicklung von Big-Data-Anwendungen, um massenhafte, heterogene Daten effektiv zu verarbeiten und rechtlich sicher zu nutzen.

Welche zentralen Themenfelder werden abgedeckt?

Die Schwerpunkte liegen auf der Speicherinfrastruktur, der Systemarchitektur (insbesondere der Lambda-Architektur), mathematischen Analyseverfahren und den rechtlichen Rahmenbedingungen beim Umgang mit personenbezogenen Daten.

Was ist das primäre Ziel der Forschungsarbeit?

Das Ziel ist die Erarbeitung von Grundbausteinen für Big-Data-Anwendungen sowie die Beantwortung der Frage, welche technischen und analytischen Aspekte für eine funktionale und rechtskonforme Anwendung zwingend notwendig sind.

Welche wissenschaftlichen Methoden finden Anwendung?

Die Arbeit nutzt eine Kombination aus Literaturrecherche, Internetquellen sowie einen konstruktiven Ansatz unter Verwendung der morphologischen Analyse zur Erarbeitung der Auslöser von Big Data.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die technologische Basis (Datenerzeugung, Speicherhaltung), die Architekturkonzepte (Lambda-Architektur), analytische Methoden (MapReduce) und eine detaillierte Prüfung der rechtlichen Grundlagen, inklusive Datenschutz und Privatsphäre.

Welche Schlüsselbegriffe charakterisieren die Arbeit?

Zentrale Begriffe sind Big Data, Lambda-Architektur, Hadoop, Datenqualität, Kausalität sowie die rechtlichen Konzepte wie Datenschutz-Grundverordnung (DSGVO) und Privacy by Design.

Warum ist die Lambda-Architektur zentral für die Arbeit?

Die Lambda-Architektur dient als theoretischer Rahmen, der sowohl Stapelverarbeitung (Batch-Layer) als auch Echtzeitverarbeitung (Speed-Layer) kombiniert, um die Anforderungen an Skalierbarkeit und geringe Latenzzeiten zu erfüllen.

Wie bewertet die Arbeit den Schutz der Privatsphäre bei Big Data?

Die Arbeit betont, dass Big-Data-Analysen oft in Konflikt mit dem deutschen Datenschutz (BDSG) stehen und fordert eine frühzeitige Implementierung von Datenschutzmaßnahmen mittels "Privacy by Design", da eine rein nachträgliche Sicherung oft unzureichend ist.

Ende der Leseprobe aus 67 Seiten - nach oben

Details

Titel: Entwicklung von Big-Data-Anwendungen. Aspekte der Datenerzeugung und Datenhaltung
Hochschule: FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, Dortmund früher Fachhochschule
Note: 1.7
Autor: Andrea Wist (Autor:in)
Erscheinungsjahr: 2021
Seiten: 67
Katalognummer: V1172134
ISBN (Buch): 9783346590466
Sprache: Deutsch
Schlagworte: Big Data
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 34,99
Preis (Book): US$ 48,99

Arbeit zitieren: Andrea Wist (Autor:in), 2021, Entwicklung von Big-Data-Anwendungen. Aspekte der Datenerzeugung und Datenhaltung, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/1172134