Masterarbeit, 2021
67 Seiten, Note: 1.7
1 Die Bedeutung von Big Data
1.1 Motivation und Ziel der Arbeit
1.2 Methodischer Aufbau der Arbeit
2 Aspekte der Datenerzeugung und Datenhaltung
2.1 Daten und Informationen
2.1.1 Strukturierte Daten
2.1.2 Unstrukturierte Daten
2.1.3 Datenklassen
2.2 Speichermedien und Datenhaltungssysteme
2.2.1 Speicherkapazität
2.2.2 Computer Cluster
2.2.3 Datenbanksysteme
3 Anforderungen an Big-Data-Anwendungen
3.1 Die 5 V’s
3.1.1 Volume
3.1.2 Veracity
3.1.3 Variety
3.1.4 Velocity
3.1.5 Value
3.2 Notwendige Eigenschaften jeder Anwendung
3.2.1 Allgemeingültigkeit
3.2.2 Belastbarkeit
3.2.3 Skalierbarkeit und Erweiterbarkeit
3.2.4 Fehlertoleranz
3.2.5 Lesen und Aktualisieren mit geringen Latenzzeiten
3.2.6 Ad-hoc-Abfragen und Echtzeitauswertungen
4 Umsetzung von Big-Data-Anwendungen
4.1 Lambda-Architektur
4.1.1 Batch-Layer
4.1.2 Serving-Layer
4.1.3 Speed-Layer
4.2 Datenspeicherung
4.2.1 Rohdaten werden zu Stammdaten
4.2.2 Stammdaten speichern
4.2.3 Datenverteilung
4.3 Big-Data-Analysen
4.3.1 MapReduce Algorithmus
4.3.2 Korrelation und Kausalität
4.3.3 Marktforschung
4.3.4 Verkehrssteuerung
4.3.5 Big Data in der Medizin
4.4 Rechtliche Grundlagen
4.4.1 Privatsphäre
4.4.2 Zweckbindung der Daten
4.4.3 Datensparsamkeit
4.4.4 Social Media Analysen
5 Kernbausteine von Big-Data-Anwendungen
5.1 Technische Notwendigkeiten
5.1.1 Skalierbare Datenverarbeitung
5.1.2 Redundante Datenhaltung
5.1.3 Daten sind unveränderlich
5.1.4 Parallelisierung der Operation
5.1.5 Optimierung der Datenstrukturen
5.2 Konzeptionelle Notwendigkeiten
5.2.1 Datenqualität
5.2.2 Zusammenhänge richtig deuten
5.2.3 Privacy by Design
6 Zusammenfassung und Ausblick
6.1 Zusammenfassung
6.2 Ausblick
Die vorliegende Master-Thesis untersucht die notwendigen technologischen sowie konzeptionellen Anforderungen an moderne Big-Data-Anwendungen. Das zentrale Forschungsziel besteht darin, die essenziellen Grundbausteine zu identifizieren, die für eine effiziente, skalierbare und rechtskonforme Verarbeitung massiver, heterogener Datenmengen erforderlich sind, um aus diesen wertvolle Informationen und Erkenntnisse zu generieren.
4.1.1 Batch-Layer
Aus Gründen der Zeit- und Ressourcenersparnis nutzt die Lambda-Architektur die Erstellung des sogenannten Batch-View. Dieser ist eine Vorabberechnung der eigentlichen Abfragefunktion. Die Variablen ZBatch steht für das Abfrageergebnis und wird ebenfalls durch eine Funktion, die auf sämtliche Daten zugreift, erzeugt. Als Batch-View Gleichung ergibt sich:
ZBatch = f(XDaten) f(ZBatch) ∈ XDaten (2)
Nun liegen vorab berechnetet Ergebnisse im Batch-View vor. Bei einer Anfrage ist es somit nicht mehr notwendig, das gewünschte Ergebnis im laufenden Betrieb zu berechnen, sondern es kann aus dem vorab berechneten Batch-View entnommen werden. Für die Abfrage YAb f rage entsteht dadurch eine neue Gleichung, die nicht mehr auf alle Daten, sondern nur auf den Batch-View ZBatch zugreift:
YAb f rage = f(ZBatch) f(YAb f rage) ∈ ZBatch (3)
Diese Abfrage ist wiederum indiziert, sodass wahlfrei lesend darauf zugegriffen werden kann.95 Zusammenfassend wird also einmal die Funktion f(XDaten) mit sämtlichen Daten ausgeführt, um die Batch-View ZBatch zu erhalten. Wenn ein konkretes Ergebnis gesucht wird und eine Abfrage YAb f rage ausgeführt, kommt die Funktion f(ZBatch) mit dem Batch-View zum Einsatz. Sie kann die angefragten Werte sehr schnell zur Verfügung stellen, ohne erst sämtliche Werte zu durchsuchen und berechnen zu müssen.
1 Die Bedeutung von Big Data: Einleitung in die Thematik von Big Data mit Fokus auf Datenmengenwachstum und der Notwendigkeit einer zielgerichteten Datennutzung zur Wertschöpfung.
2 Aspekte der Datenerzeugung und Datenhaltung: Untersuchung von Datentypen, Speicherkategorien, der Rolle von Computer-Clustern und der Limitierungen klassischer Datenbanksysteme.
3 Anforderungen an Big-Data-Anwendungen: Detaillierte Betrachtung der 5 V's und Ableitung notwendiger systemischer Eigenschaften wie Belastbarkeit, Skalierbarkeit und Fehlertoleranz.
4 Umsetzung von Big-Data-Anwendungen: Beschreibung der Lambda-Architektur, Datenspeicherung mittels Hadoop/HDFS, Big-Data-Analysen inklusive MapReduce sowie eine Analyse der rechtlichen Grundlagen.
5 Kernbausteine von Big-Data-Anwendungen: Synthese der technischen Anforderungen an die Datenverarbeitung und die konzeptionelle Bedeutung von Datenqualität und Privacy by Design.
6 Zusammenfassung und Ausblick: Retrospektive der erarbeiteten Aspekte und Einschätzung zukünftiger Entwicklungen in Bezug auf Big-Data-Anwendungen in Gesellschaft und Wirtschaft.
Big Data, Lambda-Architektur, Hadoop, HDFS, Batch-Layer, Speed-Layer, MapReduce, Datenqualität, Korrelation, Kausalität, Datenschutz, DSGVO, Datensparsamkeit, Privacy by Design, NoSQL.
Die Arbeit behandelt die grundlegenden technischen und konzeptionellen Anforderungen an die Entwicklung von Big-Data-Anwendungen, um massenhafte, heterogene Daten effektiv zu verarbeiten und rechtlich sicher zu nutzen.
Die Schwerpunkte liegen auf der Speicherinfrastruktur, der Systemarchitektur (insbesondere der Lambda-Architektur), mathematischen Analyseverfahren und den rechtlichen Rahmenbedingungen beim Umgang mit personenbezogenen Daten.
Das Ziel ist die Erarbeitung von Grundbausteinen für Big-Data-Anwendungen sowie die Beantwortung der Frage, welche technischen und analytischen Aspekte für eine funktionale und rechtskonforme Anwendung zwingend notwendig sind.
Die Arbeit nutzt eine Kombination aus Literaturrecherche, Internetquellen sowie einen konstruktiven Ansatz unter Verwendung der morphologischen Analyse zur Erarbeitung der Auslöser von Big Data.
Der Hauptteil gliedert sich in die technologische Basis (Datenerzeugung, Speicherhaltung), die Architekturkonzepte (Lambda-Architektur), analytische Methoden (MapReduce) und eine detaillierte Prüfung der rechtlichen Grundlagen, inklusive Datenschutz und Privatsphäre.
Zentrale Begriffe sind Big Data, Lambda-Architektur, Hadoop, Datenqualität, Kausalität sowie die rechtlichen Konzepte wie Datenschutz-Grundverordnung (DSGVO) und Privacy by Design.
Die Lambda-Architektur dient als theoretischer Rahmen, der sowohl Stapelverarbeitung (Batch-Layer) als auch Echtzeitverarbeitung (Speed-Layer) kombiniert, um die Anforderungen an Skalierbarkeit und geringe Latenzzeiten zu erfüllen.
Die Arbeit betont, dass Big-Data-Analysen oft in Konflikt mit dem deutschen Datenschutz (BDSG) stehen und fordert eine frühzeitige Implementierung von Datenschutzmaßnahmen mittels "Privacy by Design", da eine rein nachträgliche Sicherung oft unzureichend ist.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

