Masterarbeit, 2012
98 Seiten, Note: 1.0
1 Einleitung
1.1 Motivation
1.2 Kurzbeschreibung
1.3 Abstract
2 Problemstellung
2.1 Ist-Zustand
2.1.1 Kurzbeschreibung
2.1.2 Funktionsübersicht
2.1.3 Komponenten
2.1.4 Infrastruktur, Kommunikation und Datenfluss
2.2 Problembeschreibung und Anforderungen
2.2.1 Reliability, Availability und Serviceability (RAS)
2.2.2 Ressourcenverbrauch
2.2.3 Performance und Skalierung
2.2.4 Funktionsumfang und Komplexität der Auswertung
2.3 Zielsetzung
3 Grundlagen
3.1 ETL-Prozess
3.2 PHP Data Objects (PDO)
3.3 Thrift
3.4 Apache Hadoop
3.4.1 Hadoop Distributed File System (HDFS)
3.4.2 HBase
3.4.3 MapReduce
3.4.4 Hive
4 Systementwurf
4.1 Infrastruktur
4.2 Komponenten
4.2.1 Hadoop Daten-Import
4.2.2 Hadoop Daten-Export
4.2.3 Monitoring
4.3 Datenstruktur
4.3.1 HBase
4.3.2 Hive
5 Implementierung
5.1 PHP-Hadoop Framework
5.1.1 Thrift-Clients
5.1.2 PHP Data Object (PDO)
5.1.3 Plug-in-Interfaces
5.1.4 Tests
5.1.5 Commandline-Tool
5.1.6 Programmfluss
5.2 Monitoring-Dienst
6 Evaluation
6.1 Testumgebung
6.2 Test-Szenario
6.2.1 Daten-Import
6.2.2 Statistik-Abfragen
6.2.3 Ressourcenverbrauch
6.2.4 Hive und HBase Vergleich
6.3 Ergebnis
6.3.1 Statistik-Abfrage
6.3.2 Ressourcenverbrauch
6.3.3 Hive und HBase Vergleich
7 Fazit
7.1 Ergebnis
7.2 Ausblick
7.3 Epilog
A Anhang
A.1 Parameter des Commandline-Tools
Die Arbeit untersucht die Migration einer bestehenden, auf MySQL basierenden Monitoring- und Data-Warehouse-Lösung auf das Hadoop-Ökosystem, um die durch wachsende Datenmengen bedingten Performance- und Skalierungsprobleme zu beheben. Die Forschungsfrage fokussiert sich darauf, wie Hadoop-Komponenten das bisherige System ersetzen können, um eine verbesserte Skalierbarkeit, Ausfallsicherheit und effizientere Datenverarbeitung zu gewährleisten.
1.1 Motivation
Im Internet etwas suchen oder mal schnell eine Nachricht an Freunde senden, diese Dinge sind für uns alltäglich geworden. Das Internet ist allgegenwärtig für jedermann. Jeder ist online, in sozialen Netzwerken aktiv, gibt permanent Informationen zum Befinden, über Aufenthaltsorte und Aktivitäten preis. Riesige Freundeskreise konsumieren, verbreiten und kommentieren diese Informationen. Ständig wird dadurch eine unglaubliche Datenmenge produziert.
Im Internet omnipräsente Unternehmen und Betreiber von sozialen Netzwerken sind Google und Facebook. Google versucht das komplette Internet auszuwerten und besitzt hierzu einen fast 100 Millionen Gigabyte großen Index, in den jeden Tag hundert tausende Gigabytes hinzugefügt werden [Inc10]. Bei Facebook werden in jeder Sekunde mehr als 50 000 Sofortnachrichten verschickt [Gra11] und das Speichern der Profile und Aktivitäten der Weltbevölkerung erstrebt.
Doch wie viele Daten sind überhaupt in der Welt vorhanden und wie viele Informationen lassen sich daraus gewinnen?
Die höchste bekannte Datendichte findet man in der DNA mit 0, 94 × 1018 Buchstaben pro mm3 [Git06]. Damit könnte man den Inhalt der Bibel auf der große eines Stecknadel Kopfes ungefähr 788 Milliarden Mal speichern. Das menschliche Genom besteht aus ungefähr 3 × 109 Buchstaben, dies entspricht ca. drei Gigabyte an Daten. Diese Zahl wirkt erstaunlich klein, wenn man bedenkt, dass sich dahinter der komplette Bauplan eines Menschen verbirgt.
1 Einleitung: Beschreibt die zunehmende Bedeutung von großen Datenmengen und motiviert die Notwendigkeit für effizientere Systeme zur Datenverarbeitung.
2 Problemstellung: Analysiert den Ist-Zustand des MySQL-basierten Systems und leitet daraus die Anforderungen an eine neue, skalierbare Lösung ab.
3 Grundlagen: Erläutert die relevanten Technologien wie ETL-Prozesse, Thrift, Hadoop, HDFS, HBase, MapReduce und Hive für das Verständnis der Arbeit.
4 Systementwurf: Entwirft die neue Server-Infrastruktur sowie die Datenstrukturen unter Verwendung von Hadoop-Komponenten.
5 Implementierung: Dokumentiert die technische Umsetzung des PHP-Hadoop-Frameworks sowie des Monitoring-Dienstes.
6 Evaluation: Validiert die Performance und Skalierbarkeit des neuen Systems mittels umfangreicher Benchmarks im Hadoop-Cluster.
7 Fazit: Fasst die Ergebnisse zusammen und gibt einen Ausblick auf mögliche zukünftige Entwicklungen und Verbesserungen.
Hadoop, HBase, Hive, Data-Warehouse, MySQL, PHP-Framework, Big Data, Migration, Skalierbarkeit, MapReduce, Performance-Analyse, Monitoring, Datenspeicherung, ETL-Prozess, Benchmarking
Die Arbeit befasst sich mit der Migration einer leistungsschwachen MySQL-Monitoring- und Data-Warehouse-Lösung auf das Hadoop-Ökosystem, um mit steigenden Datenmengen besser umgehen zu können.
Die zentralen Themen sind der Entwurf einer skalierbaren Architektur auf Basis von Hadoop, die Implementierung von Schnittstellen in PHP und die Leistungsbewertung der Migration durch Benchmarks.
Das Hauptziel ist die Entwicklung eines Systems, das große Datenmengen performant verarbeiten kann, linear skalierbar ist und die bisherige Funktionalität der Überwachung und Statistik-Erstellung beibehält.
Es wird ein experimenteller Ansatz gewählt, bei dem zunächst das System konzipiert und implementiert wird, gefolgt von einer detaillierten Evaluation der Performance und des Ressourcenverbrauchs.
Der Hauptteil gliedert sich in die Problembeschreibung, die technischen Grundlagen, den Systementwurf, die Implementierung des Frameworks und die umfassende Evaluation der Ergebnisse.
Hadoop, HBase, Hive, Big Data, Skalierbarkeit, Monitoring und PHP sind prägende Begriffe dieser Arbeit.
Das bestehende MySQL-System stieß bei wachsenden Datenmengen an Grenzen hinsichtlich der Abfrageperformance und horizontalen Skalierbarkeit, die durch Hadoop-Dienste wie HDFS und HBase überwunden werden.
Da der Primär-Schlüssel einen sequenziellen Charakter durch einen invertierten Zeitstempel aufweist, arbeitet das Auto-Sharding nicht volleffektiv, was zu einer stellenweise inhomogenen Lastverteilung führt.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

