Studienarbeit, 2017
63 Seiten, Note: 1,2
A Einführung
A 1 Industrie 4.0 & die großen Daten
A 2 Problemstellung
A 3 Herangehensweise
A 4 Business-Intelligence-Infrastruktur: Data Warehouse und Data Marts
A 5 Definition Data Mining
B Data Mining Prozessmodelle
B 1 Daten-Wertschöpfungskette (Data Value Chain)
B 2 Knowledge Discovery in Databases (KDD)
B 3 Cross-Industry Standard Process for Data Mining - CRISP-DM
C Data Mining Verfahren und Methoden
C 1 Auffinden von Zusammenhängen
C 1.1 Klassifikationsverfahren
C 1.2 Prognosemodell
C 2 Auffinden von Regeln: Assoziationsverfahren
C 3 Auffinden von Strukturen: Clusterverfahren
C 3.1 Partitionierende Clusterbildung
C 3.2 Hierarchische Clusterbildung
C 3.3 Dichtebasierte Clusterbildung
C 4 Visualisierung von Datenräumen
D Vorstellung ausgewählter Data Mining Tools
D 1 Allgemeine Marktsituation
D 2 Auswahl von Data Mining Tools
D 2.1 KNIME Analytics Platform
D 2.2 IBM SPSS Modeler
D 2.3 Vergleich im Fallbeispiel
D 3 Bewertungsschema & Auswertung
E Zusammenfassung
Diese Studienarbeit zielt darauf ab, kleinen und mittleren Unternehmen (KMU) bei der Einführung und Integration von Data-Mining-Prozessen unterstützend zur Seite zu stehen, indem ein Überblick über theoretische Prozessmodelle, gängige Methoden sowie ein praxisorientierter Vergleich aktueller Softwarelösungen geboten wird.
C 3.1 Partitionierende Clusterbildung
Die partitionierende Clusterbildung hat das einfache Ziel eine Datenmenge in k Cluster zu zerlegen. Dabei handelt es sich im ein iteratives Verfahren, welches dann endet, wenn kein Objekt mehr einem anderen Cluster zugeordnet werden kann. Bei den entstehenden Clustern wird auch von disjunkten Clustern gesprochen, da jedes Cluster mindestens aus einem Objekt besteht und jedes Objekt maximal in einem Cluster enthalten ist.
Ein bekannter Algorithmus hierfür ist der k-Means-Algorithmus. Die Anzahl der Cluster ist bei diesem Algorithmus vorgegeben und nur die Zentren der jeweiligen Cluster werden zunächst zufällig festgelegt und dann iterativ verändert. Hierzu werden die Zentren der Cluster durch deren Schwerpunkte (Centroiden) beschrieben.
Im nächsten Schritt werden die Daten(-punkte) den jeweiligen Clustern mit den Abständen (z.B. durch die euklidische Distanz) zu den Centroiden zugeordnet. Dieser Ablauf setzt sich wie in Abbildung 11 fort, sodass in jedem Durchlauf eine neue Zuordnung und eine erneute Berechnung der Centroiden erfolgt. Das Verfahren endet, wenn kein Punkt mehr sein Cluster wechselt.
A Einführung: Das Kapitel erläutert die Bedeutung von Data Mining im Kontext von Industrie 4.0 und skizziert die spezifischen Herausforderungen, vor denen KMU bei der Digitalisierung stehen.
B Data Mining Prozessmodelle: Hier werden theoretische Frameworks wie die Data Value Chain, KDD und insbesondere der CRISP-DM-Standard als Leitfaden für Data-Mining-Projekte vorgestellt.
C Data Mining Verfahren und Methoden: Dieses Kapitel beschreibt technische Algorithmen zur Klassifikation, für Assoziationsregeln sowie verschiedene Ansätze der Clusterbildung und Visualisierung.
D Vorstellung ausgewählter Data Mining Tools: Der Hauptteil bietet eine Marktanalyse und einen detaillierten Vergleich von KNIME und IBM SPSS Modeler anhand eines praktischen Fallbeispiels sowie eines Bewertungsschemas.
E Zusammenfassung: Die Arbeit schließt mit einer Bilanz der Ergebnisse und spricht eine Empfehlung für den Einsatz der KNIME Analytics Platform in KMU aus.
Data Mining, KMU, Industrie 4.0, Business Intelligence, CRISP-DM, KNIME Analytics Platform, IBM SPSS Modeler, Klassifikation, Clusterbildung, Datenvorbereitung, Big Data, Prozessmodell, Predictive Analytics, Marktanalyse, Wirtschaftlichkeit.
Die Arbeit untersucht, wie KMU moderne Data-Mining-Methoden und Softwarelösungen nutzen können, um im Rahmen der Digitalisierung und Industrie 4.0 wettbewerbsfähig zu bleiben.
Zentrale Themen sind die theoretischen Grundlagen des Data Mining, verschiedene Prozessmodelle zur Datenanalyse sowie ein konkreter Vergleich zwischen zwei führenden Softwarelösungen.
Das Ziel ist es, KMU eine fundierte Entscheidungshilfe bei der Auswahl und Integration von Data-Mining-Tools zu bieten, da diese oft über limitierte Personalressourcen und Expertise verfügen.
Neben einer Literaturanalyse zur Theorie nutzt der Autor ein praktisches Fallbeispiel eines FCT-Datensatzes, um die Softwareanwendungen unter realistischen Bedingungen zu testen und ein Bewertungsschema zu entwickeln.
Der Hauptteil gliedert sich in die Vorstellung von Data-Mining-Algorithmen und eine detaillierte Softwareuntersuchung, bei der KNIME und IBM SPSS Modeler anhand von Funktionalität, Dokumentation und Kosten verglichen werden.
Die Arbeit ist geprägt durch Begriffe wie Wirtschaftlichkeit, KMU-spezifische IT-Herausforderungen, CRISP-DM und Software-Benchmarking.
Laut der Studie ist KNIME aufgrund der hohen Kosteneffektivität bei nahezu gleichwertiger technischer Leistungsfähigkeit im Vergleich zu IBM SPSS Modeler besonders für KMU empfehlenswert.
CRISP-DM dient als industrieller Standard für den gesamten Data-Mining-Prozess und wird sowohl theoretisch erläutert als auch in der praktischen Implementierung innerhalb der untersuchten Softwarelösungen analysiert.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

