Bachelorarbeit, 2009
49 Seiten, Note: 1,0
1 Was ist Data Mining ?
1.1 Gründe für die Verbreitung des Data Minings
1.2 Anwendungsgebiete
1.2.1 Der Supermarkt als Informationsbroker
1.2.2 ‚Das könnte Sie interessieren!’ Empfehlungen als direktes Marketing
1.2.3 Gute und Schlechte Kunden
2 Ablauf des Data Mining Prozesses
2.1 CRISP-Data Mining
2.1.1 Business Understanding
2.1.2 Data Understanding
2.1.3 Data Preparation
2.1.4 Modeling
2.1.5 Evaluation
2.1.6 Deployment
3 Methoden des Data Mining
3.1.1 Klassifikation
3.1.2 Segmentierung
3.1.3 Prognose
3.1.4 Korrelationsanalysen
3.1.5 Abweichungsanalyse
4 Die Wichtigsten Techniken des Data Minings
4.1 Decision Trees
4.2 Clustering
4.2.1 K-Means
4.3 Neuronale Netze
5 Data Mining Tools
6 Implementierung
6.1 Data Understanding
6.1.1 Forstbestand
6.1.2 Gasthaus
6.1.3 Brustkrebsuntersuchung
6.2 Data Preparation
6.2.1 Forstbestand
6.2.2 Gasthaus
6.2.3 Brustkrebsuntersuchung
6.3 Modeling
6.3.1 Forstbestand
6.3.2 Gasthaus
6.3.3 Brustkrebsuntersuchung
6.4 Evaluation
6.4.1 Forstbestand
6.4.2 Gasthaus
6.4.3 Brustkrebsuntersuchung
6.5 Deployment
7 Open Source Programme
7.1 WEKA
7.1.1 Modeling mit WEKA
7.1.2 Rapid Miner
7.1.3 Vergleich
8 Aussicht
Die Arbeit untersucht den systematischen Prozess des Data Minings, um aus großen Datenmengen durch Methoden wie Klassifikation, Segmentierung und Prognose wertvolles Wissen für strategische Entscheidungen zu generieren. Dabei wird der Fokus auf die praktische Anwendung und Implementierung mittels Open-Source-Tools gelegt.
4.1 Decision Trees
Decision Trees oder auch zu Deutsch Entscheidungsbäume ist eine einfache jedoch gut funktionierende Technik, durch das eine Klassifizierung und eine Prognostizierung sehr gut graphisch dargestellt werden kann (wie zu sehen in Abb. 5)
Der zweite Grund Decision Trees anzuwenden ist dass nicht nur als Ergebnis eine Klassifizierung, sondern auch die ‚Rules’, die Regeln nach der die Klassifizierung durchgeführt wurde, ausgegeben werden (Was bei Klassifikation nach neuronalen Netzen nicht der Fall ist). Dies ist essentiell bei Versicherungen, da diese verpflichtet sind den Grund für die Einteilung ihrer Kunden in verschiedenen Stufen offen zu legen. Banken können auch begründen, warum sie einem Kunden einen Kredit nicht gewähren.(z.B. Einkommen zu niedrig für die Höhe des Kredits)
Decision Trees unterteilen eine große Gruppe heterogener Objekte in kleinere, homogenere Klassen, welche ähnliche Eigenschaften aufweisen. Wie z.B. die Aufteilung der Tierwelt in Klasse, Ordnung, Familie, Gattung und Spezies. Die Regeln für die Unterteilung sind Nachvollziehbar, z.B. nach Klassen mit unterschiedlichen Eigenschaften: Säugetiere, Vögel, Reptilien, Fische, Insekten und Würmer.
Die Unterteilung findet wie folgt statt:
• Jede Variable wird einzeln hergenommen und die Genauigkeit der Teilung die durch die einzelnen Ausprägung dieser einzelnen Variable hervorgeht wird gemessen.
• Dies wird mit allen Variablen einzeln gemacht
• Die Variable die die beste, bzw. genaueste Aufteilung her gibt, wird für die erste Aufteilung genommen, d.h. aus der Gesamtmasse entstehen 2 oder mehrere Teilmassen.
• Dieser Prozess wiederholt sich solange bis keine Aufteilung mehr gemacht werden kann (auch schon verwendete Variablen werden noch mal untersucht), da entweder die Menge an Objekten zu klein wird, oder keine Aufteilung mehr einen Sinn ergibt, da sich die entstehenden Teilmassen kaum unterscheiden würden.
• Der Decision Tree wird dann ausgegeben und die Regeln können nachvollzogen werden.
1 Was ist Data Mining ?: Definiert Data Mining als einen kreativen Prozess zur Gewinnung von Wissen aus Daten und erläutert dessen zunehmende Bedeutung für Unternehmen.
2 Ablauf des Data Mining Prozesses: Beschreibt das CRISP-DM Modell als dynamischen Standard für die Phasen des Data Mining.
3 Methoden des Data Mining: Gibt einen Überblick über grundlegende Techniken wie Klassifikation, Segmentierung, Prognose, Korrelations- und Abweichungsanalysen.
4 Die Wichtigsten Techniken des Data Minings: Vertieft das Verständnis von Decision Trees, Clustering (K-Means) und Neuronalen Netzen als Kernverfahren.
5 Data Mining Tools: Bietet einen Überblick über den Markt kommerzieller und Open-Source-Werkzeuge.
6 Implementierung: Dokumentiert die praktische Analyse von drei unterschiedlichen Datensätzen (Forst, Gastronomie, Medizin) zur Demonstration der Methoden.
7 Open Source Programme: Vergleicht WEKA und Rapid Miner hinsichtlich ihrer Funktionalität und Anwendung.
8 Aussicht: Unterstreicht die Notwendigkeit von intelligentem Data Mining zur Bewältigung stetig wachsender Datenmengen für strategische Entscheidungen.
Data Mining, CRISP-DM, Klassifikation, Clustering, Decision Trees, Neuronale Netze, Prognose, Warenkorbanalyse, WEKA, Rapid Miner, Knowledge Discovery, Kundenprofiling, Business Intelligence, Datenauswertung, Modellierung.
Die Arbeit behandelt die Theorie und die praktische Anwendung von Data-Mining-Methoden, um aus komplexen Rohdaten wertvolle Informationen und Erkenntnisse für betriebswirtschaftliche und andere Kontexte zu gewinnen.
Im Zentrum stehen der Data-Mining-Prozess (CRISP-DM), gängige Methoden wie Klassifikation und Clustering sowie der praktische Einsatz von Data-Mining-Tools wie WEKA und Rapid Miner.
Das Ziel ist es, den Nutzen von Data Mining zu veranschaulichen, indem theoretische Grundlagen direkt mit konkreten praktischen Umsetzungen an verschiedenen realen Datensätzen verknüpft werden.
Es werden verschiedene Data-Mining-Algorithmen und Techniken wie Entscheidungsbäume (Decision Trees), K-Means-Clustering und Neuronale Netze angewendet und deren Ergebnisse evaluiert.
Der Hauptteil gliedert sich in die theoretische Einführung des Prozesses, die Erläuterung der Methoden, eine detaillierte Implementierungsphase mit Fallbeispielen aus Forstwirtschaft, Gastronomie und Medizin sowie einen Werkzeugvergleich.
Wesentliche Begriffe sind Data Mining, CRISP-DM, Klassifikation, Clustering, Decision Trees, Business Intelligence sowie der praktische Vergleich von Open-Source-Tools.
Anhand der Brustkrebsuntersuchungen des Clinical Service Centers wird gezeigt, dass durch eine J48-Decision-Tree-Analyse Tumore mit einer Genauigkeit von über 99 % klassifiziert werden können.
Die Arbeit zeigt, dass WEKA durch eine einfache Integration in andere Software besticht, während Rapid Miner eine exzellente Visualisierung und benutzerfreundliche Data-Preparation-Tools bietet.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

