Data Mining - Theorie und praktische Anwendungen

Bachelorarbeit, 2009
49 Seiten, Note: 1,0

BWL - Allgemeines

Leseprobe

Inhaltsverzeichnis

1 Was ist Data Mining ?

1.1 Gründe für die Verbreitung des Data Minings

1.2 Anwendungsgebiete

1.2.1 Der Supermarkt als Informationsbroker

1.2.2 ‚Das könnte Sie interessieren!’ Empfehlungen als direktes Marketing

1.2.3 Gute und Schlechte Kunden

2 Ablauf des Data Mining Prozesses

2.1 CRISP-Data Mining

2.1.1 Business Understanding

2.1.2 Data Understanding

2.1.3 Data Preparation

2.1.4 Modeling

2.1.5 Evaluation

2.1.6 Deployment

3 Methoden des Data Mining

3.1.1 Klassifikation

3.1.2 Segmentierung

3.1.3 Prognose

3.1.4 Korrelationsanalysen

3.1.5 Abweichungsanalyse

4 Die Wichtigsten Techniken des Data Minings

4.1 Decision Trees

4.2 Clustering

4.2.1 K-Means

4.3 Neuronale Netze

5 Data Mining Tools

6 Implementierung

6.1 Data Understanding

6.1.1 Forstbestand

6.1.2 Gasthaus

6.1.3 Brustkrebsuntersuchung

6.2 Data Preparation

6.2.1 Forstbestand

6.2.2 Gasthaus

6.2.3 Brustkrebsuntersuchung

6.3 Modeling

6.3.1 Forstbestand

6.3.2 Gasthaus

6.3.3 Brustkrebsuntersuchung

6.4 Evaluation

6.4.1 Forstbestand

6.4.2 Gasthaus

6.4.3 Brustkrebsuntersuchung

6.5 Deployment

7 Open Source Programme

7.1 WEKA

7.1.1 Modeling mit WEKA

7.1.2 Rapid Miner

7.1.3 Vergleich

8 Aussicht

Zielsetzung & Themen

Die Arbeit untersucht den systematischen Prozess des Data Minings, um aus großen Datenmengen durch Methoden wie Klassifikation, Segmentierung und Prognose wertvolles Wissen für strategische Entscheidungen zu generieren. Dabei wird der Fokus auf die praktische Anwendung und Implementierung mittels Open-Source-Tools gelegt.

Grundlagen und Definition des Data-Mining-Prozesses (CRISP-DM)
Anwendung von Klassifikations- und Clustering-Techniken
Praktische Implementierung an Datensätzen aus den Bereichen Forstwirtschaft, Gastronomie und Medizin
Vergleich und Evaluation von Open-Source-Data-Mining-Tools (WEKA und Rapid Miner)

Auszug aus dem Buch

4.1 Decision Trees

Decision Trees oder auch zu Deutsch Entscheidungsbäume ist eine einfache jedoch gut funktionierende Technik, durch das eine Klassifizierung und eine Prognostizierung sehr gut graphisch dargestellt werden kann (wie zu sehen in Abb. 5)

Der zweite Grund Decision Trees anzuwenden ist dass nicht nur als Ergebnis eine Klassifizierung, sondern auch die ‚Rules’, die Regeln nach der die Klassifizierung durchgeführt wurde, ausgegeben werden (Was bei Klassifikation nach neuronalen Netzen nicht der Fall ist). Dies ist essentiell bei Versicherungen, da diese verpflichtet sind den Grund für die Einteilung ihrer Kunden in verschiedenen Stufen offen zu legen. Banken können auch begründen, warum sie einem Kunden einen Kredit nicht gewähren.(z.B. Einkommen zu niedrig für die Höhe des Kredits)

Decision Trees unterteilen eine große Gruppe heterogener Objekte in kleinere, homogenere Klassen, welche ähnliche Eigenschaften aufweisen. Wie z.B. die Aufteilung der Tierwelt in Klasse, Ordnung, Familie, Gattung und Spezies. Die Regeln für die Unterteilung sind Nachvollziehbar, z.B. nach Klassen mit unterschiedlichen Eigenschaften: Säugetiere, Vögel, Reptilien, Fische, Insekten und Würmer.

Die Unterteilung findet wie folgt statt:

• Jede Variable wird einzeln hergenommen und die Genauigkeit der Teilung die durch die einzelnen Ausprägung dieser einzelnen Variable hervorgeht wird gemessen.

• Dies wird mit allen Variablen einzeln gemacht

• Die Variable die die beste, bzw. genaueste Aufteilung her gibt, wird für die erste Aufteilung genommen, d.h. aus der Gesamtmasse entstehen 2 oder mehrere Teilmassen.

• Dieser Prozess wiederholt sich solange bis keine Aufteilung mehr gemacht werden kann (auch schon verwendete Variablen werden noch mal untersucht), da entweder die Menge an Objekten zu klein wird, oder keine Aufteilung mehr einen Sinn ergibt, da sich die entstehenden Teilmassen kaum unterscheiden würden.

• Der Decision Tree wird dann ausgegeben und die Regeln können nachvollzogen werden.

Zusammenfassung der Kapitel

1 Was ist Data Mining ?: Definiert Data Mining als einen kreativen Prozess zur Gewinnung von Wissen aus Daten und erläutert dessen zunehmende Bedeutung für Unternehmen.

2 Ablauf des Data Mining Prozesses: Beschreibt das CRISP-DM Modell als dynamischen Standard für die Phasen des Data Mining.

3 Methoden des Data Mining: Gibt einen Überblick über grundlegende Techniken wie Klassifikation, Segmentierung, Prognose, Korrelations- und Abweichungsanalysen.

4 Die Wichtigsten Techniken des Data Minings: Vertieft das Verständnis von Decision Trees, Clustering (K-Means) und Neuronalen Netzen als Kernverfahren.

5 Data Mining Tools: Bietet einen Überblick über den Markt kommerzieller und Open-Source-Werkzeuge.

6 Implementierung: Dokumentiert die praktische Analyse von drei unterschiedlichen Datensätzen (Forst, Gastronomie, Medizin) zur Demonstration der Methoden.

7 Open Source Programme: Vergleicht WEKA und Rapid Miner hinsichtlich ihrer Funktionalität und Anwendung.

8 Aussicht: Unterstreicht die Notwendigkeit von intelligentem Data Mining zur Bewältigung stetig wachsender Datenmengen für strategische Entscheidungen.

Schlüsselwörter

Data Mining, CRISP-DM, Klassifikation, Clustering, Decision Trees, Neuronale Netze, Prognose, Warenkorbanalyse, WEKA, Rapid Miner, Knowledge Discovery, Kundenprofiling, Business Intelligence, Datenauswertung, Modellierung.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit behandelt die Theorie und die praktische Anwendung von Data-Mining-Methoden, um aus komplexen Rohdaten wertvolle Informationen und Erkenntnisse für betriebswirtschaftliche und andere Kontexte zu gewinnen.

Was sind die zentralen Themenfelder der Arbeit?

Im Zentrum stehen der Data-Mining-Prozess (CRISP-DM), gängige Methoden wie Klassifikation und Clustering sowie der praktische Einsatz von Data-Mining-Tools wie WEKA und Rapid Miner.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist es, den Nutzen von Data Mining zu veranschaulichen, indem theoretische Grundlagen direkt mit konkreten praktischen Umsetzungen an verschiedenen realen Datensätzen verknüpft werden.

Welche wissenschaftlichen Methoden werden verwendet?

Es werden verschiedene Data-Mining-Algorithmen und Techniken wie Entscheidungsbäume (Decision Trees), K-Means-Clustering und Neuronale Netze angewendet und deren Ergebnisse evaluiert.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die theoretische Einführung des Prozesses, die Erläuterung der Methoden, eine detaillierte Implementierungsphase mit Fallbeispielen aus Forstwirtschaft, Gastronomie und Medizin sowie einen Werkzeugvergleich.

Welche Schlüsselwörter charakterisieren die Arbeit?

Wesentliche Begriffe sind Data Mining, CRISP-DM, Klassifikation, Clustering, Decision Trees, Business Intelligence sowie der praktische Vergleich von Open-Source-Tools.

Wie hilft Data Mining konkret bei der Klassifizierung von medizinischen Daten?

Anhand der Brustkrebsuntersuchungen des Clinical Service Centers wird gezeigt, dass durch eine J48-Decision-Tree-Analyse Tumore mit einer Genauigkeit von über 99 % klassifiziert werden können.

Welche Vorteile bietet der Vergleich zwischen WEKA und Rapid Miner?

Die Arbeit zeigt, dass WEKA durch eine einfache Integration in andere Software besticht, während Rapid Miner eine exzellente Visualisierung und benutzerfreundliche Data-Preparation-Tools bietet.

Ende der Leseprobe aus 49 Seiten - nach oben

Details

Titel: Data Mining - Theorie und praktische Anwendungen
Hochschule: Universität Wien (Wirtschaftsinformatik)
Veranstaltung: Business Intelligence
Note: 1,0
Autor: Carl-Niklas Wentzel (Autor:in)
Erscheinungsjahr: 2009
Seiten: 49
Katalognummer: V122056
ISBN (eBook): 9783640268863
Dateigröße: 3050 KB
Sprache: Deutsch
Anmerkungen: Pros: Presentation: Very good presentation and example(s), High efforts spent into thesis and understanding of topic, Good presentation of complex topic to the audience. General Remarks: Very good overall quality of the presentation and final thesis. Especially the work spent into the different examples.
Schlagworte: Data Mining WEKA Rapid Miner knowledge discovery Data Mining datenbank warehousing wirtschaftsinformatik e-business business intelligence
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 21,99

Arbeit zitieren: Carl-Niklas Wentzel (Autor:in), 2009, Data Mining - Theorie und praktische Anwendungen, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/122056