Wissen finden & publizieren

Text

Einführung in den Einsatz von Data Mining

Diplomarbeit,  2003, 92 Seiten
Preis: 29,90 EUR (E-Book), 54,90 EUR (Buch)
Keine Kommentare, Kommentar schreiben

Details zum Text

Beschreibung

Veranstaltung:
Keine
Institution / Hochschule:
Autor:
Archivnummer:
V75722
ISBN (E-Book):
978-3-638-84976-0
ISBN (Buch):
978-3-638-84915-9
DOI:
10.3239/9783638849760
Dateigröße:
688 KB

Kategorie:
Diplomarbeit
Jahr:
2003
Seiten:
92
Bibliografie:
~ 16   Einträge
Note:
1,3
Sprache:
Deutsch

Schlagworte:

Zusammenfassung / Abstract

Diese Arbeit soll eine Einführung in den Einsatz von Data Mining bei der Störungsbeseitigung geben. Als Testobjekt wurde die Störungsdatenbank der SOLVAY Deutschland GmbH in Bernburg gewählt. Es soll geprüft werden, ob diese die Voraussetzungen für Data Mining – Analysen erfüllt und welche Ergebnisse erzielt werden können. Des Weiteren soll ein Ausblick auf weitere Möglichkeiten des Data Mining – Einsatzes gegeben werden. Das Interesse an Data Mining wurde durch ständig auftauchende Berichte, abgehaltene Konferenzen und Wettbewerbe geweckt. Wie z.B. durch den Artikel von Michael Gonzales, dem Geschäftsführer der „Focus Group, Ltd „ einer Unternehmensberatung, die sich auf Data Mining spezialisiert hat. In seinem Artikel beschreibt er die Notwendigkeit der Nutzung von Data Mining für die Bewältigung der Informationsflut und den daraus entstehenden Informationsvorsprung gegenüber anderen Unternehmen. Seiner Meinung ist die Bereitstellung der Daten durch ein Data Warehouse die wichtigste Voraussetzung für die Durchführung von Data Mining – Projekten, da 80% der benötigten Zeit für die Datenaufbereitung benötigt werden. Durch die richtige Vorbereitung der Daten können schneller Ergebnisse erzielt werden und diese für die Entscheidungsfindung genutzt werden.

Textauszug (computergeneriert)

Diplomarbeit

Einführung in den Einsatz von Data Mining bei der Störungsbeseitigung

von

Andre Hiller

Datum: 08.09.2003

 

 

Inhalt 

Abbildungsverzeichnis ...  4
Tabellenverzeichnis ...  5
Abkürzungsverzeichnis  ...  6

1. Zielstellung und Vorgehensweise ...  7

2. Grundlagen des Data Mining ...  9
2.1 Daten und Skalen  ...  9
2.2 Die Entwicklung der Datensammlung und –Auswertung  ...  11
2.2.1 Historische Entwicklung ...  11
2.2.2 Das Data Warehouse Konzept  ...  14
2.2.3 Definition von Data Mining und KDD ...  17

3. Vorgehensweise beim Data Mining ...  21
3.1 Analyse des Anwendungsgebietes  ...  21
3.2 Datenaufbereitung ...  25
3.3 Methoden der Datenanalyse ...  30
3.4 Datenpräsentation ...  33
3.5 Basismethoden des Data Mining  ...  34
3.6 Software  ...  40
3.6.1 Weka ...  41
3.6.2 SPSS 10 für Windows  ...  43
3.6.3 Clementine 7.0 ...  45

4. Solvay Soda Deutschland GmbH ...  47
4.1 Allgemeines  ...  47
4.2 Die Störungsdatenbank  ...  48

5. Durchführung des Data Mining  ...  50
5.1 Vermutete Zusammenhänge  ...  50
5.2 Auswahl der Analysemethoden und der Software  ...  52
5.4 Übernahme der Daten  ...  53
5.5 Die Attribute ...  54
5.6 Vorbereitung der Daten ...  56
5.7 Anwendung der Analysemethoden  ...  58
5.7.1 Deskriptive Statistiken ...  59
5.7.2 Vergleich der Zeitdauer mit anderen Attributen  ...  73
5.7.3 Kreuztabellen wichtiger Attribute  ...  77
5.7.4 Diskriminanzanalyse ...  

6. Fazit  ...  81

Anhang  ...  83
I. Störungsdaten (Tabellen mit Datenauszügen)  ...  83
II. Ergebnisse der Datenanalysen ...  86
III. Diagramme zu Abschnitt 5.7.3  ...  89

Literaturverzeichnis ...  91

 

 

1. Zielstellung und Vorgehensweise Zielstellung

Diese Arbeit soll eine Einführung in den Einsatz von Data Mining bei der Störungsbeseitigung geben. Als Testobjekt wurde die Störungsdatenbank der SOLVAY Deutschland GmbH in Bernburg gewählt. Es soll geprüft werden, ob diese die Voraussetzungen für Data Mining – Analysen erfüllt und welche Ergebnisse erzielt werden können. Des Weiteren soll ein Ausblick auf weitere Möglichkeiten des Data Mining – Einsatzes gegeben werden. Das Interesse an Data Mining wurde durch ständig auftauchende Berichte, abgehaltene Konferenzen und Wettbewerbe geweckt. Wie z.B. durch den Artikel von Michael Gonzales, dem Geschäftsführer der „Focus Group, Ltd „ einer Unternehmensberatung, die sich auf Data Mining spezialisiert hat.


“Today′s business intelligence solutions must grapple with the rising flood of data, both in terms of the number of records as well as their size. For example, not only do businesses keep information about existing customers, but more and more they also keep information about previous customers for win-back campaigns and about prospective customers for acquisition models. Many businesses are attempting to analyze incredibly detailed data, as well. Data mining is uniquely qualified to inspire informational insight from massive amounts of detailed data.”1

In seinem Artikel beschreibt er die Notwendigkeit der Nutzung von Data Mining für die Bewältigung der Informationsflut und den daraus entstehenden Informationsvorsprung gegenüber anderen Unternehmen. Seiner Meinung ist die Bereitstellung der Daten durch ein Data Warehouse die wichtigste Voraussetzung für die Durchführung von Data Mining – Projekten, da 80% der benötigten Zeit für die Datenaufbereitung benötigt werden. Durch die richtige Vorbereitung der Daten können schneller Ergebnisse erzielt werden und diese für die Entscheidungsfindung genutzt werden.

Vorgehensweise
Als Einführung in das Thema, werden im nächsten Kapitel die Grundlagen des Data Mining dargelegt. Dazu wird als erstes auf die Einordnung der Daten in die unterschiedlichen Skalen eingegangen und die historische Entwicklung von Data Mining wird geklärt. Danach wird das Data Warehouse als geeignete Grundlage für Data Mining vorgestellt und Data Mining im Zusammenhang mit dem KDD- Prozess definiert.

Im dritten Kapitel wird die Vorgehensweise beim Data Mining erläutert. Dazu werden alle Schritte von der Analyse des Anwendungsgebietes, über die Datenvorbereitung und die einzelnen Analysemethoden durchleuchtet. Es wird bei den Methoden allerdings nicht auf die mathematischen Einzelheiten eingegangen, da dies den Umfang der Arbeit sprengen würde. Am Schluss des Kapitels werden drei unterschiedliche Softwarelösungen gezeigt.

Im vierten Kapitel werden die Solvay GmbH und die Störungsdatenbank vorgestellt. Im fünften Kapitel wird die Durchführung des Data Mining dokumentiert. Dazu werden als erstes aufgestellte Vermutungen beschrieben. Danach wird die Vorgehensweise bei der Auswahl der Analysemethoden und der Software sowie bei der Datenübernahme gezeigt. Vor der Anwendung der Analysemethoden werden die Attribute und die Datenvorbereitung dargestellt.

Im letzten Kapitel werden die Ergebnisse der Arbeit zusammengefasst und weiterführende Möglichkeiten und dafür notwendige Voraussetzungen aufgezeigt.

2. Grundlagen des Data Mining

2.1 Daten und Skalen

Daten liegen in großen Mengen und auf vielfältigste Art und Weise in Unternehmen vor. Um aus Daten jedoch Informationen gewinnen zu können, müssen diese strukturiert und formatiert werden. Formatierte schriftliche Daten haben eine hierarchische Struktur und können stufenweise zu Einheiten, sog. Datenobjekten, zusammengefasst werden:1

Zeichen .. Datenfeld .. Datensatz .. Datei .. Datenbank Die unterste Stufe repräsentieren Zeichen, die als Menge den Zeichenvorrat bilden. Dies können Buchstaben, Ziffern oder Sonderzeichen sein, die schließlich Daten erzeugen. Daten wiederum sind Fakten, die keinen direkten Verwendungsbezug haben. Sie werden in der oben dargestellten Hierarchie auf Datenträgern gespeichert.2

Wissen kann erst aus diesen Daten entnommen werden, wenn der Benutzer durch unterschiedliche Analysemethoden zusätzliche Informationen generiert hat. Dies sind z.B. Häufigkeiten, der Mittelwert oder unterschiedliche Lageparameter. Um die Analysen durchführen zu können, muss sich der Anwender über die Merkmalsausprägung, und Skalierung der Daten im Klaren sein.

Als quantitative Merkmale bezeichnet man Merkmale, deren Merkmalsausprägungen Zahlen sind (z.B. Produktionshöhe oder Temperatur). Qualitativen Merkmale hingegen sind alle übrigen Merkmalsausprägungen (z.B. Kennzeichen, Schicht oder Mitarbeiter als Buchstabenangaben). Ersetzt man diese verbalen Ausdrücke durch Zahlen, so wird ein qualitatives formal zu einem quantitativen Merkmal.3

[....]


1 Gonzales(2003), Data Mining: A Call To Action

---

1 vgl. Hansen (1992): Wirtschaftsinformatik I, S. 110

2 ebenda, S. 110f

3 vgl. Bamberg, Baur (1998): Statistik, S. 5f

Kommentare

Keine Kommentare

Kommentar schreiben

Ihr Kommentar wird vor der Veröffentlichung redaktionell geprüft

Statistik

Dieses Diagramm zeigt die Besucher dieser Textvorschau (nicht die Verkäufe).

Gesamte Abrufe:

Neuigkeiten

Andre Hiller's Text Einführung in den Einsatz von Data Mining ist nun auf dem Buchmarkt erhältlich

09.11.2007 23:04:58

Andre Hiller hat den Text Einführung in den Einsatz von Data Mining veröffentlicht

05.11.2007 09:53:04

Andre Hiller hat einen neuen Text hochgeladen

14.06.2007 18:55:36

Einbetten

Kopieren Sie den folgenden Code, um die Flashansicht dieses Textes in Blogs oder Websites einzubetten.

Dieser Text kann über folgende URL aufgerufen und zitiert werden:

DOI

Ein DOI (Digital Object Identifier) ist eine Art ISBN für Texte im Internet, der garantiert, dass ein Text auch nach einer Änderung der Internet-Adresse immer gefunden werden kann. Unter http://www.doi.org/ können Sie nach DOIs recherchieren.

GRIN Newsfeed

Lade Inhalt...