Bachelorarbeit, 2008
136 Seiten, Note: 1,0
1. Einleitung
1.1 Data Mining
1.2 Simulation
1.3 Zusammenführung und Ziele
2. Simulation
2.1 Definitionen
2.1.1 Definition System
2.1.2 Definition Modell/Modellierung
2.1.3 Definition Simulation
2.2 Aufgabenfelder/Anwendungsbereiche
2.2.1 Vor- und Nachteile der Simulation
2.2.1.1 Vorteile der Simulation
2.2.1.2 Nachteile der Simulation
2.2.2 Simulationsarten
2.2.2.1 Kontinuierliche Simulation
2.2.2.2 Diskrete Simulation
2.2.2.3 Monte Carlo Simulation
2.3 James II
2.3.1 Hintergrund
2.3.2 Ziele
2.3.3 Einordnung und Entwicklungen
2.3.4 Entwicklungsstand
3. Data Mining
3.1. Definition
3.2 Ziel(e) des Data Mining
3.3 Data Mining als Prozess
3.4 Grundlegende Methoden
3.4.1 Klassenbildung
3.4.2 Assoziationen
3.4.3 Klassifizierung
3.4.4 Zeitreihenanalyse
3.5 Optimierung von Data Mining-Modellen und genetische Algorithmen
3.6. Einsatz von Data Mining in der Simulation
4. Vergleichskriterien
4.1 Evaluation der Analysearten
4.1.1 Klassenbildung
4.1.2 Assoziationen
4.1.3 Klassifizierung
4.1.4 Zeitreihenanalyse
4.2 Klassifizierung von Data Mining-Werkzeugen
4.2.1 Erweiterungen von DBMS
4.2.2 Data Mining-Suiten
4.2.3 Eigenständige Data Mining-Tools
4.3 Bewertung der Data Mining-Werkzeuge
4.3.1 Generelle Eigenschaften
4.3.2 Datenbankanbindung
4.3.3 Data Mining-Aufgaben
4.3.4 Data Mining-Algorithmen
4.4 Nutzung von Data Mining in konkreten Simulationsaufgaben
5. Analyse
5.1 Analyse Modellierungs- und Simulations-Umgebungen
5.1.1 Arena
5.1.1.1 Beurteilung der Data Mining-Funktionen
5.1.1.1.1 Externe Datenquellen
5.1.1.1.2 Analyse und Optimierung
5.1.1.1.3 Präsentation
5.1.2 AnyLogic
5.1.2.1 Beurteilung der Data Mining-Funktionen
5.1.2.1.1 Externe Datenquellen
5.1.2.1.2 Analyse und Optimierung
5.1.2.1.3 Präsentation
5.1.3 SeSam
5.1.3.1 Beurteilung der Data Mining-Funktionen
5.1.1.3.1 Externe Datenquellen
5.1.1.3.2 Analyse und Optimierung
5.1.1.3.3 Präsentation
5.2 Analyse einer Bibliothek
5.2.1 WEKA
5.2.1.1 Generelle Eigenschaften
5.2.1.2 Datenbankanbindung
5.2.1.3 Data Mining-Aufgaben
5.2.1.4 Data Mining-Algorithmen
5.3 Analyse eines Werkzeuges
5.3.1 SPSS
5.3.1.1 SPSS Basispaket („SPSS Base“)
5.3.1.1.1 Generelle Eigenschaften
5.3.1.1.2 Datenbankanbindung
5.3.1.1.3 Data Mining-Aufgaben
5.3.1.1.4 Data Mining-Algorithmen
5.3.1.2 SPSS Clementine
5.3.1.2.1 Generelle Eigenschaften
5.3.1.2.2 Datenbankanbindung
5.3.1.2.3 Data Mining-Aufgaben
5.3.1.2.4 Data Mining-Algorithmen
5.3.2 R-Project/R
5.3.2.1 Generelle Eigenschaften
5.3.2.2 Datenbankanbindung
5.3.2.3 Data Mining-Aufgaben
5.3.2.4 Data Mining-Algorithmen
6. Vergleich und Implementationsentscheidung
6.1 Analyse des zugrunde liegenden Datenmaterials (James II)
6.2 Abschließender Vergleich
6.2.1 Modellierungs- und Simulationsumgebungen
6.2.2 Werkzeuge
6.2.3 Bibliotheken
6.3 Ranking der Analysemethoden
6.4 Implementationsentscheidung
7. Implementierung
7.1 Zugrunde liegende Annahmen
7.2 Hilfsklassen
7.2.1 Chi-Quadrat-Berechnungen
7.2.2 Kendalls Tau
7.2.3 Lineare Korrelation nach Pearson
7.2.4 Kontingenztabellen
7.2.5 Student t-Test
7.2.6 Weitere Hilfsklassen
7.3 Klassen und Methoden des k-Means-Algorithmus
8. Auswertung von Simulationsdaten
8.1 Grundmodell
8.1.1 Vorausgesetztes Datenmaterial
8.1.2 Vorverarbeitung
8.2 Vorgaben
8.3 Ergebnisse
8.3.1 Cluster-Analyse mit SPSS
8.3.2 Cluster-Analyse mit dem in James II implementierten Algorithmus
8.4 Beurteilung des implementierten Algorithmus
9. Fazit und Zusammenfassung der Ergebnisse dieser Bachelor-Arbeit
Die vorliegende Arbeit untersucht die Anwendbarkeit von Data Mining-Verfahren zur Analyse von Simulationsergebnissen. Das primäre Ziel ist es, etablierte Data Mining-Werkzeuge und -Methoden hinsichtlich ihrer Eignung für Simulationsdaten zu bewerten, ein Ranking zu erstellen und beispielhaft die Implementierung eines k-Means-Algorithmus innerhalb des bestehenden Simulationsframeworks "James II" an der Universität Rostock zu demonstrieren.
3.4.1 Klassenbildung
Verfahren und Algorithmen zur Klassenbildung bewirken das Bilden von Clustern oder Gruppen innerhalb von Daten. Diese Verfahren umfassen verschiedene Clusteranalysemethoden, zu der im weitesten Sinne auch Assoziationsverfahren gezählt werden. Dabei wird unterstellt, dass die einzelnen Objekte durch einen Vektor von Messwerten fester und bekannter Dimension charakterisierbar sind. Ausgangspunkt für diese Form der Analyse ist eine konkrete Problemstellung, beispielsweise werden Informationen über eine bestimmte Zielgruppe benötigt, um mit Hilfe dieser Informationen Werbung für ein bestimmtes Produkt zu verbessern. Aufgrund dieser Basisinformationen lassen sich die zu klassifizierenden Objekte auswählen.
Neben den Überlegungen, welche Informationen ein Objekt möglichst gut beschreiben, sollte auch immer abgewogen werden, ob der Aufwand (zusätzliche Datenerhebung, Verarbeitung und Auswertung) zu dem Nutzen (zusätzliche Informationen, Ergebnisvalidierung) in einem positiven Verhältnis steht. Bevor jedoch das jeweilige Analysewerkzeug ausgewählt wird, ist zusätzlich zu untersuchen, welches Skalenniveau und welches Approximationsmaß anwendbar sind. In der Praxis ist außerdem zu beachten, dass die gefundenen Klassen auch interpretierbar sein müssen, was oftmals zu einer Beschränkung der möglichen Klassen führt.
1. Einleitung: Die Einleitung beleuchtet die Relevanz von Data Mining in der Wirtschaft und führt in die Thematik der Simulation als Werkzeug zur Untersuchung komplexer Systeme ein.
2. Simulation: Dieses Kapitel definiert die Grundlagen der Simulation, unterscheidet verschiedene Simulationsarten wie diskrete und kontinuierliche Simulation und stellt das Simulationsframework "James II" vor.
3. Data Mining: Es erfolgt eine Definition von Data Mining als Prozess, gefolgt von einer detaillierten Erläuterung grundlegender Methoden wie Klassenbildung, Assoziationen, Klassifizierung und Zeitreihenanalyse.
4. Vergleichskriterien: Hier werden Kriterien für die Evaluation von Data Mining-Verfahren und -Werkzeugen definiert, wobei verschiedene Kategorien von Werkzeugen hinsichtlich ihrer Eigenschaften bewertet werden.
5. Analyse: Dieses Kapitel analysiert verschiedene Modellierungs-, Simulationsumgebungen sowie Data Mining-Bibliotheken und Werkzeuge wie Arena, AnyLogic, SeSam, WEKA und SPSS.
6. Vergleich und Implementationsentscheidung: Die Ergebnisse der Analysen werden verglichen, um eine fundierte Auswahl für die Implementierung eines Algorithmus zur Validierung von Simulationsergebnissen zu treffen.
7. Implementierung: Der Autor beschreibt die technische Umsetzung eines k-Means-Algorithmus innerhalb des Frameworks "James II" sowie die benötigten Hilfsklassen für statistische Berechnungen.
8. Auswertung von Simulationsdaten: Das Kapitel dokumentiert die praktische Anwendung des implementierten k-Means-Algorithmus auf reale Simulationsdaten und vergleicht die Ergebnisse mit SPSS.
9. Fazit und Zusammenfassung der Ergebnisse dieser Bachelor-Arbeit: Das Fazit fasst die wesentlichen Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf die weitere Validierung von Simulationsmodellen durch Data Mining.
Data Mining, Simulation, Modellierung, k-Means-Algorithmus, James II, Clusteranalyse, Klassifizierung, Zeitreihenanalyse, statistische Methoden, Assoziationsregeln, Validierung, Werkzeugbewertung, Software, Algorithmen, Entscheidungsbäume.
Die Bachelorarbeit untersucht, wie Methoden des Data Mining dazu genutzt werden können, um große Datenmengen, die bei der Simulation komplexer Systeme entstehen, effizient zu analysieren und zu validieren.
Die zentralen Themenfelder sind die Simulation als computerbasierte Experimentiermethode, die verschiedenen Verfahren des Data Mining sowie die Analyse und Implementierung von Algorithmen zur Auswertung von Simulationsergebnissen.
Das primäre Ziel ist es, Data Mining-Werkzeuge zu evaluieren und einen für die Validierung von Simulationsergebnissen geeigneten Algorithmus beispielhaft im Simulationsframework "James II" zu implementieren.
Die Arbeit nutzt eine methodische Analyse etablierter Data Mining-Werkzeuge (z.B. SPSS, WEKA, R) und implementiert anschließend einen k-Means-Clustering-Algorithmus, um die Anwendbarkeit in einer praktischen Simulationsstudie zu prüfen.
Der Hauptteil behandelt die theoretischen Grundlagen der Simulation und des Data Mining, die Definition von Vergleichskriterien für Werkzeuge, die Analyse konkreter Softwareumgebungen sowie die technische Implementierung und Anwendung des k-Means-Algorithmus auf Simulationsdaten.
Die Arbeit lässt sich durch Begriffe wie Data Mining, Simulation, Modellierung, Clusteranalyse, k-Means-Algorithmus und Validierung charakterisieren.
Der selbst implementierte Algorithmus liefert bei der Clusteranalyse die gleichen Ergebnisse wie SPSS, weist jedoch Unterschiede in der initialen Zentroid-Wahl und der Anzahl der benötigten Iterationen bis zur Stabilität auf.
Das Datenmaterial muss für die statistischen Analysemethoden, wie sie im Data Mining genutzt werden, geeignet aufbereitet und strukturiert sein, um Aussagen über das Verhalten des Simulationsmodells treffen zu können.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

