Bachelorarbeit, 2008
136 Seiten, Note: 1,0
Diese Bachelorarbeit untersucht die Anwendung von Data-Mining-Methoden zur Analyse von Simulationsergebnissen. Das Hauptziel ist die Bewertung der Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Validierung von Simulationsmodellen, insbesondere im Kontext des Simulationsframeworks James II. Die Arbeit evaluiert verschiedene Ansätze und implementiert einen ausgewählten Algorithmus.
1. Einleitung: Diese Einleitung führt in die Thematik der Bachelorarbeit ein, indem sie die Konzepte von Data Mining und Simulation beschreibt und deren Zusammenführung als Ziel der Arbeit benennt. Die Bedeutung von Data Mining für Unternehmen und die Herausforderungen bei der Analyse großer Datenmengen aus Simulationen werden hervorgehoben. Die Arbeit skizziert die zu verfolgenden Schritte: Analyse von Data-Mining-Werkzeugen, Auswahl und Implementierung eines Algorithmus sowie eine abschließende Simulationsstudie.
2. Simulation: Dieses Kapitel liefert eine umfassende Definition von Simulation, indem es die Begriffe System, Modell und Modellierung präzisiert und unterschiedliche Simulationsarten wie kontinuierliche, diskrete und Monte-Carlo-Simulationen beschreibt. Es werden die Vor- und Nachteile der Simulation erörtert und der detaillierte Hintergrund des in der Arbeit genutzten Simulationsframeworks James II erläutert, einschließlich seiner Ziele, seines Entwicklungsprozesses und seines aktuellen Entwicklungsstands.
3. Data Mining: Dieses Kapitel befasst sich ausführlich mit Data Mining, definiert den Begriff und beschreibt seine Ziele und den Prozessablauf. Es werden grundlegende Data-Mining-Methoden wie Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse erläutert und jeweils exemplarische Algorithmen vorgestellt. Der Einsatz von genetischen Algorithmen zur Modelloptimierung wird ebenfalls thematisiert, ebenso die Integration von Data Mining in den Simulationsprozess.
4. Vergleichskriterien: Kapitel 4 legt die Kriterien zur Evaluation der verschiedenen Data-Mining-Methoden und -Werkzeuge fest. Es werden Evaluationskriterien für Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse definiert und verschiedene Data-Mining-Werkzeuge nach ihrer Funktionalität, Datenbankanbindung, unterstützten Data-Mining-Aufgaben und Algorithmen kategorisiert und bewertet. Die Anwendung von Data Mining in verschiedenen, konkreten Simulationsbeispielen wird diskutiert.
5. Analyse: Dieses Kapitel analysiert verschiedene Modellierungs- und Simulationsumgebungen (Arena, AnyLogic, SeSam) sowie Data-Mining-Werkzeuge (WEKA, SPSS, SPSS Clementine, R) hinsichtlich ihrer Data-Mining-Funktionalitäten. Die Analyse betrachtet die Möglichkeiten zum Zugriff auf externe Datenquellen, die Analyse- und Optimierungsfunktionen sowie die Präsentationsmöglichkeiten der einzelnen Werkzeuge.
6. Vergleich und Implementationsentscheidung: Dieses Kapitel fasst die Ergebnisse der Analysen aus Kapitel 5 zusammen und vergleicht die untersuchten Modellierungs- und Simulationsumgebungen, Data-Mining-Werkzeuge und -Bibliotheken. Es erfolgt eine Bewertung verschiedener Analysemethoden, wie Varianzanalyse, Mehrfachregression, Clusteranalyse und Assoziationsregeln, im Hinblick auf ihre Eignung für die Validierung der Simulationsergebnisse. Die Wahl des k-Means-Algorithmus für die Implementierung wird begründet.
7. Implementierung: Kapitel 7 beschreibt die Implementierung des k-Means-Algorithmus im James II Framework, einschließlich der zugrundeliegenden Annahmen und der implementierten Hilfsklassen für statistische Berechnungen (Chi-Quadrat, Kendalls Tau, lineare Korrelation, Kontingenztabellen, t-Test, F-Test). Die Struktur und Funktionsweise der implementierten Klassen des k-Means-Algorithmus werden detailliert erläutert.
Das Hauptziel der Arbeit ist die Bewertung der Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Validierung von Simulationsmodellen, insbesondere im Kontext des Simulationsframeworks James II. Die Arbeit evaluiert verschiedene Ansätze und implementiert einen ausgewählten Algorithmus.
Die Arbeit untersucht verschiedene Data-Mining-Werkzeuge wie WEKA, SPSS (inkl. SPSS Clementine) und R, sowie Modellierungs- und Simulationsumgebungen wie Arena, AnyLogic und SeSam. Betrachtete Algorithmen umfassen u.a. Clustering, Regression, Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse. Der k-Means-Algorithmus wurde implementiert.
Die Arbeit beschreibt kontinuierliche, diskrete und Monte-Carlo-Simulationen. Der Fokus liegt auf dem Simulationsframework James II.
Die Arbeit erläutert Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse. Der Einsatz von genetischen Algorithmen zur Modelloptimierung wird ebenfalls behandelt.
Die Bewertung erfolgte anhand von Kriterien wie Funktionalität, Datenbankanbindung, unterstützten Data-Mining-Aufgaben und Algorithmen. Die Analyse umfasste die Möglichkeiten zum Zugriff auf externe Datenquellen, die Analyse- und Optimierungsfunktionen sowie die Präsentationsmöglichkeiten der einzelnen Werkzeuge.
Der k-Means-Algorithmus wurde implementiert. Die Wahl wird im Kapitel 6 begründet, welches einen Vergleich der verschiedenen Analysemethoden (Varianzanalyse, Mehrfachregression, Clusteranalyse und Assoziationsregeln) im Hinblick auf ihre Eignung für die Validierung der Simulationsergebnisse enthält.
Die Evaluation des implementierten k-Means-Algorithmus erfolgte durch einen Vergleich mit den Ergebnissen von SPSS bei der Cluster-Analyse realer Simulationsdaten. Kapitel 8 beschreibt die Ergebnisse und die Beurteilung des implementierten Algorithmus.
Die Implementierung umfasste Hilfsklassen für statistische Berechnungen wie Chi-Quadrat-Berechnungen, Kendalls Tau, lineare Korrelation nach Pearson, Kontingenztabellen, Student t-Test und weitere.
Die Arbeit verwendet Daten aus dem Simulationsframework James II (detailliert in Kapitel 2 beschrieben).
Die Arbeit zieht Schlussfolgerungen über die Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Analyse von Simulationsdaten und liefert eine fundierte Implementationsentscheidung basierend auf dem Vergleich und der Evaluation der untersuchten Methoden.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!
Kommentare