Data Mining - Methoden in der Simulation

Bachelorarbeit, 2008
136 Seiten, Note: 1,0

Leseprobe

Inhaltsverzeichnis

1. Einleitung
- 1.1 Data Mining
- 1.2 Simulation
- 1.3 Zusammenführung und Ziele
2. Simulation
- 2.1 Definitionen
  - 2.1.1 Definition System
  - 2.1.2 Definition Modell/Modellierung
  - 2.1.3 Definition Simulation
- 2.2 Aufgabenfelder/Anwendungsbereiche
  - 2.2.1 Vor- und Nachteile der Simulation
    - 2.2.1.1 Vorteile der Simulation
    - 2.2.1.2 Nachteile der Simulation
  - 2.2.2 Simulationsarten
    - 2.2.2.1 Kontinuierliche Simulation
    - 2.2.2.2 Diskrete Simulation
    - 2.2.2.3 Monte Carlo Simulation
- 2.3 James II
  - 2.3.1 Hintergrund
  - 2.3.2 Ziele
  - 2.3.3 Einordnung und Entwicklungen
  - 2.3.4 Entwicklungsstand
3. Data Mining
- 3.1 Definition
- 3.2 Ziel(e) des Data Mining
- 3.3 Data Mining als Prozess
- 3.4 Grundlegende Methoden
  - 3.4.1 Klassenbildung
  - 3.4.2 Assoziationen
  - 3.4.3 Klassifizierung
  - 3.4.4 Zeitreihenanalyse
- 3.5 Optimierung von Data Mining-Modellen und genetische Algorithmen
- 3.6 Einsatz von Data Mining in der Simulation
4. Vergleichskriterien
- 4.1 Evaluation der Analysearten
  - 4.1.1 Klassenbildung
  - 4.1.2 Assoziationen
  - 4.1.3 Klassifizierung
  - 4.1.4 Zeitreihenanalyse
- 4.2 Klassifizierung von Data Mining-Werkzeugen
  - 4.2.1 Erweiterungen von DBMS
  - 4.2.2 Data Mining-Suiten
  - 4.2.3 Eigenständige Data Mining-Tools
- 4.3 Bewertung der Data Mining-Werkzeuge
  - 4.3.1 Generelle Eigenschaften
  - 4.3.2 Datenbankanbindung
  - 4.3.3 Data Mining-Aufgaben
  - 4.3.4 Data Mining-Algorithmen
- 4.4 Nutzung von Data Mining in konkreten Simulationsaufgaben
5. Analyse
- 5.1 Analyse Modellierungs- und Simulations-Umgebungen
  - 5.1.1 Arena
    - 5.1.1.1 Beurteilung der Data Mining-Funktionen
      - 5.1.1.1.1 Externe Datenquellen
      - 5.1.1.1.2 Analyse und Optimierung
      - 5.1.1.1.3 Präsentation
  - 5.1.2 AnyLogic
    - 5.1.2.1 Beurteilung der Data Mining-Funktionen
      - 5.1.2.1.1 Externe Datenquellen
      - 5.1.2.1.2 Analyse und Optimierung
      - 5.1.2.1.3 Präsentation
  - 5.1.3 SeSam
    - 5.1.3.1 Beurteilung der Data Mining-Funktionen
      - 5.1.1.3.1 Externe Datenquellen
      - 5.1.1.3.2 Analyse und Optimierung
      - 5.1.1.3.3 Präsentation
- 5.2 Analyse einer Bibliothek
  - 5.2.1 WEKA
    - 5.2.1.1 Generelle Eigenschaften
    - 5.2.1.2 Datenbankanbindung
    - 5.2.1.3 Data Mining-Aufgaben
    - 5.2.1.4 Data Mining-Algorithmen
- 5.3 Analyse eines Werkzeuges
  - 5.3.1 SPSS
    - 5.3.1.1 SPSS Basispaket („SPSS Base“)
      - 5.3.1.1.1 Generelle Eigenschaften
      - 5.3.1.1.2 Datenbankanbindung
      - 5.3.1.1.3 Data Mining-Aufgaben
      - 5.3.1.1.4 Data Mining-Algorithmen
    - 5.3.1.2 SPSS Clementine
      - 5.3.1.2.1 Generelle Eigenschaften
      - 5.3.1.2.2 Datenbankanbindung
      - 5.3.1.2.3 Data Mining-Aufgaben
      - 5.3.1.2.4 Data Mining-Algorithmen
  - 5.3.2 R-Project/R
    - 5.3.2.1 Generelle Eigenschaften
    - 5.3.2.2 Datenbankanbindung
    - 5.3.2.3 Data Mining-Aufgaben
    - 5.3.2.4 Data Mining-Algorithmen
6. Vergleich und Implementationsentscheidung
- 6.1 Analyse des zugrunde liegenden Datenmaterials (James II)
- 6.2 Abschließender Vergleich
  - 6.2.1 Modellierungs- und Simulationsumgebungen
  - 6.2.2 Werkzeuge
  - 6.2.3 Bibliotheken
- 6.3 Ranking der Analysemethoden
- 6.4 Implementationsentscheidung
7. Implementierung
- 7.1 Zugrunde liegende Annahmen
- 7.2 Hilfsklassen
  - 7.2.1 Chi-Quadrat-Berechnungen
  - 7.2.2 Kendalls Tau
  - 7.2.3 Lineare Korrelation nach Pearson
  - 7.2.4 Kontingenztabellen
  - 7.2.5 Student t-Test
  - 7.2.6 Weitere Hilfsklassen
- 7.3 Klassen und Methoden des k-Means-Algorithmus
8. Auswertung von Simulationsdaten
- 8.1 Grundmodell
  - 8.1.1 Vorausgesetztes Datenmaterial
  - 8.1.2 Vorverarbeitung
- 8.2 Vorgaben
- 8.3 Ergebnisse
  - 8.3.1 Cluster-Analyse mit SPSS
  - 8.3.2 Cluster-Analyse mit dem in James II implementierten Algorithmus
- 8.4 Beurteilung des implementierten Algorithmus

Zielsetzung und Themenschwerpunkte

Diese Bachelorarbeit untersucht die Anwendung von Data-Mining-Methoden zur Analyse von Simulationsergebnissen. Das Hauptziel ist die Bewertung der Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Validierung von Simulationsmodellen, insbesondere im Kontext des Simulationsframeworks James II. Die Arbeit evaluiert verschiedene Ansätze und implementiert einen ausgewählten Algorithmus.

Vergleich verschiedener Data-Mining-Werkzeuge hinsichtlich ihrer Funktionalität und Eignung für Simulationsdaten.
Analyse der Leistungsfähigkeit verschiedener Data-Mining-Algorithmen (z.B. Clustering, Regression) bei der Auswertung von Simulationsdaten.
Implementierung eines geeigneten Data-Mining-Algorithmus im James II Framework.
Bewertung der Implementierung und deren Vergleich mit bestehenden Data-Mining-Tools.
Anwendung des implementierten Algorithmus auf reale Simulationsdaten.

Zusammenfassung der Kapitel

1. Einleitung: Diese Einleitung führt in die Thematik der Bachelorarbeit ein, indem sie die Konzepte von Data Mining und Simulation beschreibt und deren Zusammenführung als Ziel der Arbeit benennt. Die Bedeutung von Data Mining für Unternehmen und die Herausforderungen bei der Analyse großer Datenmengen aus Simulationen werden hervorgehoben. Die Arbeit skizziert die zu verfolgenden Schritte: Analyse von Data-Mining-Werkzeugen, Auswahl und Implementierung eines Algorithmus sowie eine abschließende Simulationsstudie.

2. Simulation: Dieses Kapitel liefert eine umfassende Definition von Simulation, indem es die Begriffe System, Modell und Modellierung präzisiert und unterschiedliche Simulationsarten wie kontinuierliche, diskrete und Monte-Carlo-Simulationen beschreibt. Es werden die Vor- und Nachteile der Simulation erörtert und der detaillierte Hintergrund des in der Arbeit genutzten Simulationsframeworks James II erläutert, einschließlich seiner Ziele, seines Entwicklungsprozesses und seines aktuellen Entwicklungsstands.

3. Data Mining: Dieses Kapitel befasst sich ausführlich mit Data Mining, definiert den Begriff und beschreibt seine Ziele und den Prozessablauf. Es werden grundlegende Data-Mining-Methoden wie Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse erläutert und jeweils exemplarische Algorithmen vorgestellt. Der Einsatz von genetischen Algorithmen zur Modelloptimierung wird ebenfalls thematisiert, ebenso die Integration von Data Mining in den Simulationsprozess.

4. Vergleichskriterien: Kapitel 4 legt die Kriterien zur Evaluation der verschiedenen Data-Mining-Methoden und -Werkzeuge fest. Es werden Evaluationskriterien für Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse definiert und verschiedene Data-Mining-Werkzeuge nach ihrer Funktionalität, Datenbankanbindung, unterstützten Data-Mining-Aufgaben und Algorithmen kategorisiert und bewertet. Die Anwendung von Data Mining in verschiedenen, konkreten Simulationsbeispielen wird diskutiert.

5. Analyse: Dieses Kapitel analysiert verschiedene Modellierungs- und Simulationsumgebungen (Arena, AnyLogic, SeSam) sowie Data-Mining-Werkzeuge (WEKA, SPSS, SPSS Clementine, R) hinsichtlich ihrer Data-Mining-Funktionalitäten. Die Analyse betrachtet die Möglichkeiten zum Zugriff auf externe Datenquellen, die Analyse- und Optimierungsfunktionen sowie die Präsentationsmöglichkeiten der einzelnen Werkzeuge.

6. Vergleich und Implementationsentscheidung: Dieses Kapitel fasst die Ergebnisse der Analysen aus Kapitel 5 zusammen und vergleicht die untersuchten Modellierungs- und Simulationsumgebungen, Data-Mining-Werkzeuge und -Bibliotheken. Es erfolgt eine Bewertung verschiedener Analysemethoden, wie Varianzanalyse, Mehrfachregression, Clusteranalyse und Assoziationsregeln, im Hinblick auf ihre Eignung für die Validierung der Simulationsergebnisse. Die Wahl des k-Means-Algorithmus für die Implementierung wird begründet.

7. Implementierung: Kapitel 7 beschreibt die Implementierung des k-Means-Algorithmus im James II Framework, einschließlich der zugrundeliegenden Annahmen und der implementierten Hilfsklassen für statistische Berechnungen (Chi-Quadrat, Kendalls Tau, lineare Korrelation, Kontingenztabellen, t-Test, F-Test). Die Struktur und Funktionsweise der implementierten Klassen des k-Means-Algorithmus werden detailliert erläutert.

Häufig gestellte Fragen zur Bachelorarbeit: Anwendung von Data-Mining-Methoden zur Analyse von Simulationsergebnissen

Was ist das Hauptziel dieser Bachelorarbeit?

Das Hauptziel der Arbeit ist die Bewertung der Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Validierung von Simulationsmodellen, insbesondere im Kontext des Simulationsframeworks James II. Die Arbeit evaluiert verschiedene Ansätze und implementiert einen ausgewählten Algorithmus.

Welche Data-Mining-Werkzeuge und -Algorithmen wurden untersucht?

Die Arbeit untersucht verschiedene Data-Mining-Werkzeuge wie WEKA, SPSS (inkl. SPSS Clementine) und R, sowie Modellierungs- und Simulationsumgebungen wie Arena, AnyLogic und SeSam. Betrachtete Algorithmen umfassen u.a. Clustering, Regression, Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse. Der k-Means-Algorithmus wurde implementiert.

Welche Simulationsarten werden in der Arbeit behandelt?

Die Arbeit beschreibt kontinuierliche, diskrete und Monte-Carlo-Simulationen. Der Fokus liegt auf dem Simulationsframework James II.

Welche grundlegenden Data-Mining-Methoden werden erläutert?

Die Arbeit erläutert Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse. Der Einsatz von genetischen Algorithmen zur Modelloptimierung wird ebenfalls behandelt.

Wie wurde die Eignung der Data-Mining-Werkzeuge und -Algorithmen bewertet?

Die Bewertung erfolgte anhand von Kriterien wie Funktionalität, Datenbankanbindung, unterstützten Data-Mining-Aufgaben und Algorithmen. Die Analyse umfasste die Möglichkeiten zum Zugriff auf externe Datenquellen, die Analyse- und Optimierungsfunktionen sowie die Präsentationsmöglichkeiten der einzelnen Werkzeuge.

Welcher Algorithmus wurde implementiert und warum?

Der k-Means-Algorithmus wurde implementiert. Die Wahl wird im Kapitel 6 begründet, welches einen Vergleich der verschiedenen Analysemethoden (Varianzanalyse, Mehrfachregression, Clusteranalyse und Assoziationsregeln) im Hinblick auf ihre Eignung für die Validierung der Simulationsergebnisse enthält.

Wie wurde der implementierte Algorithmus evaluiert?

Die Evaluation des implementierten k-Means-Algorithmus erfolgte durch einen Vergleich mit den Ergebnissen von SPSS bei der Cluster-Analyse realer Simulationsdaten. Kapitel 8 beschreibt die Ergebnisse und die Beurteilung des implementierten Algorithmus.

Welche Hilfsklassen wurden für die Implementierung verwendet?

Die Implementierung umfasste Hilfsklassen für statistische Berechnungen wie Chi-Quadrat-Berechnungen, Kendalls Tau, lineare Korrelation nach Pearson, Kontingenztabellen, Student t-Test und weitere.

Welche konkreten Simulationsdaten wurden verwendet?

Die Arbeit verwendet Daten aus dem Simulationsframework James II (detailliert in Kapitel 2 beschrieben).

Welche Schlussfolgerungen zieht die Arbeit?

Die Arbeit zieht Schlussfolgerungen über die Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Analyse von Simulationsdaten und liefert eine fundierte Implementationsentscheidung basierend auf dem Vergleich und der Evaluation der untersuchten Methoden.

Ende der Leseprobe aus 136 Seiten - nach oben

Details

Titel: Data Mining - Methoden in der Simulation
Hochschule: Universität Rostock (Institut für Informatik, Lehrstuhl für Modellierung und Simulation)
Note: 1,0
Autor: B.Sc. Enrico Seib (Autor:in)
Erscheinungsjahr: 2008
Seiten: 136
Katalognummer: V114550
ISBN (eBook): 9783640145478
ISBN (Buch): 9783640146482
Dateigröße: 7033 KB
Sprache: Deutsch
Schlagworte: Data Mining Methoden Simulation
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 38,99
Preis (Book): US$ 49,99

Arbeit zitieren: B.Sc. Enrico Seib (Autor:in), 2008, Data Mining - Methoden in der Simulation, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/114550

Kommentare

Melden Sie sich an, um einen Kommentar zu schreiben

Noch keine Kommentare.