Bachelorarbeit, 2011
77 Seiten, Note: 1,3
1 Einleitung
1.1 Einführung in das Thema Hautkrebs
1.2 Herkunft der Daten
1.3 Ziel und Aufbau der Arbeit
2 Grundlagen des Data-Mining
2.1 Der „Knowledge-Discovery in Databases“ (KDD) Prozess
2.2 Klassifikation
3 Data Preprocessing
3.1 Aufbereitung und Kodierung der Daten
3.1.1 Behandlung von Inkonsistenzen
3.1.2 Behandlung fehlender Werte
3.3 Konvertierung der Daten: Von CSV zu ARFF
3.4 Feature Subset Selection
4 Algorithmen des Data Mining
4.1 Entscheidungsbaum-Lerner
4.2 Regel-Lerner
4.3 Naive Bayes
4.4 Support-Vector-Machines
4.5 Bagging
5 Experimente
5.1 Patientenmodell
5.2 Ärztemodell
5.3 Ampelmodell
6 Diskussion und Ausblick
7 Anhang
Das Hauptziel dieser Arbeit ist die Ermittlung und Verifikation von Klassifikationsmodellen zur Einschätzung des Hautkrebsrisikos, um ärztliche Diagnosen zu unterstützen und Patienten zu sensibilisieren.
1 Einleitung
„Von der ursprünglichen Wortbedeutung her (dia: durch, hindurch, auseinander, gno sis: Erkenntnis) ist Diagnostik Erkenntnisgewinnung zur Unterscheidung zwischen Ob jekten. […]“ (Hossiep & Wottawa, 1993)
Gemäß dieser Definition lassen sich große Parallelen zwischen einer medizinischen Di agnose und verbreiteten Methoden der Informatik ziehen. So erfolgt bspw. eine compu tergestützte „Diagnose“, bzw. eine Einstufung einer E-Mail automatisch durch den Spam-Filter, der anhand von festgelegten Charakteristika, wie etwa der Anzahl der Rechtschreibfehler, die E-Mail als (Spam-)Mail klassifiziert. Methoden wie diese ent stammen allgemein dem Bereich des Maschinellen Lernens und finden in der heutigen Zeit in vielen Softwaresystemen Anwendung (Intrusion Detection, Anti-Viren Pro gramme etc.). Maschinelles Lernen bezeichnet allgemein das Anwenden formaler Strukturen (Maschinen) zur Deduktion und Induktion. Im Gegensatz dazu beschäftigt sich das Data Mining mit der Generierung von Wissen aus Datensätzen und verwendet dafür Methoden des Maschinellen Lernens (Clarke et al., 2009). Dazu werden Algo rithmen eingesetzt, die Muster in meist sehr großen Datensätzen erkennen und diese in verschiedenen Darstellungsformen (Regeln, Bäumen etc.) als Domänen-Wissen mani festieren. Damit lässt sich bspw. das Kaufverhalten von Kunden analysieren und eine Aussage darüber treffen, zwischen welchen Produkten gewisse Synergieeffekte beste hen. Die wohl populärste Erkenntnis, die aus der Anwendung von Data Mining resul tiert, ist eine Synergie zwischen Windeln und Bier an Wochenendtagen (Clarke et al., 2009). Gehetzte Väter kaufen laut dieser Auswertung Windeln und Bier oft zusammen. Oder es kann eine Aussage darüber getroffen werden, welche Eigenschaften einer menschlichen Embryonalzelle die bestmögliche Überlebenschance für eine künstliche Befruchtung gewährleisten (Witten & Frank, 2005).
Einige Methoden des Data-Mining, die im weiteren Verlauf näher vorgestellt werden, werden in dieser wissenschaftlichen Arbeit auf den vorliegenden Datensatz angewandt. Ziel ist es dabei, Wissen über die unzureichend geklärte Entstehung von Hautkrebs und das damit verbundene Hautkrebsrisiko zu extrahieren, um eine Früherkennung und bestmögliche Heilungschance zu ermöglichen.
1 Einleitung: Dieses Kapitel motiviert die Anwendung von Data Mining in der medizinischen Diagnostik und definiert das Ziel der Arbeit, Hautkrebsrisiken anhand von Patientendaten zu klassifizieren.
2 Grundlagen des Data-Mining: Es werden grundlegende Definitionen, der KDD-Prozess sowie das CRISP-Modell als theoretischer Rahmen eingeführt.
3 Data Preprocessing: Dieses Kapitel beschreibt die essenzielle Datenaufbereitung, einschließlich der Behandlung von Inkonsistenzen, fehlender Werte und der Transformation von CSV-Daten in das ARFF-Format.
4 Algorithmen des Data Mining: Die für die Arbeit relevanten Algorithmen wie Entscheidungsbäume (J48), Regel-Lerner (RIPPER), Naive Bayes und Support-Vector-Machines werden in ihrer Funktionsweise erläutert.
5 Experimente: Die Anwendung der Algorithmen auf den Datensatz wird in Form dreier spezifischer Modelle (Patienten-, Ärzte- und Ampelmodell) evaluiert und diskutiert.
6 Diskussion und Ausblick: Der Arbeitsprozess wird reflektiert, Fehlerquellen bei der Datenerfassung identifiziert und zukünftige Verbesserungsansätze wie kostensensitives Lernen vorgeschlagen.
7 Anhang: Hier finden sich ergänzende Häufigkeitsdiagramme zu den verwendeten Attributen aus den erhobenen Daten.
Data Mining, Maschinelles Lernen, Hautkrebs, Klassifikation, Patientenmodell, Ärztemodell, Ampelmodell, Data Preprocessing, Feature Subset Selection, Entscheidungsbaum, Regel-Lerner, Support-Vector-Machines, Naive Bayes, Medizinische Informatik, Früherkennung
Die Arbeit untersucht, wie Methoden des maschinellen Lernens und Data Minings dazu eingesetzt werden können, Hautkrebsrisiken basierend auf Patientendaten und Fragebögen vorherzusagen.
Zentrale Themen sind die Datenvorbereitung (Preprocessing), der Einsatz verschiedener Klassifikationsalgorithmen sowie die Entwicklung und Validierung praktischer Risikomodelle.
Das Ziel ist die Erstellung eines automatisierten Einstufungssystems für Patienten in Risikoklassen, um die ärztliche Arbeit zu unterstützen und Patienten für ihr individuelles Hautkrebsrisiko zu sensibilisieren.
Es werden verschiedene Data-Mining-Algorithmen wie Entscheidungsbäume (J48), RIPPER, Naive Bayes und SVM angewandt, ergänzt durch Techniken zur Feature Subset Selection und Kreuzvalidierung.
Der Hauptteil gliedert sich in die theoretischen Grundlagen des Data Mining, die komplexe Aufbereitung des Datensatzes und die Durchführung konkreter Experimentreihen an drei verschiedenen Modellen.
Die Arbeit zeichnet sich durch Begriffe wie Data Mining, Klassifikation, Hautkrebs-Früherkennung, Feature Subset Selection und Performanzanalyse aus.
Das Patientenmodell nutzt allgemeine Angaben des Patienten für eine erste Selbsteinschätzung, während das Ärztemodell spezifische ärztliche Attribute hinzuzieht, um die Genauigkeit zu steigern.
Das Ampelmodell verfolgt einen alternativen Ansatz, bei dem das Risiko nicht binär, sondern in drei Stufen (rot, gelb, grün) basierend auf Mortalitätsraten und Schweregrad der Hauterkrankung unterteilt wird.
Diese Diagramme dienen der Transparenz und Vollständigkeit, da sie die Verteilung der Rohdaten vor der bereinigenden Vorverarbeitung visualisieren.
Der Autor stellt fest, dass die Modelle in der jetzigen Form noch nicht für eine sicherheitskritische Praxisanwendung geeignet sind, insbesondere aufgrund einer hohen Anzahl an False-Negative-Klassifikationen.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

