Bachelorarbeit, 2015
51 Seiten, Note: 1,0
1 Allgemeiner Hintergrund
1.1 Die Entscheidungsbaum-Terminologie
1.2 Das Regressionsproblem
2 Grundlegende Konzeption von Regressionsbäumen
2.1 Erstellen von Regressionsbäumen anhand des Splitkriteriums
2.2 Regressionsbäume im Vergleich zur klassischen Regressionsanalyse
2.2.1 Anwendbarkeit und Eignung
2.2.2 Vorteile und Nachteile von Regressionsbäumen
2.3 Die optimale Baumgröße
2.3.1 Das Fehler-Komplexitätsmaß
2.3.2 Der Weakest-Link-Algorithmus
2.4 Auswahl des optimalen Teilbaumes
2.4.1 Der Teststichprobenschätzer
2.4.2 Der Kreuzvalidierungsschätzer
3 Fortgeschrittene Konzeption von Regressionsbäumen
3.1 Bootstrap-Algorithmus
3.2 Bagging
3.2.1 Out-of-bag Fehlerschätzung
3.2.2 Trennfähigkeit der Regressoren
3.3 Random Forests
3.4 Gradient-Boosting
4 Empirie
5 Fazit
Diese Arbeit untersucht die Funktionsweise und Anwendung von Entscheidungsbäumen, insbesondere des CART-Algorithmus, zur Lösung von Regressionsproblemen. Das primäre Ziel ist es, die theoretischen Grundlagen der Modellbildung und Optimierung durch Kürzung (Pruning) zu erläutern und diese durch eine praktische empirische Analyse von US-amerikanischen Verbrechensdaten zu veranschaulichen.
2.3.2 Der Weakest-Link-Algorithmus
Ein am Knoten t beginnender Zweig T_t des Baumes T_1 besitzt folgende Eigenschaft.
R(T_t) = Σ R(t')
Hierbei bezeichnet T_t die Menge aller Endknoten des Zweiges T_t, sodass die rechte Seite der vorangegangenen Gleichung, die Summe der Prognosefehler über alle Endknoten des Zweiges T_t darstellt. Es soll nun an jedem Knoten t von T_1, welcher kein Endknoten ist, geprüft werden, ob der von diesem Knoten ausgehende Zweig T_t gemäß eines bestimmten Kriteriums gekürzt werden soll. Falls der Zweig T_t zu kürzen ist, stellt der Knoten t sodann einen Endknoten dar und wird mit {t} bezeichnet. Zu Beginn des Weakest-Link-Algorithmus wird das Fehler-Komplexitätsmaß des ungekürzten Zweiges, mit dem des gekürzten verglichen. Der ungekürzte Zweig T_t besitzt das folgende, bereits geläufige Fehler-Komplexitätsmaß.
R_α(T_t) = R(T_t) + α|T_t|
Das des gekürzten Zweiges {t} hat die Besonderheit, dass die Bestrafung in Höhe von nur einem α ausfällt, da dieser Zweig aus nur einem Endknoten, nämlich {t} besteht.
R_α({t}) = R(t) + α
Man rufe sich nun das in Kapitel 2.3.1 beschriebene Vorgehen ins Gedächtnis, als man T_1 aus T_max extrahiert hat. Die dort verwendete Bedingung kann hier analog angewandt werden.
R(t) > R(T_t)
Denn falls diese Bedingung verletzt wäre, und R(t) = R(T_t) gelten würde, könnte man den Zweig T_t ohnehin kürzen, ohne dabei Einbußen bzgl. der Prognosefähigkeit zu erleiden. Dies beachtend, werden nun die beiden Fehler-Komplexitätsmaße mit einander verglichen. Nimmt α einen ausreichend kleinen Wert an, folgt aus den ersten beiden Gleichungen, dass R_α({t}) > R_α(T_t) ist. Erhöht man jedoch α entsprechend kommt man an einen Punkt, an dem R_α({t}) = R_α(T_t) gilt, und somit das Kürzen des Zweiges T_t, aufgrund der geringerer Komplexität wünschenswert ist. Ziel ist es nun, genau den Wert für α zu finden, bei dem beide Prognosefehler gleich sind.
1 Allgemeiner Hintergrund: Dieses Kapitel führt in die Grundlagen der Entscheidungsbaum-Terminologie ein und erläutert das Regressionsproblem sowie verschiedene Schätzverfahren für Prognosefehler.
2 Grundlegende Konzeption von Regressionsbäumen: Hier wird der CART-Algorithmus im Detail beschrieben, einschließlich der Splitkriterien, des Vergleichs zur linearen Regression sowie Verfahren zur optimalen Kürzung von Bäumen.
3 Fortgeschrittene Konzeption von Regressionsbäumen: In diesem Kapitel werden Methoden zur Modellaggregation wie Bagging, Random Forests und Gradient-Boosting vorgestellt, um die Prognosegenauigkeit und Stabilität zu verbessern.
4 Empirie: Dieser Teil demonstriert die praktische Anwendung der zuvor theoretisch behandelten Methoden anhand des UScrime-Datensatzes unter Verwendung der Statistiksoftware R.
5 Fazit: Das Fazit fasst die Stärken und Schwächen der behandelten Methoden zusammen und betont die Notwendigkeit einer anwendungsspezifischen Modellauswahl.
Regressionsbäume, CART-Algorithmus, Entscheidungsbäume, statistische Lernmethoden, Bagging, Random Forests, Gradient-Boosting, Prognosegenauigkeit, Kreuzvalidierung, Fehler-Komplexitätsmaß, Overfitting, UScrime, Splitkriterium, Datenanalyse, Modelloptimierung.
Die Arbeit behandelt Verfahren zur Erstellung und Optimierung von Regressionsbäumen nach dem CART-Algorithmus sowie deren Erweiterung durch ensemblebasierte Methoden zur Verbesserung der Prognosefähigkeit.
Die zentralen Themen umfassen die theoretischen Grundlagen von Entscheidungsbäumen, Strategien zur optimalen Baumgröße (Pruning), Resampling-Verfahren und die praktische Implementierung mit der Statistiksoftware R.
Das Ziel ist es, zu verdeutlichen, wie komplexe Regressionsbäume erstellt und durch spezifische Algorithmen gekürzt werden können, um ein optimales Gleichgewicht zwischen Modellkomplexität und Vorhersagegenauigkeit zu finden.
Es wird der CART-Algorithmus verwendet, ergänzt durch mathematische Konzepte wie das Fehler-Komplexitätsmaß und statistische Validierungsmethoden (Kreuzvalidierung) zur Modellwahl.
Der Hauptteil gliedert sich in die theoretische Herleitung der CART-Modelle, die Methoden zur Korrektur von Instabilitäten (Bagging, Boosting, Random Forests) und einen empirischen Teil zur Analyse von US-amerikanischen Kriminalitätsraten.
Wichtige Begriffe sind CART, Regressionsbäume, Bagging, Random Forests, Gradient-Boosting, Kreuzvalidierung, Fehler-Komplexitätsmaß und Prognosegenauigkeit.
Ohne Kürzung neigen Regressionsbäume zu "Overfitting", da sie die Trainingsdaten zu exakt abbilden und somit die statistische Aussagekraft für neue, unbekannte Beobachtungen verlieren.
Während beim Bagging alle verfügbaren Regressoren genutzt werden, verwendet Random Forests zusätzlich eine Zufallsauswahl von Splitvariablen pro Baum, um die Korrelation zwischen den Bäumen zu senken und die Varianz weiter zu reduzieren.
Beim Gradient-Boosting werden die Bäume sequentiell erstellt, wobei jeder neue Baum versucht, die Residuen (Fehler) der vorherigen Bäume zu minimieren, statt sie unabhängig voneinander zu bilden.
Die Analyse zeigt exemplarisch auf, wie ein ursprünglich zu komplexer Baum durch den Kreuzvalidierungsschätzer identifiziert und gekürzt werden kann, was zu einer deutlich besseren Prognosegenauigkeit führt.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

