Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden

Veranschaulicht durch eine empirische Analyse US-amerikanischer Verbrechensraten

Bachelorarbeit, 2015
51 Seiten, Note: 1,0

BWL - Sonstiges

Leseprobe

Inhaltsverzeichnis

1 Allgemeiner Hintergrund

1.1 Die Entscheidungsbaum-Terminologie

1.2 Das Regressionsproblem

2 Grundlegende Konzeption von Regressionsbäumen

2.1 Erstellen von Regressionsbäumen anhand des Splitkriteriums

2.2 Regressionsbäume im Vergleich zur klassischen Regressionsanalyse

2.2.1 Anwendbarkeit und Eignung

2.2.2 Vorteile und Nachteile von Regressionsbäumen

2.3 Die optimale Baumgröße

2.3.1 Das Fehler-Komplexitätsmaß

2.3.2 Der Weakest-Link-Algorithmus

2.4 Auswahl des optimalen Teilbaumes

2.4.1 Der Teststichprobenschätzer

2.4.2 Der Kreuzvalidierungsschätzer

3 Fortgeschrittene Konzeption von Regressionsbäumen

3.1 Bootstrap-Algorithmus

3.2 Bagging

3.2.1 Out-of-bag Fehlerschätzung

3.2.2 Trennfähigkeit der Regressoren

3.3 Random Forests

3.4 Gradient-Boosting

4 Empirie

5 Fazit

Zielsetzung & Themen

Diese Arbeit untersucht die Funktionsweise und Anwendung von Entscheidungsbäumen, insbesondere des CART-Algorithmus, zur Lösung von Regressionsproblemen. Das primäre Ziel ist es, die theoretischen Grundlagen der Modellbildung und Optimierung durch Kürzung (Pruning) zu erläutern und diese durch eine praktische empirische Analyse von US-amerikanischen Verbrechensdaten zu veranschaulichen.

Methoden der rekursiven Partitionierung und CART-Algorithmus
Konzepte zur Optimierung der Baumstruktur und Fehlerschätzung
Fortgeschrittene Techniken wie Bagging, Random Forests und Gradient-Boosting
Empirische Anwendung und Prognosegenauigkeit anhand realer Datensätze
Vergleich zwischen linearen Modellen und Regressionsbäumen

Auszug aus dem Buch

2.3.2 Der Weakest-Link-Algorithmus

Ein am Knoten t beginnender Zweig T_t des Baumes T_1 besitzt folgende Eigenschaft.

R(T_t) = Σ R(t')

Hierbei bezeichnet T_t die Menge aller Endknoten des Zweiges T_t, sodass die rechte Seite der vorangegangenen Gleichung, die Summe der Prognosefehler über alle Endknoten des Zweiges T_t darstellt. Es soll nun an jedem Knoten t von T_1, welcher kein Endknoten ist, geprüft werden, ob der von diesem Knoten ausgehende Zweig T_t gemäß eines bestimmten Kriteriums gekürzt werden soll. Falls der Zweig T_t zu kürzen ist, stellt der Knoten t sodann einen Endknoten dar und wird mit {t} bezeichnet. Zu Beginn des Weakest-Link-Algorithmus wird das Fehler-Komplexitätsmaß des ungekürzten Zweiges, mit dem des gekürzten verglichen. Der ungekürzte Zweig T_t besitzt das folgende, bereits geläufige Fehler-Komplexitätsmaß.

R_α(T_t) = R(T_t) + α|T_t|

Das des gekürzten Zweiges {t} hat die Besonderheit, dass die Bestrafung in Höhe von nur einem α ausfällt, da dieser Zweig aus nur einem Endknoten, nämlich {t} besteht.

R_α({t}) = R(t) + α

Man rufe sich nun das in Kapitel 2.3.1 beschriebene Vorgehen ins Gedächtnis, als man T_1 aus T_max extrahiert hat. Die dort verwendete Bedingung kann hier analog angewandt werden.

R(t) > R(T_t)

Denn falls diese Bedingung verletzt wäre, und R(t) = R(T_t) gelten würde, könnte man den Zweig T_t ohnehin kürzen, ohne dabei Einbußen bzgl. der Prognosefähigkeit zu erleiden. Dies beachtend, werden nun die beiden Fehler-Komplexitätsmaße mit einander verglichen. Nimmt α einen ausreichend kleinen Wert an, folgt aus den ersten beiden Gleichungen, dass R_α({t}) > R_α(T_t) ist. Erhöht man jedoch α entsprechend kommt man an einen Punkt, an dem R_α({t}) = R_α(T_t) gilt, und somit das Kürzen des Zweiges T_t, aufgrund der geringerer Komplexität wünschenswert ist. Ziel ist es nun, genau den Wert für α zu finden, bei dem beide Prognosefehler gleich sind.

Zusammenfassung der Kapitel

1 Allgemeiner Hintergrund: Dieses Kapitel führt in die Grundlagen der Entscheidungsbaum-Terminologie ein und erläutert das Regressionsproblem sowie verschiedene Schätzverfahren für Prognosefehler.

2 Grundlegende Konzeption von Regressionsbäumen: Hier wird der CART-Algorithmus im Detail beschrieben, einschließlich der Splitkriterien, des Vergleichs zur linearen Regression sowie Verfahren zur optimalen Kürzung von Bäumen.

3 Fortgeschrittene Konzeption von Regressionsbäumen: In diesem Kapitel werden Methoden zur Modellaggregation wie Bagging, Random Forests und Gradient-Boosting vorgestellt, um die Prognosegenauigkeit und Stabilität zu verbessern.

4 Empirie: Dieser Teil demonstriert die praktische Anwendung der zuvor theoretisch behandelten Methoden anhand des UScrime-Datensatzes unter Verwendung der Statistiksoftware R.

5 Fazit: Das Fazit fasst die Stärken und Schwächen der behandelten Methoden zusammen und betont die Notwendigkeit einer anwendungsspezifischen Modellauswahl.

Schlüsselwörter

Regressionsbäume, CART-Algorithmus, Entscheidungsbäume, statistische Lernmethoden, Bagging, Random Forests, Gradient-Boosting, Prognosegenauigkeit, Kreuzvalidierung, Fehler-Komplexitätsmaß, Overfitting, UScrime, Splitkriterium, Datenanalyse, Modelloptimierung.

Häufig gestellte Fragen

Worum geht es in dieser Bachelorarbeit grundsätzlich?

Die Arbeit behandelt Verfahren zur Erstellung und Optimierung von Regressionsbäumen nach dem CART-Algorithmus sowie deren Erweiterung durch ensemblebasierte Methoden zur Verbesserung der Prognosefähigkeit.

Welche zentralen Themenfelder werden abgedeckt?

Die zentralen Themen umfassen die theoretischen Grundlagen von Entscheidungsbäumen, Strategien zur optimalen Baumgröße (Pruning), Resampling-Verfahren und die praktische Implementierung mit der Statistiksoftware R.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist es, zu verdeutlichen, wie komplexe Regressionsbäume erstellt und durch spezifische Algorithmen gekürzt werden können, um ein optimales Gleichgewicht zwischen Modellkomplexität und Vorhersagegenauigkeit zu finden.

Welche wissenschaftliche Methode kommt zum Einsatz?

Es wird der CART-Algorithmus verwendet, ergänzt durch mathematische Konzepte wie das Fehler-Komplexitätsmaß und statistische Validierungsmethoden (Kreuzvalidierung) zur Modellwahl.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die theoretische Herleitung der CART-Modelle, die Methoden zur Korrektur von Instabilitäten (Bagging, Boosting, Random Forests) und einen empirischen Teil zur Analyse von US-amerikanischen Kriminalitätsraten.

Welche Schlüsselbegriffe charakterisieren die Arbeit?

Wichtige Begriffe sind CART, Regressionsbäume, Bagging, Random Forests, Gradient-Boosting, Kreuzvalidierung, Fehler-Komplexitätsmaß und Prognosegenauigkeit.

Warum ist das "Pruning" (Kürzen) von Bäumen notwendig?

Ohne Kürzung neigen Regressionsbäume zu "Overfitting", da sie die Trainingsdaten zu exakt abbilden und somit die statistische Aussagekraft für neue, unbekannte Beobachtungen verlieren.

Wie unterscheidet sich Random Forests vom Bagging-Ansatz?

Während beim Bagging alle verfügbaren Regressoren genutzt werden, verwendet Random Forests zusätzlich eine Zufallsauswahl von Splitvariablen pro Baum, um die Korrelation zwischen den Bäumen zu senken und die Varianz weiter zu reduzieren.

Was ist die Besonderheit des Gradient-Boosting im Vergleich zu anderen Methoden?

Beim Gradient-Boosting werden die Bäume sequentiell erstellt, wobei jeder neue Baum versucht, die Residuen (Fehler) der vorherigen Bäume zu minimieren, statt sie unabhängig voneinander zu bilden.

Was zeigt die empirische Analyse des UScrime-Datensatzes?

Die Analyse zeigt exemplarisch auf, wie ein ursprünglich zu komplexer Baum durch den Kreuzvalidierungsschätzer identifiziert und gekürzt werden kann, was zu einer deutlich besseren Prognosegenauigkeit führt.

Ende der Leseprobe aus 51 Seiten - nach oben

Details

Titel: Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden
Untertitel: Veranschaulicht durch eine empirische Analyse US-amerikanischer Verbrechensraten
Hochschule: Universität Augsburg
Note: 1,0
Autor: Rochus Niemierko (Autor:in)
Erscheinungsjahr: 2015
Seiten: 51
Katalognummer: V355232
ISBN (eBook): 9783668413566
ISBN (Buch): 9783668413573
Dateigröße: 1794 KB
Sprache: Deutsch
Schlagworte: CART CART Algorithmus Regressionsbäume Regressionsbaum Data Mining Statistik
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 21,99
Preis (Book): US$ 32,99

Arbeit zitieren: Rochus Niemierko (Autor:in), 2015, Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/355232