Bachelorarbeit, 2021
90 Seiten, Note: 1,3
1. Einleitung
1.1. Motivation und Problemstellung
1.2. Zielsetzung und Abgrenzung
1.3. Aufbau der Arbeit
2. Grundlagen
2.1. Tourismus in der Bodenseeregion
2.2. Data Mining
2.3. Text Mining
2.4. Unsupervised Topic Detection
3. Methodik
3.1. Datenextraktion – Web Crawling
3.1.1. Datenquelle
3.1.2. Datenextraktion
3.2. Datenanalyse – Unsupervised Topic Detection
3.2.1. Vorbereitung der Daten – Preprocessing
3.2.2. Latent Dirichlet Allocation (LDA)
3.2.3. Keyword Clustering
3.2.4. Hierarchical Clustering
4. Ergebnisse
4.1. Datenextraktion – Web Crawling
4.1.1. Erklärung des Datensatzes
4.1.2. Tabellarische Beschreibung der Attribute
4.2. Datenanalyse – Unsupervised Topic Detection
4.2.1. LDA
4.2.2. Keyword Clustering
4.2.3. Hierarchical Clustering
4.3. Vergleich der Ergebnisse
5. Schluss
5.1. Zusammenfassung
5.2. Ausblick
Diese Bachelorthesis untersucht mittels verschiedener Verfahren der Unsupervised Topic Detection, welche Themen häufig in Kundenbewertungen touristischer Unterkünfte in der Bodenseeregion diskutiert werden, um Unternehmen bei der Optimierung ihrer Angebote zu unterstützen.
Latent Dirichlet Allocation (LDA)
Die Latent Dirichlet Allocation ist ein generatives, probabilistisches Verfahren für diskrete Daten. Sie wird verwendet, um herauszufinden, welche Topics behandelt werden und in welchem Verhältnis sie zueinander stehen innerhalb eines Dokuments. Die LDA wurde von David Blei et al. vorgestellt und hat sich schnell zu einer der populärsten probabilistischen Textmodellierungsverfahren entwickelt. Es hat im Bereich des maschinellen Lernens eine Reihe von Forschungsarbeiten inspiriert, u.a. die Arbeiten von Mark Girolami und Ata Kabán. Zudem wurden zahlreiche Erweiterungen des Standard-LDA-Modells entwickelt, z.B. hierarchische Dirichlet-Prozesse oder dynamische Themenmodelle. Das Verfahren wurde u.a. schon für Quellcodeanalysen, Meinungserkennung, Bildklassifizierung, Empfehlungssysteme und Emotionsklassifikation angewandt. Im Folgenden wird das Verfahren hauptsächlich basierend auf den Originalautoren (Blei et al.) näher erläutert.
Die LDA ist ein dreistufiges Bayesianisches Modell. Dieser Algorithmus wird für einen Textkorpus, d.h. eine Sammlung von verschiedenen Dokumenten, häufig im Bereich des NLP eingesetzt. Um Dokumente mit dem Verfahren untersuchen zu können, muss jedes Dokument in einer Bag of Word Struktur vorliegen, d.h., dass die Reihenfolge der Wörter in einem Dokument vernachlässigt werden kann. Ein Dokument ist dabei eine Sequenz von mehreren Wörtern. Die Grundidee des Modells ist, dass jedes Dokument aus verschiedenen K Topics besteht, welche vorerst latent sind. Jedes Dokument kann dabei durch eine Wahrscheinlichkeitsverteilung (Dirichlet-Verteilung) über Topics beschrieben werden. Dabei entspricht jedes Topic einer Wahrscheinlichkeitsverteilung über mehrere, verschiedene Wörter. Der Inhalt des Topics wird also durch die verschiedenen Wörter dargestellt. Grundsätzlich werden einzelne Wörter eines Textkorpus mit einer Wahrscheinlichkeit zwischen 0 und 1 einem Topic zugeordnet. Die Werte der Wahrscheinlichkeiten beschreiben, wie wahrscheinlich eine Assoziation eines Dokuments zu diesem Topic ist. Das Ergebnis dieses Algorithmus sind mehrere Topics in Form von Wortgruppen. Jede Wortgruppe ist dabei eine Wahrscheinlichkeitsverteilung über Worte in den Dokumenten. Die LDA kann dabei auf zwei verschiedene Weisen betrachtet werden, als generativen Prozess und als Inferenzprozess. Den Inferenzprozess kann man sich dabei als Umkehrung des generativen Prozesses vorstellen.
1. Einleitung: Beschreibt die steigende Bedeutung von User Generated Content im Tourismus und definiert die Motivation sowie Zielsetzung der Arbeit.
2. Grundlagen: Erläutert die theoretischen Konzepte von Tourismus in der Bodenseeregion, Data Mining, Text Mining und Unsupervised Topic Detection.
3. Methodik: Beschreibt detailliert die Prozesse der Datenextraktion via Web Crawling sowie die Vorbereitung und Analyse der Daten durch verschiedene Verfahren.
4. Ergebnisse: Präsentiert die Resultate der Analysen und vergleicht diese methodisch sowie semantisch über verschiedene Granularitätsebenen hinweg.
5. Schluss: Fasst die wichtigsten Erkenntnisse der Thesis zusammen und gibt einen Ausblick auf potenzielle zukünftige Entwicklungen und Analysen.
Unsupervised Topic Detection, Text Mining, Data Mining, Bodenseeregion, Kundenfeedback, Web Crawling, Latent Dirichlet Allocation, Keyword Clustering, Hierarchical Clustering, Tourismus, Sentimentanalyse, Themenidentifikation, Qualitätsdimensionen, Prozessmodell, RapidMiner.
Die Arbeit befasst sich mit der automatisierten Analyse von Hotel- und Unterkunftsrezensionen in der Bodenseeregion, um versteckte Themen (Topics) zu identifizieren.
Im Fokus stehen die Themenbereiche Hotelausstattung, Servicequalität, gastronomische Angebote, Standortfaktoren sowie die Zimmerqualität.
Das Ziel ist es, verschiedene unüberwachte Verfahren zur Themenerkennung zu evaluieren und herauszufinden, welches Verfahren die aussagekräftigsten Ergebnisse für unterschiedliche Detaillierungsgrade der Themen liefert.
Es werden drei Verfahren verglichen: die Latent Dirichlet Allocation (LDA), das Keyword Clustering sowie das Hierarchical Clustering, jeweils angewandt auf deutschsprachige Bewertungen.
Der Hauptteil gliedert sich in die methodische Beschreibung der Datenextraktion via Web Crawling, die Datenaufbereitung (Preprocessing) und die anschließende Durchführung und Optimierung der gewählten Clustering-Verfahren.
Zu den prägenden Begriffen zählen Topic Detection, Unsupervised Learning, Tourismus-Feedback, Data-Mining-Prozesse und RapidMiner.
Die Plattform bietet eine große Menge an textuellen Bewertungen für die Bodenseeregion, die im Vergleich zu anderen Portalen eine für unüberwachte Verfahren geeignete Struktur aufweisen.
Das Hierarchical Clustering im untersuchten Software-Tool bietet weniger Flexibilität bei der manuellen Wahl der Clusteranzahl pro Iteration und neigt zu einer unflexiblen symmetrischen Aufteilung.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

