Bachelorarbeit, 2021
95 Seiten, Note: 1,0
1 Einleitung
1.1 Motivation
1.2 Problemstellung
1.3 Forschungsfrage
1.4 Vorgehensweise
2 Text Mining und Online-Bewertungen
2.1 Text Mining
2.1.1 Definition und Abgrenzung
2.1.2 Der Prozess des Text Mining
2.1.3 Text als Datenbasis
2.2 Online-Bewertungen
2.2.1 Bewertungsplattformen
2.2.2 Formatmerkmale von Online-Bewertungen
3 Forschungsmethodik
4 Sentiment-Analyse und Aspekt-Extraktion
4.1 Datenerfassung
4.1.1 Application Programming Interfaces (APIs)
4.1.2 Web Crawler
4.1.3 Datei-Downloads
4.1.4 Herausforderungen
4.2 Vorverarbeitung der Daten
4.2.1 Tokenisierung
4.2.2 Konvertierung von Buchstaben in Kleinbuchstaben
4.2.3 Korrektur von Rechtschreibfehlern
4.2.4 Stoppwort-Entfernung
4.2.5 Umgang mit Negationen
4.2.6 Part-of-Speech Tagging
4.3 Sentiment-Analyse
4.3.1 Herausforderungen
4.3.2 Granularitätsebenen und Methoden der Sentiment-Analyse
4.3.3 Lexikonbasierter Ansatz
4.3.4 Aspektbasierter Ansatz
4.4 Aspekt-Extraktion
4.4.1 Latent Dirichlet Allocation
4.4.2 Herausforderungen
5 Experimente
5.1 Datensatz
5.2 Phase I: Untersuchung des Korpus
5.3 Phase II: Vorverarbeitung
5.4 Phase III: Sentiment-Analyse - lexikonbasierter Ansatz
5.5 Phase IV: Sentiment-Analyse - aspektbasierter Ansatz
5.6 Phase V: Aspekt-Extraktion - Latent Dirichlet Allocation
5.7 Phase VI: Zusammenführung der Ergebnisse und Bewertung
6 Verwandte Arbeiten
7 Schlussbetrachtung
Die vorliegende Arbeit zielt darauf ab, ein universelles System für den E-Commerce-Markt zu entwickeln oder zu konzipieren, das Online-Bewertungen mittels Text Mining analysiert, um eine produktbezogene Übersicht der Aspekte und deren Sentiment zu liefern. Dabei werden insbesondere die praktischen Herausforderungen bei der automatischen Verarbeitung von Kundenrezensionen adressiert.
4.2.1 Tokenisierung
Die Tokenisierung bildet den ersten Schritt in der Vorverarbeitung mit dem Prozess der Zerlegung der Texteinheiten in einzelne Wörter, Phrasen, Symbole oder andere sinnvolle Elemente, die als Token bezeichnet werden (vgl. Weiss et al., 2005, S. 20-21). Damit lässt sich der Begriff Token als eine zusammenhängende Sequenz von Zeichen definieren (vgl. Krüger, 2006, S. 413). Das Ziel der Tokenisierung ist die Identifikation von sinnvollen Schlüsselwörtern durch das Erkennen von Begrenzungszeichen in einem Satz. Diese Aufgabe ist für einen mit der Sprachstruktur vertrauten Menschen trivial, da es klare Indikatoren für Wortgrenzen gibt wie zum Beispiel Leerzeichen, Punkte und Kommas.
Im Gegensatz dazu ergeben sich für ein Computerprogramm als technisches Medium bei diesem Aufgabentyp eine Reihe von unterschiedlichen Herausforderungen. Die Ursache liegt darin begründet, dass bestimmte Zeichen je nach Anwendung nicht immer eindeutig als Grenzsignale festzumachen sind. Weiss et al. (2015) verdeutlichen dies am Beispiel von Interpunktionszeichen wie zum Beispiel ein Punkt, Komma oder Doppelpunkt, welche zwischen Zahlen nicht als Begrenzungszeichen, sondern als Teil der Zahl betrachtet werden (z. B. „12,45 €“, „12.45 $“, „12:45 Uhr“). Vergleichbares gilt zudem für Abkürzungen, die durch Punkte getrennt werden können (z. B. „Dr.“). Ein entscheidendes Kriterium für den Erfolg der Tokenisierung stellt die kontextuelle Einbindung der Sprache in den Prozess dar.
1 Einleitung: Diese Kapitel motiviert die Relevanz von Online-Bewertungen im E-Commerce, definiert die Problemstellung der manuellen Analyse und legt die Forschungsfrage sowie die methodische Vorgehensweise fest.
2 Text Mining und Online-Bewertungen: Hier werden theoretische Grundlagen des Text Mining erörtert und die Struktur sowie die verschiedenen Arten von Bewertungsplattformen miteinander verglichen.
3 Forschungsmethodik: Es wird der methodische Ansatz mit seinen Phasen gemäß Schieber und Hilbert (2014) vorgestellt und die Kategorisierung der Daten für die Analyse beschrieben.
4 Sentiment-Analyse und Aspekt-Extraktion: Dieses zentrale Kapitel behandelt die theoretischen Rahmenbedingungen zu Datenerfassung, Vorverarbeitung, Sentiment-Analyse und Aspekt-Extraktion sowie deren Herausforderungen.
5 Experimente: Die Kapitelabschnitte dokumentieren die praktische Umsetzung und Evaluation des hybriden Ansatzes anhand eines Amazon-Datensatzes für ein Apple-Produkt.
6 Verwandte Arbeiten: Es erfolgt eine Einordnung der Arbeit durch eine Diskussion aktueller Publikationen und verwandter Forschungsansätze im Bereich der Themenmodellierung.
7 Schlussbetrachtung: Die Arbeit schließt mit einer Zusammenfassung der Ergebnisse, einer kritischen Würdigung der Einschränkungen und einem Ausblick auf zukünftige Forschungsmöglichkeiten.
Text Mining, Online-Bewertungen, Sentiment-Analyse, Aspekt-Extraktion, E-Commerce, Latent Dirichlet Allocation, Vorverarbeitung, Datenanalyse, Kundenfeedback, Automatisierung, Klassifikation, Wortartenerkennung, Sprachverarbeitung, Modellierung, Produktentwicklung.
Die Arbeit untersucht, wie Unternehmen die "Stimme des Kunden" aus Online-Bewertungen effizient und automatisiert analysieren können, um wertvolles Wissen über die Kundenmeinungen zu Produkten und Dienstleistungen zu gewinnen.
Die Schwerpunkte liegen auf den Prozessen des Text Mining, der Sentiment-Analyse zur Bestimmung der Stimmung und der Aspekt-Extraktion zur Identifizierung der bewerteten Produkteigenschaften.
Das Ziel ist die Erschaffung eines universellen, plattformunabhängigen Systems für den E-Commerce-Markt, das aus Online-Bewertungen automatisch Übersichtsgrafiken zu Aspekten und deren zugehörigem Sentiment erstellt.
Die Arbeit nutzt ein generisches Prozessmodell basierend auf Schieber und Hilbert (2014) und testet einen hybriden methodischen Ansatz, der lexikonbasierte Methoden mit der Latent Dirichlet Allocation (LDA) kombiniert.
Der Hauptteil gliedert sich in theoretische Grundlagen, eine detaillierte Forschungsmethodik inklusive Vorverarbeitungsschritten wie Tokenisierung und POS-Tagging sowie die praktische Durchführung von Experimenten an einem Amazon-Datensatz.
Wichtige Begriffe sind unter anderem Text Mining, Sentiment-Analyse, Aspekt-Extraktion und Latent Dirichlet Allocation (LDA).
Das Produkt wurde aufgrund der hohen Anzahl an verfügbaren Bewertungen und der vielfältigen technischen Eigenschaften in der Kategorie "electronics" ausgewählt, um die Effektivität des hybriden Analyseansatzes zu demonstrieren.
Diese Bewertungen dienen als Grundlage für eine manuelle Evaluation, bei der Teilnehmer Stichwörter identifizieren, um die Ergebnisse der automatisierten Algorithmen mit menschlicher Einschätzung zu validieren.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

