Bachelorarbeit, 2021
66 Seiten, Note: 1,6
1. Einleitung
1.1. Aufbau
1.2. Zielsetzung
1.3. Herausforderung
2. Grundlagen Fake News
2.1. Arten und Gründe
2.2. Verbreitung
2.2.1. Soziale Medien
2.2.1.1. Social Bots
2.2.1.2. Influence Bots
2.2.2. Nutzerverhalten
2.3. Gefahren und Auswirkungen
2.4. Schwierigkeit Fake News Erkennung
3. Definition Text Mining
3.1. Data Mining
3.2. Natural Language Processing
3.3. Machine Learning
4. Methoden zur Fake News Erkennung
4.1. Wissensbasierte Fake News Erkennung
4.1.1. Manueller Faktencheck
4.1.2. Automatischer Faktencheck
4.2. Stilbasierte Fake News Erkennung
4.2.1. Stildarstellung
4.2.1.1. Data Representation
4.2.1.2. Deep Syntax Analyse
4.2.1.3. Diskursanalyse
4.2.1.4. Semantische Analyse
4.2.1.5. Lesbarkeitsanalyse
4.2.1.6. Psycholinguistische Analyse
4.2.2. Stilklassifikation
4.2.3. Mustererkennung
4.3. Ausbreitungsbasierte Fake News Erkennung
4.3.1. Nachrichtenkaskaden
4.3.2. Ausbreitungsgraphen
4.3.2.1. Homogenes Netzwerk
4.3.2.2. Heterogenes Netzwerk
4.3.2.3. Hierarchisches Netzwerk
4.4. Quellenbasierte Fake News Erkennung
4.4.1. Autoren und Herausgeber Quellenbewertung
4.4.2. Social Media Nutzer Quellenbewertung
5. Anwendungen und Forschungen zur Fake News Erkennung
5.1. Webseiten zur Fake News Erkennung
5.2. Tools zur Fake News Erkennung
5.3. Forschungsprojekt Pheme
6. Konzeption und Realisierung
6.1. Python und Bibliotheken
6.2. Vorgehen und Prozessablauf
6.3. Datensatz und Data Understanding
6.3.1. Erklärung des Datensatzes
6.3.2. Analyse True Daten
6.3.3. Analyse Fake Daten
6.3.4. Zusammenschluss der Daten
6.4. Data Preparation
6.4.1. Data Cleaning
6.4.1.1. Doppelte Werte
6.4.1.2. Fehlwerte entfernen
6.4.1.3. Semantische und syntaktische Fehler
6.4.2. Stoppwörter entfernen
6.4.3. Tokenisierung
6.4.4. Stemming
6.4.5. Vektorisierung
6.4.5.1. Bag of Words
6.4.5.2. TF-IDF
6.5. Modelling und Evaluation
6.5.1. Exploratory Data Analysis
6.5.1.1. N-Gramme
6.5.1.2. Beste Erkennungswörter
6.5.1.3. Unique Token
6.5.2. Klassifikation
6.5.2.1. Naive Bayes
6.5.2.2. Logistische Regression
6.5.3. Clustering
6.6. Zusammenfassung der Ergebnisse
7. Erkenntnisse
7.1. Beantwortung der Forschungsfragen
7.2. Weitergehender Forschungsbedarf
7.3. Handlungsempfehlung
Die vorliegende Arbeit untersucht die Möglichkeiten des Text Minings zur automatisierten Erkennung von Fake News. Das primäre Ziel besteht darin, durch die Analyse von stilistischen Mustern und Inhalten in einem aufbereiteten Datensatz zu klären, ob sich Fake News mittels maschineller Lernverfahren identifizieren lassen und ob eine spezifische "Sprache der Falschmeldungen" existiert.
4.2. Stilbasierte Fake News Erkennung
Der Schwerpunkt einer stilbasierten Fake News Erkennung liegt, wie bei der wissensbasierten Erkennung, auf der Untersuchung des Nachrichteninhalts. Bei der wissensbasierten Methode steht allerdings die Bewertung der Authentizität der Nachricht im Fokus, während bei der stilbasierten Methode z.B. die Nachrichtenabsicht bewertet, ob beispielsweise die Absicht besteht, die Öffentlichkeit irrezuführen oder nicht. Die Annahme hinter stilbasierten Methoden besteht darin, dass Fake News in einem speziellen Stil geschrieben werden, um zu erreichen, dass die falsche Nachricht gelesen und als wahr aufgenommen wird.
1. Einleitung: Beschreibt die Relevanz der Fake-News-Problematik im 21. Jahrhundert und definiert das Ziel, durch Text Mining methodische Lösungen für deren Erkennung zu erforschen.
2. Grundlagen Fake News: Erläutert die Arten, Verbreitungswege (insbesondere soziale Medien und Bots) sowie die gesellschaftlichen Auswirkungen von Desinformation.
3. Definition Text Mining: Definiert die technologischen Grundlagen und Disziplinen wie Data Mining, Natural Language Processing und Machine Learning, die für die Analyse relevant sind.
4. Methoden zur Fake News Erkennung: Kategorisiert verschiedene Ansätze, darunter wissensbasierte, stilbasierte, ausbreitungsbasierte und quellenbasierte Verfahren zur Identifizierung falscher Nachrichten.
5. Anwendungen und Forschungen zur Fake News Erkennung: Gibt einen Überblick über existierende Webseiten, Tools und Forschungsprojekte wie Pheme, die sich mit der Faktenprüfung befassen.
6. Konzeption und Realisierung: Beschreibt den methodischen Prozess der Datenaufbereitung, Modellbildung (Klassifikation, Clustering) und die praktische Analyse des Datensatzes.
7. Erkenntnisse: Beantwortet die Forschungsfragen, diskutiert den weiteren Forschungsbedarf und gibt konkrete Handlungsempfehlungen für die Praxis.
Fake News, Text Mining, Machine Learning, Stilklassifikation, Natural Language Processing, Klassifikation, Clustering, TF-IDF, Naive Bayes, Logistische Regression, Desinformation, Social Bots, Datenvorverarbeitung, Sprachanalyse, Erkennungsgenauigkeit
Die Bachelorarbeit behandelt die Analyse und automatische Erkennung von Fake News mittels stilbasierter Text-Mining-Methoden, um Falschmeldungen effizient von wahren Nachrichten zu unterscheiden.
Die Arbeit umfasst die Identifikation von Mustern in Fake News, die Rolle sozialer Netzwerke, die Anwendung von maschinellem Lernen sowie die semantische und stilistische Untersuchung von Nachrichtentexten.
Zentral sind die Fragen, ob sich Text Mining zur Erkennung von Fake News eignet, ob klassische Fake News so erkannt werden können und ob es eine spezifische Sprache der gefälschten Nachrichten gibt.
Verwendet werden Methoden des Text Minings wie Preprocessing (Data Cleaning, Tokenisierung, Stemming), die Vektorisierung (TF-IDF), statistische Analysen (EDA, N-Gramme) sowie Klassifikations- und Clustering-Algorithmen (Naive Bayes, Logistische Regression, k-Means).
Der Hauptteil gliedert sich in die theoretische Fundierung der Methoden, die Vorstellung von Forschungsprojekten und die detaillierte Konzeption sowie Realisierung der Analyse anhand eines politischen Datensatzes.
Wesentliche Begriffe sind Fake News, stilbasierte Erkennung, Machine Learning, Text-Mining, Klassifikation und die Identifikation von sprachlichen Merkmalen wie die Verwendung spezifischer Wörter.
Die Untersuchung zeigt, dass Fake News oft eine höhere Anzahl individueller Wörter verwenden und bestimmte Begriffe wie "hillari" oder "clinton" in diesem Datensatz als signifikante Indikatoren für Falschmeldungen identifiziert werden konnten.
Die Analyse verdeutlichte, dass sich die stilistischen Merkmale und die Erkennungsgenauigkeit zwischen Titeln und Inhalten unterscheiden, weshalb eine separierte Betrachtung für präzisere Ergebnisse unerlässlich ist.
Das Clustering ermöglichte es, ohne vorgegebene Zielvariablen Muster zu finden und Word Clouds zu erstellen, die visuell aufzeigen, welche Themen und Wörter in Clustern mit hohem Fake-News-Anteil dominieren.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

