Erkennung von Fake News anhand von stilbasierten Methoden des Text Minings

Bachelorarbeit, 2021
66 Seiten, Note: 1,6

Informatik - Wirtschaftsinformatik

Leseprobe

Inhaltsverzeichnis

1. Einleitung

1.1. Aufbau

1.2. Zielsetzung

1.3. Herausforderung

2. Grundlagen Fake News

2.1. Arten und Gründe

2.2. Verbreitung

2.2.1. Soziale Medien

2.2.1.1. Social Bots

2.2.1.2. Influence Bots

2.2.2. Nutzerverhalten

2.3. Gefahren und Auswirkungen

2.4. Schwierigkeit Fake News Erkennung

3. Definition Text Mining

3.1. Data Mining

3.2. Natural Language Processing

3.3. Machine Learning

4. Methoden zur Fake News Erkennung

4.1. Wissensbasierte Fake News Erkennung

4.1.1. Manueller Faktencheck

4.1.2. Automatischer Faktencheck

4.2. Stilbasierte Fake News Erkennung

4.2.1. Stildarstellung

4.2.1.1. Data Representation

4.2.1.2. Deep Syntax Analyse

4.2.1.3. Diskursanalyse

4.2.1.4. Semantische Analyse

4.2.1.5. Lesbarkeitsanalyse

4.2.1.6. Psycholinguistische Analyse

4.2.2. Stilklassifikation

4.2.3. Mustererkennung

4.3. Ausbreitungsbasierte Fake News Erkennung

4.3.1. Nachrichtenkaskaden

4.3.2. Ausbreitungsgraphen

4.3.2.1. Homogenes Netzwerk

4.3.2.2. Heterogenes Netzwerk

4.3.2.3. Hierarchisches Netzwerk

4.4. Quellenbasierte Fake News Erkennung

4.4.1. Autoren und Herausgeber Quellenbewertung

4.4.2. Social Media Nutzer Quellenbewertung

5. Anwendungen und Forschungen zur Fake News Erkennung

5.1. Webseiten zur Fake News Erkennung

5.2. Tools zur Fake News Erkennung

5.3. Forschungsprojekt Pheme

6. Konzeption und Realisierung

6.1. Python und Bibliotheken

6.2. Vorgehen und Prozessablauf

6.3. Datensatz und Data Understanding

6.3.1. Erklärung des Datensatzes

6.3.2. Analyse True Daten

6.3.3. Analyse Fake Daten

6.3.4. Zusammenschluss der Daten

6.4. Data Preparation

6.4.1. Data Cleaning

6.4.1.1. Doppelte Werte

6.4.1.2. Fehlwerte entfernen

6.4.1.3. Semantische und syntaktische Fehler

6.4.2. Stoppwörter entfernen

6.4.3. Tokenisierung

6.4.4. Stemming

6.4.5. Vektorisierung

6.4.5.1. Bag of Words

6.4.5.2. TF-IDF

6.5. Modelling und Evaluation

6.5.1. Exploratory Data Analysis

6.5.1.1. N-Gramme

6.5.1.2. Beste Erkennungswörter

6.5.1.3. Unique Token

6.5.2. Klassifikation

6.5.2.1. Naive Bayes

6.5.2.2. Logistische Regression

6.5.3. Clustering

6.6. Zusammenfassung der Ergebnisse

7. Erkenntnisse

7.1. Beantwortung der Forschungsfragen

7.2. Weitergehender Forschungsbedarf

7.3. Handlungsempfehlung

Zielsetzung & Themen

Die vorliegende Arbeit untersucht die Möglichkeiten des Text Minings zur automatisierten Erkennung von Fake News. Das primäre Ziel besteht darin, durch die Analyse von stilistischen Mustern und Inhalten in einem aufbereiteten Datensatz zu klären, ob sich Fake News mittels maschineller Lernverfahren identifizieren lassen und ob eine spezifische "Sprache der Falschmeldungen" existiert.

Grundlagen der Fake-News-Phänomene und deren Verbreitungsmechanismen
Einsatz von Text-Mining-Methoden wie Natural Language Processing und Machine Learning
Stilbasierte Analyse von Nachrichtentexten und Titeln
Durchführung von Klassifikationen (Naive Bayes, Logistische Regression) und Clustering-Verfahren
Beantwortung von Forschungsfragen zur Identifizierbarkeit und sprachlichen Charakteristik von Fake News

Auszug aus dem Buch

4.2. Stilbasierte Fake News Erkennung

Der Schwerpunkt einer stilbasierten Fake News Erkennung liegt, wie bei der wissensbasierten Erkennung, auf der Untersuchung des Nachrichteninhalts. Bei der wissensbasierten Methode steht allerdings die Bewertung der Authentizität der Nachricht im Fokus, während bei der stilbasierten Methode z.B. die Nachrichtenabsicht bewertet, ob beispielsweise die Absicht besteht, die Öffentlichkeit irrezuführen oder nicht. Die Annahme hinter stilbasierten Methoden besteht darin, dass Fake News in einem speziellen Stil geschrieben werden, um zu erreichen, dass die falsche Nachricht gelesen und als wahr aufgenommen wird.

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt die Relevanz der Fake-News-Problematik im 21. Jahrhundert und definiert das Ziel, durch Text Mining methodische Lösungen für deren Erkennung zu erforschen.

2. Grundlagen Fake News: Erläutert die Arten, Verbreitungswege (insbesondere soziale Medien und Bots) sowie die gesellschaftlichen Auswirkungen von Desinformation.

3. Definition Text Mining: Definiert die technologischen Grundlagen und Disziplinen wie Data Mining, Natural Language Processing und Machine Learning, die für die Analyse relevant sind.

4. Methoden zur Fake News Erkennung: Kategorisiert verschiedene Ansätze, darunter wissensbasierte, stilbasierte, ausbreitungsbasierte und quellenbasierte Verfahren zur Identifizierung falscher Nachrichten.

5. Anwendungen und Forschungen zur Fake News Erkennung: Gibt einen Überblick über existierende Webseiten, Tools und Forschungsprojekte wie Pheme, die sich mit der Faktenprüfung befassen.

6. Konzeption und Realisierung: Beschreibt den methodischen Prozess der Datenaufbereitung, Modellbildung (Klassifikation, Clustering) und die praktische Analyse des Datensatzes.

7. Erkenntnisse: Beantwortet die Forschungsfragen, diskutiert den weiteren Forschungsbedarf und gibt konkrete Handlungsempfehlungen für die Praxis.

Schlüsselwörter

Fake News, Text Mining, Machine Learning, Stilklassifikation, Natural Language Processing, Klassifikation, Clustering, TF-IDF, Naive Bayes, Logistische Regression, Desinformation, Social Bots, Datenvorverarbeitung, Sprachanalyse, Erkennungsgenauigkeit

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Bachelorarbeit behandelt die Analyse und automatische Erkennung von Fake News mittels stilbasierter Text-Mining-Methoden, um Falschmeldungen effizient von wahren Nachrichten zu unterscheiden.

Welche zentralen Themenfelder werden bearbeitet?

Die Arbeit umfasst die Identifikation von Mustern in Fake News, die Rolle sozialer Netzwerke, die Anwendung von maschinellem Lernen sowie die semantische und stilistische Untersuchung von Nachrichtentexten.

Was ist die primäre Forschungsfrage?

Zentral sind die Fragen, ob sich Text Mining zur Erkennung von Fake News eignet, ob klassische Fake News so erkannt werden können und ob es eine spezifische Sprache der gefälschten Nachrichten gibt.

Welche wissenschaftlichen Methoden kommen zum Einsatz?

Verwendet werden Methoden des Text Minings wie Preprocessing (Data Cleaning, Tokenisierung, Stemming), die Vektorisierung (TF-IDF), statistische Analysen (EDA, N-Gramme) sowie Klassifikations- und Clustering-Algorithmen (Naive Bayes, Logistische Regression, k-Means).

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die theoretische Fundierung der Methoden, die Vorstellung von Forschungsprojekten und die detaillierte Konzeption sowie Realisierung der Analyse anhand eines politischen Datensatzes.

Durch welche Schlüsselbegriffe ist die Arbeit geprägt?

Wesentliche Begriffe sind Fake News, stilbasierte Erkennung, Machine Learning, Text-Mining, Klassifikation und die Identifikation von sprachlichen Merkmalen wie die Verwendung spezifischer Wörter.

Wie unterscheidet sich die "Sprache" von Fake News in dieser Arbeit?

Die Untersuchung zeigt, dass Fake News oft eine höhere Anzahl individueller Wörter verwenden und bestimmte Begriffe wie "hillari" oder "clinton" in diesem Datensatz als signifikante Indikatoren für Falschmeldungen identifiziert werden konnten.

Warum ist die Unterscheidung von Nachrichtentitel und Text so wichtig?

Die Analyse verdeutlichte, dass sich die stilistischen Merkmale und die Erkennungsgenauigkeit zwischen Titeln und Inhalten unterscheiden, weshalb eine separierte Betrachtung für präzisere Ergebnisse unerlässlich ist.

Welche Rolle spielt das Clustering für die Ergebnisse?

Das Clustering ermöglichte es, ohne vorgegebene Zielvariablen Muster zu finden und Word Clouds zu erstellen, die visuell aufzeigen, welche Themen und Wörter in Clustern mit hohem Fake-News-Anteil dominieren.

Ende der Leseprobe aus 66 Seiten - nach oben

Details

Titel: Erkennung von Fake News anhand von stilbasierten Methoden des Text Minings
Hochschule: Hochschule Ravensburg-Weingarten
Note: 1,6
Autor: Oliver Lorenz (Autor:in)
Erscheinungsjahr: 2021
Seiten: 66
Katalognummer: V1031189
ISBN (eBook): 9783346436924
ISBN (Buch): 9783346436931
Sprache: Deutsch
Anmerkungen: Wie in der BA beschrieben beeinflussen die Namen im Datensatz die Analyseergebnisse stark. Abzüge gab es daher, da bei der Realisierung und Analyse des Datensatzes alle Vornamen und Nachnamen im Datensatz nicht im Data Cleaning entfernt wurden und diese die Ergebnisse beeinflussen.
Schlagworte: Fake News Text Mining Data Mining Wirtschaftsinformati Desinformation Falsche Nachricht Fake News Nachrichten Text Analyse EDA Clustering gefälschte Nachrichten Muster Erkennung Sprache der gefälschten Nachrichten Data Cleaning Machine Learning NLP Data Representation Stilbasierte Fake News Erkennung Methoden zur Fake News Erkennung Stilklassifikation Mustererkennung Ausbreitungsbasierte Fake News Erkennung Wissensbasierte Fake News Erkennung Quellenbasierte Fake News Erkennung Tools zur Fake News Erkennung Datensatz Data Understanding Stoppwörter Tokenisierung Stemming Vektrorisierung Bag of Words TF-IDF Naive Bayes Klassifikation Social Bots Influence Bots Faktencheck
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 34,99
Preis (Book): US$ 48,99

Arbeit zitieren: Oliver Lorenz (Autor:in), 2021, Erkennung von Fake News anhand von stilbasierten Methoden des Text Minings, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/1031189