Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren

Masterarbeit, 2022
101 Seiten, Note: 1,3

BWL - Sonstiges

Leseprobe

Inhaltsverzeichnis

1 Einleitung und Forschungsfrage

2 Begriffsdefinitionen und theoretische Grundlagen

2.1 Maschinelles Lernen

2.2 Datenqualität

2.3 Datenqualitätsdimensionen

2.3.1 Accuracy

2.3.2 Completeness

2.3.3 Consistency

2.3.4 Currency

3 Methodik

3.1 Strategie und Durchführung des Suchverfahrens

3.1.1 Prozess zur Auswahl relevanter Primärliteratur

3.1.2 Verwendete Literaturdatenbanken

3.1.3 Herangezogene Suchbegriffabfolgen

3.1.4 In- und Exklusionskriterien und Qualitätsbewertung

3.1.5 Datenextraktion

3.1.6 Ergänzend durchgeführte Suchverfahren

3.2 Synthese der Suchergebnisse

4 Darstellung der Ergebnisse

4.1 Allgemeine Ergebnisse der Literaturrecherche

4.2 Datenqualitätsdefekte

4.2.1 Defekte der Datenqualitätsdimension Accuracy

4.2.2 Defekte der Datenqualitätsdimension Completeness

4.2.3 Defekte der Datenqualitätsdimensionen Consistency

4.2.4 Defekte der Datenqualitätsdimensionen Currency

4.3 Methoden zur Adressierung von Datenqualitätsdefekten

4.3.1 Definition der häufig eingesetzten Verfahren und Methodenklassifizierungen

4.3.1.1 Häufig verwendete ML-Verfahren

4.3.1.2 Klassifizierung von Adressierungsmethoden

4.3.2 Adressierungsmethoden der Datenqualitätsdimension Accuracy

4.3.2.1 Adressierung von Imbalanced Data

4.3.2.2 Adressierung von Incorrect/Uncertain Data

4.3.2.3 Adressierung von Incorrect/Uncertain Labels

4.3.2.4 Adressierung von Irrelevant Features

4.3.2.5 Adressierung von Irrelevant Instances

4.3.2.6 Adressierung von Not Normalized Data

4.3.3 Adressierungsmethoden der Datenqualitätsdimension Completeness

4.3.3.1 Adressierung von Incomplete Images

4.3.3.2 Adressierung von Missing Feature Values

4.3.3.3 Adressierung von Missing Features

4.3.3.4 Adressierung von Missing Labels

4.3.4 Adressierungsmethoden der Datenqualitätsdimension Consistency

4.3.5 Adressierungsmethoden der Datenqualitätsdimension Currency

4.3.5.1 Adressierung von Outdated Data

4.3.5.2 Adressierung von Outdated Model

4.3.6 Hybride Methoden zur Adressierung mehrerer Datenqualitätsdefekte

4.4 Übersicht zum Zusammenhang zwischen den Datenqualitätsdefekten und Adressierungsmethoden

5 Erkenntnisse und Diskussion der Ergebnisse

5.1 Methodische Vorgehensweise der Literaturrecherche

5.2 Konzeptionelle Unterteilung der DQ-Defekte und Adressierungsmethoden

5.3 Identifizierte Möglichkeiten zur Adressierung von Datenqualitätsdefekten

5.3.1 Übergreifende Aspekte der Suchergebnisse

5.3.2 Datenqualitätsdimensionen und Datenqualitätsdefekte

5.3.3 Adressierungsmethoden

5.3.3.1 Bewertung der Adressierungsmethoden zu Imbalanced Data

5.3.3.2 Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Data

5.3.3.3 Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Labels

5.3.3.4 Bewertung der Adressierungsmethoden zu Irrelevant Features

5.3.3.5 Bewertung der Adressierungsmethoden zu Irrelevant Instances

5.3.3.6 Bewertung der Adressierungsmethoden zu Not Normalized Data

5.3.3.7 Bewertung der Adressierungsmethoden zu Incomplete Images

5.3.3.8 Bewertung der Adressierungsmethoden zu Missing Feature Values

5.3.3.9 Bewertung der Adressierungsmethoden zu Missing Features

5.3.3.10 Bewertung der Adressierungsmethoden zu Missing Labels

5.3.3.11 Bewertung der Adressierungsmethoden zu Inconsistent Data

5.3.3.12 Bewertung der Adressierungsmethoden zu Outdated Data

5.3.3.13 Bewertung der Adressierungsmethoden zu Outdated Model

5.3.3.14 Bewertung der hybriden Methoden

5.3.4 Bewertung der häufig angewandten Verfahren und Methodenklassifizierungen

6 Fazit

Zielsetzung & Themen

Die Arbeit untersucht wissenschaftlich, welche Methoden in der Literatur existieren, um Datenqualitätsdefekte in Systemen des Maschinellen Lernens zu adressieren. Ziel der Forschungsarbeit ist es, diese Adressierungsmethoden systematisch zu strukturieren, Gemeinsamkeiten und Unterschiede aufzuzeigen sowie Implikationen für künftigen Forschungsbedarf abzuleiten.

Systematische Literaturanalyse von Methoden zur Behebung von Datenqualitätsdefekten.
Fokussierung auf die Datenqualitätsdimensionen Accuracy, Completeness, Consistency und Currency.
Strukturierung der Adressierungsmethoden entlang von ML-Verfahren und Methodenklassifizierungen.
Identifikation und Bewertung hybrider Lösungsansätze für komplexe Datenqualitätsprobleme.
Diskussion aktueller Herausforderungen im Big-Data-Kontext.

Auszug aus dem Buch

4.2.1 Defekte der Datenqualitätsdimension Accuracy

Imbalanced Data: Daten werden dann als Imbalanced Data bezeichnet, wenn die Anzahl an Instanzen einer Klasse entweder sehr gering (Minderheitsklasse) oder sehr hoch (Mehrheitsklasse) im Vergleich zu denjenigen anderer Klassen ist (Bhatia et al., 2021). ML-Algorithmen, die auf Datensätzen mit einer derartigen Ungleichheit trainiert werden, können die Klasse bei Anwendung auf Daten der Realwelt weniger genau ermitteln. Insbesondere die Erkennungsgenauigkeit der Klasse mit wenigen Instanzen leidet unter diesem DQ-Defekt, obwohl die Minderheitsklasse häufig im Interesse des ML-Verfahrens steht, wie z. B. bei der Betrugserkennung (Kim et al., 2017; Phua et al., 2004). Imbalanced Data erfüllt demnach die Definition der DQ-Dimension Accuracy.

Incorrect/Uncertain Data: Der Fall falscher bzw. unsicherer Daten ist dann zutreffend, wenn zwischen den Daten im System und den Informationen der Realwelt eine Unsicherheit besteht (uncertain data) bzw. diese mit hoher Wahrscheinlichkeit oder Sicherheit falsch sind (incorrect data). ML-Algorithmen, die auf falschen oder unsicheren Daten trainiert sind, können ihre ML-Task mit einer geringeren Korrektheit erfüllen (Dallachiesa et al., 2019). Demnach sind sie der DQ-Dimension Accuracy nach der Definition aus Kapitel 2.3.1 zuzuordnen. Die Unsicherheit bzw. Inkorrektheit kann durch verschiedene Ursachen zustande kommen, sie beruht aber oftmals auf fehlerhafter Datenerfassung (Gao & Wang, 2010; Lio & Liu, 2018).

Incorrect/Uncertain Labels: Hierbei stehen im Vergleich zu Incorrect/Uncertain Data nicht die Daten, sondern die Label im Fokus der Betrachtung. Dies trifft beispielsweise auf die Klassifizierung von Bildern zu, die mit falschen Labeln versehen sind (so z. B. bei Qi et al., 2012). ML-Algorithmen, die mit unsicheren bzw. falsch gelabelten Daten trainiert sind, können auf Daten der Realwelt angewandt diese weniger korrekt klassifizieren, womit die Accuracy-Definition erfüllt ist.

Zusammenfassung der Kapitel

1 Einleitung und Forschungsfrage: Diese Einleitung führt in die Relevanz des Maschinellen Lernens ein und verdeutlicht, dass eine hohe Datenqualität Grundvoraussetzung für verlässliche Modelle ist, um das "garbage in, garbage out" Problem zu minimieren.

2 Begriffsdefinitionen und theoretische Grundlagen: Dieses Kapitel definiert die grundlegenden Konzepte des Maschinellen Lernens sowie die vier Kern-Dimensionen der Datenqualität, welche als Analysebasis für Defekte dieser Arbeit dienen.

3 Methodik: Hier wird der Prozess des Systematic Literature Review (SLR) detailliert beschrieben, einschließlich der Suchstrategie, der Datenbankauswahl, der Kriterien für die Literaturauswahl sowie der Synthese der Suchergebnisse.

4 Darstellung der Ergebnisse: Die Ergebnisse der Literaturrecherche werden deskriptiv aufbereitet, indem gefundene Datenqualitätsdefekte kategorisiert und die entsprechenden Adressierungsmethoden sowie ML-Verfahren einander zugeordnet werden.

5 Erkenntnisse und Diskussion der Ergebnisse: Dieses Kapitel bewertet kritisch die methodische Vorgehensweise, diskutiert die identifizierten Adressierungsmöglichkeiten für einzelne Datenqualitätsdefekte und leitet Implikationen für die zukünftige Forschung ab.

6 Fazit: Das Fazit fasst die wesentlichen Erkenntnisse zusammen und betont das hohe Forschungspotenzial im Bereich der Optimierung von Datenqualität sowie die Notwendigkeit hybrider Ansätze für komplexe Datenprobleme.

Schlüsselwörter

Datenqualität, Datenqualitätsdefekte, Datenqualitätsdimensionen, Maschinelles Lernen, Accuracy, Completeness, Consistency, Currency, Systematic Literature Review, Adressierungsmethoden, Imbalanced Data, Feature Selection, Imputation, Big Data, ML-Algorithmen.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Publikation befasst sich wissenschaftlich mit dem Problem der Datenqualität (DQ) in Systemen des Maschinellen Lernens. Es wird untersucht, wie Datenqualitätsdefekte (DQ-Defekte) in ML-Verfahren identifiziert und durch geeignete Methoden adressiert werden können.

Was sind die zentralen Themenfelder?

Die zentralen Themenfelder sind Datenqualität, Maschinelles Lernen, die systematische Literaturrecherche (Systematic Literature Review) sowie Methoden zur Behebung von Mängeln in Trainingsdaten, wie etwa ungleiche Klassengrößen oder fehlende Werte.

Was ist das primäre Ziel oder die Forschungsfrage?

Die zentrale Forschungsfrage lautet: Welche Methoden existieren in der Literatur, um Datenqualitätsdefekte in ML-Verfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten vorgenommen werden?

Welche wissenschaftliche Methode wird verwendet?

Die Autorin/der Autor verwendet die Methodik eines "Systematic Literature Review" (SLR), um nach einer transparenten und vertrauenswürdigen Vorgehensweise forschungsrelevante Primärliteratur zu finden, auszuwerten und konzeptorientiert zu synthetisieren.

Was wird im Hauptteil behandelt?

Im Hauptteil (Kapitel 4) werden die Ergebnisse deskriptiv aufgearbeitet. Dies umfasst die Klassifizierung gefundener DQ-Defekte (wie z.B. Imbalanced Data oder Missing Feature Values), die Zuordnung spezifischer Adressierungsmethoden (z.B. Imputation oder Resampling) sowie deren Einordnung nach Anwendungsgebieten und ML-Algorithmen.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird wesentlich durch Begriffe wie Datenqualität, Maschinelles Lernen, Systematische Literaturanalyse, DQ-Dimensionen, Imbalanced Data sowie Methoden zur Datenbereinigung und Merkmalsauswahl charakterisiert.

Was bedeutet der Begriff "garbe in, garbage out" im Kontext dieser Arbeit?

Dieser Grundsatz unterstreicht, dass die Qualität von Vorhersagen und Erkenntnissen eines Lernalgorithmus maßgeblich von der Qualität der eingegebenen Daten abhängt. Minderwertige Daten führen zwangsläufig zu fehlerhaften Modellergebnissen.

Warum spielt die Unterscheidung der "Fehlmechanismen" bei fehlenden Daten eine Rolle?

Die Unterscheidung in MCAR (Missing Completely At Random), MAR (Missing At Random) und MNAR (Missing Not At Random) ist entscheidend, da sie bestimmt, welche der verschiedenen mathematischen Adressierungsmethoden (wie Imputation) überhaupt statistisch zulässig und sinnvoll ist.

Was genau ist ein "Concept Drift"?

Ein Concept Drift beschreibt das Phänomen, dass sich die statistischen Eigenschaften der Zielvariable oder der Eingabedaten über die Zeit ändern, wodurch ein ursprünglich trainiertes ML-Modell seine Genauigkeit verliert und nicht mehr korrekt funktioniert.

Ende der Leseprobe aus 101 Seiten - nach oben

Details

Titel: Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren
Hochschule: Universität Regensburg
Note: 1,3
Autor: Matthias Wittmann (Autor:in)
Erscheinungsjahr: 2022
Seiten: 101
Katalognummer: V1287956
ISBN (Buch): 9783346740823
Sprache: Deutsch
Schlagworte: Datenqualität Machine Learning SLR Strukturierte Literaturrecherche Systematische Literaturrecherche Accuracy Completeness Consistency Currency Timeliness Datenqualitätsdefekt Imbalanced Data Irrelevant Data Incomplete Data Missing Data Inconsistent Data Outdated Data
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 42,99
Preis (Book): US$ 54,99

Arbeit zitieren: Matthias Wittmann (Autor:in), 2022, Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/1287956