Masterarbeit, 2022
101 Seiten, Note: 1,3
1 Einleitung und Forschungsfrage
2 Begriffsdefinitionen und theoretische Grundlagen
2.1 Maschinelles Lernen
2.2 Datenqualität
2.3 Datenqualitätsdimensionen
2.3.1 Accuracy
2.3.2 Completeness
2.3.3 Consistency
2.3.4 Currency
3 Methodik
3.1 Strategie und Durchführung des Suchverfahrens
3.1.1 Prozess zur Auswahl relevanter Primärliteratur
3.1.2 Verwendete Literaturdatenbanken
3.1.3 Herangezogene Suchbegriffabfolgen
3.1.4 In- und Exklusionskriterien und Qualitätsbewertung
3.1.5 Datenextraktion
3.1.6 Ergänzend durchgeführte Suchverfahren
3.2 Synthese der Suchergebnisse
4 Darstellung der Ergebnisse
4.1 Allgemeine Ergebnisse der Literaturrecherche
4.2 Datenqualitätsdefekte
4.2.1 Defekte der Datenqualitätsdimension Accuracy
4.2.2 Defekte der Datenqualitätsdimension Completeness
4.2.3 Defekte der Datenqualitätsdimensionen Consistency
4.2.4 Defekte der Datenqualitätsdimensionen Currency
4.3 Methoden zur Adressierung von Datenqualitätsdefekten
4.3.1 Definition der häufig eingesetzten Verfahren und Methodenklassifizierungen
4.3.1.1 Häufig verwendete ML-Verfahren
4.3.1.2 Klassifizierung von Adressierungsmethoden
4.3.2 Adressierungsmethoden der Datenqualitätsdimension Accuracy
4.3.2.1 Adressierung von Imbalanced Data
4.3.2.2 Adressierung von Incorrect/Uncertain Data
4.3.2.3 Adressierung von Incorrect/Uncertain Labels
4.3.2.4 Adressierung von Irrelevant Features
4.3.2.5 Adressierung von Irrelevant Instances
4.3.2.6 Adressierung von Not Normalized Data
4.3.3 Adressierungsmethoden der Datenqualitätsdimension Completeness
4.3.3.1 Adressierung von Incomplete Images
4.3.3.2 Adressierung von Missing Feature Values
4.3.3.3 Adressierung von Missing Features
4.3.3.4 Adressierung von Missing Labels
4.3.4 Adressierungsmethoden der Datenqualitätsdimension Consistency
4.3.5 Adressierungsmethoden der Datenqualitätsdimension Currency
4.3.5.1 Adressierung von Outdated Data
4.3.5.2 Adressierung von Outdated Model
4.3.6 Hybride Methoden zur Adressierung mehrerer Datenqualitätsdefekte
4.4 Übersicht zum Zusammenhang zwischen den Datenqualitätsdefekten und Adressierungsmethoden
5 Erkenntnisse und Diskussion der Ergebnisse
5.1 Methodische Vorgehensweise der Literaturrecherche
5.2 Konzeptionelle Unterteilung der DQ-Defekte und Adressierungsmethoden
5.3 Identifizierte Möglichkeiten zur Adressierung von Datenqualitätsdefekten
5.3.1 Übergreifende Aspekte der Suchergebnisse
5.3.2 Datenqualitätsdimensionen und Datenqualitätsdefekte
5.3.3 Adressierungsmethoden
5.3.3.1 Bewertung der Adressierungsmethoden zu Imbalanced Data
5.3.3.2 Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Data
5.3.3.3 Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Labels
5.3.3.4 Bewertung der Adressierungsmethoden zu Irrelevant Features
5.3.3.5 Bewertung der Adressierungsmethoden zu Irrelevant Instances
5.3.3.6 Bewertung der Adressierungsmethoden zu Not Normalized Data
5.3.3.7 Bewertung der Adressierungsmethoden zu Incomplete Images
5.3.3.8 Bewertung der Adressierungsmethoden zu Missing Feature Values
5.3.3.9 Bewertung der Adressierungsmethoden zu Missing Features
5.3.3.10 Bewertung der Adressierungsmethoden zu Missing Labels
5.3.3.11 Bewertung der Adressierungsmethoden zu Inconsistent Data
5.3.3.12 Bewertung der Adressierungsmethoden zu Outdated Data
5.3.3.13 Bewertung der Adressierungsmethoden zu Outdated Model
5.3.3.14 Bewertung der hybriden Methoden
5.3.4 Bewertung der häufig angewandten Verfahren und Methodenklassifizierungen
6 Fazit
Die Arbeit untersucht wissenschaftlich, welche Methoden in der Literatur existieren, um Datenqualitätsdefekte in Systemen des Maschinellen Lernens zu adressieren. Ziel der Forschungsarbeit ist es, diese Adressierungsmethoden systematisch zu strukturieren, Gemeinsamkeiten und Unterschiede aufzuzeigen sowie Implikationen für künftigen Forschungsbedarf abzuleiten.
4.2.1 Defekte der Datenqualitätsdimension Accuracy
Imbalanced Data: Daten werden dann als Imbalanced Data bezeichnet, wenn die Anzahl an Instanzen einer Klasse entweder sehr gering (Minderheitsklasse) oder sehr hoch (Mehrheitsklasse) im Vergleich zu denjenigen anderer Klassen ist (Bhatia et al., 2021). ML-Algorithmen, die auf Datensätzen mit einer derartigen Ungleichheit trainiert werden, können die Klasse bei Anwendung auf Daten der Realwelt weniger genau ermitteln. Insbesondere die Erkennungsgenauigkeit der Klasse mit wenigen Instanzen leidet unter diesem DQ-Defekt, obwohl die Minderheitsklasse häufig im Interesse des ML-Verfahrens steht, wie z. B. bei der Betrugserkennung (Kim et al., 2017; Phua et al., 2004). Imbalanced Data erfüllt demnach die Definition der DQ-Dimension Accuracy.
Incorrect/Uncertain Data: Der Fall falscher bzw. unsicherer Daten ist dann zutreffend, wenn zwischen den Daten im System und den Informationen der Realwelt eine Unsicherheit besteht (uncertain data) bzw. diese mit hoher Wahrscheinlichkeit oder Sicherheit falsch sind (incorrect data). ML-Algorithmen, die auf falschen oder unsicheren Daten trainiert sind, können ihre ML-Task mit einer geringeren Korrektheit erfüllen (Dallachiesa et al., 2019). Demnach sind sie der DQ-Dimension Accuracy nach der Definition aus Kapitel 2.3.1 zuzuordnen. Die Unsicherheit bzw. Inkorrektheit kann durch verschiedene Ursachen zustande kommen, sie beruht aber oftmals auf fehlerhafter Datenerfassung (Gao & Wang, 2010; Lio & Liu, 2018).
Incorrect/Uncertain Labels: Hierbei stehen im Vergleich zu Incorrect/Uncertain Data nicht die Daten, sondern die Label im Fokus der Betrachtung. Dies trifft beispielsweise auf die Klassifizierung von Bildern zu, die mit falschen Labeln versehen sind (so z. B. bei Qi et al., 2012). ML-Algorithmen, die mit unsicheren bzw. falsch gelabelten Daten trainiert sind, können auf Daten der Realwelt angewandt diese weniger korrekt klassifizieren, womit die Accuracy-Definition erfüllt ist.
1 Einleitung und Forschungsfrage: Diese Einleitung führt in die Relevanz des Maschinellen Lernens ein und verdeutlicht, dass eine hohe Datenqualität Grundvoraussetzung für verlässliche Modelle ist, um das "garbage in, garbage out" Problem zu minimieren.
2 Begriffsdefinitionen und theoretische Grundlagen: Dieses Kapitel definiert die grundlegenden Konzepte des Maschinellen Lernens sowie die vier Kern-Dimensionen der Datenqualität, welche als Analysebasis für Defekte dieser Arbeit dienen.
3 Methodik: Hier wird der Prozess des Systematic Literature Review (SLR) detailliert beschrieben, einschließlich der Suchstrategie, der Datenbankauswahl, der Kriterien für die Literaturauswahl sowie der Synthese der Suchergebnisse.
4 Darstellung der Ergebnisse: Die Ergebnisse der Literaturrecherche werden deskriptiv aufbereitet, indem gefundene Datenqualitätsdefekte kategorisiert und die entsprechenden Adressierungsmethoden sowie ML-Verfahren einander zugeordnet werden.
5 Erkenntnisse und Diskussion der Ergebnisse: Dieses Kapitel bewertet kritisch die methodische Vorgehensweise, diskutiert die identifizierten Adressierungsmöglichkeiten für einzelne Datenqualitätsdefekte und leitet Implikationen für die zukünftige Forschung ab.
6 Fazit: Das Fazit fasst die wesentlichen Erkenntnisse zusammen und betont das hohe Forschungspotenzial im Bereich der Optimierung von Datenqualität sowie die Notwendigkeit hybrider Ansätze für komplexe Datenprobleme.
Datenqualität, Datenqualitätsdefekte, Datenqualitätsdimensionen, Maschinelles Lernen, Accuracy, Completeness, Consistency, Currency, Systematic Literature Review, Adressierungsmethoden, Imbalanced Data, Feature Selection, Imputation, Big Data, ML-Algorithmen.
Die Publikation befasst sich wissenschaftlich mit dem Problem der Datenqualität (DQ) in Systemen des Maschinellen Lernens. Es wird untersucht, wie Datenqualitätsdefekte (DQ-Defekte) in ML-Verfahren identifiziert und durch geeignete Methoden adressiert werden können.
Die zentralen Themenfelder sind Datenqualität, Maschinelles Lernen, die systematische Literaturrecherche (Systematic Literature Review) sowie Methoden zur Behebung von Mängeln in Trainingsdaten, wie etwa ungleiche Klassengrößen oder fehlende Werte.
Die zentrale Forschungsfrage lautet: Welche Methoden existieren in der Literatur, um Datenqualitätsdefekte in ML-Verfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten vorgenommen werden?
Die Autorin/der Autor verwendet die Methodik eines "Systematic Literature Review" (SLR), um nach einer transparenten und vertrauenswürdigen Vorgehensweise forschungsrelevante Primärliteratur zu finden, auszuwerten und konzeptorientiert zu synthetisieren.
Im Hauptteil (Kapitel 4) werden die Ergebnisse deskriptiv aufgearbeitet. Dies umfasst die Klassifizierung gefundener DQ-Defekte (wie z.B. Imbalanced Data oder Missing Feature Values), die Zuordnung spezifischer Adressierungsmethoden (z.B. Imputation oder Resampling) sowie deren Einordnung nach Anwendungsgebieten und ML-Algorithmen.
Die Arbeit wird wesentlich durch Begriffe wie Datenqualität, Maschinelles Lernen, Systematische Literaturanalyse, DQ-Dimensionen, Imbalanced Data sowie Methoden zur Datenbereinigung und Merkmalsauswahl charakterisiert.
Dieser Grundsatz unterstreicht, dass die Qualität von Vorhersagen und Erkenntnissen eines Lernalgorithmus maßgeblich von der Qualität der eingegebenen Daten abhängt. Minderwertige Daten führen zwangsläufig zu fehlerhaften Modellergebnissen.
Die Unterscheidung in MCAR (Missing Completely At Random), MAR (Missing At Random) und MNAR (Missing Not At Random) ist entscheidend, da sie bestimmt, welche der verschiedenen mathematischen Adressierungsmethoden (wie Imputation) überhaupt statistisch zulässig und sinnvoll ist.
Ein Concept Drift beschreibt das Phänomen, dass sich die statistischen Eigenschaften der Zielvariable oder der Eingabedaten über die Zeit ändern, wodurch ein ursprünglich trainiertes ML-Modell seine Genauigkeit verliert und nicht mehr korrekt funktioniert.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

