Bachelorarbeit, 2023
81 Seiten, Note: 1,5
1 Einleitung
1.1 Ausgangslage und Motivation
1.2 Ziel und Forschungsfrage
1.3 Überblick über die Arbeit
2 Theoretische Grundlagen
2.1 Künstliche Intelligenz
2.2 Deep Learning (DL)
2.2.1 Deep Network
2.2.2 Klassen
2.2.3 Methodik
2.3 Automatic Speech Recognition (ASR) mit DL
2.3.1 Methodik
2.3.2 DL-Architekturen
2.3.3 Systemkomponenten
2.3.4 Systemarchitekturen
3 Ermittlung geeigneter Lösungsstrategien
3.1 Spracherkennung in Online-Formularen
3.1.1 Aktueller Stand
3.1.2 Implementierungsansätze
3.1.3 Vergleich von Implementierungsansätzen
3.1.4 Auswahl eines Implementierungsansatzes
3.2 ASR mit DL
3.2.1 Bestehende Lösungsstrategien
3.2.2 Vergleich von Lösungsstrategien
3.2.3 Auswahl einer Lösungsstrategie
4 Architektur des gewählten ASR-Systems
4.1 Beschreibung der Architektur
4.1.1 Akustikmodell
4.1.2 Decoder & Sprachmodell
4.2 Auswahl der ASR-Hyperparameter
4.2.1 Merkmalsextraktion
4.2.2 Akustikmodell
4.2.3 Decoder & Sprachmodell
4.3 Vor- und Nachteile
5 Methodik
5.1 Feldselektive Sprachformularbearbeitung
5.2 Web Speech API
5.3 DeepSpeech ASR-Modell
5.3.1 Datensammlung
5.3.2 Datenvorbereitung
5.3.3 Datenerweiterung
5.3.4 Training
5.3.5 Evaluierung des Modells
5.4 Internes ASR-System
5.4.1 ASR-Server
5.4.2 Web-Client
5.5 Evaluierung der feldselektiven Sprachformularbearbeitung
6 Ergebnisse und Diskussion
6.1 Implikationen
6.2 Limitationen
6.3 Zukünftige Arbeiten
7 Schlussfolgerung
7.1 Zusammenfassung der Arbeit
7.2 Fazit und Ausblick
Die Arbeit untersucht die Effektivität und Implementierung automatisierter Spracherkennung (ASR) mittels Deep Learning (DL), um die Interaktion zwischen Anwendern und formularbasierten Web-Prozessen zu verbessern und zu vereinfachen.
1.1 Ausgangslage und Motivation
Es wird der aktuelle Stand in Bezug auf formularbasierte Prozesse im Internet betrachtet. Formulare sind eine häufig anzutreffende Komponente in Webseiten und werden für verschiedene Anwendungsfälle benötigt. Häufig anzutreffende Beispiele dafür sind das Registrieren von Benutzern, Onlinebestellungen oder das Übermitteln von Daten.
Häufig ist es mit Schwierigkeiten verbunden, Formulare im Web auszufüllen. Dies ist vor allem dann der Fall, wenn viele Eingaben gefordert werden und diese ein bestimmtes Format einhalten müssen. So kann es zum Beispiel notwendig sein, dass eine Datumsangabe nur dann gültig ist, wenn sie ein bestimmtes Format einhält. Es gibt viele Webanwendungen, in denen das Ausfüllen von Formularen viel Zeit und Nerven in Anspruch nimmt. Dabei kann es dann vermehrt dazu kommen, dass beim Bearbeiten der Felder Fehler auftreten. Ein weiteres Problem, welches vor allem dann auftritt, wenn man nur einen kleinen Teil eines Formulars auf einem mobilen Endgerät betrachten kann, ist die fehlende Übersicht. Sobald man eine Eingabe vornehmen möchte, wird diese in vielen Fällen vollständig eingeschränkt.
Um die aufgezählten Probleme anzugehen, bietet sich das Verwenden von Spracheingabe als Lösung an. Damit wäre es für Anwender möglich, ein Formular mündlich zu bearbeiten, wodurch die Effizienz des Bearbeitungsprozesses gesteigert werden kann. Außerdem ist damit eine Vereinfachung hinsichtlich Umgang mit Formularen möglich. Natürlich können auch bei der Verwendung von Spracheingabe als Quelle Fehler auftreten, denn diese Technologie hat selbst noch viel Verbesserungspotenzial. Ein vielversprechender Ansatz zur Umsetzung von Spracherkennung ist die Verwendung von Deep Learning (DL) (tiefes Lernen) [1]. Mit Hilfe von DL ist es möglich, Spracherkennung zu automatisieren. Außerdem kann mit dieser Technologie im Vergleich zu klassischen Ansätzen beim Erkennen von Sprache eine verbesserte Genauigkeit erreicht werden [2].
Auf das Vereinfachen von formularbasierten Prozessen im Internet durch Verwendung von modernen Spracherkennungstechniken baut die Motivation zur Erstellung dieser Arbeit auf.
1. Einleitung: Beschreibt die Herausforderungen bei formularbasierten Web-Prozessen und die Motivation, diese durch automatisierte Spracherkennung zu optimieren.
2. Theoretische Grundlagen: Erläutert die notwendigen Konzepte von KI, Deep Learning und die Spezifika von Spracherkennungssystemen (ASR) mit modernen Architekturen.
3. Ermittlung geeigneter Lösungsstrategien: Analysiert und vergleicht verschiedene Implementierungsansätze zur Integration von Spracherkennung in Online-Formulare und führt die Auswahl einer Strategie herbei.
4. Architektur des gewählten ASR-Systems: Detailliert den technischen Aufbau des gewählten DeepSpeech-Systems sowie die Auswahl der Hyperparameter.
5. Methodik: Beschreibt die praktische Umsetzung der feldselektiven Sprachformularbearbeitung, einschließlich der Datenverarbeitung und der Client-Server-Kommunikation.
6. Ergebnisse und Diskussion: Reflektiert über die erreichte Zielsetzung, diskutiert die Implikationen der Lösung und beleuchtet Limitationen sowie zukünftige Verbesserungsmöglichkeiten.
7. Schlussfolgerung: Fasst die Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf die zukünftige Entwicklung der Mensch-Maschine-Interaktion.
Spracherkennung, ASR, Deep Learning, DL, Webformulare, Feldselektive Bearbeitung, DeepSpeech, Sprachbefehle, Künstliche Intelligenz, Mensch-Maschine-Interaktion, Websocket, Python, Sprachmodell, Akustikmodell, Daten-Augmentation.
Die Bachelorarbeit beschäftigt sich mit der Optimierung von formularbasierten Prozessen im Web durch den Einsatz von automatisierter Spracherkennung (ASR) basierend auf Deep Learning.
Zentrale Themen sind die theoretischen Grundlagen des Deep Learnings, der Vergleich verschiedener Implementierungsstrategien für ASR-Systeme im Web-Kontext sowie die Konzeption und praktische Umsetzung eines funktionsfähigen Prototyps.
Das primäre Ziel ist es, die Effektivität von ASR mittels Deep Learning zu untersuchen und eine benutzungsfreundliche Lösung zu entwickeln, die Anwendern das Ausfüllen von Web-Formularen mittels Spracheingabe ermöglicht.
Der Autor führt eine theoretische Analyse bestehender Technologien durch, vergleicht unterschiedliche Implementierungsstrategien nach objektiven Kriterien und implementiert darauf basierend ein hybrides ASR-System, welches mittels eines Prototyps evaluiert wird.
Im Hauptteil werden zunächst die theoretischen Grundlagen (KI, DL, ASR-Architekturen) behandelt, gefolgt von der Ermittlung und Auswahl der Lösungsstrategie, einer detaillierten Beschreibung der gewählten Systemarchitektur und der methodischen Umsetzung.
Wichtige Begriffe sind Spracherkennung, ASR, Deep Learning, Webformulare, DeepSpeech, Feldselektive Bearbeitung und Mensch-Maschine-Interaktion.
Das entwickelte System ist primär für Anwender konzipiert, die Formulare beispielsweise für eine Objekterfassung (Immobilienmakler) effizienter und barrierefreier mittels Spracheingabe bearbeiten möchten.
Das System kombiniert die browsernative Web Speech API für allgemeine Aufgaben mit einem internen, auf DeepSpeech basierenden ASR-Server für spezifische, lokal trainierte Sprachbefehle.
DeepSpeech bietet eine gute Performance, ein End-to-End-Konzept, eine hohe Benutzerfreundlichkeit und die Möglichkeit, das Modell mittels Transfer Learning und Fine-Tuning effizient an spezifische deutsche Sprachdaten anzupassen.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

