Bachelorarbeit, 2013
46 Seiten, Note: 1,0
1 Aufgabenstellung
2 Stand der Technik bei der automatischen Spracherkennung
2.1 Grundmodelle in der Spracherkennung
2.2 Vorbereiten der Analyse des Audiosignals
2.3 Spracherkennung auf Basis von Mustervergleichen
2.4 Statistischer Ansatz mit Hilfe von Hidden-Markov-Modellen (HMM)
2.5 Spracherkennung unter Verwendung von künstlichen neuronalen Netzen
2.6 Aktuelle Forschungsrichtungen zur Verbesserung der Erkennungsleistung
2.7 Anwendungen im kommerziellen Umfeld
3 Wörterbuchkonzeptionierung für den Keyword-Spotter
3.1 Lösungsskizze zu Problemen bei spontanen Artikulationen
3.2 Initiale Keyword-Liste und ihre Erweiterbarkeit
4 Prototypische Realisierung eines Video-Indexierungssystems
4.1 Grundsätzliche Systemarchitektur
4.2 Beschreibung der Anwendung
4.3 Testbericht
5 Ausblick
Die Arbeit untersucht die Herausforderungen der automatischen Spracherkennung in Videodateien mit dem Ziel, eine prototypische Implementierung für ein Keyword-Spotting-System zu entwickeln, welches gesprochene Schlüsselwörter mit Zeitindizes versieht, um eine gezielte Navigation in Videoinhalten zu ermöglichen.
2.3 Spracherkennung auf Basis von Mustervergleichen
Die älteste und zugleich einfachste Methode der Spracherkennung basiert auf einem Mustervergleich, wobei eine Äußerung mit einer Referenzäußerung verglichen wird. Mit Hilfe eines Distanzmaßes wird der Abstand zwischen Äußerung und Referenz abgebildet. Ein Wort gilt als erkannt, sobald eine Distanz einen Schwellwert unterschreitet. Im Idealfall bei einer Einzelworterkennung liegt die Distanz bei 0. Weil von einem menschlichen Sprecher keine Äußerung exakt repetiert werden kann, können die zu vergleichenden Merkmalswerte nicht einfach subtrahiert werden. Aufgrund der Varianz innerhalb der Dauer von gesprochenen Lauten, muss sie zweckmäßig berücksichtigt werden. Insgesamt stellt es die Lösung eines Optimierungsproblems der Differenz der Merkmalswerte verschiedener Zeitindices dar.
Dabei gelten als Einschränkungen, dass der Ablauf der Werte erhalten bleibt (Monotonie, nur nachfolgende Werte), die Randwerte als Anfangs- und Endpunkte beider Äußerung stimmen überein (Grenzen) und jeder Wert geht in die Berechnung ein (Kontinuität). Problematisch wird zum Teil die zweite Einschränkung, da sie eine exakte Erkennung der Wortgrenze fordert. In der Praxis wird diese Limitation zum Teil entschärft. Der Algorithmus, der das Problem löst, wird Dynamic Time Warp (DTW) genannt und lässt sich wie folgt beschreiben: Die Gesamtdistanz wird aus den Einzeldistanzen einzelner Merkmalswerte ermittelt. Damit die Gesamtdistanz minimiert wird, müssen auch die Einzeldistanzen minimiert werden. Die Einzelmerkmale in Abhängigkeit von der Zeit werden soweit verglichen, bis die kumulierte Distanz minimiert wird.
1 Aufgabenstellung: Einführung in das Vorhaben, Teile von Videokonferenzen mittels gesprochener Schlüsselwörter durchsuchbar zu machen.
2 Stand der Technik bei der automatischen Spracherkennung: Erläuterung der theoretischen Grundlagen, von akustischen Modellen bis hin zu modernen statistischen und neuronalen Ansätzen.
3 Wörterbuchkonzeptionierung für den Keyword-Spotter: Detaillierte Planung des Wörterbuchaufbaus unter Berücksichtigung spontaner Sprechweisen und initialer Keyword-Listen.
4 Prototypische Realisierung eines Video-Indexierungssystems: Vorstellung der technischen Systemarchitektur und der praktischen Ergebnisse der Implementierung anhand eines Testberichts.
5 Ausblick: Diskussion über zukünftiges Potenzial, wie etwa die Einbeziehung visueller Lippenbewegungen zur Verbesserung der Robustheit in geräuschvollen Umgebungen.
Spracherkennung, Keyword Spotting, Hidden-Markov-Modelle, HMM, Dynamic Time Warp, DTW, Sprachsignal, Videokonferenz, Indexierung, Sprachsynthese, Wortfehlerrate, akustische Modelle, automatische Transkription, Signalverarbeitung, Java.
Die Arbeit befasst sich mit der Entwicklung eines Systems, das gesprochene Wörter in Videodateien erkennt und mit Zeitmarken versieht, um eine gezielte Navigation in den Videos zu ermöglichen.
Die zentralen Themen umfassen die mathematischen Grundlagen der Spracherkennung, statistische Methoden wie HMM, moderne Ansätze wie neuronale Netze und die praktische Anwendung in einem Videomarketing-Kontext.
Das Ziel ist die Erstellung einer prototypischen Implementierung ("Livora"), welche mittels Spracherkennung relevante Schlüsselwörter in aufgezeichneten Videokommunikationen identifiziert.
Die Arbeit beleuchtet primär den statistischen Ansatz mittels Hidden-Markov-Modellen (HMM) sowie den musterorientierten DTW-Algorithmus und vergleicht diese.
Im Hauptteil werden die theoretischen Grundlagen, die Wörterbuchkonzeption für den Keyword-Spotter sowie die Architektur und Realisierung des prototypischen Software-Systems "Livora" beschrieben.
Wesentliche Begriffe sind Spracherkennung, HMM, Keyword Spotting, Wortfehlerrate, Sprachsignal, Prototyping und Video-Indexierung.
Die WER dient als metrisches Maß zur Bewertung der Erkennungsgenauigkeit des Systems im Vergleich zu einer manuellen Transkription des Beispielvideos.
Da reale Äußerungen in Videokonferenzen oft Füllwörter, undeutliche Übergänge und unvollständige Sätze enthalten, ist dies eine große Herausforderung für moderne Spracherkennungssysteme, die unter Laborbedingungen besser funktionieren.
Ein CHMM kann neben der Audiospur auch das Videobild (Lippenbewegung) einbeziehen, was die Erkennungsleistung, insbesondere in geräuschvollen Umgebungen, signifikant erhöht.
Das System wurde anhand eines 1:55-minütigen Beispielvideos getestet, indem die automatische Transkription mit einer manuellen Erfassung verglichen und eine detaillierte Fehleranalyse durchgeführt wurde.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

