Keyword Spotting in Videodateien mit Techniken der automatischen Spracherkennung

Bachelorarbeit, 2013
46 Seiten, Note: 1,0

Informatik - Allgemeines

Leseprobe

Inhaltsverzeichnis

1 Aufgabenstellung

2 Stand der Technik bei der automatischen Spracherkennung

2.1 Grundmodelle in der Spracherkennung

2.2 Vorbereiten der Analyse des Audiosignals

2.3 Spracherkennung auf Basis von Mustervergleichen

2.4 Statistischer Ansatz mit Hilfe von Hidden-Markov-Modellen (HMM)

2.5 Spracherkennung unter Verwendung von künstlichen neuronalen Netzen

2.6 Aktuelle Forschungsrichtungen zur Verbesserung der Erkennungsleistung

2.7 Anwendungen im kommerziellen Umfeld

3 Wörterbuchkonzeptionierung für den Keyword-Spotter

3.1 Lösungsskizze zu Problemen bei spontanen Artikulationen

3.2 Initiale Keyword-Liste und ihre Erweiterbarkeit

4 Prototypische Realisierung eines Video-Indexierungssystems

4.1 Grundsätzliche Systemarchitektur

4.2 Beschreibung der Anwendung

4.3 Testbericht

5 Ausblick

Zielsetzung & Themen

Die Arbeit untersucht die Herausforderungen der automatischen Spracherkennung in Videodateien mit dem Ziel, eine prototypische Implementierung für ein Keyword-Spotting-System zu entwickeln, welches gesprochene Schlüsselwörter mit Zeitindizes versieht, um eine gezielte Navigation in Videoinhalten zu ermöglichen.

Grundlagen der digitalen Sprachverarbeitung und Spracherkennung.
Vergleich zwischen statistischen (HMM) und musterbasierten Verfahren.
Methoden zur Optimierung der Erkennungsleistung in spontan gesprochener Sprache.
Konzeption und praktische Umsetzung eines Java-basierten Video-Indexierungssystems.
Evaluation der Erkennungsrate anhand eines praxisnahen Anwendungsfalls.

Auszug aus dem Buch

2.3 Spracherkennung auf Basis von Mustervergleichen

Die älteste und zugleich einfachste Methode der Spracherkennung basiert auf einem Mustervergleich, wobei eine Äußerung mit einer Referenzäußerung verglichen wird. Mit Hilfe eines Distanzmaßes wird der Abstand zwischen Äußerung und Referenz abgebildet. Ein Wort gilt als erkannt, sobald eine Distanz einen Schwellwert unterschreitet. Im Idealfall bei einer Einzelworterkennung liegt die Distanz bei 0. Weil von einem menschlichen Sprecher keine Äußerung exakt repetiert werden kann, können die zu vergleichenden Merkmalswerte nicht einfach subtrahiert werden. Aufgrund der Varianz innerhalb der Dauer von gesprochenen Lauten, muss sie zweckmäßig berücksichtigt werden. Insgesamt stellt es die Lösung eines Optimierungsproblems der Differenz der Merkmalswerte verschiedener Zeitindices dar.

Dabei gelten als Einschränkungen, dass der Ablauf der Werte erhalten bleibt (Monotonie, nur nachfolgende Werte), die Randwerte als Anfangs- und Endpunkte beider Äußerung stimmen überein (Grenzen) und jeder Wert geht in die Berechnung ein (Kontinuität). Problematisch wird zum Teil die zweite Einschränkung, da sie eine exakte Erkennung der Wortgrenze fordert. In der Praxis wird diese Limitation zum Teil entschärft. Der Algorithmus, der das Problem löst, wird Dynamic Time Warp (DTW) genannt und lässt sich wie folgt beschreiben: Die Gesamtdistanz wird aus den Einzeldistanzen einzelner Merkmalswerte ermittelt. Damit die Gesamtdistanz minimiert wird, müssen auch die Einzeldistanzen minimiert werden. Die Einzelmerkmale in Abhängigkeit von der Zeit werden soweit verglichen, bis die kumulierte Distanz minimiert wird.

Zusammenfassung der Kapitel

1 Aufgabenstellung: Einführung in das Vorhaben, Teile von Videokonferenzen mittels gesprochener Schlüsselwörter durchsuchbar zu machen.

2 Stand der Technik bei der automatischen Spracherkennung: Erläuterung der theoretischen Grundlagen, von akustischen Modellen bis hin zu modernen statistischen und neuronalen Ansätzen.

3 Wörterbuchkonzeptionierung für den Keyword-Spotter: Detaillierte Planung des Wörterbuchaufbaus unter Berücksichtigung spontaner Sprechweisen und initialer Keyword-Listen.

4 Prototypische Realisierung eines Video-Indexierungssystems: Vorstellung der technischen Systemarchitektur und der praktischen Ergebnisse der Implementierung anhand eines Testberichts.

5 Ausblick: Diskussion über zukünftiges Potenzial, wie etwa die Einbeziehung visueller Lippenbewegungen zur Verbesserung der Robustheit in geräuschvollen Umgebungen.

Schlüsselwörter

Spracherkennung, Keyword Spotting, Hidden-Markov-Modelle, HMM, Dynamic Time Warp, DTW, Sprachsignal, Videokonferenz, Indexierung, Sprachsynthese, Wortfehlerrate, akustische Modelle, automatische Transkription, Signalverarbeitung, Java.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit befasst sich mit der Entwicklung eines Systems, das gesprochene Wörter in Videodateien erkennt und mit Zeitmarken versieht, um eine gezielte Navigation in den Videos zu ermöglichen.

Was sind die zentralen Themenfelder der Arbeit?

Die zentralen Themen umfassen die mathematischen Grundlagen der Spracherkennung, statistische Methoden wie HMM, moderne Ansätze wie neuronale Netze und die praktische Anwendung in einem Videomarketing-Kontext.

Was ist das primäre Ziel der Forschungsarbeit?

Das Ziel ist die Erstellung einer prototypischen Implementierung ("Livora"), welche mittels Spracherkennung relevante Schlüsselwörter in aufgezeichneten Videokommunikationen identifiziert.

Welche wissenschaftliche Methode wird zur Spracherkennung verwendet?

Die Arbeit beleuchtet primär den statistischen Ansatz mittels Hidden-Markov-Modellen (HMM) sowie den musterorientierten DTW-Algorithmus und vergleicht diese.

Was wird im Hauptteil der Arbeit behandelt?

Im Hauptteil werden die theoretischen Grundlagen, die Wörterbuchkonzeption für den Keyword-Spotter sowie die Architektur und Realisierung des prototypischen Software-Systems "Livora" beschrieben.

Welche Schlüsselwörter charakterisieren diese Arbeit?

Wesentliche Begriffe sind Spracherkennung, HMM, Keyword Spotting, Wortfehlerrate, Sprachsignal, Prototyping und Video-Indexierung.

Welche Rolle spielt die Wortfehlerrate (WER) bei der Evaluation?

Die WER dient als metrisches Maß zur Bewertung der Erkennungsgenauigkeit des Systems im Vergleich zu einer manuellen Transkription des Beispielvideos.

Warum ist das Problem der "spontanen Artikulation" in der Arbeit relevant?

Da reale Äußerungen in Videokonferenzen oft Füllwörter, undeutliche Übergänge und unvollständige Sätze enthalten, ist dies eine große Herausforderung für moderne Spracherkennungssysteme, die unter Laborbedingungen besser funktionieren.

Welchen Vorteil bietet das "gekoppelte HMM" (CHMM)?

Ein CHMM kann neben der Audiospur auch das Videobild (Lippenbewegung) einbeziehen, was die Erkennungsleistung, insbesondere in geräuschvollen Umgebungen, signifikant erhöht.

Wie wurde das System "Livora" in der Praxis getestet?

Das System wurde anhand eines 1:55-minütigen Beispielvideos getestet, indem die automatische Transkription mit einer manuellen Erfassung verglichen und eine detaillierte Fehleranalyse durchgeführt wurde.

Ende der Leseprobe aus 46 Seiten - nach oben

Details

Titel: Keyword Spotting in Videodateien mit Techniken der automatischen Spracherkennung
Hochschule: FernUniversität Hagen (Lehrgebiet Multimedia und Internetanwendungen)
Note: 1,0
Autor: Riccardo Böttcher (Autor:in)
Erscheinungsjahr: 2013
Seiten: 46
Katalognummer: V293459
ISBN (eBook): 9783656909545
ISBN (Buch): 9783656909552
Dateigröße: 866 KB
Sprache: Deutsch
Schlagworte: Spracherkennung Keyword Spotting Automatische Indexierung Inhaltsextraktion Multimedia Videospotting
Produktsicherheit: GRIN Publishing GmbH
Preis (Ebook): US$ 21,99
Preis (Book): US$ 32,99

Arbeit zitieren: Riccardo Böttcher (Autor:in), 2013, Keyword Spotting in Videodateien mit Techniken der automatischen Spracherkennung, München, Page::Imprint:: GRINVerlagOHG, https://www.diplomarbeiten24.de/document/293459