Doktorarbeit / Dissertation, 2014
302 Seiten, Note: Cum Laude
Esta tesis doctoral presenta un sistema de interacción humano-robot llamado Robotics Dialog System (RDS), basado en diálogos multimodales y adaptables. El sistema busca facilitar una interacción natural entre humanos y robots, imitando la forma en que los humanos interactúan entre sí.
Las principales aportaciones son: un sistema de interacción general (RDS) que trabaja con múltiples modos de entrada y salida; un gestor del diálogo (IDiM) que facilita la adaptación al usuario mediante perfiles; un sistema de fusión multimodal que imita la teoría de actos comunicativos; y desarrollos específicos en reconocimiento automático del habla, localización del usuario y gestión de emociones.
El sistema RDS consta de varios componentes, incluyendo un sistema de procesamiento del lenguaje natural (PLN), un sistema de síntesis de voz con emociones, un gestor de diálogo basado en huecos de información (IDiM), un módulo de fusión multimodal, un sistema de localización de usuarios, y módulos para la detección y gestión de emociones.
Se analizan y experimentan diferentes métodos, incluyendo sistemas basados en gramáticas, modelos estadísticos del idioma, y modelos estadísticos de contextos específicos. El sistema integra múltiples motores de ASR concurrentemente para mejorar la precisión.
La multimodalidad se gestiona mediante un módulo de fusión multimodal que abstrae la multimodalidad al gestor del diálogo, empaquetando la información sensorial emitida por los módulos sensoriales de RDS siguiendo un algoritmo de detección de actos comunicativos.
El sistema se adapta al usuario mediante perfiles de usuario que almacenan información como el idioma, la distancia de interacción preferida, el nivel de experiencia con el sistema y las emociones del usuario.
El sistema soporta diversos modos de entrada, incluyendo voz, gestos, tacto, etiquetas RFID y texto escrito. Los modos de salida incluyen voz sintetizada con emociones, sonidos no verbales, expresión musical y gestos.
GEVA es un sistema de detección de emociones por voz desarrollado en esta tesis. GEFA es un sistema de detección de emociones a partir del análisis del rostro, que integra herramientas de terceros como SHORE y CERT.
IDiM se distingue por su capacidad de adaptación al usuario, su gestión de diálogos multimodales y su funcionamiento dentro de una arquitectura de control robótica. Además, se separa la implementación del diálogo de la gestión del diálogo en sí misma.
Se utilizan diferentes motores de síntesis de voz, un sistema de plantillas para variabilidad expresiva, y modulación de parámetros como tono y ritmo para expresar emociones.
El sistema se ha evaluado mediante experimentos con usuarios reales, analizando vídeos de las interacciones y recopilando datos a través de cuestionarios. Las métricas utilizadas incluyen el tiempo de interacción, número de turnos intercambiados, fallos de reconocimiento, coherencia y la percepción subjetiva de los usuarios sobre la facilidad de uso y diversión.
Los trabajos futuros incluyen el desarrollo de capacidades de conversación multiparte, mejoras en el sistema de identificación de usuarios, mejoras en la detección y modelado de emociones, y la implementación de un sistema de "fisión" multimodal estandarizado.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!
Kommentare