Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Reconocimiento Automático del Habla
Eduardo Lleida Solano
Dpt. de Ingeniería Electrónica y Comunicaciones
Universidad de Zaragoza
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Reconocimiento Automático del Habla
• Reconocimiento Automático del Habla: una historia reciente
• Dificultades en el RAH
• ¿Dónde estamos?, ¿a dónde vamos?
• ¿Cómo funciona? , las bases
• Consejos: ¿Dónde utilizar RAH?
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Algunas Referencias Interesantes Libros genéricos:Libros genéricos:
John R. Deller, John G. Proakis, John H.L. Hansen“Discrete-Time Processing of Speech Signals”Macmillan Publishing Company, 1993
Douglas O’Shaughnessy“Speech Communications, Human and Machine”IEEE Press, 2000Libros avanzados:Libros avanzados:
Frederick Jelinek“Statistical Methods for Speech Recognition”MIT Press, 1997
Steve Young, Gerrit Bloothooft“Corpus-Based Methods in Language and Speech Processing”Kluwer Academic Publishers,1997Internet:Internet:
http://svr-www.eng.cam.ac.uk/comp.speechSocrates/Erasmus Thematic Network: Speech Communication SciencesSocrates/Erasmus Thematic Network: Speech Communication Sciences
http://tn-speech.essex.ac.uk/tn-speech
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Reconocimiento Automático del Habla: una historia reciente
Los inicios: años 50 Bell Labs .... Reconocimiento de dígitos aislados monolocutor RCA Labs .... Reconocimiento de 10 sílabas monolocutor University College in England .... Reconocedor fonético MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante
Los fundamentos: años 60 Comienzo en Japón (NEC labs) Dynamic time warping .... Vintsyuk (Soviet Union) CMU ... Reconocimiento del Habla Continua .... HAL 9000
Las primeras soluciones: años 70, el mundo probabilístico Reconocimiento de palabras aisladas
LPC, programación dinámica IBM: inicio proyecto reconocimiento de grandes vocabularios Gran inversión en los USA: proyectos DARPA Sistema HARPY (CMU) primer sistema con exito
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
una historia reciente Reconocimiento del Habla Continua: años 80, expansión
Algoritmos para el habla continua y grandes vocabularios Explosión de los métodos estadísticos: Modelos Ocultos de Markov
utilizados inicialmente por IBM y Dragon Systems popularizados por Bell Labs
Introducción de las Redes Neuronales en el reconocimiento de voz Sistema SPHINX
Empieza el negocio: años 90, primeras aplicaciones Ordenadores y procesadores baratos y rápidos Sistemas de dictado Integración entre reconocimiento de voz y procesado del lenguaje
natural.
¿Una realidad?: años 00, integración en el S.O. Integración teléfono y Voice Web browsers
VoiceXML estandard
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Algunas impresiones recientes:
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Dificultades:
1. ¿El sistema de RAH tiene que reconocer la voz de una persona o varias personas (incluyendo, quizas, cualquier persona)?
2. ¿Cual es el tamaño del vocabulario a reconocer?
3. Sobre el modo de dirigirse al sistema de RAH, ¿nos dirigiremos con palabras incluyendo pausas entre ellas o hablaremos de forma continua?
4. Variabilidad acústica y confusión acústica del vocabulario
5. Entorno acústico en el que se utilizará el sistema de RAH
7. ¿Qué conocimientos lingüísticos son necesarios incorporar en el sistema de RAH?
6. ¿Cómo activar o se activa el sistema de RAH?
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
¿Cómo funciona?, Las bases Formulación matemática simple: teoría probabilística
Sea O una secuencia de T medidas acústicas de la voz
Sea W una secuencia of N palabras pertenecientes a un vocabulario fijo y conocido.
P(W|O) es la probabilidad de que la secuencia de palabras W haya sido pronunciada, dado que la secuencia O de medidas acústicas ha sido observada
El reconocedor decidirá a favor de la secuencia de palabras W que satisfaga
W = arg maxW P(W|O)
Es decir, el reconocedor dará como resultado la secuencia mas probable de palabras dadas la medidas acústicas obtenidas.
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Las Bases
Utilizando la fórmula de Bayes
)(
)()|()|(
OP
WPWOPOWP
P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciada P(O|W) ... Probabilidad de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuencia de medidas acústicas O P(O) ... Probabilidad de la secuencia de medidas acústicas O
Fórmula del Reconocedor
)()|(arg WPWOPmaxWW
Modelo Acústico Modelo de Lenguaje
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Hz
Componentes de un sistema de Reconocimiento
Procesado
Acústico
Voz
Algoritmo
de
Reconocimiento
Secuencia de Palabras
Modelado
Acústico
P(O|W)Modelado
Lenguaje
P(W)
texto
AnálisisLéxico
AnálisisGramatical
transcripción
voz
ProcesadoAcústico
ReconocimientoReconocimiento
EntrenamientoEntrenamiento
Aprendizajemodelos acústicos
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Componentes de un sistema de Reconocimiento
Procesado
Acústico
voz
Algoritmo
de
Reconocimiento
Secuenciade Palabras
Modelado
Acústico
P(O|W)Modelado
Lenguaje
P(W)
texto
AnálisisLéxico
AnálisisGramatical
transcripción
voz
ProcesadoAcústico
Aprendizajemodelos acústicos
ReconocimientoReconocimiento
EntrenamientoEntrenamiento
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
¿Dónde estamos?
Sistemas de DictadoAdaptado al locutorGran vocabulario y ampliableHabla continua
Servicios TelefónicosAcceso a informaciónEncuestasTransacciones comercialesCentralitasmanos libres
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
¿A dónde vamos?
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Y para ir terminando ....
Consejos: ¿Dónde y cuando utilizar RAH?Premisa:Las aplicaciones con RAH tienen éxito cuando el usuario está motivado en su uso
Limitaciones:1. Los sistemas de RAH no transcriben voz sin restricciones2. Los sistema de RAH comenten muchos errores
Necesidad:Verificar el resultado del reconocedor: confianza acústica
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
¿Dónde y cuando utilizar la voz?
Utilizar cuando ... Evitar cuando ...
No se dispone de un teclado,p.e,sobre la red telefónicaTareas que requieran la utilización de las manos del usuario, p.e. editores gráficosUsuarios que no pueden teclear o noestán acostrumbrados al uso de untecladoUsuarios con discapacidades físicasque limitan el uso de las manos
La tarea requiera que el usuario hablecon otras personas mientras utiliza laaplicaciónEl usuario trabaja en condiciones malasde ruido ambientalLas tareas se pueden realizar de unaforma mas sencilla y eficiente con unratón y teclado
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
tipos de errores
Rechazos: el usuario habla pero el RAH no entiende lo que dice
Sustituciones: el RAH reconoce palabras que son distintas a las queel usuario pronuncia
Falsas Alarmas: el usuario no dice nada y el RAH devuelve unapalabra reconocida
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Causas
problema causa
El usuario pronuncia una o mas palabras no contenidas en el vocabulario
La frase pronunciada no se adapta a ninguna gramática activa
El usuario habla antes de que el sistema esté listo para reconocer
Palabras muy parecidas que producen confusión
Pausas muy largas en el medio de frases
El usuario habla con disfluencias (falsos comienzos,”umm”,”ehh”)
El usuario tiene un acento muy marcado o está resfriado
La voz del usuario difiere considerablemente del aprendizaje
El micrófono no está bien ajustado
Rechazoo
Sustituciones
Falsas AlarmasSonidos como risas, toses, etc.
Voces lejanas
El usuario está hablando con otra persona