Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
XXVII Encuentro Nacional de Docentes e Investigadores de la LingüísticaUniversidad de los Andes, Mérida
11 de junio de 2008
Las tecnologías del habla y susaplicaciones
Joaquim LlisterriGrup de Fonètica, Departament de FilologiaEspanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
XXVII Encuentro Nacional de Docentes e Investigadores de la LingüísticaUniversidad de los Andes, Mérida
11 de junio de 2008
Materiales en Internet
http://liceu.uab.cat/~joaquim/
speech_technology/ENDIL_08/ENDIL_08.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las tecnologías del habla y sus aplicaciones
La interacción entre personas yordenadores
La interacción entre personasmediatizada por un ordenador
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las tecnologías del habla: presente yfuturo
La interacción entre personas yordenadores
La interacción entre personasmediatizada por un ordenador
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas yordenadores
La interacción oral entre personas yordenadores
La conversión de texto en habla
El reconocimiento del habla
Los sistemas de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas yordenadores
La interacción oral entre personas yordenadores
La conversión de texto en habla
El reconocimiento del habla
Los sistemas de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas yordenadores
HCI, Human - Computer Interaction
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas yordenadores
PantallaTecladoRatónLápizTacto
Canal visualLengua escrita
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas
• Hace unos 5.000 años queescribimos
… pero hace unos 100.000 añosque hablamos (250.000 -50.000 años según los autores)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las nuevas necesidades
• Desarrollo de la Sociedad de laInformación “para todos”
• Automatización de serviciostelefónicos
• Sistemas portátiles sin teclado
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
“The domain of speech technology is thedevelopment of automatic systems to allowhuman users and computers to interactdirectly through the medium of speech”
New Horizons in European Speech technology,Report of the ESPRIT Workshop on SpeechTechnology, Aarhus, Denmark, May 1987.
Las tecnologías del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
¿Qué quisiéramos tener?
Un ordenador que…
Habla
Reconoce
El habla
Al usuario
Entiende
Ayuda alusuarioTraduce
La lenguaescritaLa lengua
oral
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Hal 2001: A Space OdisseyClarke (1950) - Kubrick (1968)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
LingWear, Wearable Linguistic AssistantInterACT, International Center for Advanced Communication Technologies
http://www.is.cs.cmu.edu/LingWear/movie.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
¿Qué tecnologías necesitamos?
Un ordenador que…
Habla Síntesis (CTH)Síntesis (CTH)
Reconoce
El habla ReconocimientoReconocimiento
Al usuario IdentificaciónIdentificación
“Entiende” Comprensión
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
¿Qué tecnologías necesitamos?
Un ordenador que…
Ayuda Sistema de diálogoSistema de diálogo
Traduce El escrito TA
El habla TA oralTA oral
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas yordenadores
La interacción oral entre personas yordenadores
La conversión de texto en habla
El reconocimiento del habla
Los sistemas de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La conversión de texto en habla(TTS, Text-to-Speech Synthesis)
Del texto… …al habla GTP-UPC
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Reglas para el procesamiento previodel texto que contemplen la expansiónde los signos de puntuación sin valorlingüístico, las expresiones numéricas,las siglas y las abreviaturas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Reglas para el procesamientomorfológico y sintáctico en loscasos en que el conversorcontempla un análisis lingüísticoautomático del texto de entrada osupervisión manual del resultadode un proceso de etiquetadoautomático
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Reglas de transcripción fonéticaautomática, que establecen lacorrespondencia entre grafías yalófonos, la silabación y laacentuación, complementadaspor diccionarios depronunciación para eltratamiento de las excepciones
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Establecimiento del inventariode fonemas y alófonos de lalengua para la constitución deldiccionario de unidades desíntesis
Diseño del corpus de unidades desíntesis teniendo en cuenta lasrestricciones fonotácticas de lalengua y la frecuencia deaparición de unidades
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Modelos de duración segmental queconsideren los diversos factores queinfluyen en la duración y basados endatos procedentes de corpusrepresentativos.
Modelos de intensidad segmental que,igualmente, consideren los factores queinciden en la intensidad y se basen encorpus representativos.
Modelos de asignación de pausas quecontemplen tanto las marcadasmediante signos de puntuación comolas no marcadas y que establezcan,además, diferencias de duración entrelos distintos tipos de pausas.
Modelos de entonación que permitangenerar una curva melódica natural,teniendo en cuenta factores fonéticos,sintácticos, semánticos y pragmáticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Actor, Loquendohttp://actor.loquendo.com/actordemo/
Es, m, f
EsCh, f
EsMx, f
EsAr, mCat, f Cat, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Loquendo Gilded TTShttp://actor.loquendo.com/actordemo/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas yordenadores
La interacción oral entre personas yordenadores
La conversión de texto en habla
El reconocimiento del habla
Los sistemas de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
El reconocimiento automático del habla(ASR, Automatic Speech Recognition)
Del habla … … al texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Diseño del corpus deentrenamiento teniendo en cuentael inventario de unidadespreviamente definido y lasrestricciones sobre su aparición
Selección de la muestra depoblación para la grabación delcorpus de entrenamiento,considerando factores de variaciónindividual, geográfica , social y deregistro
Segmentación (o supervisión deuna segmentaciónsemiautomática) del corpus deentrenamiento del reconocedor
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Definición del inventario de fonemas yalófonos de la lengua para determinarlas unidades del sistema dereconocimiento
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Realización o validación de losdiccionarios de pronunciación, queincorporan las formas canónicas y lasvariantes encontradas en el corpus
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Dragon Naturally Speaking
• Edición estándar y profesional
• Vocabulario legal
• Vocabulario médico
• Versión en español
http://www.nuance.com/naturallyspeaking/
http://spain.nuance.com/naturallyspeaking/
Dictado automático
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Dragon Naturally Speakinghttp://www.nuance.com/talk/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Nuance Mobile Dictation “The amazing race” http://www.youtube.com/watch?v=-L4Jk6GDud0
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Windows Vistahttp://www.youtube.com/watch?v=G-dYiTc88Pc
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas yordenadores
La interacción oral entre personas yordenadores
La conversión de texto en habla
El reconocimiento del habla
Los sistemas de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Los sistemas de diálogo
• Sistema de diálogo, Sistemaconversacional
• SLS, Spoken Language System
Programa diseñado para facilitar lainteracción natural mediante el hablaentre una persona y un sistemainformático
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Los sistemas de diálogo
Eh, pues mire, queríasaber a qué hora salela… el último tren, eh…hacia Barcelona, desdeMadrid, el sábado
Reconocimiento Comprensión
PETICIÓN, DESTINO=“Barcelona”,ORIGEN=“Madrid”, Fecha: DÍA=“28”,
HORA=“Último”
Generación de respuesta
El último tren sale a las11 y 53 minutos de la noche
Síntesis
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Estudio de los fenómenos propiosdel habla espontánea paramodelarlos adecuadamente en elsistema de diálogo.
Análisis de la relación entre elnivel fonético y el nivelpragmático, especialmente en loque se refiere a lasmanifestaciones prosódicas de losactos que habla y a los correlatosacústicos de las emociones
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Diseño de estrategias deacceso, de salida y deconfirmación adecuadasdesde el punto de vistapragmático
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Verificación del grado decorrección y adecuaciónlingüística del diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Los sistemas de diálogo
• Portales de voz
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Los sistemas de diálogo
Grabación previa
Selección por voz
Informaciónsolicitada
Restaurantes
Restaurantes de Ávila
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Los sistemas de diálogo
Restaurantesde _________
ÁvilaMadrid
SalamancaCuenca…
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Los sistemas de diálogo
Sistema automático
Selección por voz
Informaciónsolicitada
Farmacias de guardia
Existe unafarmacia…
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Los sistemas de diálogo
ochoHe encontrado nueve
diez
Existe una farmacia de guardia
Mensajes pregrabadospara insertar palabras
procedentes de una lista
Conversión de texto escrito en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Banca Telefónicahttp://www.natvox.es/demos_bpt.html
BpT, Banca por TeléfonoNatural Vox
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las tecnologías del habla: presente yfuturo
La interacción entre personas yordenadores
La interacción entre personasmediatizada por un ordenador
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas mediatizadapor un ordenador
Conversión entre lengua oral y lenguaescrita
Traducción de lengua oral
Conversión de lengua oral a movimientoslabiales
Traducción entre lengua oral y lengua designos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas mediatizadapor un ordenador
Conversión entre lengua oral y lenguaescrita
Traducción de lengua oral
Conversión de lengua oral a movimientoslabiales
Traducción entre lengua oral y lengua designos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas mediatizadapor un ordenador
• Conversión entre modalidades• Escrito - Oral
Conversión de texto en habla (TTS,Text-to-Speech Synthesis)
• Oral - EscritoReconocimiento automático delhabla (ASR, Automatic SpeechRecognition)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas mediatizadapor un ordenador
• Conversión entre modalidades• Escrito - Escrito
Traducción automática de textos(MT, Machine Translation)
• Oral - OralTraducción automática del habla(SLT, Spoken Language Translation)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas mediatizadapor un ordenador
Conversión entre lengua oral y lenguaescrita
Traducción de lengua oral
Conversión de lengua oral a movimientoslabiales
Traducción entre lengua oral y lengua designos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Arquitectura de C-STARhttp://www-
clips.imag.fr/projets/cstar/clips/Architecture.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
NESPOLE! NEgotiating through SPOken Language in E-commercehttp://nespole.itc.it/public/deliverables/D3forWeb/D3forWeb_f
ile/v3_document.htm
"... I'm available on Friday the 19th...”
"...sí sí venerdì diciannove
posso, sì perchè sai oggi
vado via per il viaggio D, la
verità è che questo mese è
pieno di viaggi parto il
giorno sei per un viaggio e
starò via fino al dodici ed è
per questo che il giorno
diciannove mi va proprio
bene francamente..."
“...yes yes on friday
nineteen can, yes
because know I go me of
trip today, the truth such is
that this month is very
traveller I go me the day six
of trip and I am until the
twelve as soon as the day
nineteen comes me very
well outspokenly”
=
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Verbmobilhttp://verbmobil.dfki.de/overview-us.html
• Sistema móvil de traducción de diálogosespontáneos (1993-2000)
• Dominios restringidos: citas, preparaciónde viajes, reservas de hotel
• Lenguas: alemán, inglés y japonés
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Verbmobilhttp://verbmobil.dfki.de/overview-us.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
TC-STARhttp://www.tc-star.org/
Technology and Corpora for Speech-to-
Speech Translation
• 2004-2006 IST-2002-2.3.1.6 Multimodalinterfaces
• Traducción de habla espontánea envarios dominios
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
TC-STARhttp://www.tc-star.org/Demo/demo_apr07_tcstar.zip
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas mediatizadapor un ordenador
Conversión entre lengua oral y lenguaescrita
Traducción de lengua oral
Conversión de lengua oral a movimientoslabiales
Traducción entre lengua oral y lengua designos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Department of Speech, Music and HearingKTH Stockholm
http://www.speech.kth.se/teleface/
Teleface• Ayuda visual -lectura labial- enconversacionestelefónicas parapersonas condiscapacidadesauditivas
Para ver esta película, debedisponer de QuickTime™ y de
un descompresor .
Para ver esta película, debedisponer de QuickTime™ y de
un descompresor .
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Umanifyhttp://www.youtube.com/umanify
• Asistentes virtualesinteractivos parapáginas web y teléfonosmóviles
• Conversión de texto enhabla basada en latecnología de Loquendosincronizada conmovimientos labiales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
La interacción entre personas mediatizadapor un ordenador
Conversión entre lengua oral y lenguaescrita
Traducción de lengua oral
Conversión de lengua oral a movimientoslabiales
Traducción entre lengua oral y lengua designos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Visia 2http://www.sign-lang.uni-
hamburg.de/eSIGN/Movies/Movie_Visia2_news.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
SiSihttp://www.youtube.com/watch?v=RarMKnjqzZU
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Las tecnologías del habla: presente yfuturo
La interacción entre personas yordenadores
La interacción entre personasmediatizada por un ordenador
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
Otras aplicaciones de las tecnologías del hablahttp://www.youtube.com/watch?v=YhWmzTjScfA
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola
¡Muchas gracias!Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
XXVII Encuentro Nacional de Docentes e Investigadores de la LingüísticaUniversidad de los Andes, Mérida
11 de junio de 2008
Materiales en Internet
http://liceu.uab.cat/~joaquim/
speech_technology/ENDIL_08/ENDIL_08.html