ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR1
Procesamiento de señales de voz
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR2
La comunicación oral
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR3
¿Qué es la voz?
• Onda de sonido (onda de presión)
• Producida por el aparato fonador
• Utilizada para comunicación (para transmisión de mensajes)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR4
Cuestiones varias:
• ¿Qué relación hay entre los fonemas y la señal de voz?• ¿Y entre otras características y la señal de voz?• ¿Cómo podemos analizar las características de la voz?• ¿Cómo se manifiesta una patología de la voz en la
señal?• ¿Cómo podemos ajustar un sistema de ayuda a la
audición para optimizar la comprensión de la voz?• ¿Cómo podemos interpretar un error en la producción
de un fonema?• ¿Cómo podemos interpretar un error en detección o
identificación de fonemas?
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR5
Procesamiento de voz
• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de
locutores• Detección de patologías• Diseño de ayudas para la audición
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR6
¿Qué es la voz?
• Producción de la voz
• Percepción de la voz
• Procesamiento de señales
Dificultades al intentar relacionar la señal con las características
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR7
Problemas del procesamiento de voz
• Variabilidad– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición
• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz muy
redundante• Multi-interactividad entre niveles:
– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental
• Ruido: perturbación + efecto Lombard
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR8
• Variabilidad de las señales de voz
• 40 ms correspondientes al fonema /a/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR9
Modelos de producción de voz
• Órganos de producción de voz– Cavidades infraglóticas– Cavidad laríngea (cuerdas vocales)– Cavidades supraglóticas
Provisión de aireGeneración de la “onda glotal”Filtrado de la onda glotal (diversificación
fonética)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR10
Modelo acústico de producción de voz
• Onda acústica: onda de presión en el aire con c = 350 m/s
• Longitud de onda = c / f– Para 100 Hz, = 3.5 m– Para 4 kHz, = 8.75 cm
• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR11
• Paredes no rígidas:– Pérdidas onda acústica
• Forma y sección del tracto vocal varía en el tiempo:– Se producen entre 5 y 20 fonemas por segundo
• Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar
Modelo acústico de producción de voz (II)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR12
Simplificaciones
• Tracto vocal tubo rígido descrito por la “función de área” A(x,t)
• Como > radio del tubo, aproximación de onda plana – (El problema de contorno tridimensional se puede
reducir a un problema unidimensional)
• Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR13
Función de área
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR14
Ecuaciones de onda
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR15
Condiciones de contorno• Glotis: vibración cuerdas vocales• Labios: p(L)=0• Onda proporcional a u(L)
Solución de las ecuaciones de onda• A se puede suponer constante en el tiempo
(condición de quasi-estacionariedad)• Para A(x) sencilla, soluciones analíticas• Para A(x) compleja, métodos numéricos• Medidas de A(x): Rx, TAC, RMN, articulógraf.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR16
Pérdidas por elasticidad
• mw masa/unid.long;• bw cte. amortiguación• kw cte. recuperación elástica
• Solución para:• L = 17.5 cm• A = cte = 5.0 cm2
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR17
u(L,f) / uG(f)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR18
Formantes
• Formantes: resonancias del tracto vocal
• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz
• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR19
Pérdidas por radiación de onda
• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular
de radio a en plano infinito
• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR20
u(L,f) / uG(f)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR21
Solución numérica para función de área correspondiente a fonema /a/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR22
Acoplamiento del tracto nasal
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR23
Modelo acústico de producción de voz
• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos
• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR24
Modelo digital de producción de voz
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR25
Características de la voz
• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación
• Formantes:– Cavidad buco-nasal– Envolvente espectral
• Energía: presión de aire• Evolución en el tiempo de los parámetros
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR26
Características de la voz
• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación
• Formantes:– Cavidad buco-nasal– Envolvente espectral
• Energía: presión de aire• Evolución en el tiempo de los parámetros
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR27
Clasificación de los fonemas(desde el punto de vista de la producción)
• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas
• Modo de articulación– Vocales– Consonantes
• Lugar de articulación– Vocales– Consonantes
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR28
Clasificación de vocales
• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)
• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR29
Formantes 1º y 2º en vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
fre
q. 2
o fo
rma
nte
(H
z)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR30
Modo de articulación (cons.)
• Oclusivas (b,d,g,p,t,k)
• Fricativas (s,f,z,x,y)
• Africadas (ch)
• Nasales (m,n,ñ)
• Líquidas:– Laterales (l, ll)– Vibrantes (r, R)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR31
Lugar de articulación (cons.)
• Bilabiales (b,p,m)
• Labiodentales (f)
• Linguodentales (t,d)
• Linguointerdentales (z)
• Linguoalveolares (s,n,l,r,R)
• Linguopalatales (y,ch,ñ,ll)
• Linguovelares (k,g,x)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR32
Fonemas del español
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR33
Análisis de señales de voz
• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR34
Transformada de Fourier
• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal
compleja:
Re(z)
Im(z)
x
yr
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR35
Espectro de potencia (1)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR36
Espectro de potencia (2)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR37
Descomposición en componentes freq.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR38
Linealidad de la Transformada de Fourier
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR39
Linealidad de la Transformada de Fourier
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR40
Filtrado
• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o
respuesta en frecuencia)
filtroexcitación señal filtrada
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR41
Filtrado en el tiempo: convolución
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR42
Filtrado en frecuencia: multiplicación
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR43
Ventanas (multiplicación en tiempo)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR44
Ventanas (multiplicación en tiempo)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR45
Transformada de un tren de pulsos
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR46
Transformada de señal periódica
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR47
Muestreo de señales: T. de muestreo
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR48
Transformada Fourier: Resumen
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR49
DFT y FFT
• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)
• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento
digital de señales
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR50
La señal de voz
/sal/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR51
La señal de voz
/s/ /a/ /l/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR52
Estacionariedad de la voz
• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-
estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales
– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:
ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR53
Análisis con ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR54
Análisis con ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR55
Espectro de las vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR56
Espectro de las vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR57
Formantes 1º y 2º en vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
fre
q. 2
o fo
rma
nte
(H
z)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR58
Espectro de consonantes sonoras
/l/
/R/
/y/
/m/
/n/
/ñ/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR59
Espectro de consonantes fricativas
/s/
/ss/
/sh/
/z/
/f/
/j/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR60
Fonemas no estacionarios
• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/
• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR61
Espectrograma (representación tiempo - frecuencia)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR62
Espectrograma (representación tiempo - frecuencia)
m b o i a kom p r a R p a n
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR63
Ventana en el espectrograma: 64ms / 8 ms
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR64
Información relevante de la señal de voz:
• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes
Información espectral de tiempo corto
• Información complementaria:– Tono fundamental– Estructura fina del espectro
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR65
Cómo funciona el oído
• Extrae información de la señal de audio.
• Envía la información al cerebro en forma de estímulos nerviosos.
• El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR66
Características del oído humano
• Configuración de la cóclea:6.000 células ciliadas internas40.000 terminaciones nerviosasRepolarización: 2 ms (400 - 500 disparos/seg)Conexión sináptica: sin interacción entre
canales
• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR67
Capacidad del oído humano
• Resolución en frecuencia: 1/9 tono:– fo - 1.013*fo 450 Hz - 456 Hz– rango de frecuencia: 20 Hz - 20.000 Hz
• Resolución en el tiempo:– limitado por tiempo relajación de células ciliadas y
terminaciones nerviosas (~400 disparos por seg.)
• Resolución en intensidad:– Mejor de 1 dB
• Mecanismos de adaptación.