Date post: | 13-Apr-2016 |
Category: |
Documents |
Upload: | segundo-teofilo-cadenillas-cabanillas |
View: | 225 times |
Download: | 1 times |
1
CURSO: Procesamiento Digital de Señales I
Integrantes:
ABIA ARRIETA AUGUSTO CADENILLAS CABANILLAS SEGUNDO REYMUNDO GASPAR MICHAEL
Procesamiento de señales de voz
2
La comunicación oral
3
¿Qué es la voz?
• Onda de sonido (onda de presión)• Producida por el aparato fonador• Utilizada para comunicación (para
transmisión de mensajes)
4
Procesamiento de voz
• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de
locutores• Detección de patologías• Diseño de ayudas para la audición
5
Problemas del procesamiento de voz• Variabilidad
– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición
• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz
muy redundante• Multi-interactividad entre niveles:
– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental
• Ruido: perturbación + efecto Lombard
6
• Variabilidad de las señales de voz
• 40 ms correspondientes al fonema /a/
7
Modelo acústico de producción de voz
• Onda acústica: onda de presión en el aire con c = 350 m/s
• Longitud de onda l = c / f– Para 100 Hz, l = 3.5 m– Para 4 kHz, l = 8.75 cm
• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura
8
Formantes
• Formantes: resonancias del tracto vocal
• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz
• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia
9
Pérdidas por radiación de onda
• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular
de radio a en plano infinito
• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década
10
u(L,f) / uG(f)
11
Solución numérica para función de área correspondiente a fonema /a/
12
Acoplamiento del tracto nasal
13
Modelo acústico de producción de voz
• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos
• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década
14
Modelo digital de producción de voz
15
Características de la voz• Excitación:
– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación
• Formantes:– Cavidad buco-nasal– Envolvente espectral
• Energía: presión de aire• Evolución en el tiempo de los parámetros
16
Características de la voz• Excitación:
– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación
• Formantes:– Cavidad buco-nasal– Envolvente espectral
• Energía: presión de aire• Evolución en el tiempo de los parámetros
17
Clasificación de los fonemas(desde el punto de vista de la producción)
• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas
• Modo de articulación– Vocales– Consonantes
• Lugar de articulación– Vocales– Consonantes
18
Clasificación de vocales
• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)
• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)
19
Formantes 1º y 2º en vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
freq.
2o
form
ante
(Hz)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
20
Fonemas del español
21
Análisis de señales de voz
• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas
22
Transformada de Fourier
• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal
compleja:
Re(z)
Im(z)
x
yr
f
23
Espectro de potencia (1)
24
Espectro de potencia (2)
25
Descomposición en componentes freq.
26
Linealidad de la Transformada de Fourier
27
Linealidad de la Transformada de Fourier
28
Filtrado
• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o
respuesta en frecuencia)
filtroexcitación señal filtrada
29
Filtrado en el tiempo: convolución
30
Filtrado en frecuencia: multiplicación
31
Ventanas (multiplicación en tiempo)
32
Ventanas (multiplicación en tiempo)
33
Transformada de un tren de pulsos
34
Transformada de señal periódica
35
Muestreo de señales: T. de muestreo
36
Transformada Fourier: Resumen
37
DFT y FFT
• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)
• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento
digital de señales
38
La señal de voz
/sal/
39
La señal de voz
/s/ /a/ /l/
40
Estacionariedad de la voz
• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-
estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales
– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:
ventanas
41
Análisis con ventanas
42
Análisis con ventanas
43
Espectro de las vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
44
Espectro de las vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
45
Espectro de consonantes sonoras
/l/
/R/
/y/
/m/
/n/
/ñ/
46
Espectro de consonantes fricativas
/s/
/ss/
/sh/
/z/
/f/
/j/
47
Fonemas no estacionarios
• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/
• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/
48
Espectrograma (representación tiempo - frecuencia)
49
Espectrograma (representación tiempo - frecuencia)
m b o i a kom p r a R p a n
50
Ventana en el espectrograma: 64ms / 8 ms
51
Información relevante de la señal de voz:
• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes
Información espectral de tiempo corto• Información complementaria:
– Tono fundamental– Estructura fina del espectro