Repaso clase anterior Procesamiento del Habla
Construir sistemas informáticos capaces de manipular efectivamente el lenguaje oral. Reconocimiento del habla (ASR). Síntesis del habla (TTS). Sistemas de diálogo. Identificación del hablante. Detección de emociones. Interfaces de usuario. …
Clase de hoy: elementos de acústica
Sonido
Fluctuaciones de presión en el aire causadas por fuentes como instrumentos musicales, bocinas de autos, voces, etc.1) Las ondas se propagan por el aire y llegan al oído.2) El sistema auditivo las traduce a impulsos neuronales.3) El cerebro los interpreta como sonido.
Audición y percepción del sonido: capítulos 3 y 4 del Johnson, “Acoustic & Auditory Phonetics”.
Sonidos
Sonidos periódicos
Ondas periódicas simples
Ondas periódicas complejas (o compuestas)
Sonidos aperiódicos
Ruido blanco, sonido transitorio.
Sonidos Periódicos
Ondas periódicas simples Ondas senoidales y(t) = A · sen(2 π f t + Φ)
Definidas por: Frecuencia Amplitud Fase
● http://www.indiana.edu/~emusic/acoustics/phase.htm
Ondas Periódicas Simples
Ciclo: Cada repetición del patrón senoidal. Período (T): Duración del ciclo. Frecuencia (f): Cantidad de ciclos por segundo.
En otras palabras: Cantidad de veces que el patrón senoidal se repite por segundo.
Se mide en hertz (Hz). 1 Hz = 1 ciclo por segundo. f = 1/T
Ej: T=0.01s, f=100Hz
Ondas Periódicas Simples
Amplitud: Desviación máxima de fluctuación de la presión por sobre la presión atmosférica normal.
Fase: Timing de la forma de onda relativo a algún punto de referencia.
ej1.py
Ondas Periódicas Complejas
Ondas periódicas complejas: Ondas cíclicas formadas por múltiples ondas senoidales. Ej: onda formada por senoidales de 100 y 1000Hz.
Sonidos Aperiódicos
No tienen un patrón que se repita regularmente.Ejemplos: Ruido blanco: Fluctuación aleatoria de presión.
Espectro plano: igual amplitud para todas las frecuencias.
Estática de radio, viento entre los árboles, [s], [f]. Ondas transitorias: Fluctuaciones súbitas de
presión que no se sostienen ni se repiten. Portazos, disparos, mouse clicks, [p], [t].
Análisis de Fourier
Cualquier función puede descomponerse en una suma de ondas senoidales.
Espectro energético:
Fast Fourier Transform (FFT) Algoritmos eficientes para computar el espectro de una
señal a partir de un número de muestras.
Frecuencias
Am
plitu
des
Visualizaciones
Al agregar una dimensión temporal al espectro energético, obtenemos un espectrograma.
tiempo →
Procesamiento Digital de Señales
Señal analógica (continua): La línea de tiempo tiene valores de amplitud con precisión infinita en todos los puntos.
Señal digital (discreta): La línea de tiempo tiene sólo una secuencia de valores de amplitud con precisión finita.
Procesamiento Digital de Señales
Un micrófono convierte oscilaciones de presión en el aire (sonido) en oscilaciones de voltaje. Los dispositivos analógicos (discos de vinilo, cassettes)
las guardan como señales continuas. Los dispositivos digitales (computadoras, CDs) las
convierten y guardan como señales discretas. Conversión Analógica-Digital (Digitalización)
1) Muestreo: Discretización del tiempo.2) Cuantización: Discretización de la amplitud.
Conversión Analógica-Digital
Tasa de muestreo (sampling rate) ¿Cada cuánto hay que tomar muestras de la señal? Es necesario tomar al menos 2 muestras por ciclo para
capturar la periodicidad de una onda (Teorema de Nyquist-Shannon).
Conversión Analógica-Digital
Balance entre muestreo y almacenamiento Oído humano: máxima frecuencia ~20kHz 44.1kHz: calidad de CD de audio ¿Pero realmente necesitamos guardar 44k muestras por
segundo si queremos almacenar habla? Teléfono: 300 Hz – 4kHz (muestreo = 8kHz). Algunos sonidos del lenguajes (fonos) tienen frecuencias
mayores a 4kHz: [s], [f]. Un tasa de muestreo de 16kHz suele alcanzar para el
procesamiento del habla.
sox --info IN.WAV Sample Rate : 16000
Conversión Analógica-Digital
Error de muestreo: aliasing. Ocurre cuando la señal contiene frecuencias mayores a
la mitad de la tasa de muestreo (frec. de Nyquist).
Solución #1: Incrementar la tasa de muestreo. Solución #2: Filtrar las frecuencias superiores (filtro anti-
aliasing).
Filtros Acústicos
Bloquean sonidos de ciertas frecuencias. Filtro pasa-bajos (low-pass): Bloquea las componentes
con frecuencia mayor a un umbral. Filtro pasa-altos (high-pass): Bloquea las componentes
con frecuencia menor a un umbral. Filtro pasa-banda (band-pass): Bloquea las
componentes con frecuencia por fuera de una banda.
sox IN.WAV OUT.WAV lowpass|highpass FREQ sox IN.WAV OUT.WAV bandpass FREQ WIDTH
Conversión Analógica-Digital
Cuantización Las computadoras no tienen precisión infinita. ¿Cuán precisas deben ser las muestras de amplitud de
la señal? 8, 12, 16, 32 bits por muestra
256, 4096, 65536, 4294967296 niveles de amplitud.
sox --info IN.WAV Precision : 16-bit
¿Cuántos niveles es necesario distinguir?
Conversión Analógica-Digital
Balance entre precisión de cuantización y almacenamiento. Los errores de cuantización se reducen aumentando la
precisión, pero a costa de más espacio.
La elección depende de los datos y de la aplicación. Habla: 16kHz, 16bits suele ser razonable.
Conversión Analógica-Digital
Problema derivado de la cuantización: Saturación digital (clipping): La amplitud de la señal es
mayor al rango representable.
Solución #1: Redefinir los niveles de amplitud. Solución #2: Disminuir la amplitud de la fuente.
Escuchar bach.wav (44.1kHz, 16bits) Fragmento de Partita en Sol Mayor de J. S. Bach. play FILENAME
Bajar sampling rate a 16, 8, 4 kHz y comparar. sox IN.WAV -r FREQ OUT.WAV
Subir sampling rate de 4 kHz a 44.1kHz. ¿Por qué no vuelve a estar en buena calidad?
Aplicar filtro high-pass de 8kHz a: Audio original a 44.1 kHz. Audio resampleado a 16 kHz.
Crear espectrogramas de los audios y comparar. sox IN.WAV -n spectrogram -o OUT.PNG
Ejercicios
Resumen
Sonidos periódicos y aperiódicos. Ondas periódicas simples y complejas. Ruido blanco; ondas transitorias. Análisis de Fourier. FFT. Espectrograma.
Procesamiento digital de señales. Tasa de muestreo; precisión.
Herramientas: sox y python.
Próximos temas: fonética y fonología, prosodia, más herramientas (Praat).