Escu
ela
Polit
écnic
a S
uperior
de L
inare
s
Gra
do
en
Ing
enie
ría
de
Tec
no
log
ías
de
Tel
eco
mu
nic
ació
n
Universidad de Jaén
Escuela Politécnica Superior de Linares
Trabajo Fin de Grado
SISTEMA PARA LA EXTRACCIÓN
DE FUENTES SONORAS
UTILIZANDO LA TRANSFORMADA
DE FOURIER BIDIMENSIONAL
APLICADO A UN ESCENARIO
VOZ/MÚSICA
Alumno: Miguel Ángel García Casas
Tutor: Francisco Jesús Cañadas Quesada
María Violeta Montiel Zafra
Depto.: Ingeniería de Telecomunicación
Junio, 2020
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
1
ÍNDICE DE CONTENIDO
1. INTRODUCCIÓN ..................................................................................................7
1.1. Introducción a la música Occidental ....................................................................8
1.1.1. Repetición musical ..................................................................................................... 9
1.1.2. Acompañamiento ..................................................................................................... 10
1.1.3. Solista (Instrumento/voz) ........................................................................................ 11
1.2. El concepto del sonido .........................................................................................12
1.2.1. Parámetros del sonido ............................................................................................. 13
1.2.2. Clasificación de sonidos ........................................................................................... 18
1.2.3. La voz ........................................................................................................................ 22
1.3. Análisis espectral .................................................................................................24
1.3.1. Frecuencia de muestreo ........................................................................................... 24
1.3.2. Distintas formas de la transformada de Fourier ................................................... 25
1.3.3. DFT2.......................................................................................................................... 29
2. OBJETIVOS .........................................................................................................31
3. ESTADO DEL ARTE ..........................................................................................33
3.1. Diferentes usos de la NMF ..................................................................................34
3.1.1. Factorización de matriz no negativa (NMF) [3] .................................................... 34
3.1.2. Factorización de matriz no negativa para la separación de fuentes de
sonido (NMF)[4] .................................................................................................................... 36
3.1.3. NMF en separación de fuentes de audio [5] .......................................................... 44
3.1.4. Factorización matricial no negativa en varias etapas [6] ..................................... 45
3.2. Uso de la 2DFT para la identificación de covers [7] ..........................................46
3.3. Separación armónica/percusiva del sonido en dos etapas (HPSS) [8] .............51
3.4. Diferentes usos de REPET ..................................................................................54
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
2
3.4.1. Técnica de extracción de patrones de repetición (REPET) [9] ............................ 54
3.4.2. REPET-SIM online for real-time speech enhancement [10] ............................... 61
3.5. Detección y filtrado de ruido cuasi periódicos [11] ............................................70
4. MATERIALES Y MÉTODOS .............................................................................72
4.1. DFT2 73
4.1.1. Cálculo espectrograma ............................................................................................ 73
4.1.2. Cálculo espectrograma bidimensional ................................................................... 74
4.1.3. Repetición → picos en el dominio scale-rate .......................................................... 74
4.2. REPET-SIM .........................................................................................................83
4.2.1. Matriz similitud ........................................................................................................ 83
4.2.2. Mediana .................................................................................................................... 85
5. RESULTADOS Y DISCUSIÓN ..........................................................................93
5.1. Base de datos utilizada ......................................................................................................94
5.2. Métricas (SDR, SIR, SAR) ................................................................................................95
5.3. Setup (Inicialización) ........................................................................................................97
5.4. Análisis de los resultados obtenidos .................................................................................98
6. CONCLUSIONES ..............................................................................................106
7. LÍNEAS FUTURAS ...........................................................................................108
8. REFERENCIAS BIBLIOGRÁFICAS ...............................................................109
9. ANEXO – GUI Y MANUAL DE USUARIO ....................................................111
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
3
ÍNDICE DE ILUSTRACIONES
Ilustración 1. Variación de la frecuencia típica de un violín en nota “La mayor”. ...................9
Ilustración 2. Variación de frecuencia en el tiempo típica de una voz. ...................................10
Ilustración 3. Ejemplo de propagación de ondas de sonido. ...................................................13
Ilustración 4. Ejemplo del tono puro de un teléfono (1000 Hz), en conjunto con sus
respectivos armónicos (3000 Hz y 5000 Hz). ...........................................................................15
Ilustración 5. Ejemplo la misma nota tocada por diferentes instrumentos (diferentes timbres).
...................................................................................................................................................17
Ilustración 6. Ejemplo de sonido monofónico.........................................................................19
Ilustración 7. Ejemplo de sonido polifónico. ..........................................................................19
Ilustración 8. Ejemplo de sonido armónico. ............................................................................21
Ilustración 9. Ejemplo de sonido inarmónico. .........................................................................22
Ilustración 10. Módulo 2DFT (dominio scale-rate). ...............................................................29
Ilustración 11. Foreground 2DFT (dominio scale-rate). .........................................................30
Ilustración 12: Algoritmo para tratar la separación de audio por NMF. .................................36
Ilustración 13. Demostración de trazas de música en clasificaciones erronas de la NMF. .....40
Ilustración 14. Algoritmo de separación de instrumentos desde la mezcla musical. ..............41
Ilustración 15. Algoritmo de separación una componente en un tono y en un no-tono basado
en 𝑃𝑠. ........................................................................................................................................42
Ilustración 16. Esquema básico de la metodología por NMF. ................................................44
Ilustración 17. Descripción de la metodología utilizada para la identificación de covers. .....48
Ilustración 18. Matriz de similitud construida usando el cálculo de la distancia euclidiana
entre las secuencias de 2DFT. ...................................................................................................49
Ilustración 19. Descripción del algoritmo para el cálculo del periodo 𝑝 para cada espectro 𝑏.
...................................................................................................................................................57
Ilustración 20. Descripción del algoritmo para el método REPET. ........................................60
Ilustración 21. Implementación online de REPET-SIM. ........................................................63
Ilustración 22. Representación gráfica de los resultados obtenidos en el estudio, empleando
los diferentes algoritmos. ..........................................................................................................64
Ilustración 23: Flujo de trabajo del algoritmo de separación de voz de canto para audios
monoaurales. .............................................................................................................................66
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
4
Ilustración 24:. Ejemplo de resultados de RPCA. ...................................................................68
Ilustración 25:. Ejemplo de ruido cuasi-periódico. .................................................................70
Ilustración 26. Módulo en el dominio scale-rate de la parte repetitiva de la señal de audio. .75
Ilustración 27. Módulo en el dominio scale-rate de la parte repetitiva de la señal de audio. .76
Ilustración 28. Módulo en el dominio scale-rate de la parte no repetitiva de la señal de audio.
...................................................................................................................................................77
Ilustración 29. Módulo en el dominio tiempo-frecuencia de la parte repetitiva de la señal de
audio. .........................................................................................................................................78
Ilustración 30. Módulo en el dominio tiempo-frecuencia de la parte no repetitiva de la señal
de audio. ....................................................................................................................................79
Ilustración 31. Espectrograma de la parte repetitiva de la señal de audio...............................81
Ilustración 32. Espectrograma de la parte no repetitiva de la señal de audio. .........................82
Ilustración 33. Modelo de espectrograma repetitivo 𝑊. .........................................................84
Ilustración 34. Modelo de espectrograma repetitivo 𝑊. .........................................................86
Ilustración 35. Modelo de espectrograma repetitivo 𝑊’. ........................................................88
Ilustración 36. Máscara de la parte repetitiva. .........................................................................89
Ilustración 37. Máscara de la parte no repetitiva. ....................................................................90
Ilustración 38. Espectrograma de la parte repetitiva. ..............................................................91
Ilustración 39. Espectrograma de la parte no repetitiva. .........................................................92
Ilustración 40. Composición de todas las pistas evaluadas. ....................................................94
Ilustración 41. Media de resultados de la base de datos DSD100. ..........................................98
Ilustración 42. Aspecto inicial de la interfaz. ........................................................................112
Ilustración 43. Selección del audio deseado. .........................................................................114
Ilustración 44. Selección del método y parámetros. ..............................................................115
Ilustración 45. Resultados obtenidos tras la realización del método. ....................................116
Ilustración 46. Guardado de los audios generados. ...............................................................117
Ilustración 47. Aspecto inicial de la interfaz del software. ...................................................118
Ilustración 48. Selección del audio deseado. .........................................................................119
Ilustración 49. Cargado del audio seleccionado. ...................................................................120
Ilustración 50. Elección del método a implementar, en este caso el de la 2DF junto con sus
parámetros. ..............................................................................................................................121
Ilustración 51. Elección del método a implementar, en este caso el de REPET-SIM junto con
sus parámetros. ........................................................................................................................122
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
5
Ilustración 52. Método ya realizado. .....................................................................................123
Ilustración 53. Guardado de los audios generados. ...............................................................124
ÍNDICE DE TABLAS
Tabla 1. Resultados obtenidos por el método REPET-SIM.....................................................64
Tabla 2. Resultados de los primeros 30 segundos de 10 canciones evaluadas. .......................99
Tabla 3. Resultados de los segundos 30 segundos de 10 canciones evaluadas. ......................99
Tabla 4. Resultados de las 10 canciones particularizadas. .....................................................100
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
6
GLOSARIO DE TÉRMINOS
BSS Blind Source Separation (Separación de fuentes ciega).
FFT Fast Fourier Transform (Transformada Rápida de Fourier).
ICA Independent Component Analysis (Análisis de Componentes Independientes).
IL Intensity Level (Nivel de intensidad).
ISI Inter-Symbol Interference (Interferencia Entre Símbolos).
ISTFT Inverse STFT (STFT Inversa).
MIR Music Information Retrieval (Recuperación de información musical).
NMF Non-negative Matrix Factorization (Factorización de Matrices no negativas).
NMPCF Non-negative Matrix Partial Co-Factorization (Cofactorización Parcial de matrices
No negativas).
REPET REpeating Pattern Extraction Technique.
SAR Source to Artifacts Ratio (Relación señal a artefactos).
SDR Source to Distortion Ratio (Relación señal a distorsión).
SIR Source to Interferences Ratio (Relación señal a interferencias).
SNR Source to Noise Ratio (Relación señal a ruido).
SPL Sound Pressure Level (Nivel de presión sonora).
SSS Sound Source Separation (Separación de fuentes acústicas).
STFT Short-Time Fourier Transform (Transformada de Fourier en Tiempo Corto).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
7
Capítulo 1
1. INTRODUCCIÓN
El oído humano tiene la capacidad de distinguir sonidos específicos dentro de un
escenario auditivo en el que intervienen muchos otros sonidos, a diferencia de las máquinas.
Esto hace posible escoger un sonido en concreto y seguirlo mentalmente a lo largo del tiempo.
Como ejemplo de este hecho se tiene el de una canción, el oyente es capaz de identificar el
sonido proveniente de un instrumento en concreto y concentrarse en él a lo largo de la canción.
Hoy día se está automatizando este proceso mediante la separación de fuentes acústicas
o sonoras, a través de la ciencia del MIR (Musical Information Retrevial). Aunque se han
alcanzado grandes progresos, todavía no se ha solventado completamente esta problemática.
Esta separación de fuentes sonoras hace posible ejecutar el procedimiento que realiza el
oído humano, pero haciéndolo a través de un procesado digital de señales, a partir de una señal
polifónica y multitímbrica.
Esta necesidad que se traduce en distintas aplicaciones, como por ejemplo la
implementación de karaokes, es la que lleva a la realización de este trabajo de fin de grado, en
el que se trata el mezclado musical para intentar conseguir la separación de las distintas fuentes
que conforman el mismo.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
8
1.1. Introducción a la música Occidental
El etnomusicólogo alemán Walter Wiora define en su obra The Four Ages of Music (Las
cuatro edades de la música, 1967) [1] la música Occidental como una cultura musical apoyada
en la notación musical y caracterizada por el desarrollo de la polifonía (la cual es la música que
combina los sonidos de varias voces o instrumentos simultáneos de manera que forman un todo
armónico), la armonía (la cual es el conjunto de acordes que se tocan como acompañamiento
de una melodía) y las grandes formas musicales. Se trataría de un fenómeno fundamentalmente
europeo originado en la Edad Media y que se habría extendido por todo el mundo hasta nuestros
días.
A diferencia de la música oriental, en donde el sonido alcanza una dimensión
“espiritual” o “mística”, en la música occidental el sonido es considerado simple materia prima.
Además, en la música oriental la melodía es el elemento principal y todo lo demás depende de
ella, la armonía no existe como tal, a diferencia de en la música occidental, aunque a veces la
polifonía y la heterofonía cumplen ese papel.
Una de las características musicales que comparten la mayoría de los países asiáticos,
como se puede apreciar en el caso de China y Japón, Mongolia, Corea y Vietnam, influenciados
por la música China, es que su es cala básica es una escala pentatónica, es decir, una escala o
modo musical constituido por una sucesión de cinco sonidos, alturas o notas diferentes dentro
de una octava. Sin embargo, la escala musical más común es India es La-Si-Do#-Re-Mi-Fa-
Sol, la cual puede ser utilizada de diversas maneras al poder ser armonizada en una progresión
de acordes.
Por otro lado, los instrumentos originarios de la cultura oriental tienen un sonido muy
característico, y se clasifican mayoritariamente en instrumentos de viento-madera, instrumentos
de percusión, instrumentos de cuerdas punteadas, e instrumentos de cuerdas frotadas. Además,
estos instrumentos de cuerda se pueden considerar el origen de la familia de cuerda frotada de
la actualidad, donde se sitúan los violines, violas, chelos y contrabajos).
Además, un rasgo que diferencia notablemente a la música oriental de la occidental es
el empleo de técnicas que modifican la voz y la alejan de la natural, como son el falsete, los
glissandos, los vibratos y los melismas, las cuales producen timbres vocales muy característicos
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
9
y alejados de la voz natural occidental.
Pese a estas diferencias, se pueden apreciar influencias de la música oriental sobre la
occidental, como, por ejemplo, sin ir más lejos, en la música española, por su relación con Al-
Ándalus. Y, además, debido al exotismo propio de la Europa del siglo del siglo XIX y principios
del XX, se puede considerar que la música europea de esta época tiene cierta influencia de la
música oriental.
En la actualidad lo oriental sigue estando presente en la música occidental en cuanto a
la utilización de modos, escalas o rítmica. Esto se ve de forma clara en un nuevo género que
tuvo lugar en los años 60 con la influencia india en el rock, el raga rock. También se lleva lo
oriental en la música pop.
1.1.1. Repetición musical
La melodía, por lo general, no está formada por un conjunto de notas o sonidos
aleatorios, sino que estos suelen seguir un patrón o una repetición con el objetivo de guardar la
armonía y ser agradables para el sonido humano. Equivale a la sintaxis del lenguaje. Por
ejemplo, en la ilustración 1, vemos que una nota “La mayor” en violín se repite periódicamente:
Ilustración 1. Variación de la frecuencia típica de un violín en nota “La mayor”.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
10
Por otra parte, la voz tiende a tener un patrón más caótico y con menor repetitividad:
Ilustración 2. Variación de frecuencia en el tiempo típica de una voz.
Los valores de frecuencia varían según la naturaleza de cada instrumento y de cada voz,
es posible que, para diferentes modelos de violín, constituidos de materiales diferentes, se
obtengan distintos valores de frecuencia, pero siempre con un patrón armónico (ver ilustración
1), mientras que en la ilustración 2 se puede ver como no existe repetitividad dentro de un
periodo dado, comportamiento típico de una voz. Esta es la mayor diferencia que presentan la
melodía del canto y basado en este hecho el algoritmo puede realizar la separación sonora de
ambas partes, detectando los elementos más repetitivos (melodía, acompañamiento musical) a
diferencia de los más aleatorios y no repetitivos (la voz), y así poder atenuar uno de ellos y
separarlos de esta forma.
1.1.2. Acompañamiento
En la música se hace referencia a la parte rítmica o armónica que forma parte de la
melodía de una canción o de una pieza instrumental, por ejemplo, el acompañamiento de una
melodía vocal o un solo instrumental puede ser una pieza simple de un instrumento como el
piano, la flauta, la harmónica, el órgano, la guitarra, el violín, entre otros. Por lo tanto, el
acompañamiento musical es el arte de tocar junto con un solista o en conjunto, a menudo
conocido como vocalista, en forma de apoyo en la música que se desempeña.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
11
1.1.3. Solista (Instrumento/voz)
En la música, el solo o solista es una pieza musical, o parte de aquella, en la cual solo
aparece una voz o un instrumento. Por lo tanto, puede corresponder a un cantante o a un único
músico que realiza su llamado “solo” con su instrumento.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
12
1.2. El concepto del sonido
Según la física [2] el sonido son vibraciones que pueden propagarse a través de un medio
gaseoso, líquido, sólido o de un material elástico que permanece produciendo el movimiento
vibratorio de un cuerpo. Las ondas de sonido son generadas por una fuente que, por lo general,
vibra (por ejemplo, un altavoz o cuerda de algún instrumento); al vibrar continuamente las
vibraciones son propagadas desde la fuente al medio a la velocidad del sonido. Este fenómeno
forma una onda de sonido a través del medio la cual se va disipando en el tiempo y en el espacio
hasta ser imperceptible. Dicha onda de sonido puede ser expresada matemáticamente por
ejemplo como:
𝑋(τ) = 𝐿 ∗ 𝑠𝑖𝑛(2 ∗ 𝜋 ∗ 𝑓0 ∗ τ) (1)
donde 𝐿 es la amplitud (medida en metros), τ es el tiempo (medido en segundos) y 𝑓0 la
frecuencia fundamenta (medida en Hz).
Por otro lado, el oído humano solamente puede percibir un umbral de frecuencias de
sonido, que va desde los 20 Hz hasta los 20 kHz, mientras que aquellas ondas sonoras por
encima de los 20kHz, denominadas ondas ultrasónicas o ultrasonido, no son percibidas por el
oído humano. En este proyecto se estudiará el sonido que es perceptible por el cerebro humano
que se forma en el momento en que las oscilaciones de la presión del aire son transformadas en
ondas mecánicas dentro del oído humano, para luego ser captadas por el cerebro. La
transformación del sonido ocurre, de igual forma, en los sistemas fluidos, donde el sonido
fluctúa según la presión, mientras que para los medios sólidos conlleva ciertos cambios en el
estado de tensión del medio.
El sonido al propagarse implica un traslado de energía de un punto a otro, pero sin el
traslado de materia, como se explicó anteriormente esta propagación procede en formas de
ondas mecánicas a través de uno de los medios mencionados con antelación. Sin embargo, en
el vacío las ondas de sonido no se propagan, caso contrario a las ondas electromagnéticas. La
energía del sonido se puede cuantificar en unidades de energía trasmitidas por unidad de tiempo.
Para culminar esta sección es importante señalar que el sonido puede propagarse de dos
maneras fundamentales dependiendo de la posición en que se perciba, una de ellas es la
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
13
propagación por ondas longitudinales y transversales.
Ilustración 3. Ejemplo de propagación de ondas de sonido.
1.2.1. Parámetros del sonido
La onda de sonido se puede caracterizar por una serie de magnitudes objetivas:
- Presión
- Frecuencia
- SPL (Sound Pressure Level)
- IL (Intensity Level)
Los rangos objetivos distinguibles por oído humano son [2]:
- Presiones: 0.0001 µbar → 1000 µbar
- Frecuencias: 20 Hz → 20 kHz
Sin embargo, para una misma onda de sonido, la sensación auditiva, es decir, cómo
percibe el oído dicho sonido, puede variar de una persona a otra. Estas son las características
subjetivas más significativas del sonido:
- Tono o pitch
- Intensidad sonora
- Timbre
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
14
- Duración
A continuación, se describen una serie de características del sonido.
1.2.1.1. Frecuencia fundamental (‘pitch’)
El pitch (𝑋(τ)) o también conocido como tono en la acústica puede ser reconocido por
una vibración regular. Un simple tono tiene una única frecuencia, aunque su intensidad puede
variar. Un tono complejo consta de dos o más tonos simples, llamados armónicos. El tono de
frecuencia más baja se llama fundamental, los otros armónicos, los cuales son múltiplos de la
frecuencia fundamental.
Un tono puro o fundamental corresponde a una onda de comportamiento senoidal, como
la vista anteriormente Ec. 1.
Los tonos puros no existen en el mundo real, sin embargo, cualquier onda periódica se
puede ser representada como suma de tonos puros de distintas frecuencias.
Para obtener la serie de compones parciales armónicos, (o también llamados simplemente
armónicos), se le debe aplicar el análisis de Fourier. De la serie de resultados de dicho análisis
el primer pico obtenido es el fundamental y mientras que los que cuentan con un numero de
orden de 2 tienden a causar alguna sensación similar al primer tono (debido a que están
separados por una distancia de octava, el oído humano los percibe como notas similares, pero
más agudas). El resto de picos parciales armónicos se perciben como otros sonidos diferentes
del fundamental, lo que termina enriqueciendo el sonido.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
15
Ilustración 4. Ejemplo del tono puro de un teléfono (1000 Hz), en conjunto con sus respectivos
armónicos (3000 Hz y 5000 Hz).
La forma en que es percibido el tono es lo que se conoce como altura del sonido, que
determina cómo de bajo o alto es ese sonido, aunque es normal que se utilice tono como
sinónimo de altura.
1.2.1.2. Intensidad
La intensidad sonora es coloquialmente lo fuerte que se percibe un sonido. Esta se puede
definir como [2]:
𝐼 =𝑃
𝐴
(2)
Donde:
𝐼= Intensidad del sonido (W/m2)
𝑃=Potencia acústica (W)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
16
𝐴 = Área de dirección de propagación (m2)
Otra forma de calcular la intensidad de sonido es expresarla en función de la presión
acústica y densidad del medio de propagación
𝐼 =𝑝2
2𝑍
(3)
Siendo:
𝑍 = 𝜌𝑐 con 𝜌 densidad del medio en (kg/m3),
𝑐 = velocidad de propagación del sonido en (m/s)
𝑝 = Presión del medio de propagación (Pa)
1.2.1.3. Timbre
El timbre es un atributo que no puede ser medido bajo una escala numérica, pero si puede
ser identificado en una escala perceptual asociada al concepto de color del sonido, y que está
estrechamente vinculada a la diferenciación de instrumentos y al reconocimiento de fuentes
sonoras. Por ejemplo, cuando existen dos instrumentos que tocan la misma nota en el mismo
tono, duración e intensidad, sin embargo, cada uno contará con un timbre diferente, como
podemos ver en la ilustración 5. Es difícil caracterizar el timbre de cada uno de los instrumentos
porque se requieren varios parámetros para describirlo, como el número de parciales, el
temporal y la envolvente espectral, las irregularidades espectrales o el tiempo de ataque.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
17
Ilustración 5. Ejemplo la misma nota tocada por diferentes instrumentos (diferentes
timbres).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
18
1.2.1.4. Onset/Offset (comienzo/fin)
El Onset es el instante de tiempo en el que una nota inicia, mientras que el Offset es el
instante de tiempo en que esta culmina.
La duración de un sonido o una nota musical comienza con su Onset y finaliza con su
Offset.
1.2.2. Clasificación de sonidos
Una vez conocidas las características anteriores, se continúa con la clasificación de los
sonidos desde diferentes puntos de vista:
1.2.2.1. Monocanal, estéreo y multicanal
Las señales monocanal están constituidas por la sumatoria de todas las fuentes de
sonidos que son captadas en la grabación, lo que dificulta el análisis y procesamiento de las
señales debido a que no contienen toda la información en un único canal, lo cual impide adquirir
información espacial de las fuentes. Estas señales también son conocidas como monoaurales.
Por otro lado, las señales estéreo son aquellas formadas por dos canales y aunque estos
puedan ser dos canales monoaurales independientes, habitualmente la en uno está relacionado
con la señal en otro. Al emplear dos canales se está cuantificando mayor cantidad de
información espacial sobre la ubicación relativa de las fuentes de sonido.
Para finalizar, cabe resaltar que los sonidos multicanal son aquellos que son generados
a partir de al menos cuatro canales independientes. También son conocidos como surround o
sonido envolvente, y requieren de un equipamiento especial para su reproducción, por ejemplo,
es necesario disponer de una mayor cantidad de altavoces, puesto que, además del canal
izquierdo y derecho (señales estéreo), se cuenta con la opción de reproducir un canal
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
19
especialmente para la voz y otro que contiene sonidos de muy baja frecuencia.
1.2.2.2. Monofónico y polifónico
Las definiciones de monofónico y polifónico en la práctica pueden tender a ser borrosas
y a confundirse entre ellas, por ello se prefiere traer un ejemplo: la monofonía puede ser una
sola pista con una única melodía vocal no acompañada, la pista puede contener una o más voces
sin acompañamiento y aun así se puede considerar monofónica, por otra parte, el sonido
polifónico significa música con más de una parte, por lo que esto indica notas simultáneas. Es
decir, explicado de otra forma, monofónico corresponde a un único sonido (por ejemplo, una
nota de piano) y polifónico corresponde a más de un sonido a la vez (por ejemplo, varias notas
de piano simultáneas). En las ilustraciones 6 y 7 podemos ver las diferencias de monofonía y
polifonía:
Ilustración 6. Ejemplo de sonido monofónico.
Ilustración 7. Ejemplo de sonido polifónico.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
20
1.2.2.3. Monotimbre y multitimbre
Según el número de instrumentos que componen una señal, los sonidos se clasifican en
monotimbre y multitimbre.
El concepto de mono timbre se encuentra relacionado directamente con las obras
compuestas por señales que vienen de instrumentos que cuentan con el mismo timbre o
envolvente espectral. A diferencia de los sonidos multitimbre como los que están formados pro
señales procedentes de dos o más instrumentos que presentan distinto timbre.
La distinción entre sonidos monofónicos y monotímbricos es relevante, puestos que
estos no pueden ser excluidos ni borrados de las pistas de audio a procesar. Las señales que se
componen exclusivamente por un sonido de guitarra es una señal monotímbrica, pero será
monofónica cuando suene una única nota y por otra parte polifónica cuando suene dos o más
notas del mismo instrumento. Similarmente pasa para distinguir sonidos multitímbricos. A
pesar de que se estén tocando diferentes instrumentos, si la nota interpretada por todos es la
misma, entonces se puede afirmar que la señal es monofónica y si tiene diferentes notas
musicales entonces la señal es multitímbrica y polifónica.
1.2.2.4 Armónico e inarmónico
Los sonidos armónicos son los sonidos compuestos por un comportamiento sinusoidal,
cuyas frecuencias fundamentales están estrechamente relacionadas entre sí de forma armónica,
lo que quiere decir que la energía de sus componentes está situada en múltiplos de su frecuencia
fundamental, tal y como podemos ver en la Ec. 4:
𝑋(τ) = 𝑠𝑖𝑛(2 ∗ 𝜋 ∗ 𝑓0 ∗ τ) +𝑠𝑖𝑛(2∗2∗𝜋∗𝑓0∗𝜏)
2+
𝑠𝑖𝑛(3∗2∗𝜋∗𝑓0∗τ)
3 (4)
De tal manera que el tono fundamental es 𝑓0 y sus armónicos están en sus múltiplos 2 y
3 y cuyas amplitudes son la mitad y la tercera parte respectivamente.
El sonido inarmónico es aquel que no es periódico ni cuasi periódico. A diferencia de
en el sonido armónico, la frecuencia no está concentrada en la fundamental y sus múltiplos,
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
21
sino que está distribuida en otros sitios.
Ejemplo de sonido armónico:
Ilustración 8. Ejemplo de sonido armónico.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
22
Ejemplo de sonido inarmónico:
Ilustración 9. Ejemplo de sonido inarmónico.
1.2.3. La voz
La voz 𝑣(𝑡) es el sonido producido por el aparato fonador humano. La emisión
consciente de sonidos producidos utilizando el aparato fonador se conoce como canto. El canto
o singing-voice tiene un rol importante en el arte de la música, porque es el único instrumento
musical capaz de integrar palabras a la línea musical.
El sonido vocal se produce en una acción física combinada. Las partes son el apoyo, la
función combinada de mucosidad, cuerdas y músculos vocales y de la resonancia y supresión
de los armónicos del sonido emitido de la laringe al tracto vocal (boca, lengua, cabeza).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
23
Matemáticamente, se compondría de la convolución de una señal 𝑥(𝑡) con 𝐻(𝑡):
𝑣(𝑡) = 𝑥(𝑡) ∗ 𝐻(𝑡) (5)
Los sonidos vocales se denominan fonemas. Estos son la unidad fonológica mínima de
una lengua, pues no pueden ser descompuestos en unidades más pequeños. Los fonemas al
combinarse forman palabras y enunciados. Como se describe a continuación, escriben fonemas
sordos y sonoros.
1.2.3.1. Fonemas sordos
Los fonemas sordos son aquellos fonemas en los cuales no vibran las cuerdas vocales,
y son los siguientes: /ch/, /f/, /j/, /k/, /p/, /s/, /t/, /z/.
1.2.3.2. Fonemas sonoros
Los fonemas sonoros son aquellos en los cuales vibran las cuerdas vocales. Son los
siguientes: /b/, /d/, /g/, /l/, /ll/, /m/, /n/, /ñ/, /r/, /rr/, /y/, /z/.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
24
1.3. Análisis espectral
El análisis de espectro es una de las numerosas técnicas estadística necesarias para la
caracterización y análisis de datos secuenciados. Los datos secuenciados son observaciones que
se han tomado en una, dos o más dimensiones del espacio y/o tiempo. Los ejemplos pueden ser
observaciones de la densidad de población a lo largo de una carretera, o de lluvias en un área, o
de nacimientos diarios en un hospital. Una limitación importante es que las observaciones deben
estar igualmente espaciadas para que el análisis proceda de manera eficiente. Asimismo, el
análisis espectral se refiere a la descomposición de una secuencia en oscilaciones de diferentes
longitudes o escalas. Mediante este proceso, las observaciones en lo que se denomina dominio
de datos se convierten en dominio espectral. Las razones para hacer esto son que: (a) algunas
formas de manipulación son más fáciles en el dominio espectral; y (b) las escalas reveladas son
descriptores estadísticos necesarios de los datos y pueden sugerir factores importantes que
afectan o producen dichos datos. Los siguientes apartados proporcionarán breves descripciones
de: (a) análisis de Fourier y su uso en la manipulación de datos que se supone que son periódicos;
(b) estadísticas relevantes; y (c) un enfoque para el análisis espectral de datos no periódicos que
incluye un ejemplo.
1.3.1. Frecuencia de muestreo
La frecuencia de muestreo 𝑓𝑠 (medida en Hz) no es más que la cantidad de muestras
tomadas en una sección de tiempo de una señal continua, con el objetivo de generar una señal
discreta; en el proceso es necesario convertir la señal analógica en digital. Aunque también se
usan otras magnitudes, este parámetro se mide en Hz o múltiplos suyos, como el kHz.
En audio, el máximo de audiofrecuencia que puede ser percibida por el ser humano con
un oído saludable, se encuentra alrededor de los 20 kHz, por lo que en teoría una frecuencia de
muestra de 40000 sería suficiente para su muestreo; no obstante, el estándar que introduce el
CD, fue establecido en 44100 muestras por segundo, debido a que una frecuencia superior
permite compensar los filtros utilizados durante la conversión analógico-digital [3].
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
25
A pesar de que el estándar del CD fue establecido en 44100 Hz muestras por segundo
no quiere decir que dicha frecuencia sea utilizada por todos los equipos. Por ejemplo, los
sistemas domésticos de baja calidad solo pueden utilizar hasta 22050 tasas de muestras por
segundo de 11025 muestras por segundo. Adicional a esto, las tarjetas informáticas emplean
frecuencias por encima o por debajo de este estándar, que por lo general son seleccionadas en
función de algunas necesidades concretas (sobre todo, en aplicaciones de audio profesional).
1.3.2. Distintas formas de la transformada de Fourier
En el transcurrir de los últimos años se han ido desarrollando y evolucionando diferentes
métodos y técnicas de procesamiento digital, para la detección, medición y evaluación de
funciones que posteriormente se aplicaron al tratamiento de señales. Por ejemplo, en el análisis
espectral de una señal que se pretende analizar a detalle el comportamiento y aporte de sus
componentes armónica en el dominio de la frecuencia; para determinar un espectro a partir de
esta información se puede recurrir a la transformada de Fourier (FT), sin embargo este
procedimiento tiene limitaciones para ofrecer información en el tiempo; es decir que no puede
indicar los instantes en los que ocurren ciertos eventos importantes para un señal determinada,
es por ello que para tener una localización temporal de los componentes espectrales se necesitan
otras transformadas, que proporcionen una representación tiempo-frecuencia de una señal no
estacionaria, dichas transformadas serán descritas en este apartado.
FOURIER
La transformada de Fourier (también abreviada FT) es un procedimiento matemático
capaz de descomponer una función en las frecuencias que la integran, de forma similar que un
prisma descompone la luz en distintos colores y longitudes de onda. La función que inicialmente
se define en el tiempo 𝑓(𝑡) hace referencia a la transformada en el dominio de la frecuencia
F(w), a la cual se le llama transformada de Fourier o serie de Fourier cuando la función es
periódica. Fourier postuló que es posible expresar una función como la sumatoria de senos y
cosenos de distintas frecuencias y amplitudes hasta poder determinar la función original. Esta
metodología es implementada inicialmente en funciones periódicas, pero es capaz de extenderse
a funciones no periódicas haciendo tener a infinito su periodo (𝑇 → ∞).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
26
La Transformada de Fourier (Abreviada como TF)
La transformada de Fourier de una función se puede calcular haciendo que el período
de la función a transformar tienda a infinito como:
𝐶(𝑤) = ∫ 𝑡(𝑡)𝑒−𝑖𝑤𝑡𝑑𝑡∞
−∞
(5)
Como se observa en la Ec. 5 aparece una integral impropia en los coeficientes, que
también es conocida como la transformada de Fourier, esta resulta ser de gran importancia en
el análisis de Fourier y en muchas otras aplicaciones.
Transformada Discreta de Fourier DFT
De manera similar a la serie, la transformada de Fourier se encarga de descomponer la
señal en funciones de seno y coseno de diferentes frecuencias y amplitudes. Dicha transformada
lleva a cabo la solución de integrales que hacen el análisis continuo para todo tiempo. Sin
embargo, en la práctica esto no siempre es posible por el desconocimiento de la función original
o por el posible consumo de tiempo y memoria necesarios, puesto que solo se poseen datos
discretos que resultan de una captura. En las aplicaciones de ingeniería y tratamiento de datos
provenientes de señales, resulta de mayor utilidad considerar el proceso de manera discreta y
no continua, puesto que los sistemas de adquisición de datos no son capaces de obtener ni
analizar el total de la información.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
27
El cálculo de la DFT requiere la suma compleja de N multiplicaciones complejas para
cada una de las salidas. En total, 𝑁2 multiplicaciones complejas y 𝑁 ∗ (𝑁 − 1) sumas
complejas para realizar un DFT de 𝑁 puntos.
La Transformada Rápida de Fourier FFT
Son necesarias (𝑁2) operaciones aritméticas para la evaluación directa de la DFT. A
través de un algoritmo FFT es capaz de obtener el mismo resultado con sólo 𝑁 ∗ log (𝑁)
cantidad de operaciones. La FFT es el algoritmo que se emplea por excelencia para realizar la
DFT de una manera eficiente y rápida. El objetivo de este algoritmo es simplificar enormemente
el cálculo de la DFT introduciendo “atajos” matemáticos, como son el diezmado en tiempo y
frecuencia, para disminuir considerablemente la cantidad de operaciones. Con esto se logra
descomponer o fragmentar la transformada a tratar en otras más simples, y así sucesivamente
hasta llegar a transformadas de dos elementos en donde k puede tomar los valores 0 y 1. Al
resolver las transformadas más simples, estas se pueden agrupar en otras de nivel superior que
pueden resolverse de nuevo, y así sucesivamente hasta llegar al nivel más elevado. Al culminar
este proceso se ordenan los resultados obtenidos. Debido a que la transformada discreta de
Fourier inversa es análoga o similar a la transformada discreta de Fourier, con distinto signo en
el exponente y un factor 1/𝑁, cualquier algoritmo FFT se puede adaptar fácilmente para el
cálculo de la transformada inversa.
La Transformada Corta de Fourier STFT
La Transformada de Fourier enventanada también es conocida como Transformada de
Fourier de Tiempo Corto (STFT: Short Time Fourier Transform). La STFT recorre la señal en
función de las variables tiempo y frecuencia. Además, se encarga de dividir la señal en pequeños
segmentos para calcular la FT de cada segmento por separado, de tal forma que se logra una
representación tiempo-frecuencia de la señal para saber el valor de sus componentes en
resolución temporal y espectral; no obstante, la información de localización tiempo-frecuencia
sólo se puede obtener con una exactitud limitada, delimitada por el ancho de la ventana
empleada 𝑤(𝑛).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
28
1.3.2.1. Espectrograma (FFT)
El espectrograma no es más que la consecuencia de calcular el espectro de tramas
enventanadas de una señal. Este consiste en un gráfico tridimensional en el cual se grafica la
energía del contenido de la frecuencia de la señal a medida que va cambiando a lo largo del
tiempo. De otra forma, es la evolución temporal del FFT aplicada a cada ventana de la señal
temporal.
El espectrograma consiste en recolectar un determinado número de muestras a través de
una ventana temporal, con unas dimensiones concretas. La ventana tendrá un tamaño
determinado según el tipo de análisis que se le realice a la señal (puede ser: armónico o
resonante).
Posteriormente, se procede a desplazar la ventana a lo largo del tiempo de la señal, para
recolectar otro número de muestras diferentes y, se vuelve a calcular el contenido frecuencial,
para después volver a representar las variables en la misma gráfica anterior. Esta operación se
repite sucesivamente a lo largo de la señal.
La sumatoria de las representaciones de las transformadas de Fourier de las ventanas
consecutivas, aporta un volumen importante de información en el dominio frecuencial de la
señal, y de la variación de la energía y la frecuencia en función del tiempo.
La forma más común de encontrar esta gráfica es con el tiempo en el eje de abscisas, las
frecuencias en el de ordenadas y la energía en dB en el plano tridimensional, aunque puede ser
graficada de maneras diferentes. La energía suele estar acompañada con una gama de colores
que muestran la variación de esta. Se suele trabajar con módulo o módulo al cuadrado (PSD,
Power Spectral Density).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
29
1.3.3. DFT2
1.3.3.1. Dominio scale-rate
En el método que se va a implementar para la consecución de los objetivos de este
trabajo de fin de grado, usamos la Transformada de Fourier Bidimensional (2DFT). En este
dominio, en el que tenemos una imagen de ejes llamados "scale-rate", cuyas unidades son bin,
a diferencia de en la Transformada de Fourier Unidimensional que trabajamos en imágenes con
ejes tiempo-frecuencia, podemos observar la energía correspondiente a cada bin. En este
dominio lo que vamos a buscar son los elementos que lo repiten, para así poder quedarnos con
ellos, por una parte, y por otra con el resto, lo que no se repite.
1.3.3.2. Repetición en la DFT2 → los picos en el dominio scale-rate (DFT2)
Las repeticiones de la función musical tratada se manifiestan en la DFT2 como unos
picos concentrados de energía. En la siguiente imagen se pueden ver claramente las zonas con
elementos repetidos (puntos amarillos):
Ilustración 10. Módulo 2DFT (dominio scale-rate).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
30
En la siguiente imagen se pueden ver claramente las zonas con elementos no
repetidos, las cuales son las de puntos azul oscuro:
Ilustración 11. Foreground 2DFT (dominio scale-rate).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
31
Capítulo 2
2. OBJETIVOS
La separación de fuentes sonoras permite extraer de manera aislada determinadas
fuentes de audio de interés a partir de la señal mezcla de audio que se encuentra disponible en
la escena acústica: línea de bajos, instrumento principal y rítmicos o la voz cantada (singing
voice). Este trabajo de fin de grado se centra en el desarrollo de un método para la extracción
de la voz cantada a partir de la señal mezcla que estará compuesta por singing voice e
instrumentos musicales (música). Concretamente, el método propuesto se basará en la
utilización de la transformada de Fourier bidimensional (2DFT) aplicada al espectrograma de
la señal mezcla disponible en la escena auditiva. Esto simula el comportamiento que el oído
humano es capaz de realizar a través de un procesado digital de señales. La idea básica consiste
en suponer que las propiedades de la 2DFT permiten atenuar la pista periódica (música)
respecto de la pista no periódica (singing voice). Una vez implementado dicho método, se
utilizará una base de datos de audio adecuada para la correcta evaluación del sistema
implementado utilizando métricas apropiadas. Finalmente, se realizará una interfaz amigable
para su utilización por parte del usuario final.
Para la consecución de los objetivos de este trabajo, ha sido necesario adquirir ciertos
conocimientos básicos sobre la música occidental, el sonido y el análisis espectral, los cuales
ya han sido descritos en el capítulo 1 de este documento.
Además, se ha hecho una recopilación y estudio de material bibliográfico que trata
técnicas relacionadas con las implementadas en este trabajo (se exponen en el capítulo 3 de
estado del arte), con la finalidad de poder comprender en qué estado se encuentra la
investigación que se quiere llevar a cabo, analizando y pormenorizando los diferentes métodos
que existen en la actualidad.
Tras esto, se explica detalladamente en el capítulo 4 el diseño e implementación del
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
32
método de extracción de fuentes sonoras basado en las propiedades de la 2DFT. También se
implementa otro método de separación de fuentes sonoras, el REPET-SIM, esta vez basado en
una matriz de similitud en el espectrograma de la transformada de Fourier unidimensional para
así poder comparar resultados en la evaluación posterior. Todo el desarrollo técnico de este
trabajo se ha implementado utilizando el entorno de programación MATLAB.
En el capítulo 5, se utiliza una base de datos de música adecuada al problema a resolver,
compuesta por instrumentos musicales y voz cantada, para evaluarla con las métricas adecuadas
y así poder sacar resultados.
En los capítulos 6 y 7 se ponen de manifiesto algunas conclusiones extraídas del
desarrollo de este trabajo, así como líneas futuras por las que se podrá seguir trabajando en este
campo.
Por último, como capítulo final se implementa una interfaz amigable que permite a un
usuario sin conocimientos de programación en MATLAB poder probar los métodos
desarrollados de una manera sencilla.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
33
Capítulo 3
3. ESTADO DEL ARTE
Hasta la fecha de hoy se han desarrollado técnicas en profundidad para lograr la
separación de acompañamiento instrumental y voz. Para realizar esta separación se han
propuesto diferentes métodos, algunos de ellos se describirán posteriormente. Todos los
métodos empleados, incluyendo la utilización de filtros de mediana y matrices de similitud
hasta algoritmos más complejos como NMF (Factorización de Matriz no Negativa), NMPCF
(Non-negative Matrix Partial Co-Factorization), Sparse Coding o ICA (Independet
Component Analysis), tratan de efectuar algún tipo de separación, generalmente la obtención
de una señal que posea la información de la voz cantada y otra que incluya la de los
instrumentos que la acompañan. Adicionalmente, se ha intentado excluir la voz de las señales
con el propósito de crear karaokes y otras aplicaciones de ese estilo. En esta tesis, el propósito
de dicha separación será la obtención de la señal repetitiva (acompañamiento instrumental)
de la señal que contiene la voz.
En la siguiente sección se habla sobre la separación de instrumentos y voz empleando
diferentes métodos a los utilizados en este trabajo. Se resumen brevemente cada uno de ellos.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
34
3.1. Diferentes usos de la NMF
3.1.1. Factorización de matriz no negativa (NMF) [3]
El método de separación de factorización de matriz no negativa se centra en extraer
principalmente la voz de la melodía. Es un enfoque basado en la discontinuidad local, en
particular, se utiliza para la separación de voz cantada basada en el supuesto de que el
espectrograma en la música se puede expresar con un número limitado de plantillas de
espectros.
La metodología consiste en extraer los valores de amplitud y tiempo del espectrograma
representándolos en una matriz X que es el producto de K x T, donde K es el valor de la
frecuencia y T el tiempo del marco de la frecuencia. La factorización de la matriz no negativa
X viene dada por:
X ≈ BG (6)
Donde B y G son los valores de ganancia de las matrices de dimensiones 𝐾𝑗 y 𝑇𝑗
respectivamente. J representa el número de componentes del conjunto matricial. Cada
componente 𝑋𝑗 es definido como producto del espectro 𝑏𝑗 correspondiente a la ganancia 𝑔𝑗,
entonces
Xj = 𝑏𝑗𝑔𝑗 (7)
Para resolver los problemas de minimización se propone inicializara el algoritmo con valores
positivos y aleatorios de la siguiente manera:
B ← B⨂
XBG ∗ 𝐺𝑇
1𝐺𝑇 G ← G⨂
XBG ∗ 𝐵𝑇
1𝐵𝑇
(8)
La discontinuidad espectral de cada componente se puede medir como la sumatoria y
normalización de las diferencias de cuadrados entre los elementos adyacentes:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
35
ds(Xj) =∑ (𝐵𝑘,𝑗 − 𝐵𝑘−1,𝑗)2𝐾
𝑘=2
∑ 𝐵2𝐾𝑘=1 𝑘,𝑗
(9)
Una vez realizada la medición se genera un nuevo espectrograma X´ que es formado
por la sustracción de los datos arrojados y puede ser representada por la siguiente función:
𝑋´ = max (0, 𝑋 − ∑ 𝑋𝑗
𝑗=1…𝐽
)
(10)
En la segunda etapa del algoritmo los instrumentos de percusión son separados de la
mezcla de sonido basándose en la observación que muestra el espectrograma, dado a que estos
sonidos aparecen continuamente en la misma dirección espectral de forma discontinua. La
medición de la discontinuidad tempera puede sr medida como 𝑑𝑡(𝑋𝑗):
𝑑𝑡(𝑋𝑗) =∑ (𝐺𝑡,𝑗 − 𝐺𝑡−1,𝑗)2𝑇
𝑡=2
∑ 𝐺2𝑇𝑡=1 𝑡,𝑗
(11)
El tercer paso es obtener la señal de voz, para ello se debe substraer todos los
instrumentos de percusión de X´, para luego ser invertida al dominio del tiempo, donde la
señal de la melodía se obtiene sustrayendo la señal de voz de la mezcla de audio, a este proceso
se le denomina resintetizado. El algoritmo puede resumirse como:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
36
Ilustración 12: Algoritmo para tratar la separación de audio por NMF.
3.1.2. Factorización de matriz no negativa para la separación de fuentes de sonido (NMF)[4]
Sea X el producto de las matrices no negativas KxT que representan la magnitud de
señales de la mezcla x, donde K representa el número de contenedores de frecuencia y T
representa el número de fragmentos de tiempo. La aproximación no negativa de la matriz X
viene dada por:
𝑋 ≈ 𝐵𝐺 (12)
Donde B y G son las matrices básicas y de ganancias, respectivamente, con
dimensiones KxJ y JxT, a su vez, J representa el número de componentes. Cada componte 𝑋𝑗
es definido como el producto del espectro básico 𝑏𝑗 (la columna j en B) y la correspondiente
ganancia temporal 𝑔𝑗
𝑋𝑗 = 𝑏𝑗𝑔𝑗 (13)
Donde j varia de 1 hasta J y es el índice del componte.
La factorización de la Ec. 13 a menudo se logra minimizando una función de costo
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
37
definida en X y BG, mientras se aplica la no negatividad. La divergencia de Kullback-Leiber
(K-L) es utilizada comúnmente en la fuente de separación y esto mejora el algoritmo:
𝐷(𝑋||𝐵𝐺) = ∑ ∑ 𝑋𝑘,𝑡
𝑇
𝑡=1
𝐾
𝑘=1
log (𝑋𝑘,𝑡
[𝐵𝐺]𝑘,𝑡− 𝑋𝑘,𝑡 + [𝐵𝐺]𝑘,𝑡
(14)
Este problema de minimización se resuelve aplicando las reglas de actualización
multiplicativa:
𝐵 ⟵ 𝐵 ⊗
𝑋𝐵𝐺 𝐺𝑇
1𝐺𝑇 𝐺 ⟵ 𝐺 ⊗
𝑋𝐵𝐺 𝐵𝑇
1𝐵𝑇
(15)
Donde ⊗ indica que las matrices se multiplicarán por cada elemento, 1 denota una
matriz todo en uno del mismo tamaño que X y T es la transposición de la matriz.
En varios de los algoritmos existentes, cada componente de las NMF se asume
idealmente que proviene de una fuente de sonido y, por tanto, se clasifica como vocal o
instrumental.
Clasificación de cada componte utilizando las mediciones espectrales y
temporales discontinuas
Este algoritmo cuenta con dos etapas, una para separar los instrumentos agudos de la
mezcla y otra para separar los instrumentos de percusión. La separación de los instrumentos
agudos está basada en la observación que proporciona el espectrograma a lo largo de la ventana
de FFT. Los instrumentos agudos tienen un tono estable por lo cual aparecen continuamente
en la misma dirección temporal y discontinuos en la dirección espectral; para filtrar los
instrumentos agudos la magnitud del espectrograma es descompuesta en un juego de
componentes dentro de una NMF y aquellos componentes que son espectralmente
discontinuos son eliminados.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
38
La discontinuidad espectral para cada componte es medida por la suma y
normalización de las diferencias cuadradas entre los elementos adyacentes en su base
espectral. Específicamente, para cada componente 𝑋𝑗 la discontinuidad espectral medida
𝑑𝑠(𝑋𝑗) es definida como:
𝑑𝑠(𝑋𝑗) =∑ (𝐵𝑘,𝑗 − 𝐵𝑘−1)2𝐾
𝑘=2
∑ (𝐵𝑘,𝑗)2𝐾𝑘=1
(16)
Si el valor excede un umbral mayor a 0.4 (denotase la variable θ como umbral)
entonces el instrumento es considerado agudo, sin embargo, en diferentes literaturas utilizan
valores distintos según la frecuencia del instrumento a tratar.
Una magnitud nueva de espectrograma es formada 𝑋′ por la sustracción de todos los
agudos, la mezcla de salida del espectrograma 𝑋′ se puede escribir como:
𝑋′ = max (0, 𝑋 −∑ 𝑗 = 𝑗 … 𝐽
𝑑𝑠(𝑋𝐽) > 𝜃𝑠
𝑋𝑗)
(17)
Donde 0 es la matriz de puros ceros de las mismas dimensiones de X y máximos (Y,Z),
toman el elemento máximo de las matrices Y y Z, que son utilizadas para garantizar que no
haya elementos negativos en X’. Después que X’ es invertida al dominio del tiempo utilizando
la información de fase de la mezcla de sonido original, entonces es utilizada como entrada
para la segunda etapa del algoritmo.
En la segunda etapa del algoritmo, los instrumentos de percusión son separados de la
mezcla de sonidos, basados en las observaciones del espectrograma de ventana corta; las ondas
sonoras de los equipos de percusión aparecen continuamente en la dirección espectral y
discontinua en la dirección temporal. Por lo tanto, los componentes de NMF que son
temporalmente discontinuos pueden considerarse como provenientes de sonidos de percusión
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
39
y pueden ser eliminados usando un método similar de umbral de discontinuidad temporal,
concretamente para cada componente 𝑋𝑗, la ecuación que lo describe es:
𝑑𝑡(𝑋𝑗) =∑ (𝐺𝑘,𝑗 − 𝐺𝑘−1)2𝐾
𝑘=2
∑ (𝐺𝑘,𝑗)2𝐾𝑘=1
(18)
Entonces se puede decir que si el umbral es mayor a θ el instrumento se considera de
percusión.
El espectrograma de voz es obtenido por la sustracción de todos los instrumentos de
percusión de la matriz 𝑋′, luego es invertida de vuelta al dominio del tiempo usando la fase de
información de 𝑋′ para producir la voz de canto separada de v. La señal de música se puede
obtener restando v de la señal de mezcla x.
Uso de medidas locales de discontinuidad para refinar los componentes NMF
Para abordar el problema discutido anteriormente, se propuso un método para mejorar la
calidad de separación mediante el uso de medidas locales de discontinuidad de los
componentes NMF. Para explicar la idea primero es necesario considerar una etapa de
factorización del espectrograma donde es usado para clasificar los componentes de la NMF en
tonos y no tonos únicos. En esta etapa se informa que muchos de los componentes son
clasificados como sin tono y que todavía contienen sonidos de instrumentos agudos.
Un ejemplo se muestra a continuación, específicamente en el recuadro a y b, son
espectrogramas de los tonos músicas originales y voces respectivamente, mientras que en el
recuadro c se muestra el espectrograma de uno de los componentes del no tono. Se puede
observar que el componente que no fue clasificado como tono aún contiene trazas de música.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
40
Ilustración 13. Demostración de trazas de música en clasificaciones erronas de la NMF.
Para refinar aún más este tipo de componentes, primero se debe identificar el contador
I de los picos más altos en su base espectral 𝑏𝑗, entonces el espectro local de discontinuidad 𝑃𝑠
alrededor de cada pico se puede calcular como:
𝑃𝑠(𝑖, 𝑗) =∑ (𝐵𝑘,𝑗 − 𝐵𝑘−1)2ℎ𝑖(𝑖)
𝑘=𝑙𝑜(𝑖)
∑ (𝐵𝑘,𝑗)2ℎ𝑖(𝑖)
𝑘=𝑙𝑜(𝑖)
(19)
Donde i=1…𝐼ℎ𝑖(i) es el índice del pico y el límite inferior 𝑙𝑜(i) y el límite superior
viene dado por:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
41
𝑙𝑜(𝑖) = max (0, 𝑓𝑖 −1
2)
(20)
ℎ𝑖(𝑖) = min (𝑓𝑖 +1
2, 𝐾)
(21)
Donde 𝑓𝑖 representa la frecuencia del pico y l es el ancho del pico (en número de
frecuencia), el cual se supone constante para todos los picos.
El recuadro d de la ilustración mostrada anteriormente, muestra los valores de 𝑃𝑠 para
cada pico dentro de la base espectral 𝑏𝑗. En varios experimentos se observó que cuando alcanza
un punto máximo en 𝑃𝑠> θ (θ=0.4) pertenecen principalmente a tonos de instrumentos agudos
(denotados por los cuadros azules); de lo contrario, son voz, (denotada por los círculos rojos).
Después de esta observación, se propone eliminar los picos agudos con 𝑃𝑠>θ del
espectrograma 𝑏𝑗 para obtener una señal “limpia” de componentes no agudos. Los algoritmos
descritos a continuación representan la nueva ventana de la etapa de factorización del
espectrograma en detalle:
Ilustración 14. Algoritmo de separación de instrumentos desde la mezcla musical.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
42
Ilustración 15. Algoritmo de separación una componente en un tono y en un no-tono basado en 𝑃𝑠.
De manera similar a la segunda etapa, donde los elementos de percusión son separados
del sonido de voz utilizando el espectrograma factorizado, se notó que muchos de los
componentes de la NMF que se califican como originarios de instrumentos de percusión (𝑑𝑡 >
𝜃), todavía contienen sonidos vocales. Nuevamente se buscan los índices de los picos más
altos en el dominio temporal para generar 𝑔𝑗 para cada uno de estos componentes y calcular
la discontinuidad temporal local para Pt alrededor de cada uno de los picos. El cálculo se define
como:
𝑃𝑡(𝑖, 𝑗) =∑ (𝐺𝑡,𝑗 − 𝐺𝑡−1)2ℎ𝑖(𝑖)
𝑘=𝑙𝑜(𝑖)
∑ (𝐺𝑡,𝑗)2ℎ𝑖(𝑖)
𝑘=𝑙𝑜(𝑖)
(22)
𝑙𝑜(𝑖) = max (0, 𝑐𝑖 −𝑤
2) (23)
ℎ𝑖(𝑖) = min (𝑐𝑖 +𝑤
2, 𝐾) (24)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
43
Donde 𝑐𝑖 representa la fracción de tiempo según su índice 𝑖, el pico y 𝑤 es el ancho
del pico medido en términos de duración de tiempo, asumido como constante para todos los
picos.
Se supone que los picos pertenecen a las voces si 𝑃𝑠< θ y, por tanto, si son mayores 𝑃𝑠˃
θ son eliminados del componente de percusión 𝑔𝑗 para obtener el sonido refinado. Los picos
removidos sumados para formar una nueva ganancia vocal y de esta manera se utilizan
componentes de percusión refinados sean divididos de nuevo para posteriormente volver a
sintetizar el sonido de la voz.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
44
3.1.3. NMF en separación de fuentes de audio [5]
En este modelo las señales de audio son representadas en el dominio tiempo-frecuencia
con ayuda de una transformada de Fourier (STFT) de valores complejos, la dificultad aparece
cuando es necesario calcular las 𝑆1 y 𝑆2 de dos fuentes, que pueden ser expresadas como:
𝑋 = 𝑆1 + 𝑆2 𝑋, 𝑆1, 𝑆2 ∈ 𝐶𝐹𝑥𝑁 (25)
La metodología de resolución se puede describir como:
1. Se calcula la descomposición NMF para obtener
𝑉 = |𝑋|2 = 𝑊1𝐻1 + 𝑊2𝐻2 (26)
2. Aplicando filtro de Wiener a las fuentes:
𝑆1̂ =𝑊1𝐻1
𝑊1𝐻1 + 𝑊2𝐻2⊙ 𝑋; 𝑆2̂ =
𝑊2𝐻2
𝑊1𝐻1 + 𝑊2𝐻2⊙ 𝑋
(27)
Ilustración 16. Esquema básico de la metodología por NMF.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
45
3.1.4. Factorización matricial no negativa en varias etapas [6]
En este trabajo se propone un algoritmo novedoso para separar la voz cantada del
acompañamiento musical en mezclas de canciones monoaurales. El algoritmo comprende
dos etapas que operan a diferentes resoluciones de frecuencia. Sin embargo, para eliminar la
música de fondo, en lugar de adoptar las técnicas de separación armónica y percusiva
existentes, como HPSS y el método basado en el filtro de mediana, se aplica NMF para
descomponer los espectrogramas de mezcla calculados utilizando ventanas largas y cortas
(por lo tanto, con resoluciones de alta y baja frecuencia) respectivamente. Se ha diseñado un
método de umbral de discontinuidad espectral para el NMF de ventana larga para seleccionar
los componentes del NMF que se originan a partir de sonidos monumentales, y un método
de umbral de discontinuidad temporal diseñado para el NMF de ventana corta para
seleccionar componentes de NMF que sean de sonidos de percusión. Después de eliminar
los componentes seleccionados en cada etapa, los componentes de NMF residuales se
resintetizan a una señal que contiene la voz cantada.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
46
3.2. Uso de la 2DFT para la identificación de covers [7]
En este documento se emplea la transformada de Fourier bidimensional, la cual es la
base del método principal utilizado en este trabajo de fin de grado para la identificación de
las canciones de portada. La señal de audio se representa como una secuencia de magnitudes
de la 2DFT, la cual es una representación válida para cambios tímbricos y pequeñas
desviaciones de tiempo local. Se examina la similitud cruzada entre estas series de tiempo
y se extrae una medida de distancia que es invariable a la estructura de la música. La 2DFT,
al igual que la 1DFT en el análisis de música, no es solo una técnica popular para la
separación de diferentes tipos fuentes sonoras como se trata en mi trabajo, sino que también
se emplea en el procesamiento digital de imágenes y se utiliza para la eliminación de ruido
y para la compresión de imágenes, entre otras cosas. La 2DFT descompone las imágenes en
conjuntos de rejillas sinusoidales con diferentes períodos y orientaciones, representados por
puntos en el dominio de la 2DFT. En este dominio, en el espectrograma con escala de
frecuencia de registro (scale-rate), los puntos a lo largo del eje y de la transformación
representan periodicidades a lo largo del dominio de frecuencia del espectrograma, y los
puntos a lo largo del eje x representan periodicidades a lo largo del dominio del tiempo del
espectrograma. La información sobre la posición exacta de las rejillas sinusoidales en la
imagen original se mantiene completamente en fase. Una representación útil del audio
musical es la Transformación de Q Constante (CQT). La CQT es una transformación con
una resolución de frecuencia logarítmica con espacios entre frecuencias que reflejan el
sistema auditivo humano y la escala musical occidental. Un cambio lineal en la frecuencia
en la CQT corresponde con un cambio de tono en la música. Al tomar la magnitud de la
2DFT en la CQT, se obtiene una representación invariable de la clave del audio.
Huella digital con CQT y umbral adaptable.
El sistema puede describirse en tres pasos:
En el primer paso todo el dominio del tiempo de la señal de audio es convertido a CQT,
con las frecuencias correspondientes a la escala musical entre 130.81Hz y 2093Hz, con una
resolución de 2 bins de frecuencia entre semitono y una resolución temporal de 10 fps. La
técnica del CQT es un paso importante debido a que, una canción que sea cover en una clave
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
47
diferente corresponderá a un cambio lineal en el CQT.
En el segundo paso se utiliza la técnica de umbral adaptable para binarizar el CQT
obtenido en el primer paso. La técnica crea un parche de un tamaño especificado a lo largo
del CQT. Dentro de este parche se establecen valores de 1, si el dato se encuentra por encima
de la media, y valores de 0, si se encuentra por debajo. Esto tiene un efecto de lavado de
información tímbrica y del equilibrio de los niveles de sonido de diferentes fuentes dentro
de la mezcla. Así, si una fuente, por ejemplo, una guitarra distorsionada, domina la mezcla
en la grabación original, pero no está presente en el cover (un cover sin guitarra
distorsionada) la huella digital será robusta a estos cambios drásticos en el timbre y energía.
Finalmente, en el tercer paso, se toman las ventanas superpuestas de 20 segundos con
respecto a la huella digital para calcular la 2DFT de cada uno. Para cada 2DFT, se toma la
magnitud, descartando la fase y se agrega una pequeña cantidad de desenfoque gaussiano (σ
= .375). Luego se mantiene por 4 segundos la muestra y se continua hasta llegar al final de
la huella digital. Cada 20 segundos la ventana tiene una dimensionalidad de 96x200 y cada
2DFT tiene la misma dimensionalidad. A continuación, se muestran imágenes de los pasos
del estudio:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
48
Ilustración 17. Descripción de la metodología utilizada para la identificación de covers.
Comparación de la canción original y del cover.
Tras obtener los resultados de la metodología estos son comparados con una base de
datos de canciones utilizando una medición de distancias entre puntos de la matriz similar.
Las canciones de referencias son clasificadas por distancia ascendentes. Una buena medición
de distancia debe contar con una canción de referencia altamente ranqueada para una consulta
determinada. La consulta y la referencia se representan en una secuencia de 2DTFs para luego
computar la distancia euclidiana entre cada par de 2DFT y es almacenado en una matriz de
similitud (SM). Para preservar los valores de energía de la SM no normalizada, se procede a
normalizar la SM con sus valores máximos para posteriormente ser convulsionada en una
matriz tipo tablero de ajedrez, a continuación, un ejemplo:
[1 −1
−1 1] (28)
Donde los elementos positivos en la matriz SM corresponden a las relaciones diagonales
y los negativos corresponden a los datos que no coinciden diagonalmente. Se establece en el
algoritmo que todos los valores negativos de la SM sean iguales a 0 para resultar en:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
49
Ilustración 18. Matriz de similitud construida usando el cálculo de la distancia euclidiana
entre las secuencias de 2DFT.
Para computar la distancia entre cada una de las consultas y referencias, es necesario
extraer las diagonales de la matriz de referencias y grabar su suma y longitud. Para lograr esto,
es necesario iterar entre cada una de las diagonales en la SM y los segmentos en los que la
secuencia no es cero. Estas secuencias coinciden al inicio y al final de cada una de los covers
y referencias. Para cada secuencia, se graba la suma w y su longitud l. La diagonal es el
producto de estas dos “w, l”. Luego se clasifican todas las diagonales de la SM tomando la
suma de las tres diagonales superiores. Estas tres diagonales principales son las que coinciden
dentro de la subsecuencia dominante, entre la consulta y la referencia. Finalmente se divide la
energía de la SM no normalizada E, por la suma de las tres diagonales superiores para obtener
una medida de la distancia:
𝑑(𝑞, 𝑟) =𝐸
∑ 𝑤𝑖 ∗ 𝑙𝑖 3𝑖=1
∈ 𝑑𝑖𝑎𝑔(𝑆𝑀𝑞,𝑟) (29)
Donde i es el índice de la lista de diagonales ordenadas entre la consulta y la referencia,
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
50
extraídas de la matriz de similitud a través de la función diag, como se ve en la ilustración 18.
El número de diagonales para sumar es un parámetro libre y fue determinado
experimentalmente con un conjunto de datos.
Este enfoque solo tiene en cuenta las coincidencias secuenciales que suceden en un
lugar de la SM, y no dónde están. Esto es similar a la subsecuencia para la identificación de
covers; como resultado la medida de distancia no presenta cambios variables en la estructura
de la música (por ejemplo, un puente omitido o verso, intro u otro añadido).
El enfoque de deformación del tiempo (DTW) es más sensible y además mucho más
rápido, sin embargo, si el tiempo del cover es significativamente diferente al tiempo de la
original, no habría diagonales fuertes presentes en la SM y esta técnica para hacer coincidir
las sub secuencias fallará. El cálculo final entre la distancia entre puntos de la SM puede
calcularse en función de la consulta y la referencia como:
𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 (𝑞, 𝑟) = 𝑚𝑖𝑛
𝑥𝜖{0.5,0.55, … ,2}𝑑(𝑞, 𝑟𝑥) (30)
Donde 𝑟𝑥 es el factor de refresco de la muestra tomada.
Los resultados de este estudio, utilizando series de tiempo para representar el audio
basado en magnitudes de 2DFT, resultó ser una técnica robusta para la identificación de los
covers, ya que identifica con alta precisión los cambios de notas, timbres y pequeñas
desviaciones temporales. Se notó que el umbral permisible es una variable importante en el
pre procesamiento de la muestra.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
51
3.3. Separación armónica/percusiva del sonido en dos etapas (HPSS) [8]
Este artículo propone un novedoso realce de la voz cantante para señales de audio de
música monoaural. Su enfoque se basa en una idea muy diferente a otros métodos existentes
hasta ese momento. Se centra en la fluctuación de una voz cantante la cual se detecta
explotando dos espectrogramas con diferentes resoluciones, uno con una resolución temporal
rica y una resolución de frecuencia pobre, mientras que el otro con una resolución de
frecuencia rica y una resolución temporal pobre. En estos dos espectrogramas, las formas de
los componentes fluctuantes son muy diferentes. Además, también se evalúa este método
como un preprocesamiento para la estimación de melodías en la música. Este artículo
describe una idea novedosa para extraer voces cantantes de señales musicales polifónicas.
En muchos géneros musicales, sobre todo en las músicas populares, la voz principal es la
parte más impresionante y esencial para la mayoría de los oyentes, y, además, a menudo,
tiene mucha información que es importante en lo relativo a aplicaciones de recuperación de
datos en la música (MIR). De hecho, muchos estudios MIR, como el reconocimiento
automático de letras, la identificación del idioma de una canción, identificación automática
del cantante, etc., han utilizado la información sobre las voces cantantes. Además de su
importancia como preprocesamiento para las aplicaciones MIR, también es significativo en
sí mismo en la forma en que la técnica puede ser aplicada como una especie de reproductor
de música interactivo, como por ejemplo un ecualizador vocal/no vocal, un generador
automático de karaoke, etc. Las dificultades técnicas también hacen que el realce de la voz
en el canto sea un problema interesante. Una de las dificultades viene de la similitud entre la
voz de canto y el acompañamiento, por ejemplo, un piano, una guitarra, y percusiones. Por
ejemplo, tanto el espectro de la voz cantante como los instrumentos armónicos, como un
piano y una guitarra, tienen una estructura armónica. En consecuencia, es difícil para una
técnica simple de extracción de armónicos detectar únicamente la voz cantante en señales de
música polifónica. Otra dificultad es que los instrumentos de acompañamiento no satisfacen
algunas de las propiedades del “ruido" que se han supuesto en los problemas de
procesamiento de señales convencionales, por ejemplo, la blancura y estacionariedad, y por
lo tanto, no podemos esperar que una técnica clásica de supresión de ruido funcione
eficazmente en la mejora de la voz del canto, porque las señales de música no son ruido
blanco ni estacionarias. Debido a las muchas aplicaciones potenciales, así como los intereses
técnicos descritos anteriormente, se están estudiando muchos métodos sobre la mejora de la
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
52
voz cantante en señales musicales y otras técnicas relacionadas, incluida la transcripción de
melodías de canto. En la mayoría de los métodos existentes, una señal de entrada de música
se transforma primero desde el dominio del tiempo al dominio de la frecuencia del tiempo,
donde la voz de canto se caracteriza. Otros componentes, como los instrumentos que lo
acompañan, se suprimen con el enmascaramiento tiempo-frecuencia (filtrado adaptativo de
Wiener) y, finalmente, el espectrograma estimado de la voz cantada se transforma
nuevamente en el dominio del tiempo. El punto más importante es cómo distinguir el
componente de voz cantante de otros en una representación de frecuencia de tiempo. Ozerov
et al. se centraron en la diferencia de distribución espectral (timbre) de la voz y los
instrumentos cantados, y los modelaron según el modelo de mezcla gaussiana. En su método,
el GMM fue entrenado por adelantado de manera supervisada, y sintonizado adaptativamente
para cada entrada. Algunos estudios utilizaron la información de tono de voz cantante. En el
método de Li y Wang, los segmentos que incluyen la voz cantada se detectaron por primera
vez en rasgos espectrales. Luego, en cada uno de los segmentos de voz cantada detectados,
el tono predominante se estimó utilizando la autocorrelación y umbralización. Hsu y Jang
extendieron este enfoque hasta permitir capturar componentes sin voz de la voz cantada
utilizando la información de envolvente espectral. Otra secuencia popular se basa en la
factorización de matriz no negativa (NMF) del espectrograma de música, como ya hemos
explicado anteriormente, donde se supone que el espectrograma de la música puede ser
expresado como un conjunto de un número limitado de plantillas espectrales. Virtanen et al.
utilizaron NMF con inferencia de tono. En su método, el tono de la voz de canto se estimó
primero en base a la técnica de estimación múltiple, luego, la voz de canto se eliminó en
función del tono, y el residual se utilizó para entrenar el modelo de acompañamiento con
NMF. Finalmente, la voz del canto se extrajo de la mezcla utilizando el modelo de
acompañamiento derivado. Además de los enfoques basados en NMF, otros estudios también
se han centrado en el bajo grado de espectrograma de la música. Huand et al., en su método
basado en el PCA, asumieron que el espectrograma de acompañamiento mentiría en el
subespacio de bajo rango mientras que la voz cantante no lo haría, ya que los
acompañamientos son bastante repetitivos mientras que la voz cantante lo es en menor
medida. Rafii y Pardo propusieron un método "REPETAR" que suprimió componentes
repetidos en el espectrograma, como son los acompañamientos. Raj et al. modelaron un
modelo de señal generativa tipo NMF y aplicaron inferencias probabilísticas. Algunos
enfoques se basan en la armonía de la voz cantada. Un método que utilizó la armonicidad
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
53
fue propuesto por Lagrange et al., en el que se usa una técnica de visión por ordenación para
captar los picos espectrales relacionados armónicamente de los espectros de corta duración
de la voz de canto. En resumen, la mayoría de las técnicas de extracción de voz de canto de
vanguardia consideradas para extraer la voz de canto en un dominio de frecuencia de
tiempo utilizan algunas propiedades en la voz de canto, como características de timbre, alto
rango, armonía, etc. En este artículo, proponen otro enfoque para la mejora de la voz de
canto, centrándonos en la fluctuación de la voz de canto, como el vibrato. Para capturar la
fluctuación, explotan dos representaciones de espectrogramas con diferentes resoluciones de
tiempo-frecuencia, que son diferentes a los métodos existentes. La motivación para usar dos
espectrogramas diferentes proviene de la observación de que la voz de canto tiene una
propiedad “intermedia” entre otros instrumentos armónicos e instrumentos de percusión. Es
decir, una voz de canto aparece de manera similar a los instrumentos armónicos en un
espectrograma ordinario que tiene una resolución temporal de 10-30 [ms], mientras que
debería ser bastante similar a las percusiones si el marco de análisis de la transformada de
Fourier (STFT) a corto plazo es mucho más larga que la escala temporal de la fluctuación de
la voz cantada. Sobre esta idea, se definen aproximadamente tres tipos de componentes
musicales, fluctuantes, sostenidos y transitorios. Esos tres tipos de componentes pueden
separarse aplicando un algoritmo simple dos veces en espectrogramas de resolución
diferente, que separa las componentes sinusoidales y las componentes impulsivas, lo que se
denomina separación de sonido armónica/percusiva (HPSS).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
54
3.4. Diferentes usos de REPET
3.4.1. Técnica de extracción de patrones de repetición (REPET) [9]
Los métodos de separación de música/voz generalmente identifican primero los
segmentos vocales/no vocales, y luego usan una variedad de técnicas para separar las voces
principales del acompañamiento de fondo, incluida la factorización del espectrograma, el
aprendizaje del modelo de acompañamiento y las técnicas de inferencia basadas en el tono
En el presente artículo, se presenta la técnica de extracción de patrones de repetición
(REPET), un enfoque simple y novedoso para separar un fondo que se repite de un primer
plano que no se repite. La idea básica es identificar los segmentos que se repiten
periódicamente, compararlos con un modelo de segmento repetido y extraer los patrones de
repetición a través del enmascaramiento de tiempo-frecuencia.
La justificación de este enfoque es que muchas piezas musicales pueden entenderse
como un fondo de repetición sobre el cual se superpone un cable que no muestra ninguna
estructura de repetición inmediata. Para extractos con un fondo de repetición relativamente
estable (por ejemplo, versos de 10 segundos), se muestra que REPET puede aplicarse con
éxito para la separación de música/voz.
Para canciones de pista completa, el fondo que se repite muestra variaciones a lo largo del
tiempo (por ejemplo, verso seguido de coro). Por lo tanto, también proponen un
procedimiento simple para extender el método a piezas musicales más largas, aplicando
REPET en las ventanas locales de la señal a lo largo del tiempo. A diferencia de otros
enfoques de separación, REPET no depende de estadísticas particulares. No se basa en
marcos complejos (por ejemplo, técnicas de inferencia basadas en el tono o modelado de
fuente/filtro), y no requiere preprocesamiento (por ejemplo, segmentación vocal/no vocal o
entrenamiento previo). Al basarse únicamente en la autosimilitud, tiene la ventaja de ser
simple, rápido y ciego. Por lo tanto, es completa y fácilmente automatizable. Se puede trazar
un paralelo entre REPET y la sustracción de fondo. La sustracción de fondo es el proceso de
separar una escena de fondo de objetos de primer plano en una secuencia de cuadros de
vídeo. La idea básica es la misma, pero los enfoques son diferentes. En la sustracción de
fondo, no se necesita una estimación del período ni una segmentación temporal ya que los
cuadros de vídeo ya forman una muestra periódica. Además, las variaciones del fondo deben
manejarse de una manera diferente, ya que involucran características típicas de las imágenes.
REPET tiene cierta similitud con el reconocedor de sonido de batería de Yoshii et al. Su
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
55
método actualiza iterativamente las plantillas de tiempo-frecuencia correspondientes a los
patrones de batería en el espectrograma, tomando la mediana de los patrones que son
similares a una plantilla, hasta la convergencia. A modo de comparación, REPET deriva
directamente un modelo de segmento que se repite entero al tomar la mediana de todos los
elementos que se repiten periódicamente en el espectrograma. Aunque REPET se definió
aquí como un método para separar el fondo de repetición del plano no repetitivo en una
mezcla musical, podría generalizarse a cualquier tipo de patrón repetitivo. En particular,
podría usarse en el control activo de ruido (ANC) para eliminar interferencias periódicas.
Las aplicaciones incluyen la cancelación de interferencias periódicas en la
electrocardiografía (por ejemplo, la interferencia de la línea eléctrica), o en señales de voz
(por ejemplo, un piloto que se comunica por radio desde una aeronave). Si bien REPET
puede aplicarse para la eliminación periódica de interferencias, los algoritmos ANC no
pueden aplicarse para la separación de música/voz debido a la simplicidad de los modelos
utilizados. La idea detrás de REPET de que la repetición se puede usar para la separación de
fuentes también ha sido apoyada por hallazgos recientes en psicoacústica. McDermott et al.
establecieron que el sistema auditivo humano es capaz de segregar fuentes individuales
identificándolas como patrones repetitivos incrustados en la entrada acústica, sin necesidad
de conocer previamente las propiedades de la fuente. A través de una serie de estudios de
audición, se mostró que los humanos son capaces de identificar un sonido nunca antes
escuchado si se repite dentro de diferentes mezclas.
El proceso REPET consta de tres pasos para alcanzar la separación de los segmentos
que se repiten de los que no:
1. Identificación de periodos de repetición
Las periodicidades en una señal que puede ser encontrada utilizando la autocorrelación, que
mide la similitud entre un segmento y una versión rasgada de sí mismo, en intervalos de tiempo
sucesivos. Dada una señal de mezcla, primero se calcula las transformada de Fourier (STFT)
durante un periodo de tiempo corto, utilizando la técnica de medio superpuesto de Hamming
en N muestras. Posteriormente los datos representados en el espectrograma de magnitud V son
derivados, tomando los valores absolutos de X, luego es descartada la parte simétrica,
manteniendo el componente asimétrico, seguidamente son calculadas las autocorrelaciones de
cada fila de espectrograma de potencia V2 para obtener la matriz B. Se utiliza V2 para enfatizar
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
56
la apariencia de la periodicidad en B. Si la señal x es estéreo entonces V2 se promedia sobre
los canales. La autosimilitud acústica b de x es obtenida tomando la media sobre las filas de
B. Finalmente, b es normalizada por su primer término (lag 0). El detalle de cálculo se muestra
a continuación:
𝐵(𝑖, 𝑗) =1
𝑚 − 𝑗 + 1∑ 𝑉(𝑖, 𝑘)2𝑉(𝑖, 𝑘 + 𝑗 − 1)2
𝑚−𝑗+1
𝑘=1
𝑏(𝑗) =1
𝑛∑ 𝐵(𝑖, 𝑗)
𝑛
𝑖=1
𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑏(𝑗) =𝑏(𝑗)
𝑏(1)
𝑓𝑜𝑟 𝑖 = 1 … 𝑛 (𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎)𝑑𝑜𝑛𝑑𝑒 𝑛 =𝑁
2+ 1
𝑓𝑜𝑟 𝑗 = 1 … 𝑚(𝑟𝑒𝑡𝑟𝑎𝑠𝑜)𝑑𝑜𝑛𝑑𝑒 𝑚 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑓𝑟𝑎𝑚𝑔𝑒𝑛𝑡𝑜𝑠 𝑡𝑒𝑚𝑝𝑜𝑟𝑎𝑙𝑒𝑠.
(31)
𝑏 = espectro de beat
Una vez es calculado el espectro de beat, el primer término que se mide es la similitud
de la señal consigo misma (con retraso 0). Si hay patrones repetitivos presentes, se formaría
picos que se repiten periódicamente en diferentes niveles, revelando la estructura jerárquica
repetitiva subyacente de la mezcla.
La idea básica de esta metodología es encontrar que un periodo en el espectro beat (b)
tiene la media de energía acumulada más alta sobre sus múltiplos enteros para cada periodo
posible, verificando si los múltiplos de integración múltiples corresponde al más alto picos de
energía en sus respectivos dominios [i-Δ,i+ Δ ] donde Δ es un parámetro de distancia variable,
función de j. Luego, se suman los valores menos la media del dominio dado a filtrar para
descartar cualquier posible fondo ruidoso.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
57
Ilustración 19. Descripción del algoritmo para el cálculo del periodo 𝑝 para cada espectro 𝑏.
Posteriormente, se divide la suma anteriormente señalada por el número total de
múltiplos enteros encontrados, que llevan un valor energético medio para cada periodo. Por
otra parte, el periodo de repetición se puede definir como el periodo que reporta el mayor valor
promedio, esto ayuda a encontrar el periodo de los picos más fuertes que se repiten en una
estructura subyacente repetitiva, mientras que se evitan los picos de ordenes inferior y errores
de orden superior (múltiplos del periodo de repetición).
Los plazos de retraso más largos de la autocorrelación a menudo no son confiables, ya
que cuanto más avanza en el tiempo, menos coeficientes se usan para calcular la similitud. Por
lo tanto, se selecciona “ignorar los valores en ¼ del retraso más largo”, porque se desea tener
al menos tres segmentos para construir el modelo del segmento repetitivo, es por ello que se
limita los periodos a aquellos periodos que permiten tres ciclos completos en la porción restante
de 𝑏.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
58
Cuando se establece la distancia entre parámetros Δ a [3j/4] para cada posible periodo
𝑗, donde [.] representa la función floor, es creado en una ventana alrededor de un pico que es
ancho, pero no tan ancho como para incluir otros picos múltiplos de j. Debido a las desviaciones
temporales, los picos de repetición pueden no ser múltiplos enteros exactos, entonces también
se introduce un parámetro de desviación fija δ que se estable en 2 retardos. Esto significa que
cuando se busca el pico más alto del dominio [𝑖 − 𝛥, 𝑖 + 𝛥], se asume que el valor
correspondiente al integrado del múltiplo 𝑖 es el máximo del intervalo local [𝑖 − 𝛿, 𝑖 + 𝛿]. La
estimación del periodo de repetición 𝑝 es descrita en el algoritmo enunciado anteriormente. El
cálculo de espectro 𝑏 y la estimación de periodo 𝑝 son mostrados en la ilustración 19.
2. Repetición de modelos de segmentos
Una vez el periodo de repetición es estimado para cada espectro 𝑏, se utiliza para
segmentar uniformemente el espectrograma 𝑉, dentro del segmentos 𝑟 de longitud 𝑝. Se define
el modelo de segmento 𝑆 como la mediana de los elementos de 𝑟, como se ejemplifica en el
paso 2 de la ilustración 20. El cálculo del segmento 𝑆 se muestra a continuación:
𝑆(𝑖, 𝑗) =𝑚𝑒𝑑𝑖𝑎𝑛
𝑘 = 1 … 𝑟{𝑉(𝑖, 𝑙 + (𝑘 − 1)𝑝}
𝑓𝑜𝑟 𝑖 = 1 … 𝑛(𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎)𝑦 𝐽 = 1 … 𝑝(𝑡𝑖𝑚𝑒)
𝑑𝑜𝑛𝑑𝑒 𝑝 = 𝑙𝑎 𝑙𝑜𝑛𝑔𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑦 𝑟 = # 𝑑𝑒 𝑠𝑒𝑔𝑒𝑚𝑒𝑛𝑡𝑜𝑠
(32)
Se asume que el primer plano no repetitivo (≈ voz) tiene una representación de
frecuencia de tiempo escasa y variada en comparación a la representación de frecuencia de
tiempo del fondo repetitivo (≈ música). Una suposición razonable para la voz en la música, es
que al contener una frecuencia de tiempo con poca desviación en el periodo constituirá un patrón
repetitivo, posibilitando que sea capturado por el modelo mediano, por consiguiente, la
frecuencia de tiempo de los contenedores con grandes desviaciones en el periodo constituirá un
patrón de no repetición y serían eliminados por el modelo mediano.
La mediana se prefiere a la media geométrica porque conduce a una mejor
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
59
discriminación entre patrones repetitivos y no repetitivos. Teniendo en cuenta que el uso de la
mediana es la razón por la que se escoge estimar el periodo en el primer 1/3 de la porción estable
del espectro b, debido a que se requieren tres segmentos para definir una mediana razonable.
La segmentación del espectrograma de la mezcla se presenta en el paso 2 de la ilustración 20.
3. Extracción de patrones repetitivos.
Una vez el modelo de patrón repetitivo 𝑆 es calculado, es utilizado para derivar un modelo
de espectrograma repetitivo 𝑊, para tomar los elementos representativos entre 𝑆 y cada
segmento r del espectrograma 𝑉, como se ejemplifica en la Ilustración 14. Si se supone que el
espectrograma no negativo, 𝑉, es la suma de un espectrograma repetitivo no negativo, 𝑊, y un
espectrograma no negativo repetitivo 𝑉 − 𝑊, entonces se tiene que 𝑊 ≤ 𝑉. El cálculo del
espectrograma de repetición 𝑊 es mostrado a continuación:
𝑊(𝑖, 𝐽 + (𝑘 − 1)𝑝) = min{𝑆(𝑖, 𝑙), 𝑉(𝑖, 𝑙 + (𝑘 − 1)𝑝)𝑝}
𝑓𝑜𝑟 𝑖 = 1 … 𝑛(𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎), 𝑙 = 1 … 𝑝(𝑡𝑖𝑚𝑒) 𝑦 𝑘 = 1 … 𝑟
(33)
Tras la obtención del modelo del espectrograma 𝑊, se utiliza para derivar una suave
máscara 𝑀, para normalizar 𝑊 por 𝑉. Una máscara en tiempo-frecuencia es matemáticamente
un filtro que se usa para detectar y separar diferentes elementos dentro del espectrograma. La
idea es que los contendedores de frecuencia de tiempo que probablemente se repitan en el
periodo 𝑝 en el espectrograma 𝑉, tengan valores cercanos a 1 en 𝑀 y estos sean ponderados
hacia el fondo de la repetición. Por su parte, los contenedores de tiempo que no son probables
que se repitan en el tiempo p en el espectrograma 𝑉 tendrán valores cercanos a 0 en 𝑀 y serán
ponderados hacia el primer plano no repetitivo. El cálculo de la suave máscara 𝑀 es mostrado
a continuación:
𝑀(𝑖, 𝑗) =𝑊(𝑖, 𝑗)
𝑉(𝑖, 𝑗) 𝑠𝑖𝑒𝑛𝑑𝑜 𝑞𝑢𝑒: 𝑀(𝑖, 𝑗) ∈ [0,1]
𝑓𝑜𝑟 𝑖 = 1 … 𝑛(𝑓𝑟𝑒𝑛𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑦 𝑗 = 1 … 𝑚(𝑡𝑖𝑒𝑚𝑝𝑜)
(34)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
60
La máscara de frecuencia de tiempo 𝑀 es simétrica y se le puede aplicar la STFT 𝑋 de
una mezcla 𝑥, la estimación de la señal de música obtenida por la inversión de los resultados
STFT dentro del dominio de tiempo. La señal de voz estimada es obtenida restando a la señal
de música la señal de mezcla 𝑥. La derivación del modelo de espectrograma repetitivo 𝑊 y la
construcción de la máscara temporal de frecuencia 𝑀 son mostrados en la ilustración 20:
Ilustración 20. Descripción del algoritmo para el método REPET.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
61
3.4.2. REPET-SIM online for real-time speech enhancement [10]
Recientemente la técnica de extracción de patrones repetitivos (REPET) se propuso
para separar el fondo de repetición (típicamente es el acompañamiento musical) de la no
repetición del primer plano (generalmente la voz que canta) en mezclas musicales. La idea
básica es identificar los elementos que se repiten en el audio y compararlos con modelos
repetidos derivados de ellos mismos, para luego extraer los patrones repetitivos a través de
la frecuencia de tiempo. Mientras que, el REPET original (y sus extensiones) asumen que
las repeticiones ocurren periódicamente, REPET-SIM, es una generalización del método que
utiliza una matriz de similitud que se propuso, además, para manejar estructuras donde las
repeticiones también pueden suceder de forma intermitente. La única suposición es que el
fondo que se repite es denso y de bajo rango, mientras que el primer plano se supone no
repetitivo, escaso y variado.
Por razones mencionadas anteriormente, las repeticiones siempre están presentes en
la música y en el audio general; particularmente en mezclas ruidosas, el ruido de fondo a
menudo puede exhibir una estructura densa y de bajo rango, mientras que la señal de interés
exhibe una estructura escasa y variada. Bajo este supuesto, REPET-SIM aparece como un
candidato justificable para la segregación de voz/ruido. En particular, dada la baja
complejidad computacional del algoritmo, el método se puede implementar fácilmente en
línea para mejorar el habla en tiempo real. Las ventajas de este REPET-SIM en línea es que
puede trabajar en tiempo real y es muy simple de implementar, no requiere ninguno modelo
previamente entrenado, puede manejar ruidos no estacionarios a diferencia del algoritmo
espectral o filtrado de Wiener y puede funcionar con un solo canal de mezcla.
Breve descripción del algoritmo:
REPET-SIM es una generalización del método REPET para separar un fondo
repetitivo de uno que no se repite. REPET es una aproximación basada en que la repetición,
es fundamental para generar una estructura perceptiva. En música, por ejemplo, las pistas a
menudo se componen de una estructura repetitiva subyacente (generalmente el
acompañamiento) sobre la que varían los elementos que la superponen (normalmente la voz),
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
62
la idea básica es identificar los elementos que se repiten en el audio, comparar los modelos
repetidos derivados de ellos mismos y extraer los patrones repetitivos mediante el
enmascaramiento de frecuencia de tiempo.
Especialmente, REPET-SIM identifica los elementos que se repiten en el audio usando
una matriz de similitud, que no es más que una representación bidimensional donde cada bin
(a; b) mide la similitud entre dos elementos a y b de una secuencia dada, bajo alguna métrica.
Dado que la repetición/similitud es lo que hace que la estructura de una matriz de similitud sea
calculada a partir de una seña de audio, puede ayudar a revelar la estructura subyacente.
Asumiendo que el fondo de repetición es denso y de bajo rango y el primer plano no repetitivo
es escaso y variado, la repetición de los elementos revelados por la matriz de similitud debería
ser lo que básicamente hace el fondo repetitivo.
Dada la transformada de Fourier a corto plazo (STFT) de 𝑋 de una mezcla, REPET-
SIM primero deriva su espectrograma de magnitud 𝑉. Luego, calcula una matriz de similitud
𝑆 de 𝑉, posteriormente, utiliza la similitud de coseno e identifica para cada periodo de tiempo
𝑗 en 𝑉, los fotogramas de 𝑗𝑘 que se asemejan más al fotograma 𝑗 utilizando 𝑆. luego se deriva
un espectrograma repetitivo modelo 𝑈, tomado para cada cuadro 𝑗 en 𝑉, la medida de
elementos representativos de los cuadros similares correspondientes a 𝑗𝑘. A continuación, los
elementos de repetición del espectrograma del modelo 𝑈 en 𝑊 son refinados y tomados como
elemento mínimo entre 𝑈 y 𝑉 y deriva una frecuencia de tiempo suave enmascarada por 𝑀 y
normalizado por 𝑊 por 𝑉. Finalmente, se deriva la STFT del fondo repetitivo estimado
simétrico a 𝑀 y se le aplica la STFT de la mezcla 𝑋.
Implementación en línea
Dada la baja complejidad computacional del algoritmo REPET-SIM puede ser
fácilmente implementado en línea para un procesamiento en tiempo real. La implementación
implica procesar los fragmentos de tiempo de la mezcla uno por uno usando un búfer
deslizante que almacena temporalmente los fotogramas pasados de un tamaño máximo de
búfer.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
63
Ilustración 21. Implementación online de REPET-SIM.
Dado un marco de tiempo de la STFT para una mezcla 𝑋, primero deriva su espectro
de magnitud. Luego, se calcula el coseno de similitud entre el marco procesado 𝑗 y el paso 𝐵,
que fueron almacenados en un búfer de tamaño máximo 𝑏 segundos (o 𝐵 fotogramas). Se
obtiene un vector de similitud 𝑠𝑗.
Posteriormente, se identifican los búferes de los marcos 𝑗𝑘′𝑠 (𝐵) que son los más
similares al marco que se procesa en 𝑗 utilizando 𝑠𝑗, se toman sus medianas para cada canal de
frecuencia para obtener un marco estimado del ruido, luego este es refinado para tomar el
mínimo entre los datos estimados y los datos procesados, para cada frecuencia del canal.
Finalmente, es sintetizado el fragmento del tiempo a partir de la STFT del ruido reflejado en
los canales de frecuencia y usado en la fase del plazo correspondiente del STFT de la mezcla.
Después de la inversión en el dominio del tiempo, la señal de voz simplemente es obtenida
restando el ruido de fondo de la señal de mezcla; si la mezcla es multicanal, los canales son
procesados de forma independiente.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
64
El algoritmo de REPET-SIM fue comparado utilizando las métricas de SDR y OPS
como métricas de calidad, que indica que mientras tengan valores elevados son sinónimo de
definición de sonido, obteniendo que:
Tabla 1. Resultados obtenidos por el método REPET-SIM.
Ilustración 22. Representación gráfica de los resultados obtenidos en el estudio, empleando
los diferentes algoritmos.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
65
Una comparación exhaustiva de una mayor cantidad de ensayos, no presentados en
este documento, mostraron que el SDR del método REPET-SIM es significativamente mejor
que el de los algoritmos comparados, para ambas especificaciones de voz y ruido, mientras
que para los valores de operaciones no son significativamente diferentes entre los distintos
métodos para la separación de voz. Sin embargo, REPET-SIM es considerablemente mejor
que todos los otros métodos para la estimación de ruido.
Separación de voz de canto de audios monoaurales usando un análisis de componentes
principales robustas [9]
Una voz que canta proporciona información útil para una canción, cómo incorpora al
cantante, la letra y la emoción de la canción. Existen muchas aplicaciones que utilizan esta
información, por ejemplo, reconocimiento lírico y alineación, identificación del cantante y
recuperación de información musical, sin embargo, estas aplicaciones presentan problemas
cuando el acompañamiento musical existe, ya que este es como ruido o interferencia para las
voces. Un sistema automático de separación de voz y canto se utiliza para atenuar o eliminar
el acompañamiento musical.
El sistema auditivo tiene una capacidad extraordinaria para separar las voces del
acompañamiento de la música de fondo. Aunque esta tarea es fácil para los humanos, es
difícil para las maquinas, en particular cuando las señales espaciales adquieren la forma de
más de dos micrófonos (sonido estéreo).
Los sistemas de separación de voz se pueden enmarcar en dos categorías:
Sistema supervisado: que generalmente mapea primero las señales en un espacio de
características, para luego detectar los segmentos de voz de canto y, finalmente,
aplicar la técnica de separación de fuentes, como por ejemplo la factorización
matricial no negativa, modelado bayesiano adaptativo e interferencia basada en tono.
Sistemas no supervisados: son los que no requieren entrenamiento previo o
características particulares como la fuente/filtro o modelo y el método se basa en auto
correlación.
Debido a que la música siempre presenta una estructura repetitiva, se propone utilizar
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
66
un análisis principal robusto de componentes (RPCA), que es un algoritmo de factorización
matricial para resolver subyacentes de bajo rango dispersos en las matrices. El algoritmo
obedece al siguiente flujo de trabajo:
Ilustración 23: Flujo de trabajo del algoritmo de separación de voz de canto para audios
monoaurales.
- Descripción del algoritmo:
EL RPCA propuesto es un programa convexo para recuperar matrices de bajo rango,
cuando una fracción de sus entradas ha sido corrompida por errores, es decir, cuando la
matriz es lo suficientemente dispersa. El enfoque principal sugiere resolver el siguiente
problema de optimización convexa:
inimize ||L|| ∗ +λ||S||1
𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝐿 + 𝑆 = 𝑀
(35)
Donde 𝑀 ∈ 𝑅𝑛1 𝑥 𝑛2 , 𝐿 ∈ 𝑅𝑛1 𝑥 𝑛2 , 𝑆 ∈ 𝑅𝑛1 𝑥 𝑛2 , ||. || ∗ y ||. || denota la
suma de valores singulares y 𝐿𝑙 − 𝑛𝑜𝑟𝑚𝑎 la suma de valores absolutos de las entradas
matriciales respectivamente. 𝛬 > 0 es un rango de compensación entre el rango de 𝐿 y el
espaciado de 𝑆. Se sugiere utilizar los siguientes valores como una buena regla:
λ = 1/√max (𝑛1, 𝑛2
(36)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
67
Dado a que los instrumentos musicales pueden reproducir los mismos sonidos cada
vez que se tocan y la música tiene en general, un subyacente repitiendo la estructura musical,
se puede pensar la música como una señal de bajo rango. Las voces que cantan, por el
contrario, tienen más variaciones (rango superior), pero son relativamente escasas en el
tiempo y dominios de frecuencia, entonces se puede afirmar que las voces son componentes
que forman la matriz dispersa. Por RPCA se espera la matriz 𝐿 de bajo rango para contener
el acompañamiento musical y la matriz dispersa 𝑆 para contener señales vocales.
La metodología se puede resumir en los siguientes pasos:
Cálculo del espectrograma de señales musicales como matriz 𝑀.
Cálculo de la transformada de Fourier a corto plazo (STFT).
Aplicar el multiplicador de LaGrange aumentado (ALM), que es un algoritmo
eficiente para resolver problemas de RPCA.
Obtención de dos salidas 𝐿 y 𝑆 por RPCA.
En la ilustración mostrada a continuación se puede observar que hay estructuras
escasas en la matriz 𝑆, lo que indica actividad vocal y notas musicales en la matriz de abajo
en el rango 𝐿.
(a) Matriz original
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
68
(b) Matriz de bajo rango L
(c) Matriz de dispersión M
Ilustración 24:. Ejemplo de resultados de RPCA.
Enmascaramiento de la máscara de tiempo 𝑚𝑏 como:
M(m, n) = {1 |𝑆(𝑚, 𝑛)| > 𝑔𝑎𝑖𝑛 ∗ |𝐿(𝑚, 𝑛)
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
(37)
For all m=1…𝑛1 and n=1…𝑛2
Una vez que se calcula la máscara de frecuencia de tiempo 𝑀𝑏, se aplica la matriz
STFT original 𝑀 para obtener la separación de matriz 𝑋 cantada y 𝑋 música, como se muestra
a continuación:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
69
{𝑋𝑐𝑎𝑛𝑡𝑎𝑑𝑎(𝑚, 𝑛) = 𝑀𝑏(𝑚, 𝑛)𝑀(𝑚, 𝑛)
𝑋𝑚𝑢𝑠𝑖𝑐𝑎(𝑚, 𝑛) = (1 − 𝑀𝑏(𝑚, 𝑛)𝑀(𝑚, 𝑛))
(37)
Para todo 𝑚 = 1 … 𝑛1 𝑎𝑛𝑑 𝑛 = 1 … 𝑛2
Para examinar la efectividad de la máscara binaria, se asigna 𝑋 cantada como 𝑆 y 𝑋
música como 𝐿 directamente como el caso sin máscara.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
70
3.5. Detección y filtrado de ruido cuasi periódicos [11]
Este artículo presenta un método eficiente de detección y filtrado de ruido cuasi
periódicos. Teniendo en cuenta que el ruido periódico deja picos en el espectro de amplitud,
el enfoque propuesto se centra en su detección y eliminación. La detección se realiza de
forma semiautomática utilizando una mediana local, por lo que los picos localizados se
eliminan con un filtro de muesca gaussiano modificado. El enfoque propuesto demuestra una
alta eficiencia para las imágenes corrompidas por el ruido puro periódico y cuasi periódico.
Ilustración 25:. Ejemplo de ruido cuasi-periódico.
El ruido periódico generalmente es causado por interferencias eléctricas o
electromecánicas durante la adquisición de imágenes. Teniendo una apariencia impredecible
en el dominio espacial, el ruido periódico tiene una contraparte espectral muy específica, y
se revela en el espectro de amplitud de Fourier como componentes tipo espiga a frecuencias
específicas. Como consecuencia, el ruido periódico y cuasi periódico se puede eliminar de
manera eficiente corrigiendo los componentes del espectro de amplitud alterados por el
ruido. Por lo general, los picos causados por el ruido puramente periódico son
extremadamente estrechos y de magnitud muy alta, lo que los hace claramente distinguibles
del resto de los coeficientes espectrales. Son fáciles de localizar utilizando técnicas de
umbralización. Al estar localizados, se pueden corregir con los filtros de rechazo de banda o
de muesca. Sin embargo, en la mayoría de los casos el ruido periódico no es puro, y su
representación espectral, por lo general, no contiene picos agudos fácilmente detectables.
Todos los coeficientes en un vecindario cercano alrededor del pico son afectados por el ruido.
Como lo señalaron González y Woods: "componentes tipo estrella en el espectro de Fourier
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
71
indican más de un patrón sinusoidal". Existen varias soluciones propuestas en la literatura,
como el filtro de Wiener, los filtros de muesca o los filtros de enmascaramiento. El filtro
Wiener requiere un modelo de ruido preciso por caja. Los enfoques, basados en la detección
de picos utilizando la retención del espectro de amplitud, son adecuados solo para el ruido
periódico puro, caracterizado por picos estrechos y fuertes. Pueden localizar solo un número
limitado de picos agudos y altos. Los filtros de muesca eliminan los picos en las regiones
predeterminadas del espectro de amplitud corrigiendo las frecuencias correspondientes. Eso
tiene una aplicabilidad limitada. Recientemente, introdujimos un detector de picos
espectrales, donde cada coeficiente espectral se comparó con la mediana local en el espectro
para identificar picos. Los vértices de los picos detectados fueron reemplazados por la
mediana local. Este enfoque ha demostrado un buen rendimiento en la eliminación de picos
correspondientes al ruido periódico puro. Sin embargo, la corrección de los ápices no es
suficiente para suprimir el ruido cuasi periódico. Para ello, Al Hudhud y Turner, han
propuesto aplicar el filtro mediano al barrio de picos, considerando que ya están localizados,
y demostraron resultados comparables a los obtenidos por los filtros de muesca. Se propone
un marco de detección y filtrado que corrige los picos espectrales junto con su vecindario
más cercano. El nuevo enfoque puede detectar de manera eficiente los picos en el dominio
de baja y alta frecuencia y corregirlos con una modificación del filtro de rechazo de muesca
gaussiana.
Tras haber visto diferentes artículos que tratan temas parecidos a los objetivos de este
documento, en el siguiente apartado se pasará a explicar detalladamente los métodos que han
sido implementados para el desarrollo de este trabajo.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
72
Capítulo 4
4. MATERIALES Y MÉTODOS
Esta sección se ocupa de explicar los procedimientos seguidos para la consecución de
nuestro objetivo, es decir, para conseguir la separación de voz y música.
Tras haber visto en el capítulo 3 diferentes líneas de trabajo que se han seguido hasta
ahora, aquí se explica más detalladamente los dos algoritmos que se utilizan, los cuales hacen
uso de la STFT.
En primer lugar, se verá el método 2DFT [12], el cual hace uso de la Transformada de
Fourier Bidimensional para localizar los elementos repetitivos y así poder separar el
acompañamiento musical (repetitivo) de la voz (no repetitiva).
En segundo lugar, se verá el método REPET-SIM [13], el cual hace uso de una matriz
de similitud utilizando también la Transformada de Fourier para conseguir el mismo objetivo,
la separación de música y de voz.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
73
4.1. DFT2
Desde el principio de este trabajo se ha establecido que la base para conseguir el
objetivo es tener en cuenta la repetición y no repetición de elementos, o de otra forma, la
periodicidad y no periodicidad del audio para conocer así los acompañamientos o
instrumentos (repeticiones periódicas) y la voz del cantante (audio no periódico).
La música, generalmente, no cuenta con una estructura aleatoria pues este tipo de
sonido no resultaría agradable para el oído humano. Por lo tanto, los instrumentos
presentan una serie de patrones que se repiten, que es en lo que nos centraremos para poder
obtener así el fondo (el acompañamiento de los instrumentos) y el primer plano (la voz
cantada), y separarlos. Estos patrones periódicos son diferentes en cada composición
musical, lo que implica que la separación de música y voz sea un problema muy complejo.
Para dicho fin, se trabaja en el dominio de la Transformada de Fourier, donde
podremos determinar mediante diferentes formas, en nuestro caso mediante dos algoritmos
distintos, las repeticiones y no repeticiones a lo largo del tiempo para así poder separarlas
y al volver al dominio del tiempo y resintetizar haber conseguido nuestro objetivo.
4.1.1. Cálculo espectrograma
En primer lugar, en ambos casos, haciendo uso de la STFT obtendremos el
espectrograma de la señal de audio. Tras esto, lo separaremos en módulo y fase.
Trabajaremos solamente con el módulo, pero la información de la fase la dejamos
almacenada pues la necesitaremos más adelante para volver al dominio del tiempo, es
decir, cuando se resintetice.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
74
4.1.2. Cálculo espectrograma bidimensional
Los patrones repetitivos de dicho módulo aparecerán periódicamente como picos
en la 2DFT, lo que se corresponde con un patrón general en el dominio tiempo-frecuencia
como la selección de picos en el dominio de escala-ratio.
Como podemos ver en [12], se denomina a la representación en el dominio de
escala- ratio del espectrograma como �̃�(𝑠, 𝑟), donde 𝑠 se refiere a scale y 𝑟 a rate,
respectivamente. La relación que existe entre el dominio del espectrograma y su dominio
escala-ratio es:
�̃�(𝑠, 𝑟) = ℱ𝒯2𝐷{|𝑋(𝜔, 𝜏)|} (38)
4.1.3. Repetición → picos en el dominio scale-rate
ℱ𝒯2𝐷{.} denota la transformada de Fourier bidimensional. El módulo de �̃�(𝑠, 𝑟)
contendrá picos que se corresponden con elementos repetitivos periódicamente en el
dominio tiempo-frecuencia. Por ello, la clave de este algoritmo es localizar picos en el
módulo de la transformada escala-ratio y enmascarar dichos picos para separar el
acompañamiento repetitivo de la voz cantada. Se elegirán los picos comparando la
diferencia entre los valores máximos y mínimos del módulo en un vecindario que rodea a
cada punto del dominio escala-ratio con un umbral. El umbral (γ) en este trabajo se definirá
con la desviación estándar de todos los valores de {|�̃�(𝑠, 𝑟)|}.
En la siguiente imagen se puede ver un ejemplo del módulo y fase en el dominio
scale-rate del espectrograma de una señal de audio:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
75
Ilustración 26. Módulo en el dominio scale-rate de la parte repetitiva de la señal de audio.
El vecindario para la elección de picos puede ser de un tamaño arbitrario. Para este
trabajo se restringe a un rectángulo en el dominio de la 2DFT. El centro del vecindario será
cada punto de la 2DFT y el tamaño del vecindario será de dimensiones ajustables. Sin
embargo, como el acompañamiento repetitivo se manifiesta como una serie de picos sobre
el eje ratio, nuestro vecindario se ajustará para encontrarlos en este eje. Para ello, el tamaño
del vecindario será de 1 punto (bin) para la escala (scale) y de entre 15 y 100 puntos (bins)
para el ratio (rate). Se ha comprobado que valores más pequeños provocan una filtración
de la voz cantada en el acompañamiento, mientras que valores más grandes provocan una
filtración del acompañamiento en la voz cantada.
Definimos 𝑎𝑐 como el rango de valores de |�̃�(𝑠, 𝑟)| que son la diferencia de
los valores máximos y mínimos del |�̃�(𝑠, 𝑟)| en el vecindario.
El valor de la máscara de los picos elegidos, a la cual nos referiremos como la
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
76
máscara del fondo en el dominio scale-rate (𝑠𝑐, 𝑟𝑐), se puede entonces calcular como:
(𝑠𝑐, 𝑟𝑐) = 1 cuando 𝑎𝑐 es mayor que el umbral γ y además |�̃�(𝑠𝑐, 𝑟𝑐)| es igual al
valor máximo de |�̃�(𝑠, 𝑟)| en el vecindario. (𝑠𝑐, 𝑟𝑐) = 0 en el resto de casos.
Ilustración 27. Módulo en el dominio scale-rate de la parte repetitiva de la señal de audio.
Intuitivamente, esto simplemente es un método para encontrar los máximos locales en
|�̃�(𝑠, 𝑟)| que están por encima de un cierto umbral γ. Hay que recordar que el vecindario y
el valor de la máscara son calculados para todos los puntos en el dominio scale-rate.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
77
La máscara del primer plano en el dominio scale-rate la calcularemos entonces tal
que:
(𝑠, 𝑟) = 1 − 𝑀𝑏𝑔(𝑠, 𝑟) (39)
Ilustración 28. Módulo en el dominio scale-rate de la parte no repetitiva de la
señal de audio.
Después, obtendremos el módulo de la parte repetitiva (el fondo) del espectrograma
de la máscara del dominio escala-ratio, tomando la transformada inversa de Fourier
Bidimensional (Iℱ𝒯2𝐷) de la señal máscara del fondo:
|�̃�(𝑠, 𝑟)| = Iℱ𝒯2𝐷{|𝑋(𝜔, 𝜏)|} (40)
|�̃�𝑏𝑔(𝜔, 𝜏)| = Iℱ𝒯2𝐷{𝑀𝑏𝑔(𝑠, 𝑟) ∗ �̃�(𝑠, 𝑟)} (41)
Iℱ𝒯2𝐷{.} denota la inversa de la transformada de Fourier bidimensional, y además
esto se realiza a la multiplicación elemento a elemento de la máscara del fondo en el
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
78
dominio escala- ratio con la transformada de Fourier bidimensional.
Ilustración 29. Módulo en el dominio tiempo-frecuencia de la parte repetitiva
de la señal de audio.
Para obtener el módulo de la parte de primer plano (lo no repetitivo) del
espectrocrama haremos el mismo proceso, pero utilizando en este caso la máscara de la
parte de primer plano del dominio escala-ratio:
|�̃�𝑓𝑔(𝜔, 𝜏)| = Iℱ𝒯2𝐷{𝑀𝑓𝑔(𝑠, 𝑟) ∗ �̃�(𝑠, 𝑟)} (42)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
79
Ilustración 30. Módulo en el dominio tiempo-frecuencia de la parte no repetitiva de la señal de
audio.
Como se puede apreciar en la ilustración 30, la parte no repetitiva de la señal de
audio, es decir, la voz, se puede apreciar más claramente en el eje y (rate) entre los 0 y 400
bins y en el eje x (scale) entre los 600 y 1050 bins.
Una vez hecho esto, se va a obtener el audio separado enmascarando de nuevo pero
esta vez en el dominio tiempo-frecuencia. Las máscaras en tiempo-frecuencia simplemente
se consiguen comparando el módulo de la parte repetitiva (el fondo) del espectrograma de
la máscara del dominio escala-ratio con el módulo de la parte no repetitiva (el primer
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
80
plano) del espectrograma de la máscara del dominio escala-ratio. Así:
𝑀𝑏𝑔(𝜔, 𝜏) = 1 cuando |�̃�𝑏𝑔(𝜔, 𝜏)| > |�̃�𝑓𝑔(𝜔, 𝜏)| (43)
y 𝑀𝑏𝑔(𝜔, 𝜏) = 0 en el resto de los casos.
La máscara del primer plano en el dominio tiempo-frecuencia la calcularemos
entonces tal que:
𝑀𝑓𝑔(𝜔, 𝜏) = 1 – 𝑀𝑏𝑔(𝜔, 𝜏) (44)
Como último paso de este método, se resintetiza para obtener el audio deseado
después de haber separado la música y la voz tal y como queríamos. Esto lo recuperamos
de las máscaras STFT, es decir en el dominio tiempo-frecuencia. Para ello, tenemos que
realizar la transformada inversa (para volver del espectrograma al dominio del tiempo),
para lo cual se necesita la información de la fase 𝑋𝑝ℎ(𝜔, 𝜏) de la señal original que se
guardó anteriormente. Se multiplica el módulo |𝑋(𝜔, 𝜏)| resultado de nuestro algoritmo
con la fase 𝑋𝑝ℎ(𝜔, 𝜏) y se calcula la inversa del espectrograma para así obtener una señal
de audio final 𝑥𝑓(𝑡) la cual se podrá escuchar y guardar en un archivo con formato '.wav'
para comprobar el resultado. Se deben obtener dos señales finales, una para la parte
repetitiva (fondo o acompañamiento instrumental) y otra para la parte no repetitiva (primer
plano o voz cantada).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
81
Ilustración 31. Espectrograma de la parte repetitiva de la señal de audio.
Para obtener el módulo de la parte de primer plano (lo no repetitivo) del
espectrograma se hará el mismo proceso, pero utilizando en este caso la máscara de la parte
de primer plano del dominio scale-rate:
|�̃�𝑓𝑔(𝜔, 𝜏)| = Iℱ𝒯2𝐷{𝑀𝑓𝑔(𝑠, 𝑟) ∗ �̃�(𝑠, 𝑟)} (45)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
82
Ilustración 32. Espectrograma de la parte no repetitiva de la señal de audio.
En ambas ilustraciones (31 y 32) se pueden apreciar los elementos repetitivos en el tiempo (los
azules claro en esta gráfica del espectrograma), con los instrumentos muy repetitivos y la voz muy
poco repetitiva.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
83
4.2. REPET-SIM
El otro algoritmo que se ha implementado en este Trabajo de Fin de Grado se basa en el
descrito en el documento [13], y también trabaja con una señal de entrada 𝑥(𝑡), audio que se
desea separar, e igualmente se procede a realizar el cálculo de su espectrograma, obteniendo así
la señal 𝑋𝑝ℎ(𝜔, 𝜏). Para la realización del mismo, se usa una ventana de Hamming de longitud
N muestras, y la mitad de muestras solapadas. Se guarda la información de la fase 𝑋𝑝ℎ(𝜔, 𝜏)
que utilizaremos para resintetizar, y trabajamos con el módulo, al cual nos referiremos a partir
de aquí como 𝑉.
4.2.1. Matriz similitud
La matriz de similitud es una representación bidimensional donde cada punto mide la
similitud o no similitud entre dos elementos de una secuencia dada. Como la repetición o la
similitud es lo que forma la estructura de la música, una matriz de similitud calculada de una
señal de audio nos puede ayudar a revelar la estructura musical que subyace en dicho audio.
En este trabajo definimos la matriz de similitud 𝑆 como la multiplicación de la matriz
transpuesta de 𝑉 por 𝑉, después de haber normalizado las columnas de 𝑉 mediante su norma
Euclídea. Es decir:
𝑆 = 𝑉𝑇 ∗ 𝑉 (46)
En otras palabras, cada punto de 𝑆 mide la similitud del coseno entre las columnas 𝑗𝑎 y
𝑗𝑏 del módulo del espectrograma 𝑉. El cálculo de la matriz de similitud 𝑆 se muestra en la Ec.
47:
𝑆(𝑗𝑎, 𝑗𝑏) =∑ 𝑉(𝑖, 𝑗𝑎)𝑉(𝑖, 𝑗𝑏)𝑛
𝑖=1
√∑ 𝑉(𝑖, 𝑗𝑎)2𝑛𝑖=1 √∑ 𝑉(𝑖, 𝑗𝑏)2𝑛
𝑖=1
(47)
donde 𝑛 =𝑁
2+ 1 = # canales de frecuencia
∀𝑗𝑎, 𝑗𝑏 ∈ [1, 𝑚] donde m = # cuadros (columnas) de tiempo
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
84
Ilustración 33. Modelo de espectrograma repetitivo 𝑊.
Una vez que se ha calculado la matriz de similitud, la usamos para identificar los
elementos repetidos en el módulo del espectrograma 𝑉. Para todas las columnas 𝑗 de 𝑉,
buscamos las columnas que son más similares a la columna dada j y las guardamos en un vector
de índices 𝐽𝑗.
Suponiendo que el primer plano no repetitivo (la voz cantada) es escaso y variado en
comparación con el fondo repetitivo (el acompañamiento musical o instrumentos) -una
suposición razonable de la voz en la música, los elementos repetitivos revelados por la matriz
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
85
de similitud deben ser los que forman la estructura repetitiva subyacente. El uso de una matriz
de similitud en realidad nos permite identificar elementos repetidos que no ocurren
necesariamente de manera periódica.
Para solucionar este aspecto, restringimos las columnas similares mediante la definición
de los parámetros de la prueba para el algoritmo. Para limitar el número de cuadros repetidos
considerados similares al cuadro 𝑗 dado, definimos 𝑘, el número máximo permitido de cuadros
repetidos. Definimos 𝑡, el umbral mínimo permitido para la similitud entre un cuadro que se
repite y el cuadro dado 𝑡 ∈ [0,1]. Los cuadros consecutivos pueden mostrar una gran similitud
sin representar nuevos casos del mismo elemento estructural, ya que la duración del cuadro no
está relacionada con la duración de los elementos musicales. Por lo tanto, se define 𝑑, la
distancia mínima permitida (tiempo) entre dos cuadros de repetición consecutivos que se
consideran lo suficientemente similares para indicar un elemento de repetición.
4.2.2. Mediana
Una vez que hemos identificado los elementos repetidos para todas las columnas 𝑗 del
módulo del espectrograma 𝑉 a través de su correspondiente vector de índices 𝐽𝑗., los usamos
para derivar un modelo de espectrograma repetitivo 𝑊 para el fondo. Para todas las columnas
𝑗 en 𝑉, derivamos la columna correspondiente en 𝑊 tomando la mediana de las columnas
correspondientes cuyos índices están dados por el vector 𝐽𝑗., para cada canal de frecuencia. El
cálculo del modelo de espectrograma repetitivo 𝑊 se muestra en la Ec. 48:
𝑊(𝑖, 𝑗) = {𝑉(𝑖, 𝐽𝑗(𝑙)}𝑙∈[1,𝑘]𝑚𝑒𝑑𝑖𝑎𝑛 (48)
donde 𝐽𝑗 = [𝑗1 … 𝑗𝑘] = índices de cuadros repetidos
donde 𝑘 = número máximo de cuadros repetidos
∀𝑖 ∈ [1, 𝑛] = índice del canal de frecuencia
∀𝑗 ∈ [1, 𝑚] = índice del cuadro de tiempo
El razonamiento es que, asumiendo que el primer plano no repetitivo (la voz cantada)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
86
tiene una representación escasa de tiempo-frecuencia en comparación con la representación de
tiempo-frecuencia del fondo de repetición (acompañamiento musical o instrumentos), los
intervalos de tiempo-frecuencia con pequeñas desviaciones entre los marcos de repetición
constituirán un patrón repetitivo y serán capturados por la mediana. En consecuencia, los
intervalos de tiempo y frecuencia con grandes desviaciones entre cuadros repetidos
constituirían un patrón de no repetición y serían eliminados por la mediana. En la ilustración
34 se muestra la derivación del modelo de espectrograma repetitivo 𝑊 utilizando la matriz de
similitud S.
Ilustración 34. Modelo de espectrograma repetitivo 𝑊.
En la ilustración 34 se pueden apreciar los elementos repetitivos (amarillos) entre los 0
y 200 Hz aproximadamente durante todo el tiempo analizado.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
87
Una vez que el modelo de espectrograma repetitivo 𝑊 se ha calculado, lo usamos para
obtener una máscara en tiempo-frecuencia 𝑀. Pero antes de ello, necesitamos crear un modelo
de espectrograma repetitivo 𝑊' redefinido para el fondo, tomando el mínimo entre 𝑊 y 𝑉, para
cada elemento en tiempo-frecuencia.
De hecho, como se señala en [13], si asumimos que el espectrograma de mezcla no
negativo 𝑉 es la suma de un espectrograma de repetición no negativo 𝑊 y un espectrograma de
no repetición no negativo 𝑉-𝑊, entonces los puntos de tiempo-frecuencia en 𝑊 pueden tener
al menos el mismo valor que los intervalos de tiempo-frecuencia correspondientes en 𝑉. En
otras palabras, queremos 𝑊 = 𝑉, para cada punto de tiempo-frecuencia. De ahí el uso de la
función mínimo.
Así que derivamos una máscara 𝑀 de tiempo-frecuencia normalizando 𝑊' con 𝑉, para
cada punto en tiempo-frecuencia. La razón es que los intervalos de tiempo-frecuencia que
probablemente constituyen un patrón de repetición en 𝑉 tendrán valores cercanos a 1 en 𝑀 y se
ponderarán hacia el fondo de repetición (el acompañamiento musical o instrumentos). En
consecuencia, los intervalos de tiempo y frecuencia que probablemente no constituyan un
patrón de repetición en 𝑉 tendrán valores cercanos a 0 en 𝑀 y se ponderarán hacia el primer
plano no repetitivo (la voz cantada). El cálculo de la máscara de tiempo-frecuencia 𝑀 se muestra
en la Ec. 49.
𝑊′(𝑖, 𝑗) = min(𝑊(𝑖, 𝑗), 𝑉(𝑖, 𝑗)) (49)
𝑀(𝑖, 𝑗) =𝑊′(𝑖,𝑗)
𝑉(𝑖,𝑗) con 𝑀(𝑖, 𝑗) ∈ [0,1] (50)
∀𝑖 ∈ [1, 𝑛] = índice del canal de frecuencia
∀𝑗 ∈ [1, 𝑚] = índice del cuadro de tiempo
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
88
Ilustración 35. Modelo de espectrograma repetitivo 𝑊’.
La máscara de tiempo-frecuencia 𝑀 se simetriza y se aplica a la STFT 𝑋(𝜔, 𝜏) de la
señal de mezcla 𝑥(𝑡). La señal de música estimada se obtiene finalmente invirtiendo el STFT
resultante en el dominio del tiempo. La señal de voz estimada se obtiene simplemente restando
la señal de música de la señal de mezcla.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
89
Se pueden ver ambas máscaras en las siguientes imágenes:
Ilustración 36. Máscara de la parte repetitiva.
La parte repetitiva se corresponde con todas las zonas amarillas dentro del espectrograma
analizado.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
90
Ilustración 37. Máscara de la parte no repetitiva.
La parte no repetitiva se corresponde con todas las zonas amarillas dentro del espectrograma
analizado.
Como último paso de este método, resintetizamos para obtener el audio deseado después
de haber separado la música y la voz tal y como queríamos. Esto lo recuperamos de las máscaras
STFT, es decir en el dominio tiempo-frecuencia. Para ello, tenemos que realizar la transformada
inversa (para volver del espectrograma al dominio del tiempo), para lo cual necesitamos la
información de la fase 𝑋𝑝ℎ(𝜔, 𝜏) que guardamos anteriormente. Multiplicamos el módulo
𝑋(𝜔, 𝜏) resultado de nuestro algoritmo con la fase 𝑋𝑝ℎ(𝜔, 𝜏) y calculamos la inversa del
espectrograma para así obtener una señal de audio final 𝑥𝑓(𝑡) la cual podremos escuchar y
guardar en un archivo con formato '.wav' para comprobar el resultado. Debemos obtener dos
señales finales, una para la parte repetitiva (fondo o acompañamiento instrumental) y otra para
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
91
la parte no repetitiva (primer plano o voz cantada).
Se pueden ver ambos espectrogramas en las siguientes imágenes:
Ilustración 38. Espectrograma de la parte repetitiva.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
92
Ilustración 39. Espectrograma de la parte no repetitiva.
En ambas ilustraciones (38 y 39) se pueden apreciar los elementos repetitivos en el tiempo (los azules
claro en esta gráfica del espectrograma), con los instrumentos muy repetitivos entorno a los 0-200 Hz y la voz
muy poco repetitiva llegando incluso a los 300 y pico Hz.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
93
Capítulo 5
5. RESULTADOS Y DISCUSIÓN
En este capítulo se mostrarán los resultados obtenidos tras el uso de los dos algoritmos
implementados.
Para la evaluación de los datos se van a elaborar unas bases de datos sobre las que se
efectuarán una serie de mediciones. Estas mediciones serán SDR, SIR y SAR, cuyo
significado se puede encontrar en los apartados posteriores. El procedimiento de obtención
de las dos bases de datos se explica en la sección 5.1, las medidas empleadas, así como su
significado y forma de obtención, están explicadas en la sección 5.2. Una vez obtenidos todos
los resultados se ejecutará un procedimiento de optimización para establecer qué parámetros
permiten maximizar la calidad de la separación de audio (sección 5.3), se presentarán los
resultados finales en la sección 5.4 y finalmente, se analizarán dichos resultados en la sección
5.5.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
94
5.1. Base de datos utilizada
Para la evaluación de los dos métodos implementados se utiliza la base de datos DSD100
[15]. Es un conjunto de datos de 100 pistas de música de larga duración de diferentes estilos
junto con su batería aislada, su bajo, la voz cantada y otros. Esta base de datos contiene dos
directorios, uno con un conjunto de entrenamiento, compuesto por 50 canciones, y un directorio
con un conjunto de prueba, compuesto también por 50 canciones. Para cada archivo, la mezcla
corresponde a la suma de todas las señales. Todas las señales son estéreo y están codificadas a
44,1 kHz, como se comentó en el apartado anterior. Sin embargo, para la evaluación de las
mismas han sido convertidas a mono. Los datos de la DSD100 constan de 100 pistas derivadas
de la biblioteca de descarga multipista gratuita ‘Mixing Secrets’ [15]. Como punto de partida se
tienen las distintas pistas por separado, las cuales se unen antes de aplicar cada uno de los dos
métodos de forma que se obtiene una pista total de cuatro señales diferentes cuyo contenido es:
La pista del bajo.
La pista de la batería.
La pista de la voz cantada.
Otra pista con otros instrumentos.
Ilustración 40. Composición de todas las pistas evaluadas.
Así ya se dispone de las señales finales que vamos a evaluar, por lo tanto, se pasa a
explicar las métricas utilizadas.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
95
5.2. Métricas (SDR, SIR, SAR)
Para evaluar los sistemas empleados se manejarán un conjunto de métricas utilizadas
considerablemente en el área de la separación de fuentes sonoras. Estas métricas son descritas
en profundidad en el documento “Performance Measurement in Blind Audio Source
Separation” [15]. En este texto se describen las medidas SDR (Source to Distortion Ratio), SIR
(Source to Interferences Ratio), SNR (Source to Noise Ratio) y SAR (Source to Artifacts Ratio).
Las medidas de SDR, SIR y SAR consisten en un tipo de medidas cuantitativas y no
subjetivas,por lo que no dependen del oyente ni de la persona que ejecute la medición.
Adicionalmente, se encuentran otro tipo de medidas, como pueden ser la “Interferencia
entre Símbolos” (Inter- Symbol Interference, ISI) o D, que consiste en la comparación directa
de la señal reconstruida con la señal original. Este tipo de medición sufre una serie de limitantes,
dado que no consideran otros tipos de distorsiones que pueden tener mayor o menor impacto en
ciertos casos. Por ejemplo, en aplicaciones musicales hi-fi la distorsión que cambia el timbre
de los instrumentos prima sobre otro tipo de distorsión, mientras que en aplicaciones de habla
se da una mayor importancia a la distorsión inducida al realizar ciertos filtrados que inducen la
pérdida de inteligibilidad del habla. Las dos medidas descritas anteriormente no consideran
alguna diferencia entre estos tipos de distorsiones, es por ello que se recurre a otro tipo de
medidas [15].
Para aplicaciones de audio, es de importancia medir de forma separada la cantidad de
interferencias derivada de fuentes no deseadas, la cantidad de ruido resultante del sensor y la
cantidad de ruido por “artefactos” (debido a una mala reconstrucción de la señal). Estos
artefactos son considerados más molestos que las interferencias y estas, a su vez, son más
molestas que el ruido proveniente del sensor.
Si se considera la señal reconstruida como 𝑥𝑟𝑒𝑐, se puede descomponer ésta en la
sumatoria de los términos siguientes:
𝑥𝑟𝑒𝑐 = 𝑥𝑑𝑖𝑠𝑡 + 𝑒𝑖𝑛𝑡𝑒𝑟𝑓 + 𝑒ruido + 𝑒𝑎𝑟𝑡e𝑓
(51)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
96
Donde 𝑥𝑑𝑖𝑠𝑡 consiste en la versión distorsionada de 𝑥 (señal original) y 𝑒𝑖𝑛𝑡𝑒𝑟𝑓, 𝑒𝑟𝑢𝑖𝑑𝑜 y
𝑒𝑎𝑟𝑡𝑒𝑓 son los términos del error introducido por interferencias, ruido y artefactos
respectivamente. Estos cuatros términos representan el ruido de sensor, la parte de señal que
proviene de la fuente deseada, así como de otras fuentes no deseadas y otro tipo de distorsiones.
A continuación, se calcularán distintas proporciones de energía para evaluar qué cantidad
de los cuatro términos se encuentra en la señal reconstruida.
En [13] se explica en detalle el cálculo de los parámetros 𝑥𝑑𝑖𝑠𝑡, 𝑒𝑖𝑛𝑡𝑒𝑟𝑓, 𝑒𝑟𝑢𝑖𝑑𝑜 y 𝑒𝑎𝑟𝑡𝑒𝑓. Una
vez obtenidos dichos parámetros, se muestran las ecuaciones seguidas para la obtención de las
medidas expuestas al inicio de este apartado:
𝑆𝐷𝑅 = 10𝑙𝑜𝑔10||𝑠𝑡𝑎𝑟𝑔𝑒𝑡||2
||𝑒𝑖𝑛𝑡𝑒𝑟𝑓+𝑒𝑟𝑢𝑖𝑑𝑜+𝑒𝑎𝑟𝑡𝑒𝑓||2 (52)
𝑆𝐼𝑅 = 10𝑙𝑜𝑔10||𝑠𝑡𝑎𝑟𝑔𝑒𝑡||2
||𝑒𝑖𝑛𝑡𝑒𝑟𝑓||2 (53)
𝑆𝑁𝑅 = 10𝑙𝑜𝑔10||𝑠𝑡𝑎𝑟𝑔𝑒𝑡+𝑒𝑖𝑛𝑡𝑒𝑟𝑓||2
||𝑒𝑟𝑢𝑖𝑑𝑜||2 (54)
𝑆𝐴𝑅 = 10𝑙𝑜𝑔10||𝑠𝑡𝑎𝑟𝑔𝑒𝑡+𝑒𝑖𝑛𝑡𝑒𝑟𝑓+𝑒𝑟𝑢𝑖𝑑𝑜||2
||𝑒𝑎𝑟𝑡𝑒𝑓||2 (55)
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
97
5.3. Setup (Inicialización)
Las señales empleadas se han muestreado con una frecuencia de 𝑓𝑠 = 44100 𝐻𝑧. Esta
frecuencia permite hallar señales con una suficiente calidad para ser escuchadas y, al mismo
tiempo, no genera una cantidad de muestras demasiado elevada, lo que conllevaría un coste
computacional muy elevado. Para la realización de la STFT (Short-Time Fourier Transform) se
empleará una ventana Hanning de 1024 muestras con un solapamiento de 𝑁/2, es decir, 512
muestras de solapamiento. Al emplear este tamaño de ventanas, es posible trabajar con señales
de una duración de 64 mS, un tamaño bastante pequeño como para asumir estacionaría una
señal de audio.
Para el primer método (2DFT), la separación de música/voz usando la transformada de
Fourier bidimensional, el único parámetro que se utiliza que se puede inicializar a gusto del
usuario es el vecindario para seleccionar los picos dentro de la representación scale-rate. Por
defecto, este vecindario se inicializa a 𝑣 = 15.
Para el segundo método (REPET-SIIM), inicializamos 𝑘 = 100 como el número
máximos de frames repetidos que se pueden coger, 𝑡 = 0 como el umbral mínimo para la
similitud en la repetición de frames y 𝑑 = 1 segundo referido a la distancia mínima entre dos
frames repetidos consecutivos.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
98
5.4. Análisis de los resultados obtenidos
El método que se ha seguido para la evaluación ha sido el siguiente:
En primer lugar, se evalúan los primeros 30 segundos de cada canción.
En segundo lugar, se evalúan los siguientes 30 segundos de cada canción.
Por último, se realiza la media aritmética de los resultados para conseguir así unas
medidas más fieles y coherentes (los inicios de las canciones suelen ser diferentes al resto de
las mismas donde se encuentran el estribillo y otras estrofas por lo que de esta manera los
resultados se consideran más fieles a la totalidad de la canción):
Ilustración 41. Media de resultados de la base de datos DSD100.
Como podemos apreciar en el diagrama de barras, los resultados de SDR, SIR y SAR son
coherentes ya que son positivos para el acompañamiento musical (repetitivo) y en el caso del
SDR y el SIR son negativos para la voz (debido a la no repetición y por tanto preponderancia
de ruido respecto a la señal deseada).
-10
-5
0
5
10
15
20
25
Instrumentos 2DFT Voz 2DFT Instrumentos REPET-SIM Voz REPET-SIM
Evaluación bases de datos DSD100
SDR SIR SAR
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
99
Aunque se ha utilizado la base de datos DSD100 completa, aquí se muestra un ejemplo
más particular con 10 canciones con sus resultados para la voz:
Canción FFT2 FFT2 FFT2 REPET-SIM REPET-SIM REPET-SIM
1os 30s SDR SIR SAR SDR SIR SAR
C1 3,6391 26,1404 3,4178 -1,7242 -0,1243 5,2966
C2 3,6020 13,0566 2,5214 -5,8044 -6,8637 1,7074
C3 3,5266 16,0215 2,1520 4,7136 6,9586 8,9890
C4 3,7653 9,4193 3,7157 1,4919 3,6323 3,3409
C5 8,2841 19,3311 8,8447 5,5686 10,7131 6,5151
C6 4,0940 15,9563 3,1402 -5,0842 -4,3546 1,5929
C7 10,8515 27,8048 11,4587 0,8358 6,0766 2,5131
C8 4,9115 32,6494 4,9395 -24,3008 -25,7056 1,0923
C9 6,3286 14,9341 6,9198 -2,3451 0,4458 1,8917
C10 9,4248 31,8484 10,7124 -0,0673 3,6762 3,5665
Tabla 2. Resultados de los primeros 30 segundos de 10 canciones evaluadas.
Canción FFT2 FFT2 FFT2 REPET-SIM REPET-SIM REPET-SIM
2os 30s SDR SIR SAR SDR SIR SAR
C1 5,5726 12,1904 8,5724 2,0107 -0,5639 9,4055
C2 8,6158 12,9492 12,6021 -0,7786 -4,1509 5,0607
C3 5,3011 7,0564 7,7633 6,4655 9,0484 9,7066
C4 4,0333 3,4903 10,029 1,7718 0,4433 6,3145
C5 2,6801 2,5136 5,2087 -0,0345 -2,51 9,0093
C6 5,8728 11,2981 9,1237 -3,3045 -6,6656 6,9226
C7 6,0831 20,5208 8,8873 -3,9731 -4,4248 7,2645
C8 7,7935 31,9711 10,8707 -21,4184 -26,019 5,7341
C9 7,0557 15,8636 9,9745 -1,6178 -2,5532 7,2489
C10 8,2937 16,0699 10,7856 -1,2017 -2,1974 4,6702
Tabla 3. Resultados de los segundos 30 segundos de 10 canciones evaluadas.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
100
Canción FFT2 FFT2 FFT2 REPET-SIM REPET-SIM REPET-SIM
media 60s SDR SIR SAR SDR SIR SAR
C1 4,6059 19,1654 5,9951 0,1433 -0,3441 7,3511
C2 6,1089 13,0029 7,5618 -3,2915 -5,5073 3,3841
C3 4,4139 11,5390 4,9577 5,5896 8,0035 9,3478
C4 3,8993 6,4548 6,8724 1,6319 2,0378 4,8277
C5 5,4821 10,9224 7,0267 2,7671 4,1016 7,7622
C6 4,9834 13,6272 6,1320 -4,1944 -5,5101 4,2578
C7 8,4673 24,1628 10,1730 -1,5687 0,8259 4,8888
C8 6,3525 32,3103 7,9051 -22,8596 -25,8623 3,4132
C9 6,6922 15,3989 8,4472 -1,9815 -1,0537 4,5703
C10 8,8593 23,9592 10,7490 -0,6345 0,7394 4,1184
Tabla 4. Resultados de las 10 canciones particularizadas.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
101
Tras realizar una recolección de datos profunda de ambos algoritmos (FFT2 y REPEAT-
SIM) en la que se han obtenido todos los valores de la base de datos completa, se ha mostrado
la media de dichos valores en la ilustración 41. Para particularizar y estudiar algunos de los
casos, se obtuvieron las tablas de resultados 2, 3 y 4 donde se reflejan los distintos valores de
SDR, SIR y SAR para la voz de las 10 primeras canciones de dicha base de datos, que son las
métricas que indican que el algoritmo realiza correctamente la separación, ya que los valores
son relativamente parecidos a los de otros trabajados realizados anteriormente [12] ya descritos
en el capítulo 3. En cuanto a las gráficas anteriores, se extrajeron del conjunto de datos del cual
se estimó la media de SAR, SIR, SDR.
En cuanto a la muestra C1, se puede evidenciar una diferencia de 5,37 en cuanto al valor
de SDR, situándose el valor más alto para el algoritmo FFT2 en 3,64 y para el algoritmo
REPEAT-SIM en -1,73, lo que representa un valor de ruido 67,78% más elevado que el
generado en el método FFT2, esto en cuanto a los primeros 30 segundos. Luego, en relación a
los siguientes 30 segundos, se obtuvo un panorama más optimista que el anterior para el
algoritmo REPEAT-SIM, puesto que se obtuvo una diferencia con respecto al valor de SDR de
2,96, indicando que a pesar de que el valor de SDR para FFT2 sea superior (5,57 para FFT2)
se obtuvo una definición aceptable para el algoritmo REPEAT-SIM de 2,61. Finalmente, la
media del minuto completo para FFT2 el SDR se situó en 4,61 y para REPEAT-SIM en 0,14,
indicando que para este tipo de sonido se obtienen mejores resultados aplicando FFT2; sin
embargo, no se descarta que REPET-SIM se pueda aplicar con mayor precisión de separación
en ciertos patrones con una estructura más repetitiva que la introducción de la pieza de audio.
Por su parte, la muestra C2 presentó un patrón similar a la muestra C1 reportando un
valor medio del SDR de 3,6 para FFT2 (ver ilustración 38) y de SDR -5,84, indicando que en
esta ocasión la definición de audio fue inferior en un 61,8% con relación al método FFT2. De
igual forma, se repite la tendencia que en la muestra C1 para los siguientes 30 segundos, esta
vez con un escenario menos optimista para REPET-SIM, puesto que en esta ocasión genera
valores de SDR cercanos a 0 mientras que FFT2 cuenta con una definición superior de hasta
más de dos veces superior que los primeros 30 segundos. Finalmente, la media aritmética del
minuto completo se estableció en 6,11 para FFT2 y -3,17 para REPEAT-SIM, indicando que
para este escenario el algoritmo FFT2 fue superior que REPEAT-SIM.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
102
Durante el análisis de la muestra C3 se observó una diferencia más notable con relación
a la tendencia anteriormente presentada en las muestras C1 y C2 para los primeros 30 segundos
(ver ilustración 41), en esta ocasión, el valor de SDR para FFT2 se situó en 3,53, mientras que
para REPEAT-SIM fue superior en un 33,4% con relación al FFT2, situándose el valor de SDR
en 4,71. En los siguientes 30 segundos se observó una estructura similar, esta vez con una
brecha más estrecha, siendo ahora el valor de SDR de REPEAT-SIM de 6,47, mientras que el
valor de SDR de FFT2 se situó en 5,30, siendo superior en un 22,1% el valor obtenido por el
algoritmo REPEAT-SIM. Finalmente, la media general de los 60 segundos reporta un valor de
SDR para FFT2 de 4,41 y de 5,59 para REPEAT-SIM, indicando que en este escenario
REPEAT-SIM fue superior a FFT2.
Por otra parte, la muestra C4 siguió la misma tendencia de la muestra C1 y C2 mostrando
un valor de SDR para FFT2 de 3,77 y de 1,49 para REPEAT-SIM, lo que representa que la
señal de audio generada por FFT2 cuenta con 2,53 veces menos ruido que la generada por
REPEAT SIM, durante los primeros 30 segundos. En los posteriores 30 segundos (ver
ilustración 45) se mantuvieron próximos los valores de SDR a los valores indicados en los
anteriores 30 segundos, siendo estos de 4,03 y de 1,77 para FFT2 y REPEAT-SIM,
respectivamente, contado FFT2 con aproximadamente 2,2 veces menos ruido que REPEAT-
SIM. Finalmente, la media de los 60 segundos mostró que se obtuvo un valor de SDR de 3,90
para FFT2 y de 1,63 para REPEAT-SIM, siendo FFT2 superior en esta ocasión, no obstante,
REPEAT-SIM también realizó una separación aceptable.
A pesar de mostrarse una tendencia en C1, C2 y C4 a que REPEAT-SIM obtenga señales
de audio con mayor ruido, en un 60% a FFT2, durante los primeros 30 segundos, para la muestra
C5 se manifiesta una brecha inferior del 41% entre ambos métodos, siendo el valor de SDR
para REPEAT-SIM de 5,75 y de SDR para FFT2 de 8,28. En cuanto a los siguientes 30
segundos, sí se repite el patrón observado en C1, C2 y C4, siendo casi una diferencia entre
valores de SDR del 98%, puntualmente los valores fueron de 2,68 y -0,03 para FFT2 y
REPEAT-SIM respectivamente. La media global muestra que el valor de SDR para FFT2 se
sitúa en 5,48 y para REPEAT-SIM se sitúa en 2,77, siendo la separación por FFT2
aproximadamente el doble de limpia que la de REPEAT-SIM en este caso.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
103
Por otra parte, en la muestra C6 se mantiene el patrón de los modelos C1, C2 y C4 para
los siguientes 30 segundos, con una brecha entre valores de SDR superior en 2,2 veces para
FFT2; los valores se sitúan en 4,09 y -5,08 para el FFT2 y REPEAT-Sim respectivamente. En
los siguientes 30 segundos parece obtenerse una señal de audio un tanto más limpia que en los
anteriores 30 segundos con el método REPET-SIM, sin embargo, el valor de SDR de esta es
inferior a 0 por lo que se considera una mala separación (valor puntual de -3,27). En cuanto al
método FFT2 se obtuvo una señal más limpia con menor ruido, con un valor de SDR de 5,87.
La métrica global de los 60 segundos devela que se obtuvo un SDR global del 4,98 para FFT2
y -4,31 para REPEAT-SIM, siendo FFT2 superior en este escenario, mientras que REPEAT-
SIM no logró una separación satisfactoria.
De manera similar ocurre con la muestra C7, esta vez con valores de SDR más
diferenciados, siendo el valor de SDR de 10,85 perteneciente a FFT2 y de 0,84 para REPEAT-
SIM. Se observa entonces que FFT2 es claramente superior a lo largo de toda la evaluación de
la señal de audio.
Los resultados reportados por el modelo C8 muestran la misma tendencia que el modelo
C7, pero esta vez a una diferencia más elevada que dicha muestra. Para los primeros 30
segundos FFT2 logró un valor de SDR de 4,91, mientras que REPEAT-SIM reportó un valor
de -24,3; obteniendo así una cantidad de ruido elevada y por tanto siendo una separación
bastante deficiente con relación a FFT2. La tendencia se mantiene a lo largo de la señal de audio
analizada, por lo cual, se puede decir que no fue satisfactoria la separación para REPEAT-SIM,
pero con FFT2 sí se logró el resultado esperado obteniendo un SDR general de 6,32.
La muestra C9 durante los primeros 30 segundos también siguió el patrón de la muestras
C1, C2, C4, C5 y C6, reportando valores de SDR para FFT2 de 6,33 y -2,17 para REPEAT-
SIM y, durante los siguientes 30 segundos se mantuvo esta diferencia con un incremento en la
calidad de separación del 11% para FFT2 y 50% para REPEAT-SIM, siendo los valores de
SDR para FFT2 de 7,06 y para REPEAT-SIM de -1,44. La media general de SDR para la
muestra C9 se situó en 6,69 y -1,8 para FFT2 y REPEAT-SIM, mostrando que se obtiene una
señal más limpia con FFT2 que con REPEAT-SIM.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
104
Finalmente, la muestra C10 continúa con la tendencia de las muestras C1, C2, C4, C5,
C6 y C9 obteniendo un valor de 8,29 en cuanto al SDR para FFT2 y un valor cercano a 0 para
REPEAT-SIM durante los primeros 30 segundos de la señal de audio, mientras que, para los
posteriores 30 segundos el comportamiento se mantiene para FFT2 y disminuye la definición
para REPET SIM a -1,2 como valor de SDR. Una vista global de los 60 segundos muestra que
FFT2 obtuvo una separación más limpia con un valor de SDR medio de 8,85, mientras que,
REPEAT-SIM obtiene un valor de SDR de -0,63 mostrando mayor volumen de ruido que FFT2.
Aunque, los valores medios obtenidos de las 100 canciones de la base de datos evaluada
indican que los métodos FFT2 y REPET-SIM aportan resultados similares, para todas las
muestras analizadas en particular (las 10 canciones) aplicando FFT2 la separación de audio fue
satisfactoria y superior o similar al método de REPET-SIM. Esto puede deberse a múltiples
razones, como el ruido contenido durante la grabación de la señal de audio, puesto que, uno de
los puntos débiles de este algoritmo radica en la tolerancia de la frecuencia de las señales de
audio y, al estas contener valores elevados de ruido (por ejemplo, heavy metal o rock & roll)
entran en juego varias variables de ajuste manual como la tolerancia de ruido, haciéndolo un
algoritmo más dependiente del operario.
Por otra parte, FFT2 obtiene una señal clara y limpia para las 10 muestras analizadas,
sin embargo, se observó que para la muestra C3, REPET-SIM fue superior, esto puede deberse
a que esta señal de audio presenta un mayor patrón repetitivo. Dicho esto, se puede afirmar que,
como resultado general de este estudio, 9 de cada 10 muestras separadas con FFT2 reportan
separaciones más finas que las realizadas con el algoritmo REPEAT-SIM. Por otra parte, el
100% de las muestras separadas con FFT2 arrojan resultados positivos, representando una
técnica con alta tasa de éxito para distintas muestras de audio, sin embargo, 5 de 10 muestras
fueron separadas exitosamente con REPET-SIM, representando una tasa de éxito del 50% con
relación a FFT2.
A la vista de los resultados obtenidos, se puede afirmar que el método FFT2 es el que
mejores resultados ofrece en lo que a medidas de SDR, SIR y SAR respecta. Es importante
señalar que, el SAR no proporciona una medida que indique si los algoritmos han reportado
buenos resultados, por ello, se analizaron solamente el SDR y el SIR, también procedentes de
la SNR al igual que el SAR. En resumen, se llega a la conclusión de que el algoritmo de FFT2
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
105
funciona correctamente, pues los valores indican que se ha producido una buena separación de
la voz cantada y el resto del audio (acompañamiento musical). Sin embargo, en cuanto a
REPEAT-SIM no en todos los casos se obtiene señales de audio lo suficientemente nítidas.
Aunque el análisis de resultados particulares se ha realizado para una muestra de 10
canciones, en la evaluación total de la base de datos DSD100 se han obtenido todos los
resultados correspondientes a dichas canciones (ver ilustración 41) y se concluye que ambos
métodos consiguen su objetivo, pero que uno funcionará mejor que otro dependiendo
fuertemente del tipo de señal de cada canción, ya que los métodos realizan diferentes acciones
(ya explicadas en el capítulo 4) y por lo tanto aportan diferentes resultados para una misma
canción. Además, aparte de los resultados numéricos obtenidos, diferentes oyentes podrán
percibir subjetivamente diferentes calidades de un método respecto a otro (en mi caso en la
mayoría de los casos percibo que funciona mejor el de la FFT2 que el de REPET-SIM).
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
106
Capítulo 6
6. CONCLUSIONES
Este trabajo de fin de grado ha puesto de manifiesto la dificultad que existe a la hora de
extraer fuentes sonoras de una señal de audio mezcla, mostrando la existencia de distintos
métodos de separación de audio y que la selección y calibración de estos es de vital importancia
para llevar a cabo con éxito dicha separación.
A pesar de esta gran dificultad, se han conseguido los objetivos iniciales propuestos para
este trabajo, los cuales son la separación de la voz y del acompañamiento musical en diferentes
canciones.
Se han implementado 2 métodos diferentes para este fin utilizando la potente
herramienta de programación MATLAB basándonos en los artículos científicos [11] y [12].
Aparte del análisis de la base de datos completa y del análisis más en particular de 10
señales de audio diferentes arrojó que el algoritmo FFT2 tiene mayor tasa de éxito que
REPEAT-SIM. De las 10 muestras de audio separadas empleando estos dos algoritmos se
obtuvo en 9 casos con FFT2 una separación más limpia y con menos ruido según la métrica de
SDR, con respecto a REPEAT-SIM. Por otra parte, REPEAT-SIM en 1 oportunidad fue
superior a FFT2, lo que indica que FFT2 es un algoritmo más óptimo para la separación de
ondas de audio, sin embargo, este último demanda mayor cantidad de recursos informáticos
que REPEAT-SIM.
Sobre las 10 señales de audio separadas, FFT2 logra una separación satisfactoria de
todas estas según la métrica de SDR, mientras que, para REPEAT-SIM se logran 5 resultados
satisfactorios y 5 no satisfactorios, esto se puede deber al ruido, ajustes de tolerancia y a patrón
repetitivo de la canción, los cuales son parámetros que dependen del operario.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
107
En cuanto al método REPEAT-SIM se puede concluir que es complicado y depende
netamente de parámetros empíricos, lo cual complica encontrar parámetros que optimicen los
resultados para todas las canciones, pues una canción que tenga más partes periódicas dará un
mejor resultado que una que tenga más partes no periódicas. Sin embargo, con las pruebas
realizadas con distintos parámetros se ha logrado llegar a 5 resultados aceptables para todas las
señales, porque se distinguen claramente dos audios finales, uno donde predomina la voz
cantada con el acompañamiento musical atenuado, y el otro donde predomina esta parte
instrumental que acompaña a la voz cantada, atenuada esta vez.
Las métricas empleadas en el trabajo, todas ellas provenientes de la SNR, nos han
permitido evaluar de manera adecuada nuestra base de datos. A pesar de ello, se ha podido
comprobar que los parámetros SDR y SIR nos son útiles en nuestro objetivo de separación de
voz e instrumentos, pero sin embargo el SAR no nos da una medida que indique si este grado de
separación ha sido bueno o malo.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
108
Capítulo 7
7. LÍNEAS FUTURAS
De cara a futuros estudios relacionados con este campo, se podría probar a utilizar
diferentes parámetros como por ejemplo en el método 2DFT cambiar el umbral mínimo gamma
(𝛾) en el que se ha usado la desviación típica por algunos percentiles, por poner un ejemplo.
También sería interesante profundizar en mejorar la eficiencia de los métodos para poder
evaluar más duración de los audios sin que ello implique mucho más tiempo de computación.
En [13] solo evalúan los primeros 30 segundos de cada canción, lo que no es óptimo porque las
introducciones de las canciones suelen ser algo diferentes al resto de las mismas donde ya se
encuentra la repetición del estribillo, instrumentos más periódicos, etc. En este trabajo hemos
evaluado los primeros 30 segundos y los siguientes 30 segundos y después hemos hecho la
media, obteniendo resultados más fieles. Podría ser interesante estudiar qué sucede si se evalúa
una duración mayor.
Otras posibilidades son utilizar otras medidas en el método de REPET-SIM, en lugar de
utilizar la mediana ver qué pasaría si se usa la media u otros métodos, al igual que probar más
valores de los parámetros ajustables para optimizar resultados, aunque ya hemos visto en el
capítulo de conclusiones que esto es muy complicado debido a la variedad de las señales.
En mi opinión, estas líneas ayudarían a ser más meticulosos y rigurosos y así se podrían
conseguir resultados más fieles a la realidad.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
109
8. REFERENCIAS BIBLIOGRÁFICAS
[1] Walter Wiora, The Four Ages of Music (Las cuatro edades de la música, 1967).
[2] M. Recuero López, Ingeniería Acústica, 1999.
[3] B Zhu, W Li, R Li, X Xue. Multi-Stage Non-Negative Matrix Factorization for Monaural
Singing Voice Separation.
[4] H Deif, W Wang, L Gan, S Alhashmi. A Local Discontinuity Based Approach for Monaural
Singing Voice Separation from Accompanying Music with Multi-stage Non- negative Matrix
Factorization.
[5] P Huang, S Chen, P Smaragdis, M Hasegawa-Johnson. Singing-voice Separation From
Monaural Recordings Using Robust Principal Component Analysis.
[6] Y Xie, L Chen, U Hofmann. Reduction Of Periodic Noise In Fourier Domain Optical
Coherence To-Mography Images By Frequency Domain Filtering.
[7] P Seetharaman, Z Rafii. Cover Song Identification With 2D Fourier Transform Sequences.
[8] H Tachibana, N Ono, S Sagayama. Singing Voice Enhancement in Monaural Music Signals
Based on Two-stage Harmonic/Percussive Sound Separation on Multiple Resolution
Spectrograms.
[9] Z Rafii, B Pardo. REpeating Pattern Extraction Technique (REPET): A Simple Method for
Music/Voice Separation.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
110
[10] Z Rafii, B Pardo. Online Repet-Sim for Real-Time Speech Enhancement.
[11] I Aizenberg, C Butakoff. A Windowed Gaussian Notch Filter For Quasi-Periodic Noise
Removal.
[12] P Seetharaman, F Pishadian, B Pardo. Music/Voice Separation Using the 2D Fourier
Transform.
[13] Z Rafii, B Pardo. Music/Voice Separation Using the Similarity Matrix.
[14] A Liutkus et al, The 2016 Signal Separation Evaluation Campaign, in International
Conference on Latent Variable Analysis and Signal Separation (LVA/ICA).
[15] E Vincent, R Gribonval and C Févotte. Performance Measurement in Blind Audio Source
Separation. IEEE Transactions on Audio, Speech and Language Processing, Institute of
Electrical and Electronics Engineers, 2006.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
111
Capítulo 9
9. ANEXO – GUI Y MANUAL DE USUARIO
Tras haber explicado y conseguido el objetivo de este trabajo, en este apartado se
muestra una interfaz de usuario simple que hace posible que, sin la necesidad de conocer
programación en MATLAB, se pueda realizar el proceso descrito en el documento. La interfaz
gráfica de usuario (GUI) se ha implementado utilizando el entorno de desarrollo GUIDE de
GUI de MATLAB.
De esta manera, el usuario será capaz de obtener los resultados de los dos métodos
implementados simplemente mediante el uso de unos botones y la selección del audio y del
método (y los parámetros) elegido(s).
En la siguiente imagen se muestra el aspecto de la interfaz tras inicializarla:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
112
Ilustración 42. Aspecto inicial de la interfaz.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
113
A continuación, se describen las diferentes partes que incluye la interfaz:
1) Botón "Seleccionar audio": pulsando en este botón se abrirá un directorio en el que
aparecen los diferentes audios disponibles de entre los cuales podemos elegir la señal a la que
deseemos aplicar el método. Los audios serán archivos en formato ‘.wav’. Al elegir el audio
deseado, se abrirá una nueva ventana con dos gráficas, las de sus señales temporal y su
espectrograma, las cuales también aparecen en la propia interfaz.
2) Cuadros de texto audio: aquí podremos ver el nombre del archivo seleccionado
anteriormente, su duración en segundos y su frecuencia de muestreo en Hz.
3) Gráfica señal temporal: en esta gráfica se verá la representación temporal de nuestra
señal seleccionada y además podremos pulsar dos botones, el de arriba (‘Play’) para reproducir
el audio y el de abajo (‘Stop’) para pararlo.
4) Gráfica espectrograma de la señal: se representará el espectrograma de la señal de
audio elegida mediante la FFT con los parámetros N=2048 (número de muestras de la FFT, lo
que equivale a 46,44 milisegundos), V=Hamming (tipo de ventana Hamming) y noverlap=1024
(número de muestras de solapamiento). En todas las gráficas se puede hacer zoom con los
botones de la lupa correspondientes.
5) Menú "Elija método": en este menú podremos elegir entre cuál de los dos métodos
implementados queremos aplicar a nuestra señal, el 2DFT o el REPET-SIM.
6) Grupo de cuadros de texto de parámetros: cuando se elija el método a realizar,
aparecerán los parámetros que podemos personalizar para la implementación de cada uno de
los métodos: para el método 1 o 2DFT tendremos que elegir v (vecindario), y para el método 2
o REPET-SIM k (número máximo permitido de frames que se repiten), t (umbral mínimo
permitido para la similitud entre el frame dado y el repetido) y d (distancia mínima permitida
(tiempo) entre dos frames consecutivos que se repiten).
7) Botón "Realizar método": pulsando en este botón se aplicará el método seleccionado
anteriormente y se realizará a la señal de audio elegida. Al realizar el método también se le dará
la opción al usuario pulsando el botón “100Hz quitar/poner” para que elija si desea eliminar de
0 a 100Hz o no.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
114
8) Cuadro de botones ‘Play’ y ‘Stop’: a la derecha de las dos gráficas de los audios
generados tras la aplicación del método podemos hacer clic en los botones de ‘Play’ para
escuchar los mismos o en los botones de ‘Stop’ para pararlos.
9) Cuadros de texto de audios guardados: aquí podremos escribir los nombres deseados
para guardar los archivos generados por el método, estando los mismos terminados en el
formato ‘.wav’.
Una vez descritas las diferentes partes de la interfaz detallamos un pequeño tutorial para
que el usuario sepa cómo utilizarla.
Primero, una vez abierta la interfaz, haciendo clic en el botón de "Seleccionar audio"
elegimos la señal a la que queremos aplicar uno de los métodos. Los audios tienen que ser
archivos en formato '.wav', así que si hubiera otro formato habría que convertirlo previamente.
Segundo, una vez seleccionado el audio deseado, además de poder ver su nombre,
duración y frecuencia de muestreo, aparecerá de manera automática su representación temporal
y su espectrograma, tanto en la misma interfaz como en otra ventana.
Ilustración 43. Selección del audio deseado.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
115
Tercero, haciendo clic en el menú de "Elija método" podremos elegir entre cuál de los
dos métodos queremos aplicar al audio. En el caso de que elijamos el método 1 o 2DFT,
podremos elegir qué vecindario v aplicarle, y en el caso de que elijamos el método 2 o REPET-
SIM, se nos permitirá introducir los parámetros deseados de k, t y d.
Ilustración 44. Selección del método y parámetros.
Cuarto, haciendo clic en el botón de "Realizar método" se aplicará el algoritmo
seleccionado y aparecerán las gráficas correspondientes tanto en la misma interfaz como en una
nueva ventana. En el caso de que no se haya elegido ninguno de los dos métodos, se mostrará
un mensaje de error en una ventana emergente.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
116
Ilustración 45. Resultados obtenidos tras la realización del método.
Por último, a la derecha de cada gráfica de audio se da la opción de escucharlo haciendo
clic en el botón "Play" y de pararlo haciendo clic en el botón "Stop". Además, si se desea se
pueden guardar estos audios escribiendo los nombres deseados en los cuadros de texto que
aparecen y haciendo clic en el botón "Guardar". Los ficheros hay que guardarlos como archivos
en formato '.wav'.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
117
Ilustración 46. Guardado de los audios generados.
Para hacer esto más visual, vamos a ver un ejemplo práctico del uso del software. El
aspecto inicial de la interfaz es el siguiente:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
118
Ilustración 47. Aspecto inicial de la interfaz del software.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
119
Lo primero es elegir el audio que deseamos tratar:
Ilustración 48. Selección del audio deseado.
Como podemos ver, se muestra la forma de onda de la señal de audio además del
espectrograma de la señal, estos se pueden ver tanto en la interfaz principal como en una ventana
emergente que aparece al elegir el audio deseado. En ambos sitios podemos hacer zoom si
queremos para ver mejor las gráficas. Ahora podemos elegir entre uno de los 2 métodos
implementados:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
120
Ilustración 49. Cargado del audio seleccionado.
Si elegimos el método de la 2DF, tenemos que elegir el vecindario deseado a utilizar,
estando acotado entre valor entre 5 y 20 puntos:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
121
Ilustración 50. Elección del método a implementar, en este caso el de la 2DF junto con sus parámetros.
Si en cambio elegimos el método de REPET-SIM, tenemos que elegir los valores de los
parámetros d, k y t:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
122
Ilustración 51. Elección del método a implementar, en este caso el de REPET-SIM junto con sus
parámetros.
Tras darle al botón realizar método, de nuevo nos aparece una ventana emergente con
las gráficas principales que nos saca el método, las cuales son las máscaras de la voz y de la
parte instrumental (acompañamiento) tanto en función de tiempo-frecuencia como en función
de scale-rate:
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
123
Ilustración 52. Método ya realizado.
Por último, a la derecha de cada audio generado (parte instrumental y voz), podemos
escuchar dichos audios, pararlos, y guardarlos en una carpeta de nuestro equipo siempre en
archivos con extensión .wav.
Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música
124
Ilustración 53. Guardado de los audios generados.