SISTEMA PARA LA EXTRACCIÓN DE FUENTES SONORAS …

Escu

ela

Polit

écnic

a S

uperior

de L

inare

s

Gra

do

en

Ing

enie

ría

de

Tec

no

log

ías

de

Tel

eco

mu

nic

ació

n

Universidad de Jaén

Escuela Politécnica Superior de Linares

Trabajo Fin de Grado

SISTEMA PARA LA EXTRACCIÓN

DE FUENTES SONORAS

UTILIZANDO LA TRANSFORMADA

DE FOURIER BIDIMENSIONAL

APLICADO A UN ESCENARIO

VOZ/MÚSICA

Alumno: Miguel Ángel García Casas

Tutor: Francisco Jesús Cañadas Quesada

María Violeta Montiel Zafra

Depto.: Ingeniería de Telecomunicación

Junio, 2020

Sistema para la extracción de fuentes sonoras utilizando la transformada de Fourier bidimensional aplicado a un escenario voz música

1

ÍNDICE DE CONTENIDO

1. INTRODUCCIÓN ..................................................................................................7

1.1. Introducción a la música Occidental ....................................................................8

1.1.1. Repetición musical ..................................................................................................... 9

1.1.2. Acompañamiento ..................................................................................................... 10

1.1.3. Solista (Instrumento/voz) ........................................................................................ 11

1.2. El concepto del sonido .........................................................................................12

1.2.1. Parámetros del sonido ............................................................................................. 13

1.2.2. Clasificación de sonidos ........................................................................................... 18

1.2.3. La voz ........................................................................................................................ 22

1.3. Análisis espectral .................................................................................................24

1.3.1. Frecuencia de muestreo ........................................................................................... 24

1.3.2. Distintas formas de la transformada de Fourier ................................................... 25

1.3.3. DFT2.......................................................................................................................... 29

2. OBJETIVOS .........................................................................................................31

3. ESTADO DEL ARTE ..........................................................................................33

3.1. Diferentes usos de la NMF ..................................................................................34

3.1.1. Factorización de matriz no negativa (NMF) [3] .................................................... 34

3.1.2. Factorización de matriz no negativa para la separación de fuentes de

sonido (NMF)[4] .................................................................................................................... 36

3.1.3. NMF en separación de fuentes de audio [5] .......................................................... 44

3.1.4. Factorización matricial no negativa en varias etapas [6] ..................................... 45

3.2. Uso de la 2DFT para la identificación de covers [7] ..........................................46

3.3. Separación armónica/percusiva del sonido en dos etapas (HPSS) [8] .............51

3.4. Diferentes usos de REPET ..................................................................................54


2

3.4.1. Técnica de extracción de patrones de repetición (REPET) [9] ............................ 54

3.4.2. REPET-SIM online for real-time speech enhancement [10] ............................... 61

3.5. Detección y filtrado de ruido cuasi periódicos [11] ............................................70

4. MATERIALES Y MÉTODOS .............................................................................72

4.1. DFT2 73

4.1.1. Cálculo espectrograma ............................................................................................ 73

4.1.2. Cálculo espectrograma bidimensional ................................................................... 74

4.1.3. Repetición → picos en el dominio scale-rate .......................................................... 74

4.2. REPET-SIM .........................................................................................................83

4.2.1. Matriz similitud ........................................................................................................ 83

4.2.2. Mediana .................................................................................................................... 85

5. RESULTADOS Y DISCUSIÓN ..........................................................................93

5.1. Base de datos utilizada ......................................................................................................94

5.2. Métricas (SDR, SIR, SAR) ................................................................................................95

5.3. Setup (Inicialización) ........................................................................................................97

5.4. Análisis de los resultados obtenidos .................................................................................98

6. CONCLUSIONES ..............................................................................................106

7. LÍNEAS FUTURAS ...........................................................................................108

8. REFERENCIAS BIBLIOGRÁFICAS ...............................................................109

9. ANEXO – GUI Y MANUAL DE USUARIO ....................................................111


3

ÍNDICE DE ILUSTRACIONES

Ilustración 1. Variación de la frecuencia típica de un violín en nota “La mayor”. ...................9

Ilustración 2. Variación de frecuencia en el tiempo típica de una voz. ...................................10

Ilustración 3. Ejemplo de propagación de ondas de sonido. ...................................................13

Ilustración 4. Ejemplo del tono puro de un teléfono (1000 Hz), en conjunto con sus

respectivos armónicos (3000 Hz y 5000 Hz). ...........................................................................15

Ilustración 5. Ejemplo la misma nota tocada por diferentes instrumentos (diferentes timbres).

...................................................................................................................................................17

Ilustración 6. Ejemplo de sonido monofónico.........................................................................19

Ilustración 7. Ejemplo de sonido polifónico. ..........................................................................19

Ilustración 8. Ejemplo de sonido armónico. ............................................................................21

Ilustración 9. Ejemplo de sonido inarmónico. .........................................................................22

Ilustración 10. Módulo 2DFT (dominio scale-rate). ...............................................................29

Ilustración 11. Foreground 2DFT (dominio scale-rate). .........................................................30

Ilustración 12: Algoritmo para tratar la separación de audio por NMF. .................................36

Ilustración 13. Demostración de trazas de música en clasificaciones erronas de la NMF. .....40

Ilustración 14. Algoritmo de separación de instrumentos desde la mezcla musical. ..............41

Ilustración 15. Algoritmo de separación una componente en un tono y en un no-tono basado

en 𝑃𝑠. ........................................................................................................................................42

Ilustración 16. Esquema básico de la metodología por NMF. ................................................44

Ilustración 17. Descripción de la metodología utilizada para la identificación de covers. .....48

Ilustración 18. Matriz de similitud construida usando el cálculo de la distancia euclidiana

entre las secuencias de 2DFT. ...................................................................................................49

Ilustración 19. Descripción del algoritmo para el cálculo del periodo 𝑝 para cada espectro 𝑏.

...................................................................................................................................................57

Ilustración 20. Descripción del algoritmo para el método REPET. ........................................60

Ilustración 21. Implementación online de REPET-SIM. ........................................................63

Ilustración 22. Representación gráfica de los resultados obtenidos en el estudio, empleando

los diferentes algoritmos. ..........................................................................................................64

Ilustración 23: Flujo de trabajo del algoritmo de separación de voz de canto para audios

monoaurales. .............................................................................................................................66


4

Ilustración 24:. Ejemplo de resultados de RPCA. ...................................................................68

Ilustración 25:. Ejemplo de ruido cuasi-periódico. .................................................................70

Ilustración 26. Módulo en el dominio scale-rate de la parte repetitiva de la señal de audio. .75

Ilustración 27. Módulo en el dominio scale-rate de la parte repetitiva de la señal de audio. .76

Ilustración 28. Módulo en el dominio scale-rate de la parte no repetitiva de la señal de audio.

...................................................................................................................................................77

Ilustración 29. Módulo en el dominio tiempo-frecuencia de la parte repetitiva de la señal de

audio. .........................................................................................................................................78

Ilustración 30. Módulo en el dominio tiempo-frecuencia de la parte no repetitiva de la señal

de audio. ....................................................................................................................................79

Ilustración 31. Espectrograma de la parte repetitiva de la señal de audio...............................81

Ilustración 32. Espectrograma de la parte no repetitiva de la señal de audio. .........................82

Ilustración 33. Modelo de espectrograma repetitivo 𝑊. .........................................................84

Ilustración 34. Modelo de espectrograma repetitivo 𝑊. .........................................................86

Ilustración 35. Modelo de espectrograma repetitivo 𝑊’. ........................................................88

Ilustración 36. Máscara de la parte repetitiva. .........................................................................89

Ilustración 37. Máscara de la parte no repetitiva. ....................................................................90

Ilustración 38. Espectrograma de la parte repetitiva. ..............................................................91

Ilustración 39. Espectrograma de la parte no repetitiva. .........................................................92

Ilustración 40. Composición de todas las pistas evaluadas. ....................................................94

Ilustración 41. Media de resultados de la base de datos DSD100. ..........................................98

Ilustración 42. Aspecto inicial de la interfaz. ........................................................................112

Ilustración 43. Selección del audio deseado. .........................................................................114

Ilustración 44. Selección del método y parámetros. ..............................................................115

Ilustración 45. Resultados obtenidos tras la realización del método. ....................................116

Ilustración 46. Guardado de los audios generados. ...............................................................117

Ilustración 47. Aspecto inicial de la interfaz del software. ...................................................118

Ilustración 48. Selección del audio deseado. .........................................................................119

Ilustración 49. Cargado del audio seleccionado. ...................................................................120

Ilustración 50. Elección del método a implementar, en este caso el de la 2DF junto con sus

parámetros. ..............................................................................................................................121

Ilustración 51. Elección del método a implementar, en este caso el de REPET-SIM junto con

sus parámetros. ........................................................................................................................122


5

Ilustración 52. Método ya realizado. .....................................................................................123

Ilustración 53. Guardado de los audios generados. ...............................................................124

ÍNDICE DE TABLAS

Tabla 1. Resultados obtenidos por el método REPET-SIM.....................................................64

Tabla 2. Resultados de los primeros 30 segundos de 10 canciones evaluadas. .......................99

Tabla 3. Resultados de los segundos 30 segundos de 10 canciones evaluadas. ......................99

Tabla 4. Resultados de las 10 canciones particularizadas. .....................................................100


6

GLOSARIO DE TÉRMINOS

BSS Blind Source Separation (Separación de fuentes ciega).

FFT Fast Fourier Transform (Transformada Rápida de Fourier).

ICA Independent Component Analysis (Análisis de Componentes Independientes).

IL Intensity Level (Nivel de intensidad).

ISI Inter-Symbol Interference (Interferencia Entre Símbolos).

ISTFT Inverse STFT (STFT Inversa).

MIR Music Information Retrieval (Recuperación de información musical).

NMF Non-negative Matrix Factorization (Factorización de Matrices no negativas).

NMPCF Non-negative Matrix Partial Co-Factorization (Cofactorización Parcial de matrices

No negativas).

REPET REpeating Pattern Extraction Technique.

SAR Source to Artifacts Ratio (Relación señal a artefactos).

SDR Source to Distortion Ratio (Relación señal a distorsión).

SIR Source to Interferences Ratio (Relación señal a interferencias).

SNR Source to Noise Ratio (Relación señal a ruido).

SPL Sound Pressure Level (Nivel de presión sonora).

SSS Sound Source Separation (Separación de fuentes acústicas).

STFT Short-Time Fourier Transform (Transformada de Fourier en Tiempo Corto).


7

Capítulo 1

1. INTRODUCCIÓN

El oído humano tiene la capacidad de distinguir sonidos específicos dentro de un

escenario auditivo en el que intervienen muchos otros sonidos, a diferencia de las máquinas.

Esto hace posible escoger un sonido en concreto y seguirlo mentalmente a lo largo del tiempo.

Como ejemplo de este hecho se tiene el de una canción, el oyente es capaz de identificar el

sonido proveniente de un instrumento en concreto y concentrarse en él a lo largo de la canción.

Hoy día se está automatizando este proceso mediante la separación de fuentes acústicas

o sonoras, a través de la ciencia del MIR (Musical Information Retrevial). Aunque se han

alcanzado grandes progresos, todavía no se ha solventado completamente esta problemática.

Esta separación de fuentes sonoras hace posible ejecutar el procedimiento que realiza el

oído humano, pero haciéndolo a través de un procesado digital de señales, a partir de una señal

polifónica y multitímbrica.

Esta necesidad que se traduce en distintas aplicaciones, como por ejemplo la

implementación de karaokes, es la que lleva a la realización de este trabajo de fin de grado, en

el que se trata el mezclado musical para intentar conseguir la separación de las distintas fuentes

que conforman el mismo.


8

1.1. Introducción a la música Occidental

El etnomusicólogo alemán Walter Wiora define en su obra The Four Ages of Music (Las

cuatro edades de la música, 1967) [1] la música Occidental como una cultura musical apoyada

en la notación musical y caracterizada por el desarrollo de la polifonía (la cual es la música que

combina los sonidos de varias voces o instrumentos simultáneos de manera que forman un todo

armónico), la armonía (la cual es el conjunto de acordes que se tocan como acompañamiento

de una melodía) y las grandes formas musicales. Se trataría de un fenómeno fundamentalmente

europeo originado en la Edad Media y que se habría extendido por todo el mundo hasta nuestros

días.

A diferencia de la música oriental, en donde el sonido alcanza una dimensión

“espiritual” o “mística”, en la música occidental el sonido es considerado simple materia prima.

Además, en la música oriental la melodía es el elemento principal y todo lo demás depende de

ella, la armonía no existe como tal, a diferencia de en la música occidental, aunque a veces la

polifonía y la heterofonía cumplen ese papel.

Una de las características musicales que comparten la mayoría de los países asiáticos,

como se puede apreciar en el caso de China y Japón, Mongolia, Corea y Vietnam, influenciados

por la música China, es que su es cala básica es una escala pentatónica, es decir, una escala o

modo musical constituido por una sucesión de cinco sonidos, alturas o notas diferentes dentro

de una octava. Sin embargo, la escala musical más común es India es La-Si-Do#-Re-Mi-Fa-

Sol, la cual puede ser utilizada de diversas maneras al poder ser armonizada en una progresión

de acordes.

Por otro lado, los instrumentos originarios de la cultura oriental tienen un sonido muy

característico, y se clasifican mayoritariamente en instrumentos de viento-madera, instrumentos

de percusión, instrumentos de cuerdas punteadas, e instrumentos de cuerdas frotadas. Además,

estos instrumentos de cuerda se pueden considerar el origen de la familia de cuerda frotada de

la actualidad, donde se sitúan los violines, violas, chelos y contrabajos).

Además, un rasgo que diferencia notablemente a la música oriental de la occidental es

el empleo de técnicas que modifican la voz y la alejan de la natural, como son el falsete, los

glissandos, los vibratos y los melismas, las cuales producen timbres vocales muy característicos


9

y alejados de la voz natural occidental.

Pese a estas diferencias, se pueden apreciar influencias de la música oriental sobre la

occidental, como, por ejemplo, sin ir más lejos, en la música española, por su relación con Al-

Ándalus. Y, además, debido al exotismo propio de la Europa del siglo del siglo XIX y principios

del XX, se puede considerar que la música europea de esta época tiene cierta influencia de la

música oriental.

En la actualidad lo oriental sigue estando presente en la música occidental en cuanto a

la utilización de modos, escalas o rítmica. Esto se ve de forma clara en un nuevo género que

tuvo lugar en los años 60 con la influencia india en el rock, el raga rock. También se lleva lo

oriental en la música pop.

1.1.1. Repetición musical

La melodía, por lo general, no está formada por un conjunto de notas o sonidos

aleatorios, sino que estos suelen seguir un patrón o una repetición con el objetivo de guardar la

armonía y ser agradables para el sonido humano. Equivale a la sintaxis del lenguaje. Por

ejemplo, en la ilustración 1, vemos que una nota “La mayor” en violín se repite periódicamente:

Ilustración 1. Variación de la frecuencia típica de un violín en nota “La mayor”.


10

Por otra parte, la voz tiende a tener un patrón más caótico y con menor repetitividad:

Ilustración 2. Variación de frecuencia en el tiempo típica de una voz.

Los valores de frecuencia varían según la naturaleza de cada instrumento y de cada voz,

es posible que, para diferentes modelos de violín, constituidos de materiales diferentes, se

obtengan distintos valores de frecuencia, pero siempre con un patrón armónico (ver ilustración

1), mientras que en la ilustración 2 se puede ver como no existe repetitividad dentro de un

periodo dado, comportamiento típico de una voz. Esta es la mayor diferencia que presentan la

melodía del canto y basado en este hecho el algoritmo puede realizar la separación sonora de

ambas partes, detectando los elementos más repetitivos (melodía, acompañamiento musical) a

diferencia de los más aleatorios y no repetitivos (la voz), y así poder atenuar uno de ellos y

separarlos de esta forma.

1.1.2. Acompañamiento

En la música se hace referencia a la parte rítmica o armónica que forma parte de la

melodía de una canción o de una pieza instrumental, por ejemplo, el acompañamiento de una

melodía vocal o un solo instrumental puede ser una pieza simple de un instrumento como el

piano, la flauta, la harmónica, el órgano, la guitarra, el violín, entre otros. Por lo tanto, el

acompañamiento musical es el arte de tocar junto con un solista o en conjunto, a menudo

conocido como vocalista, en forma de apoyo en la música que se desempeña.


11

1.1.3. Solista (Instrumento/voz)

En la música, el solo o solista es una pieza musical, o parte de aquella, en la cual solo

aparece una voz o un instrumento. Por lo tanto, puede corresponder a un cantante o a un único

músico que realiza su llamado “solo” con su instrumento.


12

1.2. El concepto del sonido

Según la física [2] el sonido son vibraciones que pueden propagarse a través de un medio

gaseoso, líquido, sólido o de un material elástico que permanece produciendo el movimiento

vibratorio de un cuerpo. Las ondas de sonido son generadas por una fuente que, por lo general,

vibra (por ejemplo, un altavoz o cuerda de algún instrumento); al vibrar continuamente las

vibraciones son propagadas desde la fuente al medio a la velocidad del sonido. Este fenómeno

forma una onda de sonido a través del medio la cual se va disipando en el tiempo y en el espacio

hasta ser imperceptible. Dicha onda de sonido puede ser expresada matemáticamente por

ejemplo como:

𝑋(τ) = 𝐿 ∗ 𝑠𝑖𝑛(2 ∗ 𝜋 ∗ 𝑓0 ∗ τ) (1)

donde 𝐿 es la amplitud (medida en metros), τ es el tiempo (medido en segundos) y 𝑓0 la

frecuencia fundamenta (medida en Hz).

Por otro lado, el oído humano solamente puede percibir un umbral de frecuencias de

sonido, que va desde los 20 Hz hasta los 20 kHz, mientras que aquellas ondas sonoras por

encima de los 20kHz, denominadas ondas ultrasónicas o ultrasonido, no son percibidas por el

oído humano. En este proyecto se estudiará el sonido que es perceptible por el cerebro humano

que se forma en el momento en que las oscilaciones de la presión del aire son transformadas en

ondas mecánicas dentro del oído humano, para luego ser captadas por el cerebro. La

transformación del sonido ocurre, de igual forma, en los sistemas fluidos, donde el sonido

fluctúa según la presión, mientras que para los medios sólidos conlleva ciertos cambios en el

estado de tensión del medio.

El sonido al propagarse implica un traslado de energía de un punto a otro, pero sin el

traslado de materia, como se explicó anteriormente esta propagación procede en formas de

ondas mecánicas a través de uno de los medios mencionados con antelación. Sin embargo, en

el vacío las ondas de sonido no se propagan, caso contrario a las ondas electromagnéticas. La

energía del sonido se puede cuantificar en unidades de energía trasmitidas por unidad de tiempo.

Para culminar esta sección es importante señalar que el sonido puede propagarse de dos

maneras fundamentales dependiendo de la posición en que se perciba, una de ellas es la


13

propagación por ondas longitudinales y transversales.

Ilustración 3. Ejemplo de propagación de ondas de sonido.

1.2.1. Parámetros del sonido

La onda de sonido se puede caracterizar por una serie de magnitudes objetivas:

- Presión

- Frecuencia

- SPL (Sound Pressure Level)

- IL (Intensity Level)

Los rangos objetivos distinguibles por oído humano son [2]:

- Presiones: 0.0001 µbar → 1000 µbar

- Frecuencias: 20 Hz → 20 kHz

Sin embargo, para una misma onda de sonido, la sensación auditiva, es decir, cómo

percibe el oído dicho sonido, puede variar de una persona a otra. Estas son las características

subjetivas más significativas del sonido:

- Tono o pitch

- Intensidad sonora

- Timbre


14

- Duración

A continuación, se describen una serie de características del sonido.

1.2.1.1. Frecuencia fundamental (‘pitch’)

El pitch (𝑋(τ)) o también conocido como tono en la acústica puede ser reconocido por

una vibración regular. Un simple tono tiene una única frecuencia, aunque su intensidad puede

variar. Un tono complejo consta de dos o más tonos simples, llamados armónicos. El tono de

frecuencia más baja se llama fundamental, los otros armónicos, los cuales son múltiplos de la

frecuencia fundamental.

Un tono puro o fundamental corresponde a una onda de comportamiento senoidal, como

la vista anteriormente Ec. 1.

Los tonos puros no existen en el mundo real, sin embargo, cualquier onda periódica se

puede ser representada como suma de tonos puros de distintas frecuencias.

Para obtener la serie de compones parciales armónicos, (o también llamados simplemente

armónicos), se le debe aplicar el análisis de Fourier. De la serie de resultados de dicho análisis

el primer pico obtenido es el fundamental y mientras que los que cuentan con un numero de

orden de 2 tienden a causar alguna sensación similar al primer tono (debido a que están

separados por una distancia de octava, el oído humano los percibe como notas similares, pero

más agudas). El resto de picos parciales armónicos se perciben como otros sonidos diferentes

del fundamental, lo que termina enriqueciendo el sonido.


15

Ilustración 4. Ejemplo del tono puro de un teléfono (1000 Hz), en conjunto con sus respectivos

armónicos (3000 Hz y 5000 Hz).

La forma en que es percibido el tono es lo que se conoce como altura del sonido, que

determina cómo de bajo o alto es ese sonido, aunque es normal que se utilice tono como

sinónimo de altura.

1.2.1.2. Intensidad

La intensidad sonora es coloquialmente lo fuerte que se percibe un sonido. Esta se puede

definir como [2]:

𝐼 =𝑃

𝐴

(2)

Donde:

𝐼= Intensidad del sonido (W/m2)

𝑃=Potencia acústica (W)


16

𝐴 = Área de dirección de propagación (m2)

Otra forma de calcular la intensidad de sonido es expresarla en función de la presión

acústica y densidad del medio de propagación

𝐼 =𝑝2

2𝑍

(3)

Siendo:

𝑍 = 𝜌𝑐 con 𝜌 densidad del medio en (kg/m3),

𝑐 = velocidad de propagación del sonido en (m/s)

𝑝 = Presión del medio de propagación (Pa)

1.2.1.3. Timbre

El timbre es un atributo que no puede ser medido bajo una escala numérica, pero si puede

ser identificado en una escala perceptual asociada al concepto de color del sonido, y que está

estrechamente vinculada a la diferenciación de instrumentos y al reconocimiento de fuentes

sonoras. Por ejemplo, cuando existen dos instrumentos que tocan la misma nota en el mismo

tono, duración e intensidad, sin embargo, cada uno contará con un timbre diferente, como

podemos ver en la ilustración 5. Es difícil caracterizar el timbre de cada uno de los instrumentos

porque se requieren varios parámetros para describirlo, como el número de parciales, el

temporal y la envolvente espectral, las irregularidades espectrales o el tiempo de ataque.


17

Ilustración 5. Ejemplo la misma nota tocada por diferentes instrumentos (diferentes

timbres).


18

1.2.1.4. Onset/Offset (comienzo/fin)

El Onset es el instante de tiempo en el que una nota inicia, mientras que el Offset es el

instante de tiempo en que esta culmina.

La duración de un sonido o una nota musical comienza con su Onset y finaliza con su

Offset.

1.2.2. Clasificación de sonidos

Una vez conocidas las características anteriores, se continúa con la clasificación de los

sonidos desde diferentes puntos de vista:

1.2.2.1. Monocanal, estéreo y multicanal

Las señales monocanal están constituidas por la sumatoria de todas las fuentes de

sonidos que son captadas en la grabación, lo que dificulta el análisis y procesamiento de las

señales debido a que no contienen toda la información en un único canal, lo cual impide adquirir

información espacial de las fuentes. Estas señales también son conocidas como monoaurales.

Por otro lado, las señales estéreo son aquellas formadas por dos canales y aunque estos

puedan ser dos canales monoaurales independientes, habitualmente la en uno está relacionado

con la señal en otro. Al emplear dos canales se está cuantificando mayor cantidad de

información espacial sobre la ubicación relativa de las fuentes de sonido.

Para finalizar, cabe resaltar que los sonidos multicanal son aquellos que son generados

a partir de al menos cuatro canales independientes. También son conocidos como surround o

sonido envolvente, y requieren de un equipamiento especial para su reproducción, por ejemplo,

es necesario disponer de una mayor cantidad de altavoces, puesto que, además del canal

izquierdo y derecho (señales estéreo), se cuenta con la opción de reproducir un canal


19

especialmente para la voz y otro que contiene sonidos de muy baja frecuencia.

1.2.2.2. Monofónico y polifónico

Las definiciones de monofónico y polifónico en la práctica pueden tender a ser borrosas

y a confundirse entre ellas, por ello se prefiere traer un ejemplo: la monofonía puede ser una

sola pista con una única melodía vocal no acompañada, la pista puede contener una o más voces

sin acompañamiento y aun así se puede considerar monofónica, por otra parte, el sonido

polifónico significa música con más de una parte, por lo que esto indica notas simultáneas. Es

decir, explicado de otra forma, monofónico corresponde a un único sonido (por ejemplo, una

nota de piano) y polifónico corresponde a más de un sonido a la vez (por ejemplo, varias notas

de piano simultáneas). En las ilustraciones 6 y 7 podemos ver las diferencias de monofonía y

polifonía:

Ilustración 6. Ejemplo de sonido monofónico.

Ilustración 7. Ejemplo de sonido polifónico.


20

1.2.2.3. Monotimbre y multitimbre

Según el número de instrumentos que componen una señal, los sonidos se clasifican en

monotimbre y multitimbre.

El concepto de mono timbre se encuentra relacionado directamente con las obras

compuestas por señales que vienen de instrumentos que cuentan con el mismo timbre o

envolvente espectral. A diferencia de los sonidos multitimbre como los que están formados pro

señales procedentes de dos o más instrumentos que presentan distinto timbre.

La distinción entre sonidos monofónicos y monotímbricos es relevante, puestos que

estos no pueden ser excluidos ni borrados de las pistas de audio a procesar. Las señales que se

componen exclusivamente por un sonido de guitarra es una señal monotímbrica, pero será

monofónica cuando suene una única nota y por otra parte polifónica cuando suene dos o más

notas del mismo instrumento. Similarmente pasa para distinguir sonidos multitímbricos. A

pesar de que se estén tocando diferentes instrumentos, si la nota interpretada por todos es la

misma, entonces se puede afirmar que la señal es monofónica y si tiene diferentes notas

musicales entonces la señal es multitímbrica y polifónica.

1.2.2.4 Armónico e inarmónico

Los sonidos armónicos son los sonidos compuestos por un comportamiento sinusoidal,

cuyas frecuencias fundamentales están estrechamente relacionadas entre sí de forma armónica,

lo que quiere decir que la energía de sus componentes está situada en múltiplos de su frecuencia

fundamental, tal y como podemos ver en la Ec. 4:

𝑋(τ) = 𝑠𝑖𝑛(2 ∗ 𝜋 ∗ 𝑓0 ∗ τ) +𝑠𝑖𝑛(2∗2∗𝜋∗𝑓0∗𝜏)

2+

𝑠𝑖𝑛(3∗2∗𝜋∗𝑓0∗τ)

3 (4)

De tal manera que el tono fundamental es 𝑓0 y sus armónicos están en sus múltiplos 2 y

3 y cuyas amplitudes son la mitad y la tercera parte respectivamente.

El sonido inarmónico es aquel que no es periódico ni cuasi periódico. A diferencia de

en el sonido armónico, la frecuencia no está concentrada en la fundamental y sus múltiplos,


21

sino que está distribuida en otros sitios.

Ejemplo de sonido armónico:

Ilustración 8. Ejemplo de sonido armónico.


22

Ejemplo de sonido inarmónico:

Ilustración 9. Ejemplo de sonido inarmónico.

1.2.3. La voz

La voz 𝑣(𝑡) es el sonido producido por el aparato fonador humano. La emisión

consciente de sonidos producidos utilizando el aparato fonador se conoce como canto. El canto

o singing-voice tiene un rol importante en el arte de la música, porque es el único instrumento

musical capaz de integrar palabras a la línea musical.

El sonido vocal se produce en una acción física combinada. Las partes son el apoyo, la

función combinada de mucosidad, cuerdas y músculos vocales y de la resonancia y supresión

de los armónicos del sonido emitido de la laringe al tracto vocal (boca, lengua, cabeza).

https://es.wikipedia.org/wiki/Sonido

https://es.wikipedia.org/wiki/Aparato_fonador

https://es.wikipedia.org/wiki/Aparato_fonador

https://es.wikipedia.org/wiki/Canto

https://es.wikipedia.org/wiki/M%C3%BAsica

https://es.wikipedia.org/wiki/Instrumento_musical

https://es.wikipedia.org/wiki/Instrumento_musical

https://es.wikipedia.org/wiki/Palabra

https://es.wikipedia.org/wiki/Apoyo_(canto)

https://es.wikipedia.org/wiki/Resonancia_(mec%C3%A1nica)

https://es.wikipedia.org/wiki/Supresi%C3%B3n

https://es.wikipedia.org/wiki/Supresi%C3%B3n

https://es.wikipedia.org/wiki/Arm%C3%B3nico

https://es.wikipedia.org/wiki/Laringe

https://es.wikipedia.org/w/index.php?title=Tracto_vocal&action=edit&redlink=1

https://es.wikipedia.org/w/index.php?title=Tracto_vocal&action=edit&redlink=1


23

Matemáticamente, se compondría de la convolución de una señal 𝑥(𝑡) con 𝐻(𝑡):

𝑣(𝑡) = 𝑥(𝑡) ∗ 𝐻(𝑡) (5)

Los sonidos vocales se denominan fonemas. Estos son la unidad fonológica mínima de

una lengua, pues no pueden ser descompuestos en unidades más pequeños. Los fonemas al

combinarse forman palabras y enunciados. Como se describe a continuación, escriben fonemas

sordos y sonoros.

1.2.3.1. Fonemas sordos

Los fonemas sordos son aquellos fonemas en los cuales no vibran las cuerdas vocales,

y son los siguientes: /ch/, /f/, /j/, /k/, /p/, /s/, /t/, /z/.

1.2.3.2. Fonemas sonoros

Los fonemas sonoros son aquellos en los cuales vibran las cuerdas vocales. Son los

siguientes: /b/, /d/, /g/, /l/, /ll/, /m/, /n/, /ñ/, /r/, /rr/, /y/, /z/.


24

1.3. Análisis espectral

El análisis de espectro es una de las numerosas técnicas estadística necesarias para la

caracterización y análisis de datos secuenciados. Los datos secuenciados son observaciones que

se han tomado en una, dos o más dimensiones del espacio y/o tiempo. Los ejemplos pueden ser

observaciones de la densidad de población a lo largo de una carretera, o de lluvias en un área, o

de nacimientos diarios en un hospital. Una limitación importante es que las observaciones deben

estar igualmente espaciadas para que el análisis proceda de manera eficiente. Asimismo, el

análisis espectral se refiere a la descomposición de una secuencia en oscilaciones de diferentes

longitudes o escalas. Mediante este proceso, las observaciones en lo que se denomina dominio

de datos se convierten en dominio espectral. Las razones para hacer esto son que: (a) algunas

formas de manipulación son más fáciles en el dominio espectral; y (b) las escalas reveladas son

descriptores estadísticos necesarios de los datos y pueden sugerir factores importantes que

afectan o producen dichos datos. Los siguientes apartados proporcionarán breves descripciones

de: (a) análisis de Fourier y su uso en la manipulación de datos que se supone que son periódicos;

(b) estadísticas relevantes; y (c) un enfoque para el análisis espectral de datos no periódicos que

incluye un ejemplo.

1.3.1. Frecuencia de muestreo

La frecuencia de muestreo 𝑓𝑠 (medida en Hz) no es más que la cantidad de muestras

tomadas en una sección de tiempo de una señal continua, con el objetivo de generar una señal

discreta; en el proceso es necesario convertir la señal analógica en digital. Aunque también se

usan otras magnitudes, este parámetro se mide en Hz o múltiplos suyos, como el kHz.

En audio, el máximo de audiofrecuencia que puede ser percibida por el ser humano con

un oído saludable, se encuentra alrededor de los 20 kHz, por lo que en teoría una frecuencia de

muestra de 40000 sería suficiente para su muestreo; no obstante, el estándar que introduce el

CD, fue establecido en 44100 muestras por segundo, debido a que una frecuencia superior

permite compensar los filtros utilizados durante la conversión analógico-digital [3].

https://es.wikipedia.org/wiki/Audio

https://es.wikipedia.org/wiki/Audiofrecuencia


25

A pesar de que el estándar del CD fue establecido en 44100 Hz muestras por segundo

no quiere decir que dicha frecuencia sea utilizada por todos los equipos. Por ejemplo, los

sistemas domésticos de baja calidad solo pueden utilizar hasta 22050 tasas de muestras por

segundo de 11025 muestras por segundo. Adicional a esto, las tarjetas informáticas emplean

frecuencias por encima o por debajo de este estándar, que por lo general son seleccionadas en

función de algunas necesidades concretas (sobre todo, en aplicaciones de audio profesional).

1.3.2. Distintas formas de la transformada de Fourier

En el transcurrir de los últimos años se han ido desarrollando y evolucionando diferentes

métodos y técnicas de procesamiento digital, para la detección, medición y evaluación de

funciones que posteriormente se aplicaron al tratamiento de señales. Por ejemplo, en el análisis

espectral de una señal que se pretende analizar a detalle el comportamiento y aporte de sus

componentes armónica en el dominio de la frecuencia; para determinar un espectro a partir de

esta información se puede recurrir a la transformada de Fourier (FT), sin embargo este

procedimiento tiene limitaciones para ofrecer información en el tiempo; es decir que no puede

indicar los instantes en los que ocurren ciertos eventos importantes para un señal determinada,

es por ello que para tener una localización temporal de los componentes espectrales se necesitan

otras transformadas, que proporcionen una representación tiempo-frecuencia de una señal no

estacionaria, dichas transformadas serán descritas en este apartado.

FOURIER

La transformada de Fourier (también abreviada FT) es un procedimiento matemático

capaz de descomponer una función en las frecuencias que la integran, de forma similar que un

prisma descompone la luz en distintos colores y longitudes de onda. La función que inicialmente

se define en el tiempo 𝑓(𝑡) hace referencia a la transformada en el dominio de la frecuencia

F(w), a la cual se le llama transformada de Fourier o serie de Fourier cuando la función es

periódica. Fourier postuló que es posible expresar una función como la sumatoria de senos y

cosenos de distintas frecuencias y amplitudes hasta poder determinar la función original. Esta

metodología es implementada inicialmente en funciones periódicas, pero es capaz de extenderse

a funciones no periódicas haciendo tener a infinito su periodo (𝑇 → ∞).


26

La Transformada de Fourier (Abreviada como TF)

La transformada de Fourier de una función se puede calcular haciendo que el período

de la función a transformar tienda a infinito como:

𝐶(𝑤) = ∫ 𝑡(𝑡)𝑒−𝑖𝑤𝑡𝑑𝑡∞

−∞

(5)

Como se observa en la Ec. 5 aparece una integral impropia en los coeficientes, que

también es conocida como la transformada de Fourier, esta resulta ser de gran importancia en

el análisis de Fourier y en muchas otras aplicaciones.

Transformada Discreta de Fourier DFT

De manera similar a la serie, la transformada de Fourier se encarga de descomponer la

señal en funciones de seno y coseno de diferentes frecuencias y amplitudes. Dicha transformada

lleva a cabo la solución de integrales que hacen el análisis continuo para todo tiempo. Sin

embargo, en la práctica esto no siempre es posible por el desconocimiento de la función original

o por el posible consumo de tiempo y memoria necesarios, puesto que solo se poseen datos

discretos que resultan de una captura. En las aplicaciones de ingeniería y tratamiento de datos

provenientes de señales, resulta de mayor utilidad considerar el proceso de manera discreta y

no continua, puesto que los sistemas de adquisición de datos no son capaces de obtener ni

analizar el total de la información.


27

El cálculo de la DFT requiere la suma compleja de N multiplicaciones complejas para

cada una de las salidas. En total, 𝑁2 multiplicaciones complejas y 𝑁 ∗ (𝑁 − 1) sumas

complejas para realizar un DFT de 𝑁 puntos.

La Transformada Rápida de Fourier FFT

Son necesarias (𝑁2) operaciones aritméticas para la evaluación directa de la DFT. A

través de un algoritmo FFT es capaz de obtener el mismo resultado con sólo 𝑁 ∗ log (𝑁)

cantidad de operaciones. La FFT es el algoritmo que se emplea por excelencia para realizar la

DFT de una manera eficiente y rápida. El objetivo de este algoritmo es simplificar enormemente

el cálculo de la DFT introduciendo “atajos” matemáticos, como son el diezmado en tiempo y

frecuencia, para disminuir considerablemente la cantidad de operaciones. Con esto se logra

descomponer o fragmentar la transformada a tratar en otras más simples, y así sucesivamente

hasta llegar a transformadas de dos elementos en donde k puede tomar los valores 0 y 1. Al

resolver las transformadas más simples, estas se pueden agrupar en otras de nivel superior que

pueden resolverse de nuevo, y así sucesivamente hasta llegar al nivel más elevado. Al culminar

este proceso se ordenan los resultados obtenidos. Debido a que la transformada discreta de

Fourier inversa es análoga o similar a la transformada discreta de Fourier, con distinto signo en

el exponente y un factor 1/𝑁, cualquier algoritmo FFT se puede adaptar fácilmente para el

cálculo de la transformada inversa.

La Transformada Corta de Fourier STFT

La Transformada de Fourier enventanada también es conocida como Transformada de

Fourier de Tiempo Corto (STFT: Short Time Fourier Transform). La STFT recorre la señal en

función de las variables tiempo y frecuencia. Además, se encarga de dividir la señal en pequeños

segmentos para calcular la FT de cada segmento por separado, de tal forma que se logra una

representación tiempo-frecuencia de la señal para saber el valor de sus componentes en

resolución temporal y espectral; no obstante, la información de localización tiempo-frecuencia

sólo se puede obtener con una exactitud limitada, delimitada por el ancho de la ventana

empleada 𝑤(𝑛).


28

1.3.2.1. Espectrograma (FFT)

El espectrograma no es más que la consecuencia de calcular el espectro de tramas

enventanadas de una señal. Este consiste en un gráfico tridimensional en el cual se grafica la

energía del contenido de la frecuencia de la señal a medida que va cambiando a lo largo del

tiempo. De otra forma, es la evolución temporal del FFT aplicada a cada ventana de la señal

temporal.

El espectrograma consiste en recolectar un determinado número de muestras a través de

una ventana temporal, con unas dimensiones concretas. La ventana tendrá un tamaño

determinado según el tipo de análisis que se le realice a la señal (puede ser: armónico o

resonante).

Posteriormente, se procede a desplazar la ventana a lo largo del tiempo de la señal, para

recolectar otro número de muestras diferentes y, se vuelve a calcular el contenido frecuencial,

para después volver a representar las variables en la misma gráfica anterior. Esta operación se

repite sucesivamente a lo largo de la señal.

La sumatoria de las representaciones de las transformadas de Fourier de las ventanas

consecutivas, aporta un volumen importante de información en el dominio frecuencial de la

señal, y de la variación de la energía y la frecuencia en función del tiempo.

La forma más común de encontrar esta gráfica es con el tiempo en el eje de abscisas, las

frecuencias en el de ordenadas y la energía en dB en el plano tridimensional, aunque puede ser

graficada de maneras diferentes. La energía suele estar acompañada con una gama de colores

que muestran la variación de esta. Se suele trabajar con módulo o módulo al cuadrado (PSD,

Power Spectral Density).

https://es.wikipedia.org/wiki/Espectro_de_frecuencias

https://es.wikipedia.org/wiki/Se%C3%B1al_anal%C3%B3gica

https://es.wikipedia.org/wiki/Funci%C3%B3n_ventana

https://es.wikipedia.org/wiki/Arm%C3%B3nico


29

1.3.3. DFT2

1.3.3.1. Dominio scale-rate

En el método que se va a implementar para la consecución de los objetivos de este

trabajo de fin de grado, usamos la Transformada de Fourier Bidimensional (2DFT). En este

dominio, en el que tenemos una imagen de ejes llamados "scale-rate", cuyas unidades son bin,

a diferencia de en la Transformada de Fourier Unidimensional que trabajamos en imágenes con

ejes tiempo-frecuencia, podemos observar la energía correspondiente a cada bin. En este

dominio lo que vamos a buscar son los elementos que lo repiten, para así poder quedarnos con

ellos, por una parte, y por otra con el resto, lo que no se repite.

1.3.3.2. Repetición en la DFT2 → los picos en el dominio scale-rate (DFT2)

Las repeticiones de la función musical tratada se manifiestan en la DFT2 como unos

picos concentrados de energía. En la siguiente imagen se pueden ver claramente las zonas con

elementos repetidos (puntos amarillos):

Ilustración 10. Módulo 2DFT (dominio scale-rate).


30

En la siguiente imagen se pueden ver claramente las zonas con elementos no

repetidos, las cuales son las de puntos azul oscuro:

Ilustración 11. Foreground 2DFT (dominio scale-rate).


31

Capítulo 2

2. OBJETIVOS

La separación de fuentes sonoras permite extraer de manera aislada determinadas

fuentes de audio de interés a partir de la señal mezcla de audio que se encuentra disponible en

la escena acústica: línea de bajos, instrumento principal y rítmicos o la voz cantada (singing

voice). Este trabajo de fin de grado se centra en el desarrollo de un método para la extracción

de la voz cantada a partir de la señal mezcla que estará compuesta por singing voice e

instrumentos musicales (música). Concretamente, el método propuesto se basará en la

utilización de la transformada de Fourier bidimensional (2DFT) aplicada al espectrograma de

la señal mezcla disponible en la escena auditiva. Esto simula el comportamiento que el oído

humano es capaz de realizar a través de un procesado digital de señales. La idea básica consiste

en suponer que las propiedades de la 2DFT permiten atenuar la pista periódica (música)

respecto de la pista no periódica (singing voice). Una vez implementado dicho método, se

utilizará una base de datos de audio adecuada para la correcta evaluación del sistema

implementado utilizando métricas apropiadas. Finalmente, se realizará una interfaz amigable

para su utilización por parte del usuario final.

Para la consecución de los objetivos de este trabajo, ha sido necesario adquirir ciertos

conocimientos básicos sobre la música occidental, el sonido y el análisis espectral, los cuales

ya han sido descritos en el capítulo 1 de este documento.

Además, se ha hecho una recopilación y estudio de material bibliográfico que trata

técnicas relacionadas con las implementadas en este trabajo (se exponen en el capítulo 3 de

estado del arte), con la finalidad de poder comprender en qué estado se encuentra la

investigación que se quiere llevar a cabo, analizando y pormenorizando los diferentes métodos

que existen en la actualidad.

Tras esto, se explica detalladamente en el capítulo 4 el diseño e implementación del


32

método de extracción de fuentes sonoras basado en las propiedades de la 2DFT. También se

implementa otro método de separación de fuentes sonoras, el REPET-SIM, esta vez basado en

una matriz de similitud en el espectrograma de la transformada de Fourier unidimensional para

así poder comparar resultados en la evaluación posterior. Todo el desarrollo técnico de este

trabajo se ha implementado utilizando el entorno de programación MATLAB.

En el capítulo 5, se utiliza una base de datos de música adecuada al problema a resolver,

compuesta por instrumentos musicales y voz cantada, para evaluarla con las métricas adecuadas

y así poder sacar resultados.

En los capítulos 6 y 7 se ponen de manifiesto algunas conclusiones extraídas del

desarrollo de este trabajo, así como líneas futuras por las que se podrá seguir trabajando en este

campo.

Por último, como capítulo final se implementa una interfaz amigable que permite a un

usuario sin conocimientos de programación en MATLAB poder probar los métodos

desarrollados de una manera sencilla.


33

Capítulo 3

3. ESTADO DEL ARTE

Hasta la fecha de hoy se han desarrollado técnicas en profundidad para lograr la

separación de acompañamiento instrumental y voz. Para realizar esta separación se han

propuesto diferentes métodos, algunos de ellos se describirán posteriormente. Todos los

métodos empleados, incluyendo la utilización de filtros de mediana y matrices de similitud

hasta algoritmos más complejos como NMF (Factorización de Matriz no Negativa), NMPCF

(Non-negative Matrix Partial Co-Factorization), Sparse Coding o ICA (Independet

Component Analysis), tratan de efectuar algún tipo de separación, generalmente la obtención

de una señal que posea la información de la voz cantada y otra que incluya la de los

instrumentos que la acompañan. Adicionalmente, se ha intentado excluir la voz de las señales

con el propósito de crear karaokes y otras aplicaciones de ese estilo. En esta tesis, el propósito

de dicha separación será la obtención de la señal repetitiva (acompañamiento instrumental)

de la señal que contiene la voz.

En la siguiente sección se habla sobre la separación de instrumentos y voz empleando

diferentes métodos a los utilizados en este trabajo. Se resumen brevemente cada uno de ellos.


34

3.1. Diferentes usos de la NMF

3.1.1. Factorización de matriz no negativa (NMF) [3]

El método de separación de factorización de matriz no negativa se centra en extraer

principalmente la voz de la melodía. Es un enfoque basado en la discontinuidad local, en

particular, se utiliza para la separación de voz cantada basada en el supuesto de que el

espectrograma en la música se puede expresar con un número limitado de plantillas de

espectros.

La metodología consiste en extraer los valores de amplitud y tiempo del espectrograma

representándolos en una matriz X que es el producto de K x T, donde K es el valor de la

frecuencia y T el tiempo del marco de la frecuencia. La factorización de la matriz no negativa

X viene dada por:

X ≈ BG (6)

Donde B y G son los valores de ganancia de las matrices de dimensiones 𝐾𝑗 y 𝑇𝑗

respectivamente. J representa el número de componentes del conjunto matricial. Cada

componente 𝑋𝑗 es definido como producto del espectro 𝑏𝑗 correspondiente a la ganancia 𝑔𝑗,

entonces

Xj = 𝑏𝑗𝑔𝑗 (7)

Para resolver los problemas de minimización se propone inicializara el algoritmo con valores

positivos y aleatorios de la siguiente manera:

B ← B⨂

XBG ∗ 𝐺𝑇

1𝐺𝑇 G ← G⨂

XBG ∗ 𝐵𝑇

1𝐵𝑇

(8)

La discontinuidad espectral de cada componente se puede medir como la sumatoria y

normalización de las diferencias de cuadrados entre los elementos adyacentes:


35

ds(Xj) =∑ (𝐵𝑘,𝑗 − 𝐵𝑘−1,𝑗)2𝐾

𝑘=2

∑ 𝐵2𝐾𝑘=1 𝑘,𝑗

(9)

Una vez realizada la medición se genera un nuevo espectrograma X´ que es formado

por la sustracción de los datos arrojados y puede ser representada por la siguiente función:

𝑋´ = max (0, 𝑋 − ∑ 𝑋𝑗

𝑗=1…𝐽

)

(10)

En la segunda etapa del algoritmo los instrumentos de percusión son separados de la

mezcla de sonido basándose en la observación que muestra el espectrograma, dado a que estos

sonidos aparecen continuamente en la misma dirección espectral de forma discontinua. La

medición de la discontinuidad tempera puede sr medida como 𝑑𝑡(𝑋𝑗):

𝑑𝑡(𝑋𝑗) =∑ (𝐺𝑡,𝑗 − 𝐺𝑡−1,𝑗)2𝑇

𝑡=2

∑ 𝐺2𝑇𝑡=1 𝑡,𝑗

(11)

El tercer paso es obtener la señal de voz, para ello se debe substraer todos los

instrumentos de percusión de X´, para luego ser invertida al dominio del tiempo, donde la

señal de la melodía se obtiene sustrayendo la señal de voz de la mezcla de audio, a este proceso

se le denomina resintetizado. El algoritmo puede resumirse como:


36

Ilustración 12: Algoritmo para tratar la separación de audio por NMF.

3.1.2. Factorización de matriz no negativa para la separación de fuentes de sonido (NMF)[4]

Sea X el producto de las matrices no negativas KxT que representan la magnitud de

señales de la mezcla x, donde K representa el número de contenedores de frecuencia y T

representa el número de fragmentos de tiempo. La aproximación no negativa de la matriz X

viene dada por:

𝑋 ≈ 𝐵𝐺 (12)

Donde B y G son las matrices básicas y de ganancias, respectivamente, con

dimensiones KxJ y JxT, a su vez, J representa el número de componentes. Cada componte 𝑋𝑗

es definido como el producto del espectro básico 𝑏𝑗 (la columna j en B) y la correspondiente

ganancia temporal 𝑔𝑗

𝑋𝑗 = 𝑏𝑗𝑔𝑗 (13)

Donde j varia de 1 hasta J y es el índice del componte.

La factorización de la Ec. 13 a menudo se logra minimizando una función de costo


37

definida en X y BG, mientras se aplica la no negatividad. La divergencia de Kullback-Leiber

(K-L) es utilizada comúnmente en la fuente de separación y esto mejora el algoritmo:

𝐷(𝑋||𝐵𝐺) = ∑ ∑ 𝑋𝑘,𝑡

𝑇

𝑡=1

𝐾

𝑘=1

log (𝑋𝑘,𝑡

[𝐵𝐺]𝑘,𝑡− 𝑋𝑘,𝑡 + [𝐵𝐺]𝑘,𝑡

(14)

Este problema de minimización se resuelve aplicando las reglas de actualización

multiplicativa:

𝐵 ⟵ 𝐵 ⊗

𝑋𝐵𝐺 𝐺𝑇

1𝐺𝑇 𝐺 ⟵ 𝐺 ⊗

𝑋𝐵𝐺 𝐵𝑇

1𝐵𝑇

(15)

Donde ⊗ indica que las matrices se multiplicarán por cada elemento, 1 denota una

matriz todo en uno del mismo tamaño que X y T es la transposición de la matriz.

En varios de los algoritmos existentes, cada componente de las NMF se asume

idealmente que proviene de una fuente de sonido y, por tanto, se clasifica como vocal o

instrumental.

Clasificación de cada componte utilizando las mediciones espectrales y

temporales discontinuas

Este algoritmo cuenta con dos etapas, una para separar los instrumentos agudos de la

mezcla y otra para separar los instrumentos de percusión. La separación de los instrumentos

agudos está basada en la observación que proporciona el espectrograma a lo largo de la ventana

de FFT. Los instrumentos agudos tienen un tono estable por lo cual aparecen continuamente

en la misma dirección temporal y discontinuos en la dirección espectral; para filtrar los

instrumentos agudos la magnitud del espectrograma es descompuesta en un juego de

componentes dentro de una NMF y aquellos componentes que son espectralmente

discontinuos son eliminados.


38

La discontinuidad espectral para cada componte es medida por la suma y

normalización de las diferencias cuadradas entre los elementos adyacentes en su base

espectral. Específicamente, para cada componente 𝑋𝑗 la discontinuidad espectral medida

𝑑𝑠(𝑋𝑗) es definida como:

𝑑𝑠(𝑋𝑗) =∑ (𝐵𝑘,𝑗 − 𝐵𝑘−1)2𝐾

𝑘=2

∑ (𝐵𝑘,𝑗)2𝐾𝑘=1

(16)

Si el valor excede un umbral mayor a 0.4 (denotase la variable θ como umbral)

entonces el instrumento es considerado agudo, sin embargo, en diferentes literaturas utilizan

valores distintos según la frecuencia del instrumento a tratar.

Una magnitud nueva de espectrograma es formada 𝑋′ por la sustracción de todos los

agudos, la mezcla de salida del espectrograma 𝑋′ se puede escribir como:

𝑋′ = max (0, 𝑋 −∑ 𝑗 = 𝑗 … 𝐽

𝑑𝑠(𝑋𝐽) > 𝜃𝑠

𝑋𝑗)

(17)

Donde 0 es la matriz de puros ceros de las mismas dimensiones de X y máximos (Y,Z),

toman el elemento máximo de las matrices Y y Z, que son utilizadas para garantizar que no

haya elementos negativos en X’. Después que X’ es invertida al dominio del tiempo utilizando

la información de fase de la mezcla de sonido original, entonces es utilizada como entrada

para la segunda etapa del algoritmo.

En la segunda etapa del algoritmo, los instrumentos de percusión son separados de la

mezcla de sonidos, basados en las observaciones del espectrograma de ventana corta; las ondas

sonoras de los equipos de percusión aparecen continuamente en la dirección espectral y

discontinua en la dirección temporal. Por lo tanto, los componentes de NMF que son

temporalmente discontinuos pueden considerarse como provenientes de sonidos de percusión


39

y pueden ser eliminados usando un método similar de umbral de discontinuidad temporal,

concretamente para cada componente 𝑋𝑗, la ecuación que lo describe es:

𝑑𝑡(𝑋𝑗) =∑ (𝐺𝑘,𝑗 − 𝐺𝑘−1)2𝐾

𝑘=2

∑ (𝐺𝑘,𝑗)2𝐾𝑘=1

(18)

Entonces se puede decir que si el umbral es mayor a θ el instrumento se considera de

percusión.

El espectrograma de voz es obtenido por la sustracción de todos los instrumentos de

percusión de la matriz 𝑋′, luego es invertida de vuelta al dominio del tiempo usando la fase de

información de 𝑋′ para producir la voz de canto separada de v. La señal de música se puede

obtener restando v de la señal de mezcla x.

Uso de medidas locales de discontinuidad para refinar los componentes NMF

Para abordar el problema discutido anteriormente, se propuso un método para mejorar la

calidad de separación mediante el uso de medidas locales de discontinuidad de los

componentes NMF. Para explicar la idea primero es necesario considerar una etapa de

factorización del espectrograma donde es usado para clasificar los componentes de la NMF en

tonos y no tonos únicos. En esta etapa se informa que muchos de los componentes son

clasificados como sin tono y que todavía contienen sonidos de instrumentos agudos.

Un ejemplo se muestra a continuación, específicamente en el recuadro a y b, son

espectrogramas de los tonos músicas originales y voces respectivamente, mientras que en el

recuadro c se muestra el espectrograma de uno de los componentes del no tono. Se puede

observar que el componente que no fue clasificado como tono aún contiene trazas de música.


40

Ilustración 13. Demostración de trazas de música en clasificaciones erronas de la NMF.

Para refinar aún más este tipo de componentes, primero se debe identificar el contador

I de los picos más altos en su base espectral 𝑏𝑗, entonces el espectro local de discontinuidad 𝑃𝑠

alrededor de cada pico se puede calcular como:

𝑃𝑠(𝑖, 𝑗) =∑ (𝐵𝑘,𝑗 − 𝐵𝑘−1)2ℎ𝑖(𝑖)

𝑘=𝑙𝑜(𝑖)

∑ (𝐵𝑘,𝑗)2ℎ𝑖(𝑖)

𝑘=𝑙𝑜(𝑖)

(19)

Donde i=1…𝐼ℎ𝑖(i) es el índice del pico y el límite inferior 𝑙𝑜(i) y el límite superior

viene dado por:


41

𝑙𝑜(𝑖) = max (0, 𝑓𝑖 −1

2)

(20)

ℎ𝑖(𝑖) = min (𝑓𝑖 +1

2, 𝐾)

(21)

Donde 𝑓𝑖 representa la frecuencia del pico y l es el ancho del pico (en número de

frecuencia), el cual se supone constante para todos los picos.

El recuadro d de la ilustración mostrada anteriormente, muestra los valores de 𝑃𝑠 para

cada pico dentro de la base espectral 𝑏𝑗. En varios experimentos se observó que cuando alcanza

un punto máximo en 𝑃𝑠> θ (θ=0.4) pertenecen principalmente a tonos de instrumentos agudos

(denotados por los cuadros azules); de lo contrario, son voz, (denotada por los círculos rojos).

Después de esta observación, se propone eliminar los picos agudos con 𝑃𝑠>θ del

espectrograma 𝑏𝑗 para obtener una señal “limpia” de componentes no agudos. Los algoritmos

descritos a continuación representan la nueva ventana de la etapa de factorización del

espectrograma en detalle:

Ilustración 14. Algoritmo de separación de instrumentos desde la mezcla musical.


42

Ilustración 15. Algoritmo de separación una componente en un tono y en un no-tono basado en 𝑃𝑠.

De manera similar a la segunda etapa, donde los elementos de percusión son separados

del sonido de voz utilizando el espectrograma factorizado, se notó que muchos de los

componentes de la NMF que se califican como originarios de instrumentos de percusión (𝑑𝑡 >

𝜃), todavía contienen sonidos vocales. Nuevamente se buscan los índices de los picos más

altos en el dominio temporal para generar 𝑔𝑗 para cada uno de estos componentes y calcular

la discontinuidad temporal local para Pt alrededor de cada uno de los picos. El cálculo se define

como:

𝑃𝑡(𝑖, 𝑗) =∑ (𝐺𝑡,𝑗 − 𝐺𝑡−1)2ℎ𝑖(𝑖)

𝑘=𝑙𝑜(𝑖)

∑ (𝐺𝑡,𝑗)2ℎ𝑖(𝑖)

𝑘=𝑙𝑜(𝑖)

(22)

𝑙𝑜(𝑖) = max (0, 𝑐𝑖 −𝑤

2) (23)

ℎ𝑖(𝑖) = min (𝑐𝑖 +𝑤

2, 𝐾) (24)


43

Donde 𝑐𝑖 representa la fracción de tiempo según su índice 𝑖, el pico y 𝑤 es el ancho

del pico medido en términos de duración de tiempo, asumido como constante para todos los

picos.

Se supone que los picos pertenecen a las voces si 𝑃𝑠< θ y, por tanto, si son mayores 𝑃𝑠˃

θ son eliminados del componente de percusión 𝑔𝑗 para obtener el sonido refinado. Los picos

removidos sumados para formar una nueva ganancia vocal y de esta manera se utilizan

componentes de percusión refinados sean divididos de nuevo para posteriormente volver a

sintetizar el sonido de la voz.


44

3.1.3. NMF en separación de fuentes de audio [5]

En este modelo las señales de audio son representadas en el dominio tiempo-frecuencia

con ayuda de una transformada de Fourier (STFT) de valores complejos, la dificultad aparece

cuando es necesario calcular las 𝑆1 y 𝑆2 de dos fuentes, que pueden ser expresadas como:

𝑋 = 𝑆1 + 𝑆2 𝑋, 𝑆1, 𝑆2 ∈ 𝐶𝐹𝑥𝑁 (25)

La metodología de resolución se puede describir como:

1. Se calcula la descomposición NMF para obtener

𝑉 = |𝑋|2 = 𝑊1𝐻1 + 𝑊2𝐻2 (26)

2. Aplicando filtro de Wiener a las fuentes:

𝑆1̂ =𝑊1𝐻1

𝑊1𝐻1 + 𝑊2𝐻2⊙ 𝑋; 𝑆2̂ =

𝑊2𝐻2

𝑊1𝐻1 + 𝑊2𝐻2⊙ 𝑋

(27)

Ilustración 16. Esquema básico de la metodología por NMF.


45

3.1.4. Factorización matricial no negativa en varias etapas [6]

En este trabajo se propone un algoritmo novedoso para separar la voz cantada del

acompañamiento musical en mezclas de canciones monoaurales. El algoritmo comprende

dos etapas que operan a diferentes resoluciones de frecuencia. Sin embargo, para eliminar la

música de fondo, en lugar de adoptar las técnicas de separación armónica y percusiva

existentes, como HPSS y el método basado en el filtro de mediana, se aplica NMF para

descomponer los espectrogramas de mezcla calculados utilizando ventanas largas y cortas

(por lo tanto, con resoluciones de alta y baja frecuencia) respectivamente. Se ha diseñado un

método de umbral de discontinuidad espectral para el NMF de ventana larga para seleccionar

los componentes del NMF que se originan a partir de sonidos monumentales, y un método

de umbral de discontinuidad temporal diseñado para el NMF de ventana corta para

seleccionar componentes de NMF que sean de sonidos de percusión. Después de eliminar

los componentes seleccionados en cada etapa, los componentes de NMF residuales se

resintetizan a una señal que contiene la voz cantada.


46

3.2. Uso de la 2DFT para la identificación de covers [7]

En este documento se emplea la transformada de Fourier bidimensional, la cual es la

base del método principal utilizado en este trabajo de fin de grado para la identificación de

las canciones de portada. La señal de audio se representa como una secuencia de magnitudes

de la 2DFT, la cual es una representación válida para cambios tímbricos y pequeñas

desviaciones de tiempo local. Se examina la similitud cruzada entre estas series de tiempo

y se extrae una medida de distancia que es invariable a la estructura de la música. La 2DFT,

al igual que la 1DFT en el análisis de música, no es solo una técnica popular para la

separación de diferentes tipos fuentes sonoras como se trata en mi trabajo, sino que también

se emplea en el procesamiento digital de imágenes y se utiliza para la eliminación de ruido

y para la compresión de imágenes, entre otras cosas. La 2DFT descompone las imágenes en

conjuntos de rejillas sinusoidales con diferentes períodos y orientaciones, representados por

puntos en el dominio de la 2DFT. En este dominio, en el espectrograma con escala de

frecuencia de registro (scale-rate), los puntos a lo largo del eje y de la transformación

representan periodicidades a lo largo del dominio de frecuencia del espectrograma, y los

puntos a lo largo del eje x representan periodicidades a lo largo del dominio del tiempo del

espectrograma. La información sobre la posición exacta de las rejillas sinusoidales en la

imagen original se mantiene completamente en fase. Una representación útil del audio

musical es la Transformación de Q Constante (CQT). La CQT es una transformación con

una resolución de frecuencia logarítmica con espacios entre frecuencias que reflejan el

sistema auditivo humano y la escala musical occidental. Un cambio lineal en la frecuencia

en la CQT corresponde con un cambio de tono en la música. Al tomar la magnitud de la

2DFT en la CQT, se obtiene una representación invariable de la clave del audio.

Huella digital con CQT y umbral adaptable.

El sistema puede describirse en tres pasos:

En el primer paso todo el dominio del tiempo de la señal de audio es convertido a CQT,

con las frecuencias correspondientes a la escala musical entre 130.81Hz y 2093Hz, con una

resolución de 2 bins de frecuencia entre semitono y una resolución temporal de 10 fps. La

técnica del CQT es un paso importante debido a que, una canción que sea cover en una clave


47

diferente corresponderá a un cambio lineal en el CQT.

En el segundo paso se utiliza la técnica de umbral adaptable para binarizar el CQT

obtenido en el primer paso. La técnica crea un parche de un tamaño especificado a lo largo

del CQT. Dentro de este parche se establecen valores de 1, si el dato se encuentra por encima

de la media, y valores de 0, si se encuentra por debajo. Esto tiene un efecto de lavado de

información tímbrica y del equilibrio de los niveles de sonido de diferentes fuentes dentro

de la mezcla. Así, si una fuente, por ejemplo, una guitarra distorsionada, domina la mezcla

en la grabación original, pero no está presente en el cover (un cover sin guitarra

distorsionada) la huella digital será robusta a estos cambios drásticos en el timbre y energía.

Finalmente, en el tercer paso, se toman las ventanas superpuestas de 20 segundos con

respecto a la huella digital para calcular la 2DFT de cada uno. Para cada 2DFT, se toma la

magnitud, descartando la fase y se agrega una pequeña cantidad de desenfoque gaussiano (σ

= .375). Luego se mantiene por 4 segundos la muestra y se continua hasta llegar al final de

la huella digital. Cada 20 segundos la ventana tiene una dimensionalidad de 96x200 y cada

2DFT tiene la misma dimensionalidad. A continuación, se muestran imágenes de los pasos

del estudio:


48

Ilustración 17. Descripción de la metodología utilizada para la identificación de covers.

Comparación de la canción original y del cover.

Tras obtener los resultados de la metodología estos son comparados con una base de

datos de canciones utilizando una medición de distancias entre puntos de la matriz similar.

Las canciones de referencias son clasificadas por distancia ascendentes. Una buena medición

de distancia debe contar con una canción de referencia altamente ranqueada para una consulta

determinada. La consulta y la referencia se representan en una secuencia de 2DTFs para luego

computar la distancia euclidiana entre cada par de 2DFT y es almacenado en una matriz de

similitud (SM). Para preservar los valores de energía de la SM no normalizada, se procede a

normalizar la SM con sus valores máximos para posteriormente ser convulsionada en una

matriz tipo tablero de ajedrez, a continuación, un ejemplo:

[1 −1

−1 1] (28)

Donde los elementos positivos en la matriz SM corresponden a las relaciones diagonales

y los negativos corresponden a los datos que no coinciden diagonalmente. Se establece en el

algoritmo que todos los valores negativos de la SM sean iguales a 0 para resultar en:


49

Ilustración 18. Matriz de similitud construida usando el cálculo de la distancia euclidiana

entre las secuencias de 2DFT.

Para computar la distancia entre cada una de las consultas y referencias, es necesario

extraer las diagonales de la matriz de referencias y grabar su suma y longitud. Para lograr esto,

es necesario iterar entre cada una de las diagonales en la SM y los segmentos en los que la

secuencia no es cero. Estas secuencias coinciden al inicio y al final de cada una de los covers

y referencias. Para cada secuencia, se graba la suma w y su longitud l. La diagonal es el

producto de estas dos “w, l”. Luego se clasifican todas las diagonales de la SM tomando la

suma de las tres diagonales superiores. Estas tres diagonales principales son las que coinciden

dentro de la subsecuencia dominante, entre la consulta y la referencia. Finalmente se divide la

energía de la SM no normalizada E, por la suma de las tres diagonales superiores para obtener

una medida de la distancia:

𝑑(𝑞, 𝑟) =𝐸

∑ 𝑤𝑖 ∗ 𝑙𝑖 3𝑖=1

∈ 𝑑𝑖𝑎𝑔(𝑆𝑀𝑞,𝑟) (29)

Donde i es el índice de la lista de diagonales ordenadas entre la consulta y la referencia,


50

extraídas de la matriz de similitud a través de la función diag, como se ve en la ilustración 18.

El número de diagonales para sumar es un parámetro libre y fue determinado

experimentalmente con un conjunto de datos.

Este enfoque solo tiene en cuenta las coincidencias secuenciales que suceden en un

lugar de la SM, y no dónde están. Esto es similar a la subsecuencia para la identificación de

covers; como resultado la medida de distancia no presenta cambios variables en la estructura

de la música (por ejemplo, un puente omitido o verso, intro u otro añadido).

El enfoque de deformación del tiempo (DTW) es más sensible y además mucho más

rápido, sin embargo, si el tiempo del cover es significativamente diferente al tiempo de la

original, no habría diagonales fuertes presentes en la SM y esta técnica para hacer coincidir

las sub secuencias fallará. El cálculo final entre la distancia entre puntos de la SM puede

calcularse en función de la consulta y la referencia como:

𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 (𝑞, 𝑟) = 𝑚𝑖𝑛

𝑥𝜖{0.5,0.55, … ,2}𝑑(𝑞, 𝑟𝑥) (30)

Donde 𝑟𝑥 es el factor de refresco de la muestra tomada.

Los resultados de este estudio, utilizando series de tiempo para representar el audio

basado en magnitudes de 2DFT, resultó ser una técnica robusta para la identificación de los

covers, ya que identifica con alta precisión los cambios de notas, timbres y pequeñas

desviaciones temporales. Se notó que el umbral permisible es una variable importante en el

pre procesamiento de la muestra.


51

3.3. Separación armónica/percusiva del sonido en dos etapas (HPSS) [8]

Este artículo propone un novedoso realce de la voz cantante para señales de audio de

música monoaural. Su enfoque se basa en una idea muy diferente a otros métodos existentes

hasta ese momento. Se centra en la fluctuación de una voz cantante la cual se detecta

explotando dos espectrogramas con diferentes resoluciones, uno con una resolución temporal

rica y una resolución de frecuencia pobre, mientras que el otro con una resolución de

frecuencia rica y una resolución temporal pobre. En estos dos espectrogramas, las formas de

los componentes fluctuantes son muy diferentes. Además, también se evalúa este método

como un preprocesamiento para la estimación de melodías en la música. Este artículo

describe una idea novedosa para extraer voces cantantes de señales musicales polifónicas.

En muchos géneros musicales, sobre todo en las músicas populares, la voz principal es la

parte más impresionante y esencial para la mayoría de los oyentes, y, además, a menudo,

tiene mucha información que es importante en lo relativo a aplicaciones de recuperación de

datos en la música (MIR). De hecho, muchos estudios MIR, como el reconocimiento

automático de letras, la identificación del idioma de una canción, identificación automática

del cantante, etc., han utilizado la información sobre las voces cantantes. Además de su

importancia como preprocesamiento para las aplicaciones MIR, también es significativo en

sí mismo en la forma en que la técnica puede ser aplicada como una especie de reproductor

de música interactivo, como por ejemplo un ecualizador vocal/no vocal, un generador

automático de karaoke, etc. Las dificultades técnicas también hacen que el realce de la voz

en el canto sea un problema interesante. Una de las dificultades viene de la similitud entre la

voz de canto y el acompañamiento, por ejemplo, un piano, una guitarra, y percusiones. Por

ejemplo, tanto el espectro de la voz cantante como los instrumentos armónicos, como un

piano y una guitarra, tienen una estructura armónica. En consecuencia, es difícil para una

técnica simple de extracción de armónicos detectar únicamente la voz cantante en señales de

música polifónica. Otra dificultad es que los instrumentos de acompañamiento no satisfacen

algunas de las propiedades del “ruido" que se han supuesto en los problemas de

procesamiento de señales convencionales, por ejemplo, la blancura y estacionariedad, y por

lo tanto, no podemos esperar que una técnica clásica de supresión de ruido funcione

eficazmente en la mejora de la voz del canto, porque las señales de música no son ruido

blanco ni estacionarias. Debido a las muchas aplicaciones potenciales, así como los intereses

técnicos descritos anteriormente, se están estudiando muchos métodos sobre la mejora de la


52

voz cantante en señales musicales y otras técnicas relacionadas, incluida la transcripción de

melodías de canto. En la mayoría de los métodos existentes, una señal de entrada de música

se transforma primero desde el dominio del tiempo al dominio de la frecuencia del tiempo,

donde la voz de canto se caracteriza. Otros componentes, como los instrumentos que lo

acompañan, se suprimen con el enmascaramiento tiempo-frecuencia (filtrado adaptativo de

Wiener) y, finalmente, el espectrograma estimado de la voz cantada se transforma

nuevamente en el dominio del tiempo. El punto más importante es cómo distinguir el

componente de voz cantante de otros en una representación de frecuencia de tiempo. Ozerov

et al. se centraron en la diferencia de distribución espectral (timbre) de la voz y los

instrumentos cantados, y los modelaron según el modelo de mezcla gaussiana. En su método,

el GMM fue entrenado por adelantado de manera supervisada, y sintonizado adaptativamente

para cada entrada. Algunos estudios utilizaron la información de tono de voz cantante. En el

método de Li y Wang, los segmentos que incluyen la voz cantada se detectaron por primera

vez en rasgos espectrales. Luego, en cada uno de los segmentos de voz cantada detectados,

el tono predominante se estimó utilizando la autocorrelación y umbralización. Hsu y Jang

extendieron este enfoque hasta permitir capturar componentes sin voz de la voz cantada

utilizando la información de envolvente espectral. Otra secuencia popular se basa en la

factorización de matriz no negativa (NMF) del espectrograma de música, como ya hemos

explicado anteriormente, donde se supone que el espectrograma de la música puede ser

expresado como un conjunto de un número limitado de plantillas espectrales. Virtanen et al.

utilizaron NMF con inferencia de tono. En su método, el tono de la voz de canto se estimó

primero en base a la técnica de estimación múltiple, luego, la voz de canto se eliminó en

función del tono, y el residual se utilizó para entrenar el modelo de acompañamiento con

NMF. Finalmente, la voz del canto se extrajo de la mezcla utilizando el modelo de

acompañamiento derivado. Además de los enfoques basados en NMF, otros estudios también

se han centrado en el bajo grado de espectrograma de la música. Huand et al., en su método

basado en el PCA, asumieron que el espectrograma de acompañamiento mentiría en el

subespacio de bajo rango mientras que la voz cantante no lo haría, ya que los

acompañamientos son bastante repetitivos mientras que la voz cantante lo es en menor

medida. Rafii y Pardo propusieron un método "REPETAR" que suprimió componentes

repetidos en el espectrograma, como son los acompañamientos. Raj et al. modelaron un

modelo de señal generativa tipo NMF y aplicaron inferencias probabilísticas. Algunos

enfoques se basan en la armonía de la voz cantada. Un método que utilizó la armonicidad


53

fue propuesto por Lagrange et al., en el que se usa una técnica de visión por ordenación para

captar los picos espectrales relacionados armónicamente de los espectros de corta duración

de la voz de canto. En resumen, la mayoría de las técnicas de extracción de voz de canto de

vanguardia consideradas para extraer la voz de canto en un dominio de frecuencia de

tiempo utilizan algunas propiedades en la voz de canto, como características de timbre, alto

rango, armonía, etc. En este artículo, proponen otro enfoque para la mejora de la voz de

canto, centrándonos en la fluctuación de la voz de canto, como el vibrato. Para capturar la

fluctuación, explotan dos representaciones de espectrogramas con diferentes resoluciones de

tiempo-frecuencia, que son diferentes a los métodos existentes. La motivación para usar dos

espectrogramas diferentes proviene de la observación de que la voz de canto tiene una

propiedad “intermedia” entre otros instrumentos armónicos e instrumentos de percusión. Es

decir, una voz de canto aparece de manera similar a los instrumentos armónicos en un

espectrograma ordinario que tiene una resolución temporal de 10-30 [ms], mientras que

debería ser bastante similar a las percusiones si el marco de análisis de la transformada de

Fourier (STFT) a corto plazo es mucho más larga que la escala temporal de la fluctuación de

la voz cantada. Sobre esta idea, se definen aproximadamente tres tipos de componentes

musicales, fluctuantes, sostenidos y transitorios. Esos tres tipos de componentes pueden

separarse aplicando un algoritmo simple dos veces en espectrogramas de resolución

diferente, que separa las componentes sinusoidales y las componentes impulsivas, lo que se

denomina separación de sonido armónica/percusiva (HPSS).


54

3.4. Diferentes usos de REPET

3.4.1. Técnica de extracción de patrones de repetición (REPET) [9]

Los métodos de separación de música/voz generalmente identifican primero los

segmentos vocales/no vocales, y luego usan una variedad de técnicas para separar las voces

principales del acompañamiento de fondo, incluida la factorización del espectrograma, el

aprendizaje del modelo de acompañamiento y las técnicas de inferencia basadas en el tono

En el presente artículo, se presenta la técnica de extracción de patrones de repetición

(REPET), un enfoque simple y novedoso para separar un fondo que se repite de un primer

plano que no se repite. La idea básica es identificar los segmentos que se repiten

periódicamente, compararlos con un modelo de segmento repetido y extraer los patrones de

repetición a través del enmascaramiento de tiempo-frecuencia.

La justificación de este enfoque es que muchas piezas musicales pueden entenderse

como un fondo de repetición sobre el cual se superpone un cable que no muestra ninguna

estructura de repetición inmediata. Para extractos con un fondo de repetición relativamente

estable (por ejemplo, versos de 10 segundos), se muestra que REPET puede aplicarse con

éxito para la separación de música/voz.

Para canciones de pista completa, el fondo que se repite muestra variaciones a lo largo del

tiempo (por ejemplo, verso seguido de coro). Por lo tanto, también proponen un

procedimiento simple para extender el método a piezas musicales más largas, aplicando

REPET en las ventanas locales de la señal a lo largo del tiempo. A diferencia de otros

enfoques de separación, REPET no depende de estadísticas particulares. No se basa en

marcos complejos (por ejemplo, técnicas de inferencia basadas en el tono o modelado de

fuente/filtro), y no requiere preprocesamiento (por ejemplo, segmentación vocal/no vocal o

entrenamiento previo). Al basarse únicamente en la autosimilitud, tiene la ventaja de ser

simple, rápido y ciego. Por lo tanto, es completa y fácilmente automatizable. Se puede trazar

un paralelo entre REPET y la sustracción de fondo. La sustracción de fondo es el proceso de

separar una escena de fondo de objetos de primer plano en una secuencia de cuadros de

vídeo. La idea básica es la misma, pero los enfoques son diferentes. En la sustracción de

fondo, no se necesita una estimación del período ni una segmentación temporal ya que los

cuadros de vídeo ya forman una muestra periódica. Además, las variaciones del fondo deben

manejarse de una manera diferente, ya que involucran características típicas de las imágenes.

REPET tiene cierta similitud con el reconocedor de sonido de batería de Yoshii et al. Su


55

método actualiza iterativamente las plantillas de tiempo-frecuencia correspondientes a los

patrones de batería en el espectrograma, tomando la mediana de los patrones que son

similares a una plantilla, hasta la convergencia. A modo de comparación, REPET deriva

directamente un modelo de segmento que se repite entero al tomar la mediana de todos los

elementos que se repiten periódicamente en el espectrograma. Aunque REPET se definió

aquí como un método para separar el fondo de repetición del plano no repetitivo en una

mezcla musical, podría generalizarse a cualquier tipo de patrón repetitivo. En particular,

podría usarse en el control activo de ruido (ANC) para eliminar interferencias periódicas.

Las aplicaciones incluyen la cancelación de interferencias periódicas en la

electrocardiografía (por ejemplo, la interferencia de la línea eléctrica), o en señales de voz

(por ejemplo, un piloto que se comunica por radio desde una aeronave). Si bien REPET

puede aplicarse para la eliminación periódica de interferencias, los algoritmos ANC no

pueden aplicarse para la separación de música/voz debido a la simplicidad de los modelos

utilizados. La idea detrás de REPET de que la repetición se puede usar para la separación de

fuentes también ha sido apoyada por hallazgos recientes en psicoacústica. McDermott et al.

establecieron que el sistema auditivo humano es capaz de segregar fuentes individuales

identificándolas como patrones repetitivos incrustados en la entrada acústica, sin necesidad

de conocer previamente las propiedades de la fuente. A través de una serie de estudios de

audición, se mostró que los humanos son capaces de identificar un sonido nunca antes

escuchado si se repite dentro de diferentes mezclas.

El proceso REPET consta de tres pasos para alcanzar la separación de los segmentos

que se repiten de los que no:

1. Identificación de periodos de repetición

Las periodicidades en una señal que puede ser encontrada utilizando la autocorrelación, que

mide la similitud entre un segmento y una versión rasgada de sí mismo, en intervalos de tiempo

sucesivos. Dada una señal de mezcla, primero se calcula las transformada de Fourier (STFT)

durante un periodo de tiempo corto, utilizando la técnica de medio superpuesto de Hamming

en N muestras. Posteriormente los datos representados en el espectrograma de magnitud V son

derivados, tomando los valores absolutos de X, luego es descartada la parte simétrica,

manteniendo el componente asimétrico, seguidamente son calculadas las autocorrelaciones de

cada fila de espectrograma de potencia V2 para obtener la matriz B. Se utiliza V2 para enfatizar


56

la apariencia de la periodicidad en B. Si la señal x es estéreo entonces V2 se promedia sobre

los canales. La autosimilitud acústica b de x es obtenida tomando la media sobre las filas de

B. Finalmente, b es normalizada por su primer término (lag 0). El detalle de cálculo se muestra

a continuación:

𝐵(𝑖, 𝑗) =1

𝑚 − 𝑗 + 1∑ 𝑉(𝑖, 𝑘)2𝑉(𝑖, 𝑘 + 𝑗 − 1)2

𝑚−𝑗+1

𝑘=1

𝑏(𝑗) =1

𝑛∑ 𝐵(𝑖, 𝑗)

𝑛

𝑖=1

𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑏(𝑗) =𝑏(𝑗)

𝑏(1)

𝑓𝑜𝑟 𝑖 = 1 … 𝑛 (𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎)𝑑𝑜𝑛𝑑𝑒 𝑛 =𝑁

2+ 1

𝑓𝑜𝑟 𝑗 = 1 … 𝑚(𝑟𝑒𝑡𝑟𝑎𝑠𝑜)𝑑𝑜𝑛𝑑𝑒 𝑚 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑓𝑟𝑎𝑚𝑔𝑒𝑛𝑡𝑜𝑠 𝑡𝑒𝑚𝑝𝑜𝑟𝑎𝑙𝑒𝑠.

(31)

𝑏 = espectro de beat

Una vez es calculado el espectro de beat, el primer término que se mide es la similitud

de la señal consigo misma (con retraso 0). Si hay patrones repetitivos presentes, se formaría

picos que se repiten periódicamente en diferentes niveles, revelando la estructura jerárquica

repetitiva subyacente de la mezcla.

La idea básica de esta metodología es encontrar que un periodo en el espectro beat (b)

tiene la media de energía acumulada más alta sobre sus múltiplos enteros para cada periodo

posible, verificando si los múltiplos de integración múltiples corresponde al más alto picos de

energía en sus respectivos dominios [i-Δ,i+ Δ ] donde Δ es un parámetro de distancia variable,

función de j. Luego, se suman los valores menos la media del dominio dado a filtrar para

descartar cualquier posible fondo ruidoso.


57

Ilustración 19. Descripción del algoritmo para el cálculo del periodo 𝑝 para cada espectro 𝑏.

Posteriormente, se divide la suma anteriormente señalada por el número total de

múltiplos enteros encontrados, que llevan un valor energético medio para cada periodo. Por

otra parte, el periodo de repetición se puede definir como el periodo que reporta el mayor valor

promedio, esto ayuda a encontrar el periodo de los picos más fuertes que se repiten en una

estructura subyacente repetitiva, mientras que se evitan los picos de ordenes inferior y errores

de orden superior (múltiplos del periodo de repetición).

Los plazos de retraso más largos de la autocorrelación a menudo no son confiables, ya

que cuanto más avanza en el tiempo, menos coeficientes se usan para calcular la similitud. Por

lo tanto, se selecciona “ignorar los valores en ¼ del retraso más largo”, porque se desea tener

al menos tres segmentos para construir el modelo del segmento repetitivo, es por ello que se

limita los periodos a aquellos periodos que permiten tres ciclos completos en la porción restante

de 𝑏.


58

Cuando se establece la distancia entre parámetros Δ a [3j/4] para cada posible periodo

𝑗, donde [.] representa la función floor, es creado en una ventana alrededor de un pico que es

ancho, pero no tan ancho como para incluir otros picos múltiplos de j. Debido a las desviaciones

temporales, los picos de repetición pueden no ser múltiplos enteros exactos, entonces también

se introduce un parámetro de desviación fija δ que se estable en 2 retardos. Esto significa que

cuando se busca el pico más alto del dominio [𝑖 − 𝛥, 𝑖 + 𝛥], se asume que el valor

correspondiente al integrado del múltiplo 𝑖 es el máximo del intervalo local [𝑖 − 𝛿, 𝑖 + 𝛿]. La

estimación del periodo de repetición 𝑝 es descrita en el algoritmo enunciado anteriormente. El

cálculo de espectro 𝑏 y la estimación de periodo 𝑝 son mostrados en la ilustración 19.

2. Repetición de modelos de segmentos

Una vez el periodo de repetición es estimado para cada espectro 𝑏, se utiliza para

segmentar uniformemente el espectrograma 𝑉, dentro del segmentos 𝑟 de longitud 𝑝. Se define

el modelo de segmento 𝑆 como la mediana de los elementos de 𝑟, como se ejemplifica en el

paso 2 de la ilustración 20. El cálculo del segmento 𝑆 se muestra a continuación:

𝑆(𝑖, 𝑗) =𝑚𝑒𝑑𝑖𝑎𝑛

𝑘 = 1 … 𝑟{𝑉(𝑖, 𝑙 + (𝑘 − 1)𝑝}

𝑓𝑜𝑟 𝑖 = 1 … 𝑛(𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎)𝑦 𝐽 = 1 … 𝑝(𝑡𝑖𝑚𝑒)

𝑑𝑜𝑛𝑑𝑒 𝑝 = 𝑙𝑎 𝑙𝑜𝑛𝑔𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑦 𝑟 = # 𝑑𝑒 𝑠𝑒𝑔𝑒𝑚𝑒𝑛𝑡𝑜𝑠

(32)

Se asume que el primer plano no repetitivo (≈ voz) tiene una representación de

frecuencia de tiempo escasa y variada en comparación a la representación de frecuencia de

tiempo del fondo repetitivo (≈ música). Una suposición razonable para la voz en la música, es

que al contener una frecuencia de tiempo con poca desviación en el periodo constituirá un patrón

repetitivo, posibilitando que sea capturado por el modelo mediano, por consiguiente, la

frecuencia de tiempo de los contenedores con grandes desviaciones en el periodo constituirá un

patrón de no repetición y serían eliminados por el modelo mediano.

La mediana se prefiere a la media geométrica porque conduce a una mejor


59

discriminación entre patrones repetitivos y no repetitivos. Teniendo en cuenta que el uso de la

mediana es la razón por la que se escoge estimar el periodo en el primer 1/3 de la porción estable

del espectro b, debido a que se requieren tres segmentos para definir una mediana razonable.

La segmentación del espectrograma de la mezcla se presenta en el paso 2 de la ilustración 20.

3. Extracción de patrones repetitivos.

Una vez el modelo de patrón repetitivo 𝑆 es calculado, es utilizado para derivar un modelo

de espectrograma repetitivo 𝑊, para tomar los elementos representativos entre 𝑆 y cada

segmento r del espectrograma 𝑉, como se ejemplifica en la Ilustración 14. Si se supone que el

espectrograma no negativo, 𝑉, es la suma de un espectrograma repetitivo no negativo, 𝑊, y un

espectrograma no negativo repetitivo 𝑉 − 𝑊, entonces se tiene que 𝑊 ≤ 𝑉. El cálculo del

espectrograma de repetición 𝑊 es mostrado a continuación:

𝑊(𝑖, 𝐽 + (𝑘 − 1)𝑝) = min{𝑆(𝑖, 𝑙), 𝑉(𝑖, 𝑙 + (𝑘 − 1)𝑝)𝑝}

𝑓𝑜𝑟 𝑖 = 1 … 𝑛(𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎), 𝑙 = 1 … 𝑝(𝑡𝑖𝑚𝑒) 𝑦 𝑘 = 1 … 𝑟

(33)

Tras la obtención del modelo del espectrograma 𝑊, se utiliza para derivar una suave

máscara 𝑀, para normalizar 𝑊 por 𝑉. Una máscara en tiempo-frecuencia es matemáticamente

un filtro que se usa para detectar y separar diferentes elementos dentro del espectrograma. La

idea es que los contendedores de frecuencia de tiempo que probablemente se repitan en el

periodo 𝑝 en el espectrograma 𝑉, tengan valores cercanos a 1 en 𝑀 y estos sean ponderados

hacia el fondo de la repetición. Por su parte, los contenedores de tiempo que no son probables

que se repitan en el tiempo p en el espectrograma 𝑉 tendrán valores cercanos a 0 en 𝑀 y serán

ponderados hacia el primer plano no repetitivo. El cálculo de la suave máscara 𝑀 es mostrado

a continuación:

𝑀(𝑖, 𝑗) =𝑊(𝑖, 𝑗)

𝑉(𝑖, 𝑗) 𝑠𝑖𝑒𝑛𝑑𝑜 𝑞𝑢𝑒: 𝑀(𝑖, 𝑗) ∈ [0,1]

𝑓𝑜𝑟 𝑖 = 1 … 𝑛(𝑓𝑟𝑒𝑛𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑦 𝑗 = 1 … 𝑚(𝑡𝑖𝑒𝑚𝑝𝑜)

(34)


60

La máscara de frecuencia de tiempo 𝑀 es simétrica y se le puede aplicar la STFT 𝑋 de

una mezcla 𝑥, la estimación de la señal de música obtenida por la inversión de los resultados

STFT dentro del dominio de tiempo. La señal de voz estimada es obtenida restando a la señal

de música la señal de mezcla 𝑥. La derivación del modelo de espectrograma repetitivo 𝑊 y la

construcción de la máscara temporal de frecuencia 𝑀 son mostrados en la ilustración 20:

Ilustración 20. Descripción del algoritmo para el método REPET.


61

3.4.2. REPET-SIM online for real-time speech enhancement [10]

Recientemente la técnica de extracción de patrones repetitivos (REPET) se propuso

para separar el fondo de repetición (típicamente es el acompañamiento musical) de la no

repetición del primer plano (generalmente la voz que canta) en mezclas musicales. La idea

básica es identificar los elementos que se repiten en el audio y compararlos con modelos

repetidos derivados de ellos mismos, para luego extraer los patrones repetitivos a través de

la frecuencia de tiempo. Mientras que, el REPET original (y sus extensiones) asumen que

las repeticiones ocurren periódicamente, REPET-SIM, es una generalización del método que

utiliza una matriz de similitud que se propuso, además, para manejar estructuras donde las

repeticiones también pueden suceder de forma intermitente. La única suposición es que el

fondo que se repite es denso y de bajo rango, mientras que el primer plano se supone no

repetitivo, escaso y variado.

Por razones mencionadas anteriormente, las repeticiones siempre están presentes en

la música y en el audio general; particularmente en mezclas ruidosas, el ruido de fondo a

menudo puede exhibir una estructura densa y de bajo rango, mientras que la señal de interés

exhibe una estructura escasa y variada. Bajo este supuesto, REPET-SIM aparece como un

candidato justificable para la segregación de voz/ruido. En particular, dada la baja

complejidad computacional del algoritmo, el método se puede implementar fácilmente en

línea para mejorar el habla en tiempo real. Las ventajas de este REPET-SIM en línea es que

puede trabajar en tiempo real y es muy simple de implementar, no requiere ninguno modelo

previamente entrenado, puede manejar ruidos no estacionarios a diferencia del algoritmo

espectral o filtrado de Wiener y puede funcionar con un solo canal de mezcla.

Breve descripción del algoritmo:

REPET-SIM es una generalización del método REPET para separar un fondo

repetitivo de uno que no se repite. REPET es una aproximación basada en que la repetición,

es fundamental para generar una estructura perceptiva. En música, por ejemplo, las pistas a

menudo se componen de una estructura repetitiva subyacente (generalmente el

acompañamiento) sobre la que varían los elementos que la superponen (normalmente la voz),


62

la idea básica es identificar los elementos que se repiten en el audio, comparar los modelos

repetidos derivados de ellos mismos y extraer los patrones repetitivos mediante el

enmascaramiento de frecuencia de tiempo.

Especialmente, REPET-SIM identifica los elementos que se repiten en el audio usando

una matriz de similitud, que no es más que una representación bidimensional donde cada bin

(a; b) mide la similitud entre dos elementos a y b de una secuencia dada, bajo alguna métrica.

Dado que la repetición/similitud es lo que hace que la estructura de una matriz de similitud sea

calculada a partir de una seña de audio, puede ayudar a revelar la estructura subyacente.

Asumiendo que el fondo de repetición es denso y de bajo rango y el primer plano no repetitivo

es escaso y variado, la repetición de los elementos revelados por la matriz de similitud debería

ser lo que básicamente hace el fondo repetitivo.

Dada la transformada de Fourier a corto plazo (STFT) de 𝑋 de una mezcla, REPET-

SIM primero deriva su espectrograma de magnitud 𝑉. Luego, calcula una matriz de similitud

𝑆 de 𝑉, posteriormente, utiliza la similitud de coseno e identifica para cada periodo de tiempo

𝑗 en 𝑉, los fotogramas de 𝑗𝑘 que se asemejan más al fotograma 𝑗 utilizando 𝑆. luego se deriva

un espectrograma repetitivo modelo 𝑈, tomado para cada cuadro 𝑗 en 𝑉, la medida de

elementos representativos de los cuadros similares correspondientes a 𝑗𝑘. A continuación, los

elementos de repetición del espectrograma del modelo 𝑈 en 𝑊 son refinados y tomados como

elemento mínimo entre 𝑈 y 𝑉 y deriva una frecuencia de tiempo suave enmascarada por 𝑀 y

normalizado por 𝑊 por 𝑉. Finalmente, se deriva la STFT del fondo repetitivo estimado

simétrico a 𝑀 y se le aplica la STFT de la mezcla 𝑋.

Implementación en línea

Dada la baja complejidad computacional del algoritmo REPET-SIM puede ser

fácilmente implementado en línea para un procesamiento en tiempo real. La implementación

implica procesar los fragmentos de tiempo de la mezcla uno por uno usando un búfer

deslizante que almacena temporalmente los fotogramas pasados de un tamaño máximo de

búfer.


63

Ilustración 21. Implementación online de REPET-SIM.

Dado un marco de tiempo de la STFT para una mezcla 𝑋, primero deriva su espectro

de magnitud. Luego, se calcula el coseno de similitud entre el marco procesado 𝑗 y el paso 𝐵,

que fueron almacenados en un búfer de tamaño máximo 𝑏 segundos (o 𝐵 fotogramas). Se

obtiene un vector de similitud 𝑠𝑗.

Posteriormente, se identifican los búferes de los marcos 𝑗𝑘′𝑠 (𝐵) que son los más

similares al marco que se procesa en 𝑗 utilizando 𝑠𝑗, se toman sus medianas para cada canal de

frecuencia para obtener un marco estimado del ruido, luego este es refinado para tomar el

mínimo entre los datos estimados y los datos procesados, para cada frecuencia del canal.

Finalmente, es sintetizado el fragmento del tiempo a partir de la STFT del ruido reflejado en

los canales de frecuencia y usado en la fase del plazo correspondiente del STFT de la mezcla.

Después de la inversión en el dominio del tiempo, la señal de voz simplemente es obtenida

restando el ruido de fondo de la señal de mezcla; si la mezcla es multicanal, los canales son

procesados de forma independiente.


64

El algoritmo de REPET-SIM fue comparado utilizando las métricas de SDR y OPS

como métricas de calidad, que indica que mientras tengan valores elevados son sinónimo de

definición de sonido, obteniendo que:

Tabla 1. Resultados obtenidos por el método REPET-SIM.

Ilustración 22. Representación gráfica de los resultados obtenidos en el estudio, empleando

los diferentes algoritmos.


65

Una comparación exhaustiva de una mayor cantidad de ensayos, no presentados en

este documento, mostraron que el SDR del método REPET-SIM es significativamente mejor

que el de los algoritmos comparados, para ambas especificaciones de voz y ruido, mientras

que para los valores de operaciones no son significativamente diferentes entre los distintos

métodos para la separación de voz. Sin embargo, REPET-SIM es considerablemente mejor

que todos los otros métodos para la estimación de ruido.

Separación de voz de canto de audios monoaurales usando un análisis de componentes

principales robustas [9]

Una voz que canta proporciona información útil para una canción, cómo incorpora al

cantante, la letra y la emoción de la canción. Existen muchas aplicaciones que utilizan esta

información, por ejemplo, reconocimiento lírico y alineación, identificación del cantante y

recuperación de información musical, sin embargo, estas aplicaciones presentan problemas

cuando el acompañamiento musical existe, ya que este es como ruido o interferencia para las

voces. Un sistema automático de separación de voz y canto se utiliza para atenuar o eliminar

el acompañamiento musical.

El sistema auditivo tiene una capacidad extraordinaria para separar las voces del

acompañamiento de la música de fondo. Aunque esta tarea es fácil para los humanos, es

difícil para las maquinas, en particular cuando las señales espaciales adquieren la forma de

más de dos micrófonos (sonido estéreo).

Los sistemas de separación de voz se pueden enmarcar en dos categorías:

Sistema supervisado: que generalmente mapea primero las señales en un espacio de

características, para luego detectar los segmentos de voz de canto y, finalmente,

aplicar la técnica de separación de fuentes, como por ejemplo la factorización

matricial no negativa, modelado bayesiano adaptativo e interferencia basada en tono.

Sistemas no supervisados: son los que no requieren entrenamiento previo o

características particulares como la fuente/filtro o modelo y el método se basa en auto

correlación.

Debido a que la música siempre presenta una estructura repetitiva, se propone utilizar


66

un análisis principal robusto de componentes (RPCA), que es un algoritmo de factorización

matricial para resolver subyacentes de bajo rango dispersos en las matrices. El algoritmo

obedece al siguiente flujo de trabajo:

Ilustración 23: Flujo de trabajo del algoritmo de separación de voz de canto para audios

monoaurales.

- Descripción del algoritmo:

EL RPCA propuesto es un programa convexo para recuperar matrices de bajo rango,

cuando una fracción de sus entradas ha sido corrompida por errores, es decir, cuando la

matriz es lo suficientemente dispersa. El enfoque principal sugiere resolver el siguiente

problema de optimización convexa:

inimize ||L|| ∗ +λ||S||1

𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝐿 + 𝑆 = 𝑀

(35)

Donde 𝑀 ∈ 𝑅𝑛1 𝑥 𝑛2 , 𝐿 ∈ 𝑅𝑛1 𝑥 𝑛2 , 𝑆 ∈ 𝑅𝑛1 𝑥 𝑛2 , ||. || ∗ y ||. || denota la

suma de valores singulares y 𝐿𝑙 − 𝑛𝑜𝑟𝑚𝑎 la suma de valores absolutos de las entradas

matriciales respectivamente. 𝛬 > 0 es un rango de compensación entre el rango de 𝐿 y el

espaciado de 𝑆. Se sugiere utilizar los siguientes valores como una buena regla:

λ = 1/√max (𝑛1, 𝑛2

(36)


67

Dado a que los instrumentos musicales pueden reproducir los mismos sonidos cada

vez que se tocan y la música tiene en general, un subyacente repitiendo la estructura musical,

se puede pensar la música como una señal de bajo rango. Las voces que cantan, por el

contrario, tienen más variaciones (rango superior), pero son relativamente escasas en el

tiempo y dominios de frecuencia, entonces se puede afirmar que las voces son componentes

que forman la matriz dispersa. Por RPCA se espera la matriz 𝐿 de bajo rango para contener

el acompañamiento musical y la matriz dispersa 𝑆 para contener señales vocales.

La metodología se puede resumir en los siguientes pasos:

Cálculo del espectrograma de señales musicales como matriz 𝑀.

Cálculo de la transformada de Fourier a corto plazo (STFT).

Aplicar el multiplicador de LaGrange aumentado (ALM), que es un algoritmo

eficiente para resolver problemas de RPCA.

Obtención de dos salidas 𝐿 y 𝑆 por RPCA.

En la ilustración mostrada a continuación se puede observar que hay estructuras

escasas en la matriz 𝑆, lo que indica actividad vocal y notas musicales en la matriz de abajo

en el rango 𝐿.

(a) Matriz original


68

(b) Matriz de bajo rango L

(c) Matriz de dispersión M

Ilustración 24:. Ejemplo de resultados de RPCA.

Enmascaramiento de la máscara de tiempo 𝑚𝑏 como:

M(m, n) = {1 |𝑆(𝑚, 𝑛)| > 𝑔𝑎𝑖𝑛 ∗ |𝐿(𝑚, 𝑛)

0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

(37)

For all m=1…𝑛1 and n=1…𝑛2

Una vez que se calcula la máscara de frecuencia de tiempo 𝑀𝑏, se aplica la matriz

STFT original 𝑀 para obtener la separación de matriz 𝑋 cantada y 𝑋 música, como se muestra

a continuación:


69

{𝑋𝑐𝑎𝑛𝑡𝑎𝑑𝑎(𝑚, 𝑛) = 𝑀𝑏(𝑚, 𝑛)𝑀(𝑚, 𝑛)

𝑋𝑚𝑢𝑠𝑖𝑐𝑎(𝑚, 𝑛) = (1 − 𝑀𝑏(𝑚, 𝑛)𝑀(𝑚, 𝑛))

(37)

Para todo 𝑚 = 1 … 𝑛1 𝑎𝑛𝑑 𝑛 = 1 … 𝑛2

Para examinar la efectividad de la máscara binaria, se asigna 𝑋 cantada como 𝑆 y 𝑋

música como 𝐿 directamente como el caso sin máscara.


70

3.5. Detección y filtrado de ruido cuasi periódicos [11]

Este artículo presenta un método eficiente de detección y filtrado de ruido cuasi

periódicos. Teniendo en cuenta que el ruido periódico deja picos en el espectro de amplitud,

el enfoque propuesto se centra en su detección y eliminación. La detección se realiza de

forma semiautomática utilizando una mediana local, por lo que los picos localizados se

eliminan con un filtro de muesca gaussiano modificado. El enfoque propuesto demuestra una

alta eficiencia para las imágenes corrompidas por el ruido puro periódico y cuasi periódico.

Ilustración 25:. Ejemplo de ruido cuasi-periódico.

El ruido periódico generalmente es causado por interferencias eléctricas o

electromecánicas durante la adquisición de imágenes. Teniendo una apariencia impredecible

en el dominio espacial, el ruido periódico tiene una contraparte espectral muy específica, y

se revela en el espectro de amplitud de Fourier como componentes tipo espiga a frecuencias

específicas. Como consecuencia, el ruido periódico y cuasi periódico se puede eliminar de

manera eficiente corrigiendo los componentes del espectro de amplitud alterados por el

ruido. Por lo general, los picos causados por el ruido puramente periódico son

extremadamente estrechos y de magnitud muy alta, lo que los hace claramente distinguibles

del resto de los coeficientes espectrales. Son fáciles de localizar utilizando técnicas de

umbralización. Al estar localizados, se pueden corregir con los filtros de rechazo de banda o

de muesca. Sin embargo, en la mayoría de los casos el ruido periódico no es puro, y su

representación espectral, por lo general, no contiene picos agudos fácilmente detectables.

Todos los coeficientes en un vecindario cercano alrededor del pico son afectados por el ruido.

Como lo señalaron González y Woods: "componentes tipo estrella en el espectro de Fourier


71

indican más de un patrón sinusoidal". Existen varias soluciones propuestas en la literatura,

como el filtro de Wiener, los filtros de muesca o los filtros de enmascaramiento. El filtro

Wiener requiere un modelo de ruido preciso por caja. Los enfoques, basados en la detección

de picos utilizando la retención del espectro de amplitud, son adecuados solo para el ruido

periódico puro, caracterizado por picos estrechos y fuertes. Pueden localizar solo un número

limitado de picos agudos y altos. Los filtros de muesca eliminan los picos en las regiones

predeterminadas del espectro de amplitud corrigiendo las frecuencias correspondientes. Eso

tiene una aplicabilidad limitada. Recientemente, introdujimos un detector de picos

espectrales, donde cada coeficiente espectral se comparó con la mediana local en el espectro

para identificar picos. Los vértices de los picos detectados fueron reemplazados por la

mediana local. Este enfoque ha demostrado un buen rendimiento en la eliminación de picos

correspondientes al ruido periódico puro. Sin embargo, la corrección de los ápices no es

suficiente para suprimir el ruido cuasi periódico. Para ello, Al Hudhud y Turner, han

propuesto aplicar el filtro mediano al barrio de picos, considerando que ya están localizados,

y demostraron resultados comparables a los obtenidos por los filtros de muesca. Se propone

un marco de detección y filtrado que corrige los picos espectrales junto con su vecindario

más cercano. El nuevo enfoque puede detectar de manera eficiente los picos en el dominio

de baja y alta frecuencia y corregirlos con una modificación del filtro de rechazo de muesca

gaussiana.

Tras haber visto diferentes artículos que tratan temas parecidos a los objetivos de este

documento, en el siguiente apartado se pasará a explicar detalladamente los métodos que han

sido implementados para el desarrollo de este trabajo.


72

Capítulo 4

4. MATERIALES Y MÉTODOS

Esta sección se ocupa de explicar los procedimientos seguidos para la consecución de

nuestro objetivo, es decir, para conseguir la separación de voz y música.

Tras haber visto en el capítulo 3 diferentes líneas de trabajo que se han seguido hasta

ahora, aquí se explica más detalladamente los dos algoritmos que se utilizan, los cuales hacen

uso de la STFT.

En primer lugar, se verá el método 2DFT [12], el cual hace uso de la Transformada de

Fourier Bidimensional para localizar los elementos repetitivos y así poder separar el

acompañamiento musical (repetitivo) de la voz (no repetitiva).

En segundo lugar, se verá el método REPET-SIM [13], el cual hace uso de una matriz

de similitud utilizando también la Transformada de Fourier para conseguir el mismo objetivo,

la separación de música y de voz.


73

4.1. DFT2

Desde el principio de este trabajo se ha establecido que la base para conseguir el

objetivo es tener en cuenta la repetición y no repetición de elementos, o de otra forma, la

periodicidad y no periodicidad del audio para conocer así los acompañamientos o

instrumentos (repeticiones periódicas) y la voz del cantante (audio no periódico).

La música, generalmente, no cuenta con una estructura aleatoria pues este tipo de

sonido no resultaría agradable para el oído humano. Por lo tanto, los instrumentos

presentan una serie de patrones que se repiten, que es en lo que nos centraremos para poder

obtener así el fondo (el acompañamiento de los instrumentos) y el primer plano (la voz

cantada), y separarlos. Estos patrones periódicos son diferentes en cada composición

musical, lo que implica que la separación de música y voz sea un problema muy complejo.

Para dicho fin, se trabaja en el dominio de la Transformada de Fourier, donde

podremos determinar mediante diferentes formas, en nuestro caso mediante dos algoritmos

distintos, las repeticiones y no repeticiones a lo largo del tiempo para así poder separarlas

y al volver al dominio del tiempo y resintetizar haber conseguido nuestro objetivo.

4.1.1. Cálculo espectrograma

En primer lugar, en ambos casos, haciendo uso de la STFT obtendremos el

espectrograma de la señal de audio. Tras esto, lo separaremos en módulo y fase.

Trabajaremos solamente con el módulo, pero la información de la fase la dejamos

almacenada pues la necesitaremos más adelante para volver al dominio del tiempo, es

decir, cuando se resintetice.


74

4.1.2. Cálculo espectrograma bidimensional

Los patrones repetitivos de dicho módulo aparecerán periódicamente como picos

en la 2DFT, lo que se corresponde con un patrón general en el dominio tiempo-frecuencia

como la selección de picos en el dominio de escala-ratio.

Como podemos ver en [12], se denomina a la representación en el dominio de

escala- ratio del espectrograma como �̃�(𝑠, 𝑟), donde 𝑠 se refiere a scale y 𝑟 a rate,

respectivamente. La relación que existe entre el dominio del espectrograma y su dominio

escala-ratio es:

�̃�(𝑠, 𝑟) = ℱ𝒯2𝐷{|𝑋(𝜔, 𝜏)|} (38)

4.1.3. Repetición → picos en el dominio scale-rate

ℱ𝒯2𝐷{.} denota la transformada de Fourier bidimensional. El módulo de �̃�(𝑠, 𝑟)

contendrá picos que se corresponden con elementos repetitivos periódicamente en el

dominio tiempo-frecuencia. Por ello, la clave de este algoritmo es localizar picos en el

módulo de la transformada escala-ratio y enmascarar dichos picos para separar el

acompañamiento repetitivo de la voz cantada. Se elegirán los picos comparando la

diferencia entre los valores máximos y mínimos del módulo en un vecindario que rodea a

cada punto del dominio escala-ratio con un umbral. El umbral (γ) en este trabajo se definirá

con la desviación estándar de todos los valores de {|�̃�(𝑠, 𝑟)|}.

En la siguiente imagen se puede ver un ejemplo del módulo y fase en el dominio

scale-rate del espectrograma de una señal de audio:


75

Ilustración 26. Módulo en el dominio scale-rate de la parte repetitiva de la señal de audio.

El vecindario para la elección de picos puede ser de un tamaño arbitrario. Para este

trabajo se restringe a un rectángulo en el dominio de la 2DFT. El centro del vecindario será

cada punto de la 2DFT y el tamaño del vecindario será de dimensiones ajustables. Sin

embargo, como el acompañamiento repetitivo se manifiesta como una serie de picos sobre

el eje ratio, nuestro vecindario se ajustará para encontrarlos en este eje. Para ello, el tamaño

del vecindario será de 1 punto (bin) para la escala (scale) y de entre 15 y 100 puntos (bins)

para el ratio (rate). Se ha comprobado que valores más pequeños provocan una filtración

de la voz cantada en el acompañamiento, mientras que valores más grandes provocan una

filtración del acompañamiento en la voz cantada.

Definimos 𝑎𝑐 como el rango de valores de |�̃�(𝑠, 𝑟)| que son la diferencia de

los valores máximos y mínimos del |�̃�(𝑠, 𝑟)| en el vecindario.

El valor de la máscara de los picos elegidos, a la cual nos referiremos como la


76

máscara del fondo en el dominio scale-rate (𝑠𝑐, 𝑟𝑐), se puede entonces calcular como:

(𝑠𝑐, 𝑟𝑐) = 1 cuando 𝑎𝑐 es mayor que el umbral γ y además |�̃�(𝑠𝑐, 𝑟𝑐)| es igual al

valor máximo de |�̃�(𝑠, 𝑟)| en el vecindario. (𝑠𝑐, 𝑟𝑐) = 0 en el resto de casos.

Ilustración 27. Módulo en el dominio scale-rate de la parte repetitiva de la señal de audio.

Intuitivamente, esto simplemente es un método para encontrar los máximos locales en

|�̃�(𝑠, 𝑟)| que están por encima de un cierto umbral γ. Hay que recordar que el vecindario y

el valor de la máscara son calculados para todos los puntos en el dominio scale-rate.


77

La máscara del primer plano en el dominio scale-rate la calcularemos entonces tal

que:

(𝑠, 𝑟) = 1 − 𝑀𝑏𝑔(𝑠, 𝑟) (39)

Ilustración 28. Módulo en el dominio scale-rate de la parte no repetitiva de la

señal de audio.

Después, obtendremos el módulo de la parte repetitiva (el fondo) del espectrograma

de la máscara del dominio escala-ratio, tomando la transformada inversa de Fourier

Bidimensional (Iℱ𝒯2𝐷) de la señal máscara del fondo:

|�̃�(𝑠, 𝑟)| = Iℱ𝒯2𝐷{|𝑋(𝜔, 𝜏)|} (40)

|�̃�𝑏𝑔(𝜔, 𝜏)| = Iℱ𝒯2𝐷{𝑀𝑏𝑔(𝑠, 𝑟) ∗ �̃�(𝑠, 𝑟)} (41)

Iℱ𝒯2𝐷{.} denota la inversa de la transformada de Fourier bidimensional, y además

esto se realiza a la multiplicación elemento a elemento de la máscara del fondo en el


78

dominio escala- ratio con la transformada de Fourier bidimensional.

Ilustración 29. Módulo en el dominio tiempo-frecuencia de la parte repetitiva

de la señal de audio.

Para obtener el módulo de la parte de primer plano (lo no repetitivo) del

espectrocrama haremos el mismo proceso, pero utilizando en este caso la máscara de la

parte de primer plano del dominio escala-ratio:

|�̃�𝑓𝑔(𝜔, 𝜏)| = Iℱ𝒯2𝐷{𝑀𝑓𝑔(𝑠, 𝑟) ∗ �̃�(𝑠, 𝑟)} (42)


79

Ilustración 30. Módulo en el dominio tiempo-frecuencia de la parte no repetitiva de la señal de

audio.

Como se puede apreciar en la ilustración 30, la parte no repetitiva de la señal de

audio, es decir, la voz, se puede apreciar más claramente en el eje y (rate) entre los 0 y 400

bins y en el eje x (scale) entre los 600 y 1050 bins.

Una vez hecho esto, se va a obtener el audio separado enmascarando de nuevo pero

esta vez en el dominio tiempo-frecuencia. Las máscaras en tiempo-frecuencia simplemente

se consiguen comparando el módulo de la parte repetitiva (el fondo) del espectrograma de

la máscara del dominio escala-ratio con el módulo de la parte no repetitiva (el primer


80

plano) del espectrograma de la máscara del dominio escala-ratio. Así:

𝑀𝑏𝑔(𝜔, 𝜏) = 1 cuando |�̃�𝑏𝑔(𝜔, 𝜏)| > |�̃�𝑓𝑔(𝜔, 𝜏)| (43)

y 𝑀𝑏𝑔(𝜔, 𝜏) = 0 en el resto de los casos.

La máscara del primer plano en el dominio tiempo-frecuencia la calcularemos

entonces tal que:

𝑀𝑓𝑔(𝜔, 𝜏) = 1 – 𝑀𝑏𝑔(𝜔, 𝜏) (44)

Como último paso de este método, se resintetiza para obtener el audio deseado

después de haber separado la música y la voz tal y como queríamos. Esto lo recuperamos

de las máscaras STFT, es decir en el dominio tiempo-frecuencia. Para ello, tenemos que

realizar la transformada inversa (para volver del espectrograma al dominio del tiempo),

para lo cual se necesita la información de la fase 𝑋𝑝ℎ(𝜔, 𝜏) de la señal original que se

guardó anteriormente. Se multiplica el módulo |𝑋(𝜔, 𝜏)| resultado de nuestro algoritmo

con la fase 𝑋𝑝ℎ(𝜔, 𝜏) y se calcula la inversa del espectrograma para así obtener una señal

de audio final 𝑥𝑓(𝑡) la cual se podrá escuchar y guardar en un archivo con formato '.wav'

para comprobar el resultado. Se deben obtener dos señales finales, una para la parte

repetitiva (fondo o acompañamiento instrumental) y otra para la parte no repetitiva (primer

plano o voz cantada).


81

Ilustración 31. Espectrograma de la parte repetitiva de la señal de audio.

Para obtener el módulo de la parte de primer plano (lo no repetitivo) del

espectrograma se hará el mismo proceso, pero utilizando en este caso la máscara de la parte

de primer plano del dominio scale-rate:

|�̃�𝑓𝑔(𝜔, 𝜏)| = Iℱ𝒯2𝐷{𝑀𝑓𝑔(𝑠, 𝑟) ∗ �̃�(𝑠, 𝑟)} (45)


82

Ilustración 32. Espectrograma de la parte no repetitiva de la señal de audio.

En ambas ilustraciones (31 y 32) se pueden apreciar los elementos repetitivos en el tiempo (los

azules claro en esta gráfica del espectrograma), con los instrumentos muy repetitivos y la voz muy

poco repetitiva.


83

4.2. REPET-SIM

El otro algoritmo que se ha implementado en este Trabajo de Fin de Grado se basa en el

descrito en el documento [13], y también trabaja con una señal de entrada 𝑥(𝑡), audio que se

desea separar, e igualmente se procede a realizar el cálculo de su espectrograma, obteniendo así

la señal 𝑋𝑝ℎ(𝜔, 𝜏). Para la realización del mismo, se usa una ventana de Hamming de longitud

N muestras, y la mitad de muestras solapadas. Se guarda la información de la fase 𝑋𝑝ℎ(𝜔, 𝜏)

que utilizaremos para resintetizar, y trabajamos con el módulo, al cual nos referiremos a partir

de aquí como 𝑉.

4.2.1. Matriz similitud

La matriz de similitud es una representación bidimensional donde cada punto mide la

similitud o no similitud entre dos elementos de una secuencia dada. Como la repetición o la

similitud es lo que forma la estructura de la música, una matriz de similitud calculada de una

señal de audio nos puede ayudar a revelar la estructura musical que subyace en dicho audio.

En este trabajo definimos la matriz de similitud 𝑆 como la multiplicación de la matriz

transpuesta de 𝑉 por 𝑉, después de haber normalizado las columnas de 𝑉 mediante su norma

Euclídea. Es decir:

𝑆 = 𝑉𝑇 ∗ 𝑉 (46)

En otras palabras, cada punto de 𝑆 mide la similitud del coseno entre las columnas 𝑗𝑎 y

𝑗𝑏 del módulo del espectrograma 𝑉. El cálculo de la matriz de similitud 𝑆 se muestra en la Ec.

47:

𝑆(𝑗𝑎, 𝑗𝑏) =∑ 𝑉(𝑖, 𝑗𝑎)𝑉(𝑖, 𝑗𝑏)𝑛

𝑖=1

√∑ 𝑉(𝑖, 𝑗𝑎)2𝑛𝑖=1 √∑ 𝑉(𝑖, 𝑗𝑏)2𝑛

𝑖=1

(47)

donde 𝑛 =𝑁

2+ 1 = # canales de frecuencia

∀𝑗𝑎, 𝑗𝑏 ∈ [1, 𝑚] donde m = # cuadros (columnas) de tiempo


84

Ilustración 33. Modelo de espectrograma repetitivo 𝑊.

Una vez que se ha calculado la matriz de similitud, la usamos para identificar los

elementos repetidos en el módulo del espectrograma 𝑉. Para todas las columnas 𝑗 de 𝑉,

buscamos las columnas que son más similares a la columna dada j y las guardamos en un vector

de índices 𝐽𝑗.

Suponiendo que el primer plano no repetitivo (la voz cantada) es escaso y variado en

comparación con el fondo repetitivo (el acompañamiento musical o instrumentos) -una

suposición razonable de la voz en la música, los elementos repetitivos revelados por la matriz


85

de similitud deben ser los que forman la estructura repetitiva subyacente. El uso de una matriz

de similitud en realidad nos permite identificar elementos repetidos que no ocurren

necesariamente de manera periódica.

Para solucionar este aspecto, restringimos las columnas similares mediante la definición

de los parámetros de la prueba para el algoritmo. Para limitar el número de cuadros repetidos

considerados similares al cuadro 𝑗 dado, definimos 𝑘, el número máximo permitido de cuadros

repetidos. Definimos 𝑡, el umbral mínimo permitido para la similitud entre un cuadro que se

repite y el cuadro dado 𝑡 ∈ [0,1]. Los cuadros consecutivos pueden mostrar una gran similitud

sin representar nuevos casos del mismo elemento estructural, ya que la duración del cuadro no

está relacionada con la duración de los elementos musicales. Por lo tanto, se define 𝑑, la

distancia mínima permitida (tiempo) entre dos cuadros de repetición consecutivos que se

consideran lo suficientemente similares para indicar un elemento de repetición.

4.2.2. Mediana

Una vez que hemos identificado los elementos repetidos para todas las columnas 𝑗 del

módulo del espectrograma 𝑉 a través de su correspondiente vector de índices 𝐽𝑗., los usamos

para derivar un modelo de espectrograma repetitivo 𝑊 para el fondo. Para todas las columnas

𝑗 en 𝑉, derivamos la columna correspondiente en 𝑊 tomando la mediana de las columnas

correspondientes cuyos índices están dados por el vector 𝐽𝑗., para cada canal de frecuencia. El

cálculo del modelo de espectrograma repetitivo 𝑊 se muestra en la Ec. 48:

𝑊(𝑖, 𝑗) = {𝑉(𝑖, 𝐽𝑗(𝑙)}𝑙∈[1,𝑘]𝑚𝑒𝑑𝑖𝑎𝑛 (48)

donde 𝐽𝑗 = [𝑗1 … 𝑗𝑘] = índices de cuadros repetidos

donde 𝑘 = número máximo de cuadros repetidos

∀𝑖 ∈ [1, 𝑛] = índice del canal de frecuencia

∀𝑗 ∈ [1, 𝑚] = índice del cuadro de tiempo

El razonamiento es que, asumiendo que el primer plano no repetitivo (la voz cantada)


86

tiene una representación escasa de tiempo-frecuencia en comparación con la representación de

tiempo-frecuencia del fondo de repetición (acompañamiento musical o instrumentos), los

intervalos de tiempo-frecuencia con pequeñas desviaciones entre los marcos de repetición

constituirán un patrón repetitivo y serán capturados por la mediana. En consecuencia, los

intervalos de tiempo y frecuencia con grandes desviaciones entre cuadros repetidos

constituirían un patrón de no repetición y serían eliminados por la mediana. En la ilustración

34 se muestra la derivación del modelo de espectrograma repetitivo 𝑊 utilizando la matriz de

similitud S.

Ilustración 34. Modelo de espectrograma repetitivo 𝑊.

En la ilustración 34 se pueden apreciar los elementos repetitivos (amarillos) entre los 0

y 200 Hz aproximadamente durante todo el tiempo analizado.


87

Una vez que el modelo de espectrograma repetitivo 𝑊 se ha calculado, lo usamos para

obtener una máscara en tiempo-frecuencia 𝑀. Pero antes de ello, necesitamos crear un modelo

de espectrograma repetitivo 𝑊' redefinido para el fondo, tomando el mínimo entre 𝑊 y 𝑉, para

cada elemento en tiempo-frecuencia.

De hecho, como se señala en [13], si asumimos que el espectrograma de mezcla no

negativo 𝑉 es la suma de un espectrograma de repetición no negativo 𝑊 y un espectrograma de

no repetición no negativo 𝑉-𝑊, entonces los puntos de tiempo-frecuencia en 𝑊 pueden tener

al menos el mismo valor que los intervalos de tiempo-frecuencia correspondientes en 𝑉. En

otras palabras, queremos 𝑊 = 𝑉, para cada punto de tiempo-frecuencia. De ahí el uso de la

función mínimo.

Así que derivamos una máscara 𝑀 de tiempo-frecuencia normalizando 𝑊' con 𝑉, para

cada punto en tiempo-frecuencia. La razón es que los intervalos de tiempo-frecuencia que

probablemente constituyen un patrón de repetición en 𝑉 tendrán valores cercanos a 1 en 𝑀 y se

ponderarán hacia el fondo de repetición (el acompañamiento musical o instrumentos). En

consecuencia, los intervalos de tiempo y frecuencia que probablemente no constituyan un

patrón de repetición en 𝑉 tendrán valores cercanos a 0 en 𝑀 y se ponderarán hacia el primer

plano no repetitivo (la voz cantada). El cálculo de la máscara de tiempo-frecuencia 𝑀 se muestra

en la Ec. 49.

𝑊′(𝑖, 𝑗) = min(𝑊(𝑖, 𝑗), 𝑉(𝑖, 𝑗)) (49)

𝑀(𝑖, 𝑗) =𝑊′(𝑖,𝑗)

𝑉(𝑖,𝑗) con 𝑀(𝑖, 𝑗) ∈ [0,1] (50)

∀𝑖 ∈ [1, 𝑛] = índice del canal de frecuencia

∀𝑗 ∈ [1, 𝑚] = índice del cuadro de tiempo


88

Ilustración 35. Modelo de espectrograma repetitivo 𝑊’.

La máscara de tiempo-frecuencia 𝑀 se simetriza y se aplica a la STFT 𝑋(𝜔, 𝜏) de la

señal de mezcla 𝑥(𝑡). La señal de música estimada se obtiene finalmente invirtiendo el STFT

resultante en el dominio del tiempo. La señal de voz estimada se obtiene simplemente restando

la señal de música de la señal de mezcla.


89

Se pueden ver ambas máscaras en las siguientes imágenes:

Ilustración 36. Máscara de la parte repetitiva.

La parte repetitiva se corresponde con todas las zonas amarillas dentro del espectrograma

analizado.


90

Ilustración 37. Máscara de la parte no repetitiva.

La parte no repetitiva se corresponde con todas las zonas amarillas dentro del espectrograma

analizado.

Como último paso de este método, resintetizamos para obtener el audio deseado después

de haber separado la música y la voz tal y como queríamos. Esto lo recuperamos de las máscaras

STFT, es decir en el dominio tiempo-frecuencia. Para ello, tenemos que realizar la transformada

inversa (para volver del espectrograma al dominio del tiempo), para lo cual necesitamos la

información de la fase 𝑋𝑝ℎ(𝜔, 𝜏) que guardamos anteriormente. Multiplicamos el módulo

𝑋(𝜔, 𝜏) resultado de nuestro algoritmo con la fase 𝑋𝑝ℎ(𝜔, 𝜏) y calculamos la inversa del

espectrograma para así obtener una señal de audio final 𝑥𝑓(𝑡) la cual podremos escuchar y

guardar en un archivo con formato '.wav' para comprobar el resultado. Debemos obtener dos

señales finales, una para la parte repetitiva (fondo o acompañamiento instrumental) y otra para


91

la parte no repetitiva (primer plano o voz cantada).

Se pueden ver ambos espectrogramas en las siguientes imágenes:

Ilustración 38. Espectrograma de la parte repetitiva.


92

Ilustración 39. Espectrograma de la parte no repetitiva.

En ambas ilustraciones (38 y 39) se pueden apreciar los elementos repetitivos en el tiempo (los azules

claro en esta gráfica del espectrograma), con los instrumentos muy repetitivos entorno a los 0-200 Hz y la voz

muy poco repetitiva llegando incluso a los 300 y pico Hz.


93

Capítulo 5

5. RESULTADOS Y DISCUSIÓN

En este capítulo se mostrarán los resultados obtenidos tras el uso de los dos algoritmos

implementados.

Para la evaluación de los datos se van a elaborar unas bases de datos sobre las que se

efectuarán una serie de mediciones. Estas mediciones serán SDR, SIR y SAR, cuyo

significado se puede encontrar en los apartados posteriores. El procedimiento de obtención

de las dos bases de datos se explica en la sección 5.1, las medidas empleadas, así como su

significado y forma de obtención, están explicadas en la sección 5.2. Una vez obtenidos todos

los resultados se ejecutará un procedimiento de optimización para establecer qué parámetros

permiten maximizar la calidad de la separación de audio (sección 5.3), se presentarán los

resultados finales en la sección 5.4 y finalmente, se analizarán dichos resultados en la sección

5.5.


94

5.1. Base de datos utilizada

Para la evaluación de los dos métodos implementados se utiliza la base de datos DSD100

[15]. Es un conjunto de datos de 100 pistas de música de larga duración de diferentes estilos

junto con su batería aislada, su bajo, la voz cantada y otros. Esta base de datos contiene dos

directorios, uno con un conjunto de entrenamiento, compuesto por 50 canciones, y un directorio

con un conjunto de prueba, compuesto también por 50 canciones. Para cada archivo, la mezcla

corresponde a la suma de todas las señales. Todas las señales son estéreo y están codificadas a

44,1 kHz, como se comentó en el apartado anterior. Sin embargo, para la evaluación de las

mismas han sido convertidas a mono. Los datos de la DSD100 constan de 100 pistas derivadas

de la biblioteca de descarga multipista gratuita ‘Mixing Secrets’ [15]. Como punto de partida se

tienen las distintas pistas por separado, las cuales se unen antes de aplicar cada uno de los dos

métodos de forma que se obtiene una pista total de cuatro señales diferentes cuyo contenido es:

La pista del bajo.

La pista de la batería.

La pista de la voz cantada.

Otra pista con otros instrumentos.

Ilustración 40. Composición de todas las pistas evaluadas.

Así ya se dispone de las señales finales que vamos a evaluar, por lo tanto, se pasa a

explicar las métricas utilizadas.


95

5.2. Métricas (SDR, SIR, SAR)

Para evaluar los sistemas empleados se manejarán un conjunto de métricas utilizadas

considerablemente en el área de la separación de fuentes sonoras. Estas métricas son descritas

en profundidad en el documento “Performance Measurement in Blind Audio Source

Separation” [15]. En este texto se describen las medidas SDR (Source to Distortion Ratio), SIR

(Source to Interferences Ratio), SNR (Source to Noise Ratio) y SAR (Source to Artifacts Ratio).

Las medidas de SDR, SIR y SAR consisten en un tipo de medidas cuantitativas y no

subjetivas,por lo que no dependen del oyente ni de la persona que ejecute la medición.

Adicionalmente, se encuentran otro tipo de medidas, como pueden ser la “Interferencia

entre Símbolos” (Inter- Symbol Interference, ISI) o D, que consiste en la comparación directa

de la señal reconstruida con la señal original. Este tipo de medición sufre una serie de limitantes,

dado que no consideran otros tipos de distorsiones que pueden tener mayor o menor impacto en

ciertos casos. Por ejemplo, en aplicaciones musicales hi-fi la distorsión que cambia el timbre

de los instrumentos prima sobre otro tipo de distorsión, mientras que en aplicaciones de habla

se da una mayor importancia a la distorsión inducida al realizar ciertos filtrados que inducen la

pérdida de inteligibilidad del habla. Las dos medidas descritas anteriormente no consideran

alguna diferencia entre estos tipos de distorsiones, es por ello que se recurre a otro tipo de

medidas [15].

Para aplicaciones de audio, es de importancia medir de forma separada la cantidad de

interferencias derivada de fuentes no deseadas, la cantidad de ruido resultante del sensor y la

cantidad de ruido por “artefactos” (debido a una mala reconstrucción de la señal). Estos

artefactos son considerados más molestos que las interferencias y estas, a su vez, son más

molestas que el ruido proveniente del sensor.

Si se considera la señal reconstruida como 𝑥𝑟𝑒𝑐, se puede descomponer ésta en la

sumatoria de los términos siguientes:

𝑥𝑟𝑒𝑐 = 𝑥𝑑𝑖𝑠𝑡 + 𝑒𝑖𝑛𝑡𝑒𝑟𝑓 + 𝑒ruido + 𝑒𝑎𝑟𝑡e𝑓

(51)


96

Donde 𝑥𝑑𝑖𝑠𝑡 consiste en la versión distorsionada de 𝑥 (señal original) y 𝑒𝑖𝑛𝑡𝑒𝑟𝑓, 𝑒𝑟𝑢𝑖𝑑𝑜 y

𝑒𝑎𝑟𝑡𝑒𝑓 son los términos del error introducido por interferencias, ruido y artefactos

respectivamente. Estos cuatros términos representan el ruido de sensor, la parte de señal que

proviene de la fuente deseada, así como de otras fuentes no deseadas y otro tipo de distorsiones.

A continuación, se calcularán distintas proporciones de energía para evaluar qué cantidad

de los cuatro términos se encuentra en la señal reconstruida.

En [13] se explica en detalle el cálculo de los parámetros 𝑥𝑑𝑖𝑠𝑡, 𝑒𝑖𝑛𝑡𝑒𝑟𝑓, 𝑒𝑟𝑢𝑖𝑑𝑜 y 𝑒𝑎𝑟𝑡𝑒𝑓. Una

vez obtenidos dichos parámetros, se muestran las ecuaciones seguidas para la obtención de las

medidas expuestas al inicio de este apartado:

𝑆𝐷𝑅 = 10𝑙𝑜𝑔10||𝑠𝑡𝑎𝑟𝑔𝑒𝑡||2

||𝑒𝑖𝑛𝑡𝑒𝑟𝑓+𝑒𝑟𝑢𝑖𝑑𝑜+𝑒𝑎𝑟𝑡𝑒𝑓||2 (52)

𝑆𝐼𝑅 = 10𝑙𝑜𝑔10||𝑠𝑡𝑎𝑟𝑔𝑒𝑡||2

||𝑒𝑖𝑛𝑡𝑒𝑟𝑓||2 (53)

𝑆𝑁𝑅 = 10𝑙𝑜𝑔10||𝑠𝑡𝑎𝑟𝑔𝑒𝑡+𝑒𝑖𝑛𝑡𝑒𝑟𝑓||2

||𝑒𝑟𝑢𝑖𝑑𝑜||2 (54)

𝑆𝐴𝑅 = 10𝑙𝑜𝑔10||𝑠𝑡𝑎𝑟𝑔𝑒𝑡+𝑒𝑖𝑛𝑡𝑒𝑟𝑓+𝑒𝑟𝑢𝑖𝑑𝑜||2

||𝑒𝑎𝑟𝑡𝑒𝑓||2 (55)


97

5.3. Setup (Inicialización)

Las señales empleadas se han muestreado con una frecuencia de 𝑓𝑠 = 44100 𝐻𝑧. Esta

frecuencia permite hallar señales con una suficiente calidad para ser escuchadas y, al mismo

tiempo, no genera una cantidad de muestras demasiado elevada, lo que conllevaría un coste

computacional muy elevado. Para la realización de la STFT (Short-Time Fourier Transform) se

empleará una ventana Hanning de 1024 muestras con un solapamiento de 𝑁/2, es decir, 512

muestras de solapamiento. Al emplear este tamaño de ventanas, es posible trabajar con señales

de una duración de 64 mS, un tamaño bastante pequeño como para asumir estacionaría una

señal de audio.

Para el primer método (2DFT), la separación de música/voz usando la transformada de

Fourier bidimensional, el único parámetro que se utiliza que se puede inicializar a gusto del

usuario es el vecindario para seleccionar los picos dentro de la representación scale-rate. Por

defecto, este vecindario se inicializa a 𝑣 = 15.

Para el segundo método (REPET-SIIM), inicializamos 𝑘 = 100 como el número

máximos de frames repetidos que se pueden coger, 𝑡 = 0 como el umbral mínimo para la

similitud en la repetición de frames y 𝑑 = 1 segundo referido a la distancia mínima entre dos

frames repetidos consecutivos.


98

5.4. Análisis de los resultados obtenidos

El método que se ha seguido para la evaluación ha sido el siguiente:

En primer lugar, se evalúan los primeros 30 segundos de cada canción.

En segundo lugar, se evalúan los siguientes 30 segundos de cada canción.

Por último, se realiza la media aritmética de los resultados para conseguir así unas

medidas más fieles y coherentes (los inicios de las canciones suelen ser diferentes al resto de

las mismas donde se encuentran el estribillo y otras estrofas por lo que de esta manera los

resultados se consideran más fieles a la totalidad de la canción):

Ilustración 41. Media de resultados de la base de datos DSD100.

Como podemos apreciar en el diagrama de barras, los resultados de SDR, SIR y SAR son

coherentes ya que son positivos para el acompañamiento musical (repetitivo) y en el caso del

SDR y el SIR son negativos para la voz (debido a la no repetición y por tanto preponderancia

de ruido respecto a la señal deseada).

-10

-5

0

5

10

15

20

25

Instrumentos 2DFT Voz 2DFT Instrumentos REPET-SIM Voz REPET-SIM

Evaluación bases de datos DSD100

SDR SIR SAR


99

Aunque se ha utilizado la base de datos DSD100 completa, aquí se muestra un ejemplo

más particular con 10 canciones con sus resultados para la voz:

Canción FFT2 FFT2 FFT2 REPET-SIM REPET-SIM REPET-SIM

1os 30s SDR SIR SAR SDR SIR SAR

C1 3,6391 26,1404 3,4178 -1,7242 -0,1243 5,2966

C2 3,6020 13,0566 2,5214 -5,8044 -6,8637 1,7074

C3 3,5266 16,0215 2,1520 4,7136 6,9586 8,9890

C4 3,7653 9,4193 3,7157 1,4919 3,6323 3,3409

C5 8,2841 19,3311 8,8447 5,5686 10,7131 6,5151

C6 4,0940 15,9563 3,1402 -5,0842 -4,3546 1,5929

C7 10,8515 27,8048 11,4587 0,8358 6,0766 2,5131

C8 4,9115 32,6494 4,9395 -24,3008 -25,7056 1,0923

C9 6,3286 14,9341 6,9198 -2,3451 0,4458 1,8917

C10 9,4248 31,8484 10,7124 -0,0673 3,6762 3,5665

Tabla 2. Resultados de los primeros 30 segundos de 10 canciones evaluadas.


2os 30s SDR SIR SAR SDR SIR SAR

C1 5,5726 12,1904 8,5724 2,0107 -0,5639 9,4055

C2 8,6158 12,9492 12,6021 -0,7786 -4,1509 5,0607

C3 5,3011 7,0564 7,7633 6,4655 9,0484 9,7066

C4 4,0333 3,4903 10,029 1,7718 0,4433 6,3145

C5 2,6801 2,5136 5,2087 -0,0345 -2,51 9,0093

C6 5,8728 11,2981 9,1237 -3,3045 -6,6656 6,9226

C7 6,0831 20,5208 8,8873 -3,9731 -4,4248 7,2645

C8 7,7935 31,9711 10,8707 -21,4184 -26,019 5,7341

C9 7,0557 15,8636 9,9745 -1,6178 -2,5532 7,2489

C10 8,2937 16,0699 10,7856 -1,2017 -2,1974 4,6702

Tabla 3. Resultados de los segundos 30 segundos de 10 canciones evaluadas.


100


media 60s SDR SIR SAR SDR SIR SAR

C1 4,6059 19,1654 5,9951 0,1433 -0,3441 7,3511

C2 6,1089 13,0029 7,5618 -3,2915 -5,5073 3,3841

C3 4,4139 11,5390 4,9577 5,5896 8,0035 9,3478

C4 3,8993 6,4548 6,8724 1,6319 2,0378 4,8277

C5 5,4821 10,9224 7,0267 2,7671 4,1016 7,7622

C6 4,9834 13,6272 6,1320 -4,1944 -5,5101 4,2578

C7 8,4673 24,1628 10,1730 -1,5687 0,8259 4,8888

C8 6,3525 32,3103 7,9051 -22,8596 -25,8623 3,4132

C9 6,6922 15,3989 8,4472 -1,9815 -1,0537 4,5703

C10 8,8593 23,9592 10,7490 -0,6345 0,7394 4,1184

Tabla 4. Resultados de las 10 canciones particularizadas.


101

Tras realizar una recolección de datos profunda de ambos algoritmos (FFT2 y REPEAT-

SIM) en la que se han obtenido todos los valores de la base de datos completa, se ha mostrado

la media de dichos valores en la ilustración 41. Para particularizar y estudiar algunos de los

casos, se obtuvieron las tablas de resultados 2, 3 y 4 donde se reflejan los distintos valores de

SDR, SIR y SAR para la voz de las 10 primeras canciones de dicha base de datos, que son las

métricas que indican que el algoritmo realiza correctamente la separación, ya que los valores

son relativamente parecidos a los de otros trabajados realizados anteriormente [12] ya descritos

en el capítulo 3. En cuanto a las gráficas anteriores, se extrajeron del conjunto de datos del cual

se estimó la media de SAR, SIR, SDR.

En cuanto a la muestra C1, se puede evidenciar una diferencia de 5,37 en cuanto al valor

de SDR, situándose el valor más alto para el algoritmo FFT2 en 3,64 y para el algoritmo

REPEAT-SIM en -1,73, lo que representa un valor de ruido 67,78% más elevado que el

generado en el método FFT2, esto en cuanto a los primeros 30 segundos. Luego, en relación a

los siguientes 30 segundos, se obtuvo un panorama más optimista que el anterior para el

algoritmo REPEAT-SIM, puesto que se obtuvo una diferencia con respecto al valor de SDR de

2,96, indicando que a pesar de que el valor de SDR para FFT2 sea superior (5,57 para FFT2)

se obtuvo una definición aceptable para el algoritmo REPEAT-SIM de 2,61. Finalmente, la

media del minuto completo para FFT2 el SDR se situó en 4,61 y para REPEAT-SIM en 0,14,

indicando que para este tipo de sonido se obtienen mejores resultados aplicando FFT2; sin

embargo, no se descarta que REPET-SIM se pueda aplicar con mayor precisión de separación

en ciertos patrones con una estructura más repetitiva que la introducción de la pieza de audio.

Por su parte, la muestra C2 presentó un patrón similar a la muestra C1 reportando un

valor medio del SDR de 3,6 para FFT2 (ver ilustración 38) y de SDR -5,84, indicando que en

esta ocasión la definición de audio fue inferior en un 61,8% con relación al método FFT2. De

igual forma, se repite la tendencia que en la muestra C1 para los siguientes 30 segundos, esta

vez con un escenario menos optimista para REPET-SIM, puesto que en esta ocasión genera

valores de SDR cercanos a 0 mientras que FFT2 cuenta con una definición superior de hasta

más de dos veces superior que los primeros 30 segundos. Finalmente, la media aritmética del

minuto completo se estableció en 6,11 para FFT2 y -3,17 para REPEAT-SIM, indicando que

para este escenario el algoritmo FFT2 fue superior que REPEAT-SIM.


102

Durante el análisis de la muestra C3 se observó una diferencia más notable con relación

a la tendencia anteriormente presentada en las muestras C1 y C2 para los primeros 30 segundos

(ver ilustración 41), en esta ocasión, el valor de SDR para FFT2 se situó en 3,53, mientras que

para REPEAT-SIM fue superior en un 33,4% con relación al FFT2, situándose el valor de SDR

en 4,71. En los siguientes 30 segundos se observó una estructura similar, esta vez con una

brecha más estrecha, siendo ahora el valor de SDR de REPEAT-SIM de 6,47, mientras que el

valor de SDR de FFT2 se situó en 5,30, siendo superior en un 22,1% el valor obtenido por el

algoritmo REPEAT-SIM. Finalmente, la media general de los 60 segundos reporta un valor de

SDR para FFT2 de 4,41 y de 5,59 para REPEAT-SIM, indicando que en este escenario

REPEAT-SIM fue superior a FFT2.

Por otra parte, la muestra C4 siguió la misma tendencia de la muestra C1 y C2 mostrando

un valor de SDR para FFT2 de 3,77 y de 1,49 para REPEAT-SIM, lo que representa que la

señal de audio generada por FFT2 cuenta con 2,53 veces menos ruido que la generada por

REPEAT SIM, durante los primeros 30 segundos. En los posteriores 30 segundos (ver

ilustración 45) se mantuvieron próximos los valores de SDR a los valores indicados en los

anteriores 30 segundos, siendo estos de 4,03 y de 1,77 para FFT2 y REPEAT-SIM,

respectivamente, contado FFT2 con aproximadamente 2,2 veces menos ruido que REPEAT-

SIM. Finalmente, la media de los 60 segundos mostró que se obtuvo un valor de SDR de 3,90

para FFT2 y de 1,63 para REPEAT-SIM, siendo FFT2 superior en esta ocasión, no obstante,

REPEAT-SIM también realizó una separación aceptable.

A pesar de mostrarse una tendencia en C1, C2 y C4 a que REPEAT-SIM obtenga señales

de audio con mayor ruido, en un 60% a FFT2, durante los primeros 30 segundos, para la muestra

C5 se manifiesta una brecha inferior del 41% entre ambos métodos, siendo el valor de SDR

para REPEAT-SIM de 5,75 y de SDR para FFT2 de 8,28. En cuanto a los siguientes 30

segundos, sí se repite el patrón observado en C1, C2 y C4, siendo casi una diferencia entre

valores de SDR del 98%, puntualmente los valores fueron de 2,68 y -0,03 para FFT2 y

REPEAT-SIM respectivamente. La media global muestra que el valor de SDR para FFT2 se

sitúa en 5,48 y para REPEAT-SIM se sitúa en 2,77, siendo la separación por FFT2

aproximadamente el doble de limpia que la de REPEAT-SIM en este caso.


103

Por otra parte, en la muestra C6 se mantiene el patrón de los modelos C1, C2 y C4 para

los siguientes 30 segundos, con una brecha entre valores de SDR superior en 2,2 veces para

FFT2; los valores se sitúan en 4,09 y -5,08 para el FFT2 y REPEAT-Sim respectivamente. En

los siguientes 30 segundos parece obtenerse una señal de audio un tanto más limpia que en los

anteriores 30 segundos con el método REPET-SIM, sin embargo, el valor de SDR de esta es

inferior a 0 por lo que se considera una mala separación (valor puntual de -3,27). En cuanto al

método FFT2 se obtuvo una señal más limpia con menor ruido, con un valor de SDR de 5,87.

La métrica global de los 60 segundos devela que se obtuvo un SDR global del 4,98 para FFT2

y -4,31 para REPEAT-SIM, siendo FFT2 superior en este escenario, mientras que REPEAT-

SIM no logró una separación satisfactoria.

De manera similar ocurre con la muestra C7, esta vez con valores de SDR más

diferenciados, siendo el valor de SDR de 10,85 perteneciente a FFT2 y de 0,84 para REPEAT-

SIM. Se observa entonces que FFT2 es claramente superior a lo largo de toda la evaluación de

la señal de audio.

Los resultados reportados por el modelo C8 muestran la misma tendencia que el modelo

C7, pero esta vez a una diferencia más elevada que dicha muestra. Para los primeros 30

segundos FFT2 logró un valor de SDR de 4,91, mientras que REPEAT-SIM reportó un valor

de -24,3; obteniendo así una cantidad de ruido elevada y por tanto siendo una separación

bastante deficiente con relación a FFT2. La tendencia se mantiene a lo largo de la señal de audio

analizada, por lo cual, se puede decir que no fue satisfactoria la separación para REPEAT-SIM,

pero con FFT2 sí se logró el resultado esperado obteniendo un SDR general de 6,32.

La muestra C9 durante los primeros 30 segundos también siguió el patrón de la muestras

C1, C2, C4, C5 y C6, reportando valores de SDR para FFT2 de 6,33 y -2,17 para REPEAT-

SIM y, durante los siguientes 30 segundos se mantuvo esta diferencia con un incremento en la

calidad de separación del 11% para FFT2 y 50% para REPEAT-SIM, siendo los valores de

SDR para FFT2 de 7,06 y para REPEAT-SIM de -1,44. La media general de SDR para la

muestra C9 se situó en 6,69 y -1,8 para FFT2 y REPEAT-SIM, mostrando que se obtiene una

señal más limpia con FFT2 que con REPEAT-SIM.


104

Finalmente, la muestra C10 continúa con la tendencia de las muestras C1, C2, C4, C5,

C6 y C9 obteniendo un valor de 8,29 en cuanto al SDR para FFT2 y un valor cercano a 0 para

REPEAT-SIM durante los primeros 30 segundos de la señal de audio, mientras que, para los

posteriores 30 segundos el comportamiento se mantiene para FFT2 y disminuye la definición

para REPET SIM a -1,2 como valor de SDR. Una vista global de los 60 segundos muestra que

FFT2 obtuvo una separación más limpia con un valor de SDR medio de 8,85, mientras que,

REPEAT-SIM obtiene un valor de SDR de -0,63 mostrando mayor volumen de ruido que FFT2.

Aunque, los valores medios obtenidos de las 100 canciones de la base de datos evaluada

indican que los métodos FFT2 y REPET-SIM aportan resultados similares, para todas las

muestras analizadas en particular (las 10 canciones) aplicando FFT2 la separación de audio fue

satisfactoria y superior o similar al método de REPET-SIM. Esto puede deberse a múltiples

razones, como el ruido contenido durante la grabación de la señal de audio, puesto que, uno de

los puntos débiles de este algoritmo radica en la tolerancia de la frecuencia de las señales de

audio y, al estas contener valores elevados de ruido (por ejemplo, heavy metal o rock & roll)

entran en juego varias variables de ajuste manual como la tolerancia de ruido, haciéndolo un

algoritmo más dependiente del operario.

Por otra parte, FFT2 obtiene una señal clara y limpia para las 10 muestras analizadas,

sin embargo, se observó que para la muestra C3, REPET-SIM fue superior, esto puede deberse

a que esta señal de audio presenta un mayor patrón repetitivo. Dicho esto, se puede afirmar que,

como resultado general de este estudio, 9 de cada 10 muestras separadas con FFT2 reportan

separaciones más finas que las realizadas con el algoritmo REPEAT-SIM. Por otra parte, el

100% de las muestras separadas con FFT2 arrojan resultados positivos, representando una

técnica con alta tasa de éxito para distintas muestras de audio, sin embargo, 5 de 10 muestras

fueron separadas exitosamente con REPET-SIM, representando una tasa de éxito del 50% con

relación a FFT2.

A la vista de los resultados obtenidos, se puede afirmar que el método FFT2 es el que

mejores resultados ofrece en lo que a medidas de SDR, SIR y SAR respecta. Es importante

señalar que, el SAR no proporciona una medida que indique si los algoritmos han reportado

buenos resultados, por ello, se analizaron solamente el SDR y el SIR, también procedentes de

la SNR al igual que el SAR. En resumen, se llega a la conclusión de que el algoritmo de FFT2


105

funciona correctamente, pues los valores indican que se ha producido una buena separación de

la voz cantada y el resto del audio (acompañamiento musical). Sin embargo, en cuanto a

REPEAT-SIM no en todos los casos se obtiene señales de audio lo suficientemente nítidas.

Aunque el análisis de resultados particulares se ha realizado para una muestra de 10

canciones, en la evaluación total de la base de datos DSD100 se han obtenido todos los

resultados correspondientes a dichas canciones (ver ilustración 41) y se concluye que ambos

métodos consiguen su objetivo, pero que uno funcionará mejor que otro dependiendo

fuertemente del tipo de señal de cada canción, ya que los métodos realizan diferentes acciones

(ya explicadas en el capítulo 4) y por lo tanto aportan diferentes resultados para una misma

canción. Además, aparte de los resultados numéricos obtenidos, diferentes oyentes podrán

percibir subjetivamente diferentes calidades de un método respecto a otro (en mi caso en la

mayoría de los casos percibo que funciona mejor el de la FFT2 que el de REPET-SIM).


106

Capítulo 6

6. CONCLUSIONES

Este trabajo de fin de grado ha puesto de manifiesto la dificultad que existe a la hora de

extraer fuentes sonoras de una señal de audio mezcla, mostrando la existencia de distintos

métodos de separación de audio y que la selección y calibración de estos es de vital importancia

para llevar a cabo con éxito dicha separación.

A pesar de esta gran dificultad, se han conseguido los objetivos iniciales propuestos para

este trabajo, los cuales son la separación de la voz y del acompañamiento musical en diferentes

canciones.

Se han implementado 2 métodos diferentes para este fin utilizando la potente

herramienta de programación MATLAB basándonos en los artículos científicos [11] y [12].

Aparte del análisis de la base de datos completa y del análisis más en particular de 10

señales de audio diferentes arrojó que el algoritmo FFT2 tiene mayor tasa de éxito que

REPEAT-SIM. De las 10 muestras de audio separadas empleando estos dos algoritmos se

obtuvo en 9 casos con FFT2 una separación más limpia y con menos ruido según la métrica de

SDR, con respecto a REPEAT-SIM. Por otra parte, REPEAT-SIM en 1 oportunidad fue

superior a FFT2, lo que indica que FFT2 es un algoritmo más óptimo para la separación de

ondas de audio, sin embargo, este último demanda mayor cantidad de recursos informáticos

que REPEAT-SIM.

Sobre las 10 señales de audio separadas, FFT2 logra una separación satisfactoria de

todas estas según la métrica de SDR, mientras que, para REPEAT-SIM se logran 5 resultados

satisfactorios y 5 no satisfactorios, esto se puede deber al ruido, ajustes de tolerancia y a patrón

repetitivo de la canción, los cuales son parámetros que dependen del operario.


107

En cuanto al método REPEAT-SIM se puede concluir que es complicado y depende

netamente de parámetros empíricos, lo cual complica encontrar parámetros que optimicen los

resultados para todas las canciones, pues una canción que tenga más partes periódicas dará un

mejor resultado que una que tenga más partes no periódicas. Sin embargo, con las pruebas

realizadas con distintos parámetros se ha logrado llegar a 5 resultados aceptables para todas las

señales, porque se distinguen claramente dos audios finales, uno donde predomina la voz

cantada con el acompañamiento musical atenuado, y el otro donde predomina esta parte

instrumental que acompaña a la voz cantada, atenuada esta vez.

Las métricas empleadas en el trabajo, todas ellas provenientes de la SNR, nos han

permitido evaluar de manera adecuada nuestra base de datos. A pesar de ello, se ha podido

comprobar que los parámetros SDR y SIR nos son útiles en nuestro objetivo de separación de

voz e instrumentos, pero sin embargo el SAR no nos da una medida que indique si este grado de

separación ha sido bueno o malo.


108

Capítulo 7

7. LÍNEAS FUTURAS

De cara a futuros estudios relacionados con este campo, se podría probar a utilizar

diferentes parámetros como por ejemplo en el método 2DFT cambiar el umbral mínimo gamma

(𝛾) en el que se ha usado la desviación típica por algunos percentiles, por poner un ejemplo.

También sería interesante profundizar en mejorar la eficiencia de los métodos para poder

evaluar más duración de los audios sin que ello implique mucho más tiempo de computación.

En [13] solo evalúan los primeros 30 segundos de cada canción, lo que no es óptimo porque las

introducciones de las canciones suelen ser algo diferentes al resto de las mismas donde ya se

encuentra la repetición del estribillo, instrumentos más periódicos, etc. En este trabajo hemos

evaluado los primeros 30 segundos y los siguientes 30 segundos y después hemos hecho la

media, obteniendo resultados más fieles. Podría ser interesante estudiar qué sucede si se evalúa

una duración mayor.

Otras posibilidades son utilizar otras medidas en el método de REPET-SIM, en lugar de

utilizar la mediana ver qué pasaría si se usa la media u otros métodos, al igual que probar más

valores de los parámetros ajustables para optimizar resultados, aunque ya hemos visto en el

capítulo de conclusiones que esto es muy complicado debido a la variedad de las señales.

En mi opinión, estas líneas ayudarían a ser más meticulosos y rigurosos y así se podrían

conseguir resultados más fieles a la realidad.


109

8. REFERENCIAS BIBLIOGRÁFICAS

[1] Walter Wiora, The Four Ages of Music (Las cuatro edades de la música, 1967).

[2] M. Recuero López, Ingeniería Acústica, 1999.

[3] B Zhu, W Li, R Li, X Xue. Multi-Stage Non-Negative Matrix Factorization for Monaural

Singing Voice Separation.

[4] H Deif, W Wang, L Gan, S Alhashmi. A Local Discontinuity Based Approach for Monaural

Singing Voice Separation from Accompanying Music with Multi-stage Non- negative Matrix

Factorization.

[5] P Huang, S Chen, P Smaragdis, M Hasegawa-Johnson. Singing-voice Separation From

Monaural Recordings Using Robust Principal Component Analysis.

[6] Y Xie, L Chen, U Hofmann. Reduction Of Periodic Noise In Fourier Domain Optical

Coherence To-Mography Images By Frequency Domain Filtering.

[7] P Seetharaman, Z Rafii. Cover Song Identification With 2D Fourier Transform Sequences.

[8] H Tachibana, N Ono, S Sagayama. Singing Voice Enhancement in Monaural Music Signals

Based on Two-stage Harmonic/Percussive Sound Separation on Multiple Resolution

Spectrograms.

[9] Z Rafii, B Pardo. REpeating Pattern Extraction Technique (REPET): A Simple Method for

Music/Voice Separation.


110

[10] Z Rafii, B Pardo. Online Repet-Sim for Real-Time Speech Enhancement.

[11] I Aizenberg, C Butakoff. A Windowed Gaussian Notch Filter For Quasi-Periodic Noise

Removal.

[12] P Seetharaman, F Pishadian, B Pardo. Music/Voice Separation Using the 2D Fourier

Transform.

[13] Z Rafii, B Pardo. Music/Voice Separation Using the Similarity Matrix.

[14] A Liutkus et al, The 2016 Signal Separation Evaluation Campaign, in International

Conference on Latent Variable Analysis and Signal Separation (LVA/ICA).

[15] E Vincent, R Gribonval and C Févotte. Performance Measurement in Blind Audio Source

Separation. IEEE Transactions on Audio, Speech and Language Processing, Institute of

Electrical and Electronics Engineers, 2006.


111

Capítulo 9

9. ANEXO – GUI Y MANUAL DE USUARIO

Tras haber explicado y conseguido el objetivo de este trabajo, en este apartado se

muestra una interfaz de usuario simple que hace posible que, sin la necesidad de conocer

programación en MATLAB, se pueda realizar el proceso descrito en el documento. La interfaz

gráfica de usuario (GUI) se ha implementado utilizando el entorno de desarrollo GUIDE de

GUI de MATLAB.

De esta manera, el usuario será capaz de obtener los resultados de los dos métodos

implementados simplemente mediante el uso de unos botones y la selección del audio y del

método (y los parámetros) elegido(s).

En la siguiente imagen se muestra el aspecto de la interfaz tras inicializarla:


112

Ilustración 42. Aspecto inicial de la interfaz.


113

A continuación, se describen las diferentes partes que incluye la interfaz:

1) Botón "Seleccionar audio": pulsando en este botón se abrirá un directorio en el que

aparecen los diferentes audios disponibles de entre los cuales podemos elegir la señal a la que

deseemos aplicar el método. Los audios serán archivos en formato ‘.wav’. Al elegir el audio

deseado, se abrirá una nueva ventana con dos gráficas, las de sus señales temporal y su

espectrograma, las cuales también aparecen en la propia interfaz.

2) Cuadros de texto audio: aquí podremos ver el nombre del archivo seleccionado

anteriormente, su duración en segundos y su frecuencia de muestreo en Hz.

3) Gráfica señal temporal: en esta gráfica se verá la representación temporal de nuestra

señal seleccionada y además podremos pulsar dos botones, el de arriba (‘Play’) para reproducir

el audio y el de abajo (‘Stop’) para pararlo.

4) Gráfica espectrograma de la señal: se representará el espectrograma de la señal de

audio elegida mediante la FFT con los parámetros N=2048 (número de muestras de la FFT, lo

que equivale a 46,44 milisegundos), V=Hamming (tipo de ventana Hamming) y noverlap=1024

(número de muestras de solapamiento). En todas las gráficas se puede hacer zoom con los

botones de la lupa correspondientes.

5) Menú "Elija método": en este menú podremos elegir entre cuál de los dos métodos

implementados queremos aplicar a nuestra señal, el 2DFT o el REPET-SIM.

6) Grupo de cuadros de texto de parámetros: cuando se elija el método a realizar,

aparecerán los parámetros que podemos personalizar para la implementación de cada uno de

los métodos: para el método 1 o 2DFT tendremos que elegir v (vecindario), y para el método 2

o REPET-SIM k (número máximo permitido de frames que se repiten), t (umbral mínimo

permitido para la similitud entre el frame dado y el repetido) y d (distancia mínima permitida

(tiempo) entre dos frames consecutivos que se repiten).

7) Botón "Realizar método": pulsando en este botón se aplicará el método seleccionado

anteriormente y se realizará a la señal de audio elegida. Al realizar el método también se le dará

la opción al usuario pulsando el botón “100Hz quitar/poner” para que elija si desea eliminar de

0 a 100Hz o no.


114

8) Cuadro de botones ‘Play’ y ‘Stop’: a la derecha de las dos gráficas de los audios

generados tras la aplicación del método podemos hacer clic en los botones de ‘Play’ para

escuchar los mismos o en los botones de ‘Stop’ para pararlos.

9) Cuadros de texto de audios guardados: aquí podremos escribir los nombres deseados

para guardar los archivos generados por el método, estando los mismos terminados en el

formato ‘.wav’.

Una vez descritas las diferentes partes de la interfaz detallamos un pequeño tutorial para

que el usuario sepa cómo utilizarla.

Primero, una vez abierta la interfaz, haciendo clic en el botón de "Seleccionar audio"

elegimos la señal a la que queremos aplicar uno de los métodos. Los audios tienen que ser

archivos en formato '.wav', así que si hubiera otro formato habría que convertirlo previamente.

Segundo, una vez seleccionado el audio deseado, además de poder ver su nombre,

duración y frecuencia de muestreo, aparecerá de manera automática su representación temporal

y su espectrograma, tanto en la misma interfaz como en otra ventana.

Ilustración 43. Selección del audio deseado.


115

Tercero, haciendo clic en el menú de "Elija método" podremos elegir entre cuál de los

dos métodos queremos aplicar al audio. En el caso de que elijamos el método 1 o 2DFT,

podremos elegir qué vecindario v aplicarle, y en el caso de que elijamos el método 2 o REPET-

SIM, se nos permitirá introducir los parámetros deseados de k, t y d.

Ilustración 44. Selección del método y parámetros.

Cuarto, haciendo clic en el botón de "Realizar método" se aplicará el algoritmo

seleccionado y aparecerán las gráficas correspondientes tanto en la misma interfaz como en una

nueva ventana. En el caso de que no se haya elegido ninguno de los dos métodos, se mostrará

un mensaje de error en una ventana emergente.


116

Ilustración 45. Resultados obtenidos tras la realización del método.

Por último, a la derecha de cada gráfica de audio se da la opción de escucharlo haciendo

clic en el botón "Play" y de pararlo haciendo clic en el botón "Stop". Además, si se desea se

pueden guardar estos audios escribiendo los nombres deseados en los cuadros de texto que

aparecen y haciendo clic en el botón "Guardar". Los ficheros hay que guardarlos como archivos

en formato '.wav'.


117

Ilustración 46. Guardado de los audios generados.

Para hacer esto más visual, vamos a ver un ejemplo práctico del uso del software. El

aspecto inicial de la interfaz es el siguiente:


118

Ilustración 47. Aspecto inicial de la interfaz del software.


119

Lo primero es elegir el audio que deseamos tratar:

Ilustración 48. Selección del audio deseado.

Como podemos ver, se muestra la forma de onda de la señal de audio además del

espectrograma de la señal, estos se pueden ver tanto en la interfaz principal como en una ventana

emergente que aparece al elegir el audio deseado. En ambos sitios podemos hacer zoom si

queremos para ver mejor las gráficas. Ahora podemos elegir entre uno de los 2 métodos

implementados:


120

Ilustración 49. Cargado del audio seleccionado.

Si elegimos el método de la 2DF, tenemos que elegir el vecindario deseado a utilizar,

estando acotado entre valor entre 5 y 20 puntos:


121

Ilustración 50. Elección del método a implementar, en este caso el de la 2DF junto con sus parámetros.

Si en cambio elegimos el método de REPET-SIM, tenemos que elegir los valores de los

parámetros d, k y t:


122

Ilustración 51. Elección del método a implementar, en este caso el de REPET-SIM junto con sus

parámetros.

Tras darle al botón realizar método, de nuevo nos aparece una ventana emergente con

las gráficas principales que nos saca el método, las cuales son las máscaras de la voz y de la

parte instrumental (acompañamiento) tanto en función de tiempo-frecuencia como en función

de scale-rate:


123

Ilustración 52. Método ya realizado.

Por último, a la derecha de cada audio generado (parte instrumental y voz), podemos

escuchar dichos audios, pararlos, y guardarlos en una carpeta de nuestro equipo siempre en

archivos con extensión .wav.


124

Ilustración 53. Guardado de los audios generados.

Date post:	24-Dec-2021
Category:	Documents
Upload:	others
View:	3 times
Download:	0 times

SISTEMA PARA LA EXTRACCIÓN DE FUENTES SONORAS …

Documents