1
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO
Autor: Carlos Martín Valle
Tutor: Juan Manuel Montero Martínez
Grupo de Tecnología del HablaDepartamento de Ingeniería Electrónica
ETSIT
Carlos Martín Valle 2
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
INTRODUCCIÓN
Proyecto inicial para Natural Vox
Base de datos en dominio restringido
Objetivo: modulación de la frecuencia fundamental (f0)
Base: tesis doctoral de J. A. Vallejo y J.M. Montero, PFC de J. Sánchez, software de R. San Segundo
Soporte: Red Neuronal y scripts *.bat y *.per
Carlos Martín Valle 3
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
LA RED NEURONALPerceptrón multicapa
Función de salida sigmoidea
Algoritmo de aprendizaje mediante retropropagación
Unidad: sílaba
Parámetros: ZSCORE MODO_NORM INI FIN ACENT TERMINAC TERM_ANT SILABAS
PAL_FUNC NUM_PAL POS_PAL FIN_PAL CONTEXTO OCULTA NUM_FRASE
Carlos Martín Valle 4
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
LA BASE DE DATOS (I)
Dominio restringido con voz femenina
Proyecto de mejora de voz femenina para Natural Vox
Unidad: fonema
Inicialmente 22 frases-patrón
Finalmente 19 frases-patrón
Campos variables: Nombre propio enunciativa Sintaxis simple enunciativa Nombre propio o sintaxis simple interrogativa
Carlos Martín Valle 5
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
LA BASE DE DATOS (II)Grabaciones Nombres propios y apellidos en oraciones enunciativas (660 frases)
Frases 1, 2, 3, 4, 5, 6, 7, 17 y 19 Sintagmas nominales en oraciones enunciativas (307 frases)
Frases 8, 9, 10, 11, 12 y 14 Sintagmas nominales, movimientos bancarios y apellidos y pueblos
en oraciones interrogativas (600 frases) Frases 13, 15, 16 y 18
Agrupaciones 1, 2, 3, 4, 5, 10, 11, 17 y 19 8, 9, 12 y 14 13, 16 y 18 15 6 y 7
Carlos Martín Valle 6
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
LOS PROGRAMAS (I)
Lenguajes: C, Perl y scripts de MS-DOS
2 grupos Para generar ficheros
con parámetros de entrada de la Red
Para realizar los experimentos y obtener el modelado de la f0
1 2
1 2 3 4 1 2 1 2 3
PRENEWEXPER.BAT
NEWEXPER.BAT
SUSTITUY.PER
AL3EXPER.BAT
AL22EXPER.BAT
EXPERIM.BAT
EJEMPLO.EXE
WC.BAT
NEWCODE22.PER
EXCEL.BAT
WC.PER
EXCEL.PER
SUSTITUY.PER
MEDIA.PER
RESULT.PER
Carlos Martín Valle 7
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
LOS PROGRAMAS (II)
Estructura: “Superprograma”: generación de ficheros *.f0, extracción
difonemas y resíntesis de frases Generación de experimentos
Selección de parámetros (ficheros *.lis) Nueva codificación para la Red Neuronal (ficheros *.in)
Cross validation, leave-one-out : Por cada experimento se generan 10 subexperimentos 7 para entrenamiento, 1 para evitar sobreentrenamiento y 2 para test
Red Neuronal: entrenamiento, evaluación y test Obtención y elección de resultados
Procesamiento y presentación de los resultados
Carlos Martín Valle 8
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
LOS EXPERIMENTOS Y SUS RESULTADOS
Metodología: Se parte del experimento “Vallejo19” y se van modificando
los valores de los parámetros Se buscan resultados con diferencias significativas en sus
parámetros Se eliminan definitivamente los peores valores de los
parámetros (NUM_FRASE=0, CONTEXTO=0) Si no hay diferencias significativas se buscan diferencias
consistentes
Diferentes tipos de estrategias Cuando se pueden eliminar valores de los parámetros Cuando no se pueden eliminar valores de los parámetros
Carlos Martín Valle 9
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (I)
Oraciones enunciativas
Experimento “Vallejo19”neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj
15 1 1 1 1 1 1 4 1 0 0 0 0 19 12,3131841 209915 1 1 1 1 1 1 4 1 0 0 0 0 0 13,5129074
Resultados definitivos para todos los experimentos: Se elimina NUM_FRAS=0->NUM_FRAS=19 Se elimina CONTEXTO=0 Se elige ACENT=INI=FIN=1
Carlos Martín Valle 10
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (II)
Resultados finales: Tamaño intermedio de la capa oculta Contextos pequeños SÍLABAS: diferencias no consistentes Se marcan las terminaciones: TERMINAC=4 TERM_ANT es innecesario Codificación fina para PAL_FUNC FIN_PAL y POS_PAL: diferencias no consistentes NUM_PAL: no es necesario usar la codificación
neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj18 1 1 1 1 1 2 4 3 0 0 3 0 19 12,09507 209919 1 1 1 1 1 2 4 3 0 0 3 0 19 12,0979217 1 1 1 1 1 2 4 3 0 1 1 0 19 12,1003616 1 1 1 1 1 0 4 3 0 0 3 0 19 12,10424
Carlos Martín Valle 11
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASES 13, 16 Y 18 (I)
Oraciones interrogativas
Experimento “Vallejo19”neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj
15 1 1 1 1 1 1 4 1 0 0 0 0 19 13,258 201815 1 1 1 1 2 1 4 1 0 0 0 0 19 13,26425 1 1 1 1 2 1 4 1 0 0 0 0 19 13,269
Frases cortas -> Contextos pequeñosneu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj
10 1 1 1 1 2 1 0 1 0 0 0 0 19 13,164 201820 1 1 1 1 2 1 0 1 0 0 0 0 19 13,22110 1 1 1 1 3 1 0 1 0 0 0 0 19 13,29510 1 1 1 1 4 1 0 1 0 0 0 0 19 13,333
Carlos Martín Valle 12
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASES 13, 16 Y 18 (II)
Resultados finales: Capa oculta con pocas neuronas Contextos pequeños SÍLABAS: diferencias no consistentes TERMINAC: no hace falta usar la codificación TERM_ANT: mejora no consistente PAL_FUNC y NUM_PAL: usar codificación POS_PAL: no es necesario usar la codificación FIN_PAL: no usar codificación con ventana
neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj12 1 1 1 1 2 0 0 1 1 0 0 5 19 13,04374 201811 1 1 1 1 2 0 0 1 1 0 0 5 19 13,050839 1 1 1 1 2 1 0 1 1 0 0 0 19 13,05603
11 1 1 1 1 2 1 0 3 1 0 1 0 19 13,06819
Carlos Martín Valle 13
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASES 6 Y 7 (I)
Oraciones enunciativas
Causa: marcado diferente al del resto de frases
Objetivo: determinar la conveniencia de esta agrupación
FRASE 6
Resultados: TERMINAC es indiferente TERM_ANT es importante. CONTEXTO=3 Capa oculta de la Red Neuronal con tamaño pequeño
Carlos Martín Valle 14
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASES 6 Y 7 (II)
FRASE 7
Resultados: TERMINAC=4 TERM_ANT es indiferente. CONTEXTO=1 Capa oculta de la Red Neuronal con tamaño pequeño
No es aconsejable mezclar las frases 6 y 7 (14,552*437 + 17,265*413) / (437 + 413) = 15,854 < 16,417
neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEjFrase 6 10 1 1 1 1 3 1 0 1 0 0 0 5 19 14,552 437Frase 7 25 1 1 1 1 1 1 4 1 0 0 0 5 19 17,265 413Frases 6 y 7 10 1 1 1 1 1 1 4 1 0 0 0 5 19 16,417 850
FRASES 6 Y 7
Carlos Martín Valle 15
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASES 8, 9, 12 Y 14 (I)
Oraciones enunciativasneu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj
Frase 8 5 1 1 1 1 5 1 4 1 0 0 0 0 19 20,831 393Frase 9 5 1 1 1 1 4 1 4 1 0 0 0 0 19 17,913 637Frase 12 5 1 1 1 1 5 1 4 1 0 0 0 5 19 16,119 1503Frase 14 15 1 1 1 1 2 1 0 1 0 0 0 5 19 16,526 186Frases 8, 9, 12 y 14 15 1 1 1 1 5 1 4 1 0 0 0 5 19 16,879 2719
Se descarta la frase 8 por su gran error al modelar
Cambio de estrategia en los experimentos
Se fijan inicialmente los valores de las siguientes variables: TERMINAC=4 TERM_ANT=5
Frases cortas y largas Se elimina CONTEXTO=1
Carlos Martín Valle 16
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASES 8, 9, 12 Y 14 (II)
Resultados finales: Tamaño intermedio de la capa oculta CONTEXTO: 2 y 5 SÍLABAS: diferencias no consistentes Se marcan las terminaciones: TERMINAC=4 TERM_ANT=5: se usa la codificación PAL_FUNC y POS_PAL: diferencias no consistentes NUM_PAL: se usa la codificación FIN_PAL: codificación con ventana
neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj16 1 1 1 1 2 0 4 3 1 1 3 5 19 16,2233 232616 1 1 1 1 2 0 4 1 1 1 3 5 19 16,3281217 1 1 1 1 5 0 4 0 1 1 3 5 19 16,3499716 1 1 1 1 5 1 4 1 1 0 3 5 19 16,3564
Carlos Martín Valle 17
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASE 15 (I)
Oraciones interrogativas
Los grupos fonéticos marcados no se sitúan al final de las frasesneu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj
32 1 1 1 1 1 0 4 0 0 0 0 5 19 13,25401 94633 1 1 1 1 1 0 4 0 0 0 0 5 19 13,3447215 1 1 1 1 1 0 4 1 0 0 0 0 19 14,07103
Resultados finales: Tamaño grande de la capa oculta CONTEXTO=1 SÍLABAS=0 Se marcan las terminaciones: TERMINAC=4 TERM_ANT=5: se usa la codificación PAL_FUNC, NUM_PAL, POS_PAL y FIN_PAL: 0 ligeramente mejor
Carlos Martín Valle 18
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASE 15 (II)
FRASE 15 JUNTO CON 1, 2, 3, 4, 5, 10, 11, 17 Y 19
La inclusión de la frase 15 empeora el modelo de entonación 13,06630 > 12,09507
neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj30 1 1 1 1 1 0 4 3 0 0 0 0 19 13,0663 3045
FRASE 15 JUNTO CON 9, 12 Y 14
neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj15 1 1 1 1 2 0 4 3 1 0 3 5 19 15,59849 3272
La inclusión de la frase 15 empeora el modelo de entonación (13,254*946 + 16,223*2326) / (946 + 2326) = 15,364 < 15,598
Carlos Martín Valle 19
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASE 15 (III)
FRASE 15 JUNTO CON 13, 16 y 18
neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj25 1 1 1 1 2 0 4 1 1 0 1 5 19 13,65628 2964
La inclusión de la frase 15 empeora el modelo de entonación 13,65628 > 13,04374
Carlos Martín Valle 20
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOSFRASE 15 (IV)
FRASE 15 JUNTO CON TODAS LAS DEMÁSneu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj
Sin frases 6, 7 y 8 30 1 1 1 1 2 1 4 1 0 1 1 0 19 14,51819 7389Con frases 6, 7 y 8 20 1 1 1 1 2 1 4 1 0 1 1 0 19 15,0944 8632
La separación de las frases y su posterior agrupación mejoran el reconocimiento Sin frases 6, 7 y 8
(12,095*2099 + 13,043*2018 + 16,222*2326 + 13,254*946) / (2099 + 2018 + 2326 + 946) = 13,802 < 14,518
Con frases 6, 7 y 8 (12,095*2099 + 13,043*0218 + 16,223*2326 + 13,254*946 + 14,521*437 +
17,265*413 + 20,831*393) / (2099 + 2018 + 2326 + 946 + 437 + 413 + 393) = 14,324 < 14,518
Respecto al mejor número de J. Sánchez: 14,324 < 15,975
Carlos Martín Valle 21
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
CONCLUSIONES
Entorno automatizado
Leave-one-out
Parámetros obtenidos directamente del sintetizador
Utilidad de los parámetros
Reagrupación de las frases
Carlos Martín Valle 22
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido
LÍNEAS FUTURAS
Completar la reestructuración de los programas
Usar MUME en lugar del perceptrón usado
Experimentar con otros parámetros de la Red
Aplicar el sistema a fonemas
Evaluación con oyentes