Date post: | 13-Jul-2015 |
Category: |
Documents |
Upload: | john-alexander-vargas |
View: | 124 times |
Download: | 3 times |
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Analizador sintáctico probabilístico con clasi�cación
de argumentos de verbo para el idioma español.
John Alexander Vargas
Escuela de Ingeniería de Sistemas y Computación
Facultad de Ingeniería
Universidad del Valle
VII Simposio de Investigación, 2014
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Agenda
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Análisis sintáctico
Tarea principal
Describir cómo las palabras de la oración se relacionan y cuál es lafunción que cada palabra realiza en esa oración, es decir, construirla estructura de la oración de un lenguaje.
Depende la correcta comprensión del mensaje escrito, que es labase de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Análisis sintáctico
Tarea principal
Describir cómo las palabras de la oración se relacionan y cuál es lafunción que cada palabra realiza en esa oración, es decir, construirla estructura de la oración de un lenguaje.
Depende la correcta comprensión del mensaje escrito, que es labase de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Ejemplo
Ejemplo de una gramática libre de contexto y de un árbol sintáctico
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglasα1→ β1,α2→ β2, . . . ,αn→ βn
es p(t) = ∏ni=1 q(αi → βi )
where q(α → β ) es la probabilidad de la regla α → β
S → NPVP 1,0NP → Sust 0,4NP → Det Sust 0,3VP → V NP 0,7
La probabilidad para el árbol seria
p(t) = 0,84
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglasα1→ β1,α2→ β2, . . . ,αn→ βn
es p(t) = ∏ni=1 q(αi → βi )
where q(α → β ) es la probabilidad de la regla α → β
S → NPVP 1,0NP → Sust 0,4NP → Det Sust 0,3VP → V NP 0,7
La probabilidad para el árbol seria
p(t) = 0,84
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática
De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática
De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática
De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
El algoritmo CKY
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Outline
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Modelos de análisis de Collins
Tres modelos generativos lexicalizados propuestos por MichaelCollins
Modelo 1: Modelo generativo con cabezas lexicalizadas.
Modelo 2: Modelo 1 + distinción de complementos/adjuntos ysubcategorización.
Modelo 3: Modelo 2 + traza del movimiento de lanúcleo-cabeza.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Modelo básico
Lo primero que se nota en cada regla de una PCFGlexicalizada es la forma
P(h)→ Ln(ln) . . .L1(l1)H(h)R1(r1) . . .Rm(rm)
H es el núcleo sintáctico de la frase, el cuál hereda lapalabra-núcleo h, de su padre P .
L1 . . .Ln y R1 . . .Rm son modi�cadores de izquierda y derechadel núcleo H.
Tanto n como m pueden ser cero, Si n = m = 0, son reglasunarias.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Generación del modelo
La generación de RHS de cada regla, dada el LHS, ha sidodescompuesta en tres pasos:
1 Generación de la etiqueta del núcleo constituyente de la frase,con probabilidad PH(H|P,h).
2 Generación de modi�cadores a la izquierda del núcleo conprobabilidad ∏i=1...n+1PL(Li (li )|P,h,H), dondeLn+1(ln+1) = STOP . El símbolo STOP es adicionado alvocabulario de no-terminales, y el modelo para generandomodi�cadores a la izquierda donde ha sido generado.
3 Generación de modi�cadores a la derecha del núcleo conprobabilidad ∏i=1...n+1PR(Ri (ri )|P,h,H), Rm+1(rm+1) esde�nida como STOP.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras∆l y ∆r
No es una distancia real. Las funciones son heurísticas basadasen la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl(Li (li ) |H, P, h, L1(l1) . . .Li−1(li−1)) =Pl(Li (li ) |H, P, h, ∆l(i −1))
Pr (Ri (ri ) |H, P, h, R1(r1) . . .Ri−1(ri−1)) =Pl(Ri (ri ) |H, P, h, ∆r (i −1))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras∆l y ∆r
No es una distancia real. Las funciones son heurísticas basadasen la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl(Li (li ) |H, P, h, L1(l1) . . .Li−1(li−1)) =Pl(Li (li ) |H, P, h, ∆l(i −1))
Pr (Ri (ri ) |H, P, h, R1(r1) . . .Ri−1(ri−1)) =Pl(Ri (ri ) |H, P, h, ∆r (i −1))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Modelo 2: Clasi�cación de modi�cadores
Añadir un su�jo "C" a los no terminales en los datos deentrenamiento para los que:
El no terminal es un NP, SBAR, o S cuyo padre es una S, unaNP, SBAR, S, o el vicepresidente cuyo padre es unvicepresidente, o un S cuyo padre es un SBAR.La no-terminal no debe tener una de las etiquetas semánticas:ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP.
También marque el primer hijo después de una cabeza PP comocomplemento
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Marcos de subcategorización
De�ne un marco de subcategorización como una bolsa deno-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)
Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )
Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Marcos de subcategorización
De�ne un marco de subcategorización como una bolsa deno-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)
Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )
Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Marcos de subcategorización
De�ne un marco de subcategorización como una bolsa deno-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)
Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )
Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos denúcleos sintácticos adicionando una característica de diferencia(brecha) para cada no-terminal en el árbol y propagando estasdiferencias a través de los árboles hasta que �nalmentedescargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de losmodi�cadores de la izquierda o derecha del núcleo, odescargando como un agrumento de traza a la izquierda oderecha del núcleo.
Se especi�ca un parámetro PG (G |P,h,H) donde G es otroHead, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos denúcleos sintácticos adicionando una característica de diferencia(brecha) para cada no-terminal en el árbol y propagando estasdiferencias a través de los árboles hasta que �nalmentedescargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de losmodi�cadores de la izquierda o derecha del núcleo, odescargando como un agrumento de traza a la izquierda oderecha del núcleo.
Se especi�ca un parámetro PG (G |P,h,H) donde G es otroHead, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Outline
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Trabajo de Bikel
Dan Bikel construye un motor de análisis sintácticomulti-lenguaje con la capacidad de instanciar una granvariedad de modelos analizadores probabilisticos.
Como modelo línea base apropiado se escoje instanciar losparámetros del modelo 2 de Collins.
Bikel identi�có once pasos de preprocesamiento necesariospara preparar los árboles de entrenamiento cuando se usa elmodelo de análisis de Collins.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Preprocesamiento de Bikel
1 Eliminar nodos innecesarios2 Adicionando nodos base NP3 Reparando NPs base4 Adicionando información (solo aplicable al modelo 3)5 Re-etiquetación de sentencias6 Removiendo elementos nulos.7 Levantando puntuación.8 Identi�cación de argumentos no-terminales9 Eliminación de terminales no usados.10 �Reparación� Oraciones sin sujeto.11 Encontrar núcleos sintácticos.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Reglas para encontrar la cabeza
(grup.verb (r in�nitiu) (r gerundi) (r vmp) (r vsp) (r vap) (rvmi))
(S (r grup.verb) (r S) (r sn) )
(sn (r grup.nom))
(sp (l prep))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Outline
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán(AnCOra-CA) y español (AnCOra-ES) con diferentes nivelesde anotación.
Cada corpus contiene 500.000 palabras que han sidoconstruidas de manera incremental a través de trabajos previoscomo el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados coninformación morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento parasistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados conconstituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán(AnCOra-CA) y español (AnCOra-ES) con diferentes nivelesde anotación.
Cada corpus contiene 500.000 palabras que han sidoconstruidas de manera incremental a través de trabajos previoscomo el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados coninformación morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento parasistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados conconstituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Información del corpus usada para el entrenamiento del
analizador
Árbol sintáctico completo anotado con constituyentes.John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Modelo de CollinsImplementación de BikelEl corpus Ancora
Funciones sintácticas
Sujeto -SUJObjeto directo -CDObjeto indirecto -CI
Atributo -ATRComplemento predicativo -CPREDComplemento preposicional -CREG
Complemento agente -CAGComplemento adverbial -CC
Complemento advervial (locativo) -CCLComplemento adverbial (temporal) -CCT
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Outline
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Máquinas de vectores de soporte
Las máquinas de vectores de soporte son derivados de la teoríade aprendizaje estadistico postulado por Vapnik yChervonenkis en 1992.
Técnica para clasi�cación de datos.
Más fácil de utilizar que las redes neuronales.
Trabajan en un espacio de características
Son también conocidas como clasi�cadores de margen amplio.
Clasi�cación multiclase
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Máquinas de vectores de soporte
Hay m observaciones y cada una consiste en un par de datos:Un vector xi ∈ Rn, i . . . ,m
Una etiqueta yi ∈ {+1,−1}John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Máquinas de vectores de soporte
Hay m observaciones y cada una consiste en un par de datos:Un vector xi ∈ Rn, i . . . ,m
Una etiqueta yi ∈ {+1,−1}John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Kernel de un algoritmo SVM
Idea: Transformar los ejemplos de entrenamiento en un espaciovectorial de alta dimensión ( N � n ) (denominado espacio decaracterísticas)
Kernel lineal: k(~x ,~y) =~x �~y
Kernel polinómico: k(~x ,~y) = (~x �~y + r)p
Kernel gaussiano (función de base radial [RBF]):
k(~x ,~y) = e(−‖ ~x}−~y‖2
2σ2)
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Preprocesamiento de datos
Cada ejemplo: vector de números realesSi hay atributos categóricos -> convertirlos a datos numéricosEjemplo: un atributo con tres categorías posibles {rojo, verde,azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0).Si el número de categorías del atributo no es muy grande, estacodi�cación puede ser más estable que usando un úniconúmero para cada una.
Escalado de los datos antes de aplicar SVMVentajas:
Evitar que los atributos que tengan rangos grandes dominensobre los que tengan rangos más pequeñosEvitar di�cultades numéricas durante el cálculo
Escalar linealmente cada atributo al rango [-1,+1] o [0,1]
Usar el mismo método de escalado para los datos deentrenamiento y los de prueba
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Preprocesamiento de datos
Cada ejemplo: vector de números realesSi hay atributos categóricos -> convertirlos a datos numéricosEjemplo: un atributo con tres categorías posibles {rojo, verde,azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0).Si el número de categorías del atributo no es muy grande, estacodi�cación puede ser más estable que usando un úniconúmero para cada una.
Escalado de los datos antes de aplicar SVMVentajas:
Evitar que los atributos que tengan rangos grandes dominensobre los que tengan rangos más pequeñosEvitar di�cultades numéricas durante el cálculo
Escalar linealmente cada atributo al rango [-1,+1] o [0,1]
Usar el mismo método de escalado para los datos deentrenamiento y los de prueba
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Outline
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Argumentos verbales
Los argumentos son expresiones lingüisticas exigidassemánticamente por el núcleo.
Los verbos tienen dos tipos básicos de argumentos:
Complementos: Necesarios para el verbo.Adjuntos (circunstancial): Son complementos no exigidos porel verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Características línea base
Predicado: El lema del predicado es usado comocaracterística.
Path: La ruta sintáctica a través del árbol de análisis delconstituyente al predicado clasi�cado.
Tipo de frase: Esta es la categoría sintáctica.
Posición: Característica binaria identi�cando si la frase estaantes o despues del predicado.
Palabra-cabeza: La cabeza sintáctica de la frase.
Subcategorización: Esta es la regla de estructura de fraseexpandiendo el nodo padre del predicado en el árbol de análisis.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Características sintácticas
Posición de la entidad: la entidad puede estar a la izquierdao derecha del núcleo.
Distancia de la entidad: el número de palabras existentesentre la entidad y el núcleo.
Información morfológica de la entidad: modo, tiempo,persona y número.
Longitud de la entidad: la secuencia de los n elementos delos n-gramas.
Información morfológica del núcleo de la entidad.
Entidad de�nida: una entidad se considera de�nida si suartículo es de�nido.
Longitud del núcleo: secuencia de los n-elementos de losn-gramas del núcleo.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Outline
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
libSVM: una implementación de SVM
Implementa los tipos de entrenamiento y núcleos mascomunes.
Permite clasi�cación multiclase.
Implementa el procedimiento para realizar validación cruzada
Métodos para obtener máquinas que proporcionen además laprobabilidad de la clasi�cación.
Incluye técnicas para reducir el coste de la constante C .
Implementaciones en C++ y JAVA.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
Parametrización de libSVM
Se usa un kernel gausiano (RBF) con γ = 2−7
Parámetro de costo C = 32
Se usa á técnica de validación cruzada para a�nar el conjuntode características.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Outline
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Modi�cación del modelo
En el agoritmos CKY, en el método de unión de items, seclasi�ca el item modi�cador, cuando el item modi�cado setrata de un verbo.
Si la clasi�cación del item se encuentra dentro de las posiblessubcategorizaciones del verbo, entonces se aumenta laprobabilidad de selección.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Información semántica de Ancora sobre los verbos
Ancora posee archivos en formato xml para almacenar lainformación referente a los argumentos verbales.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Outline
1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora
2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM
3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Métricas de comparación
Si P es el árbol analizado por el sistema y T el árbol analizadomanualmente (gold standard)
Recall: (# de consituyentes correctos en P) / (# deconstituyentes correctos en T )
Precision: (# de consituyentes correctos en P) / (# deconstituyentes en P)
Medida F: Media armónica entre recall y precisiónF = 2PR/(P +R)
Paréntesis cruzados: Constituyentes para los cuales lareferencia tiene parentizado ((A B) C) y el de nuestroalgoritmo (A (B C))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Métricas de comparación
Si P es el árbol analizado por el sistema y T el árbol analizadomanualmente (gold standard)
Recall: (# de consituyentes correctos en P) / (# deconstituyentes correctos en T )
Precision: (# de consituyentes correctos en P) / (# deconstituyentes en P)
Medida F: Media armónica entre recall y precisiónF = 2PR/(P +R)
Paréntesis cruzados: Constituyentes para los cuales lareferencia tiene parentizado ((A B) C) y el de nuestroalgoritmo (A (B C))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Métricas de comparación
Si P es el árbol analizado por el sistema y T el árbol analizadomanualmente (gold standard)
Recall: (# de consituyentes correctos en P) / (# deconstituyentes correctos en T )
Precision: (# de consituyentes correctos en P) / (# deconstituyentes en P)
Medida F: Media armónica entre recall y precisiónF = 2PR/(P +R)
Paréntesis cruzados: Constituyentes para los cuales lareferencia tiene parentizado ((A B) C) y el de nuestroalgoritmo (A (B C))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Métricas de comparación
Si P es el árbol analizado por el sistema y T el árbol analizadomanualmente (gold standard)
Recall: (# de consituyentes correctos en P) / (# deconstituyentes correctos en T )
Precision: (# de consituyentes correctos en P) / (# deconstituyentes en P)
Medida F: Media armónica entre recall y precisiónF = 2PR/(P +R)
Paréntesis cruzados: Constituyentes para los cuales lareferencia tiene parentizado ((A B) C) y el de nuestroalgoritmo (A (B C))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Integración del clasi�cador en el analizadorMétricas de evaluación
Métricas de comparación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Resultados
Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.
Obtenemos un clasi�cador semántico de argumentos verbalesusando maquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.
Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Resultados
Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.
Obtenemos un clasi�cador semántico de argumentos verbalesusando maquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.
Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Resultados
Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.
Obtenemos un clasi�cador semántico de argumentos verbalesusando maquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.
Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Referencias
Daniel M. Bikel. On the Parameter Space of GenerativeLexicalized Statistical Parsing Models. PhD thesis,Philadelphia, PA, USA, 2004. AAI3152016.
Michael Collins. Head-driven statistical models for naturallanguage parsing. Comput. Linguist., 29(4):589�637, December2003.
LIBSVM: A Library for Support Vector Machines. Chih-ChungChang and Chih-Jen Lin. 2001
Support Vector Learning for Semantic Argument Classi�cation.SAMEER PRADHAN, KADRI HACIOGLU. 2005
Using Machine-Learning to Assign Function Labels to ParserOutput for Spanish. Grzegorz Chrupaªa1 and Josef vanGenabith. 2004
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM
Análisis sintáctico con clasi�cación semánticaConclusiones
Referencias
LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).GUSTAVO A. BETANCOURT. 2005
Miguel A. Alonso Carlos Gómez Jesús Vilares. AnálisisSintáctico. 2010
Natural Language Processing:Statistical Parsing. Raymond J.Mooney
Maria Antònia Martí, Mariona Taulé, Manu Bertran y LluísMàrquez. AnCora: Multilingual and Multilevel Annotated
Corpora. 2007
Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008)'AnCora-Verb: A Lexical Resource for the Semantic Annotationof Corpora'. Proceedings of 6th International Conference onLanguage Resources and Evaluation. Marrakesh (Morocco).
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.