Aprendizaje de Similitudestsc.uc3m.es/~miguel/MLG/adjuntos/MainMetric.pdf · 2013. 2. 1. ·...

transcript

Aprendizaje de Similitudes

Emilio Parrado HernandezMLG

Departamento de Teorıa de la Senal y ComunicacionesUniversidad Carlos III de Madrid

1 de febrero de 2013

EPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 1 / 31

Vista General de la presentacion

Referencias

1. Learning Multimodal SimilarityB. McFee, G. LanckrietJMLR 12 (2011)

2. Metric and Kernel Learning Using a Linear TransformationP. Jain, B. Kulis, J. V. Davis, I. S. DhillonJMLR 13 (2012)

3. Large Scale Online Learning of Image Similarity ThroughRankingG. Chechik, V. Sharma, U. Shalit, S. BengioJMLR 11 (2010)

4. Learning Discriminative Metrics via Generative Models andKernel LearningY. Shi, Y.K. Noh, F. Sha, D. D. LeearXiv:1109.3940v1, 19 Sep. 2011.

Contenidos

Planteamiento del problema

Aprendizaje de metricas desde informacion perceptual

Aprendizaje de metrica y kernel usando una transformacion lineal

Aprendizaje de metricas discriminativas con modelos generativos yaprendizaje de kernels

Resumen

Motivacion

I Comparar dos objetos es una tarea fundamental en AprendizajeMaquina (AM).

I Relacion inmediata con clasificacion por similitudes (vecinos masproximos, metodos nucleo)

I Relacion con agrupamiento a traves de restricciones sobre parejas deejemplos que deberıan estar (o no) en el mismo grupo.

I ¿Similitud o metrica? Metrica implica imponer restricciones de PSD,lo que implica mayor coste computacional

Motivacion

Metodos para comparar dos objetos en AM

1. Coger una metrica generica: coseno, euclıdea, etc.

2. Aprender una metrica de Mahalanobis para el problema concreto(equivale a buscar una transformacion lineal de los datos).

Pegas:I Numero de parametros cuadratico con la dimensionI Falla en escenarios no lineales. Se puede kernelizar, aunque tiene

limitaciones importantesI Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

optimizacion:Multiple kernel learning, hyperkernels.

2. Aprender una metrica de Mahalanobis para el problema concreto(equivale a buscar una transformacion lineal de los datos). Pegas:

I Numero de parametros cuadratico con la dimensionI Falla en escenarios no lineales. Se puede kernelizar, aunque tiene

I Numero de parametros cuadratico con la dimension

I Falla en escenarios no lineales. Se puede kernelizar, aunque tienelimitaciones importantes

I Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

I Numero de parametros cuadratico con la dimensionI Falla en escenarios no lineales.

Se puede kernelizar, aunque tienelimitaciones importantes

I Limitado al escenario transductivoI Opciones para escenarios inductivos son muy restrictivas o de difıcil

Maneras de expresar una similitud implıcita

El aprendizaje de la metrica debe estar guiado por restricciones querecogen conocimiento a priori

I Etiquetas de clases: Los ejemplos pertenecientes a una misma clasedeben estar mas cerca entre sı que de los ejemplos de las otras clases

I Supervision en forma derestricciones por parejas de similitud odisimilitud

I Valor exacto de similitud entre ejemplos (no suele darse)

La similitud es una supervision mas debil que la clasificacion porque nohacen falta etiquetas.

Distancia de Mahalanobis en el espacio de caracterısticas

I Datos X = {xi}ni=1 ∈ Rd

I Proyeccion no lineal a un espacio de caracterısticas φ(xi ) inducidamediante un kernel conocido κ0(xi , xj) = 〈φ(xi ), φ(xj)〉

I Distancia de Mahalanobis en el espacio de caracterısticas

dW (φ(xi ), φ(xj)) = φ(xi )TWφ(xj) = κ(xi , xj)

I Aprender dW (·, ·)/κ(·, ·) incorporando restricciones en forma desimilitudes entre pares de datos.

Resumen

Extraccion de similitudes a partir de etiquetados humanos

La similitud puede ser un concepto subjetivo.Multiples etiquetadores pueden no estar de acuerdo.

Es mas robusto preguntar por ordenes que por cantidades absolutas

“¿Son i y j mas parecidos que k y l?”“¿el elemento i es mas parecido a j o a k?”

Multidimensional Scaling (MDS)

Encontrar un espacio euclıdeo de representacion de los datos que respetelas distancias “percibidas” por los etiquetadores

MDS No metricoEncontrar un espacio euclıdeo de representacion de los datos que respeteuna ordenacion parcial “percibida” por los etiquetadores

Orden Parcial Estricto

Relacion binaria R definida en un conjunto Z (R ⊆ Z 2) que satisface

I Irreflexiva: (a, a) /∈ R

I Transitiva: (a, b) ∈ R ∧ (b, c) ∈ R ⇒ (a, c) ∈ R

I Antisimetrica: (a, b) ∈ R ⇒ (b, a) /∈ R

Se puede capturar mediante un grafo acıclico dirigido (DAG) C dondecada nodo es un par de muestras y las aristas indican la relacion R

I Si hay ciclos, no hay una representacion que capture la relacion

I Si no hay ciclos, cualquier representacion que capture una reducciontransitiva de C captura al propio C .

Simplificacion del grafo

La subjetividad y el desacuerdo entre etiquetadores provocan que el graforesultante de compilar todas las etiquetas presente ciclos.

1. Romper ciclos. Algoritmo greedy de Berger and Shor, 1990

2. Eliminar aristas redundantes aplicando transitividad: Si dos nodosestan unidos a traves de un camino del grafo, se puede eliminar suconexion directa.

La subjetividad y el desacuerdo entre etiquetadores provocan que el graforesultante de compilar todas las etiquetas presente ciclos.

1. Romper ciclos. Algoritmo greedy de Berger and Shor, 1990

2. Eliminar aristas redundantes aplicando transitividad: Si dos nodosestan unidos a traves de un camino del grafo, se puede eliminar suconexion directa.

Partial Order Embedding

I Encontrar g : X −→ Rd tal que

∀(i , j , k , l) ∈ C : ‖g(i)− g(j)‖2 + 1 ≤ ‖g(k)− g(l)‖2

se da un margen unitario para estabilidad numerica

I Asumir que los datos ya estan en un cierto espacio RD y que lafuncion g es una proyeccion lineal

g(x) = Mx

I La matriz de Gram en el espacio imagen es K = XTMTMX

I Restricciones del grafo:(xi − xj)

TMTM(xi − xj) + 1 ≤ (xk − xl)TMTM(xk − xl)

∀(i , j , k , l) ∈ C : ‖g(i)− g(j)‖2 + 1 ≤ ‖g(k)− g(l)‖2

g(x) = Mx

∀(i , j , k , l) ∈ C : ‖g(i)− g(j)‖2 + 1 ≤ ‖g(k)− g(l)‖2

g(x) = Mx

∀(i , j , k , l) ∈ C : ‖g(i)− g(j)‖2 + 1 ≤ ‖g(k)− g(l)‖2

g(x) = Mx

Optimizacion para encontrar M

1. slack variables ξijkl para que haya solucion al problema.

2. empirical hinge loss para las violaciones de las restricciones

3. Regularizacion con tr(MTM) para evitar sobreajuste

Optimizacion

mınM,ξijkl

tr(MTM) +β

|C |∑C

ξijkl

sujeto a (xi − xj)TMTM(xi − xj) + 1 ≤ (xk − xl)

TMTM(xk − xl) + ξijkl yξijkl ≥ 0

Resolver para W = MTM con W PSD, que es convexo

Optimizacion para encontrar M

1. slack variables ξijkl para que haya solucion al problema.

2. empirical hinge loss para las violaciones de las restricciones

3. Regularizacion con tr(MTM) para evitar sobreajuste

Optimizacion

mınM,ξijkl

tr(MTM) +β

|C |∑C

ξijkl

sujeto a (xi − xj)TMTM(xi − xj) + 1 ≤ (xk − xl)

TMTM(xk − xl) + ξijkl yξijkl ≥ 0

Resolver para W = MTM con W PSD, que es convexo

Version kernelizada

Asumir que la funcion g es una transformacion no lineal con dcomponentes

g(x) = M(φ(x)) = [〈wp, φ(x)〉H]dp=1

donde φ(·) es una proyeccion inducida por un kernel κ0(·, ·)No resoluble en dim. infinita...

Regularizar en un Espacio de Hilbert

‖M‖2HS =

d∑p=1

〈wp,wp〉H

Representer Theorem: M = NΦT → ‖M‖2HS = traza(NTNK )

Version kernelizada

g(x) = M(φ(x)) = [〈wp, φ(x)〉H]dp=1

donde φ(·) es una proyeccion inducida por un kernel κ0(·, ·)No resoluble en dim. infinita... Regularizar en un Espacio de Hilbert

‖M‖2HS =

d∑p=1

〈wp,wp〉H

Version kernelizada

g(x) = M(φ(x)) = [〈wp, φ(x)〉H]dp=1

‖M‖2HS =

d∑p=1

〈wp,wp〉H

Version kernelizada

g(x) = M(φ(x)) = [〈wp, φ(x)〉H]dp=1

‖M‖2HS =

d∑p=1

〈wp,wp〉H

Optimizacion con kernels

g(x) = M(φ(x)) = NΦTφ(x) = N[κ0(xi , x)]ni=1

Las restricciones impuestas por el grafo quedan:(Ki − Kj)

TNTN(Ki − Kj) + 1 ≤ (Kk − Kl)TNTN(Kk − Kl) donde Kx es

la columna x de K

Optimizar

mınN,ξijkl

tr(NTNK ) +β

|C |∑C

ξijkl

sujeto a (Ki −Kj)TNTN(Ki −Kj) + 1 ≤ (Kk −Kl)

TNTN(Kk −Kl) + ξijkly ξijkl ≥ 0

Resolver para W = NTN, W PSD que es convexo.

la columna x de K

Optimizar

mınN,ξijkl

tr(NTNK ) +β

|C |∑C

ξijkl

la columna x de K

Optimizar

mınN,ξijkl

tr(NTNK ) +β

|C |∑C

ξijkl

la columna x de K

Optimizar

mınN,ξijkl

tr(NTNK ) +β

|C |∑C

ξijkl

Consideraciones

I Equivale a aprender una metrica de Mahalanobis con ΦWΦT en HI Equivale a aprender un kernel KWK con W PSD

I K = I quiere decir que no hay conocimiento a priori sobre lasimilitud entre puntos. La regularizacion tr(W ) equivale a minimizaruna cota en el rango de W , denotando preferencia por proyeccionesde baja dimension

I Extension para Multiple Kernel Learning util en problemas condiversas modalidades. Se aprende una combinacion ponderada de losdistintos kernels.

Resumen

Funcion de coste divergencia LogDet

Dl .d(W ,W0) = tr(WW−10 )− logdet(WW−1

0 )− d , con W ,W0 ∈ Rd

Si W0 = I , tenemos maximizacion de entropıa.

Optimizacion

mınW�0

Dl ,d(W , I ) s.t. dW (φ(xi ), φ(xj)) ≤ u, (i , j) ∈ S ,

dW (φ(xi ), φ(xj)) ≥ l , (i , j) ∈ D, (1)

I LogDet invariante a cambios de escalaI Algoritmo kernelizableI Extensiones a otras matrices PSD W0

I Extensiones a otro tipo de restricciones linealesEPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 18 / 31

Funcion de coste divergencia LogDet

Dl .d(W ,W0) = tr(WW−10 )− logdet(WW−1

0 )− d , con W ,W0 ∈ Rd

Si W0 = I , tenemos maximizacion de entropıa.

Optimizacion

mınW�0

Dl ,d(W , I ) s.t. dW (φ(xi ), φ(xj)) ≤ u, (i , j) ∈ S ,

dW (φ(xi ), φ(xj)) ≥ l , (i , j) ∈ D, (1)

I LogDet invariante a cambios de escalaI Algoritmo kernelizableI Extensiones a otras matrices PSD W0

I Extensiones a otro tipo de restricciones linealesEPH (DTSC/UC3M) Aprendizaje de Similitudes 1 de febrero de 2013 18 / 31

Kernelizacion del aprendizaje de la metrica con LogDetDados un conjunto de n puntos con restricciones de (di)similitud quedefinen una matriz de kernels K0, K0(i , j) = κ0(xi , xj)El problema de encontrar K se puede escribir como:

mınK�0

Dl ,d(K ,K0) s.t. tr(K (ei − ej)(ei − ej)

T)≤ u, (i , j) ∈ S ,

tr(K (ei − ej)(ei − ej)

T)≥ l , (i , j) ∈ D (2)

Teorema 1Sea K0 � 0, K ∗ solucion de (2) y W ∗ solucion de (1). Entonces

K ∗ = ΦTW ∗Φ, W ∗ = I + ΦSΦT

con S = K−10 (K ∗ − K0)K−1

0 ,K0 = ΦTΦ,Φ = [φ(x1), . . . , φ(xn)]

Kernelizacion del aprendizaje de la metrica con LogDetDados un conjunto de n puntos con restricciones de (di)similitud quedefinen una matriz de kernels K0, K0(i , j) = κ0(xi , xj)El problema de encontrar K se puede escribir como:

mınK�0

Dl ,d(K ,K0) s.t. tr(K (ei − ej)(ei − ej)

T)≤ u, (i , j) ∈ S ,

tr(K (ei − ej)(ei − ej)

T)≥ l , (i , j) ∈ D (2)

Teorema 1Sea K0 � 0, K ∗ solucion de (2) y W ∗ solucion de (1). Entonces

K ∗ = ΦTW ∗Φ, W ∗ = I + ΦSΦT

con S = K−10 (K ∗ − K0)K−1

0 ,K0 = ΦTΦ,Φ = [φ(x1), . . . , φ(xn)]

Generalizacion a puntos nuevos

Supongase que K es la solucion al problema (2).

Distancia entre puntos del conjunto de entrenamiento

d(φ(xi ), φ(xj)) = K (i , i) + K (j , j)− 2K (i , j)

Distancia entre puntos del conjunto de test

d(φ(z1), φ(z2)) = φ(z1)TWφ(z2) = φ(z1)T (I + ΦSΦTφ(z2)

= κ0(z1, z2) + kT1 Sk2, conki = [κ0(x1, zi ), . . . , κ0(xn, zi )]T

Generalizacion a puntos nuevos

Supongase que K es la solucion al problema (2).

Distancia entre puntos del conjunto de entrenamiento

d(φ(xi ), φ(xj)) = K (i , i) + K (j , j)− 2K (i , j)

Distancia entre puntos del conjunto de test

d(φ(z1), φ(z2)) = φ(z1)TWφ(z2) = φ(z1)T (I + ΦSΦTφ(z2)

= κ0(z1, z2) + kT1 Sk2, conki = [κ0(x1, zi ), . . . , κ0(xn, zi )]T

Extension para conjuntos grandes de datosHemos presentado dos alternativas equivalentes:

I Aprender W , complejidad O(d2)I Aprender K , complejidad O(n2)

Se puede considerar queW = I + ULUT

con L = F − I de tamano k × k definida positiva y U conocida de tamanod × k (k << mın(d , n)).

Se resuelve para F un problema de tamano O(k2)

Elecciones para UI k primeros vectores singulares de ΦI Centroides de un clustering de las columnas de ΦI Centroides de un clustering de las medias de cada clase

Resumen

Motivacion

I Problemas de escalabilidad: recursos computacionales y de memoriacrecen cuadraticamente con el numero de datos

I Etiquetados basados en humanos pueden no ser apropiados enescenarios big data

I La similitud se puede inferir a traves de parejas de resultados que sondevueltas ante la misma query

I Inferir similitud de las etiquetas de clases

OASIS aprende similitud (no garantiza semidefinida positiva)independiente de las etiquetas de las clases

Esta basado en los algoritmos Passive-Aggressive para aprendizaje en lınea.

Motivacion

Algoritmo OASISSimilitud: SW (xi , xj) = xTi W xjRestricciones: dada una tripleta de datos xi , xj , xk tales quer(xi , xj) > r(xi , xk), se establece la restriccion

SW (xi , xj) > SW (xi , xk) + 1

Funcion de perdidas tipo hinge

lW (xi , xj , xk) = max{0, 1− SW (xi , xj) + SW (xi , xk)}

W i = arg mınW

2‖W −W i−1‖2

F + Cξ

sujeto a lW (xi , xj , xk) ≤ ξ y ξ ≥ 0

SW (xi , xj) > SW (xi , xk) + 1

W i = arg mınW

2‖W −W i−1‖2

F + Cξ

SW (xi , xj) > SW (xi , xk) + 1

W i = arg mınW

2‖W −W i−1‖2

F + Cξ

SW (xi , xj) > SW (xi , xk) + 1

W i = arg mınW

2‖W −W i−1‖2

F + Cξ

Aprendizaje de metricas discriminativas con modelos generativos y aprendizaje de kernels

Resumen

Aprendizaje de una metrica local discriminativa

Para cada punto de entrenamiento xi se obtienen dos conjuntos de datos:objetivos x+

i , cuya etiqueta coincide con la de xi e impostores x−i , cuyaetiqueta no coincide

Metrica local basada en NN

mınM,ξ≥0

∑j∈x+

d2M(xi , xj) + γ

∑ijl

sujeto a 1 + d2M(xi , xj)− d2

M(xi , xl) ≤ ξijl , ∀j ∈ x+i , l ∈ x−i

Metrica Generativa

Cuando el numero de datos es finito, el error del 1-NN se desvıa del errorasimptotico un termino de sesgo que es independiente de la metrica.Si se asume una metrica basada en transformacion lineal, el termino desesgo se optimiza con

mın(tr(M−1i Φi )

2 sujeto a |Mi | = 1,MiPSD

El optimo es una matriz PSD cuyos autovectores sean los mismos que losde Φi

Aprendizaje discriminativo con multiples metricasgenerativasMetrica generativa local funciona pero hace falta una Mi por cada punto.

Resultados dependen de la pdf usada para el modelado generativo.

Mejora combinando metricas locales Ki (xm, xn) = xTmMixn

Cada Mi se aprende en la vecindad de xi y es una estimacion sesgada deun kernel global.

Promediar los kernels locales resulta en un estimador insesgado

κ(xm, xn) =∑i

αiκi (xm, xn) = xTm

)xn = xTmMxn

κ(xm, xn) =∑i

)xn = xTmMxn

κ(xm, xn) =∑i

)xn = xTmMxn

κ(xm, xn) =∑i

)xn = xTmMxn

κ(xm, xn) =∑i

)xn = xTmMxn

Consideraciones

I Caso sencillo αi = 1, entonces MUNI = 1N

∑i Mi

I Extension no lineal. Kernel local

Kil(xm, xn) = exp{−(xm − xn)TMi (xm − xn)/σ2l }

I Kernel como combinacion convexa de kernels locales

K (xm, xn) =∑i ,l

αilKil(xm, xn)

y los αil cumplen las restricciones de ser convexos.

Consideraciones

∑i Mi

K (xm, xn) =∑i ,l

αilKil(xm, xn)

Consideraciones

∑i Mi

K (xm, xn) =∑i ,l

αilKil(xm, xn)

Resumen

I Breve exposicion de cuatro artıculos sobre aprendizaje de metricas

I Incorporar restricciones sobre parejas, trıos o cuadruplas de elementosque contienen informacion de dominio del problema

I Poda de grafo para limpiar la supervision basada en etiquetadoshechos por humanos

I Aprendizaje de metrica es equivalente a un aprendizaje de kernel, loque permite extension a conjuntos de test

I Aprendizaje de similitud OASIS

I Aprendizaje de metricas globales a partir de metricas locales

Aprendizaje de Similitudestsc.uc3m.es/~miguel/MLG/adjuntos/MainMetric.pdf · 2013. 2. 1. ·...

Documents