6 Analisis discriminante

transcript

Introducción

Regla discriminante lineal de Fisher Versión poblacional Versión muestral

El problema general de clasificación para dos poblaciones

Probabilidad a priori Costes de clasificación Coste esperado por mala clasificación Regiones óptimas

6. ANÁLISIS DISCRIMINANTE

Clasificación para dos poblaciones normales Versión poblacional Versión muestral

Clasificación general para g poblaciones Costes de clasificación Coste esperado por mala clasificación Regiones óptimas

Clasificación para g poblaciones normales Score cuadrático de clasificación Versión muestral

Clasificación para g poblaciones normales con matrices de covarianzas iguales

Score lineal de clasificación Versión muestral

ANÁLISIS DISCRIMINANTE

Introducción

Supervisada: Análisis discriminante Clasificación No supervisada: Análisis de conglo- merados (clustering)

El análisis discriminante es una técnica declasificación para asignar nuevas observaciones a grupos ya conocidos.

Regla discriminante lineal de Fisher

Sea la variable y dos poblaciones y

Sean y

Se busca una combinación lineal de la forma

que sea óptima para clasificar una observaciónen alguna de las dos poblaciones.

ppXlXlXlXlY 2211'

)()'(')'()(

')'()(

YVXlVllXlVYV

lXlEYE

Se tiene que

Hay que buscar l que optimice la separación entre lasdos poblaciones: se maximiza la separación entre las medias:

221 )''( max)( max ll

pp lYY

Si se maximiza sin restricciones, el máximo puede no ser finito: se maximiza dividiendo por la varianza

La solución que se obtiene es:

221 )''(

XY 121 )'( Función discriminante

lineal de Fisher

Nota: es común.2Y

En el caso en que , se tiene:

Proyección de 1

Proyección de 2

Y (mejor recta)

2211' XlXlXlY l1 y l2 determinan la recta

El punto medio es:

Dada una nueva observación x0:

Asignar x0 a π1 si

Asignar x0 a π2 si

)()'(2

Y=l’X

l’x0 0)'( 01

0)'( 01

Proposición

Regla discriminante lineal de Fisher:Versión muestral

Dadas dos poblaciones y , se tienen las siguientes matrices de datos:

)2()2(2

)1()1(2

222111 pnnn

y sean

)1()1(y

Nota: no es necesario n1=n2

La regla lineal es:

XSXXXlY p1

21 )'('ˆ

Función discriminante lineal muestral de Fisher

que es óptima para clasificar entre las dos poblaciones.

El punto medio es: ).()'(2

1ˆ 21

121 XXSXXm p

Dada una nueva observación x0 , la regla de clasificación sería: Asignar x0 a π1 si

Asignar x0 a π2 si

0ˆ)'( 01

21 mxSXX p

Y=l’X

l’x0

0ˆ)'( 01

21 mxSXX p

Clasificación

Ejemplo

(i) Calcular la función de discriminación lineal.(ii) Clasificar la observación .72'ox

siendo f1 la función de densidad de y f2 la función

de densidad de

Dada la variable y dos poblaciones y

El problema es separar el espacio muestral endos regiones R1 y R2 disjuntas tales que:

2121 , RRRR

El problema general de clasificación para dospoblaciones

Probabilidad de clasificar en si viene de

)()1|1( 1RdxxfP

)()2|1( 2RdxxfP

)()1|2( 1RdxxfP

)()2|2( 2RdxxfP

El problema general de clasificación para dospoblaciones

p1 : probabilidad de que venga de p2 : probabilidad de que venga de

P(clasificar correctamente en ) =

P(clasificar incorrectamente en ) =

P(clasificar correctamente en ) =

P(clasificar incorrectamente en ) =

1)1|1( pP

1)1|2( pP

2)2|1( pP

2)2|2( pP

El objetivo es encontrar la mejor regla de clasificación,que proporcionará las regiones que minimicenel coste esperado por mala clasificación.

VIENE DE

C(1&2)

C(2&1)

El coste esperado por mala clasificación parados regiones es:

12 )1|2()1&2()2|1()2&1( pPCpPCCEMC

El objetivo es hallar dos regiones que minimicen el CEMC.

Teorema

Las regiones R1 y R2 que minimizan el coste esperado pormala clasificación son:

( ) (1& 2)

( ) (2 &1)

( ) (1& 2)

( ) (2 &1)

f x pC

f x C p

f x pC

f x C p

Corolario

( ) (1& 2)

( ) (2 &1)

( ) (1& 2)

( ) (2 &1)

p1 = p2

C(1&2) = C(2&1)

p1= p2 y C(1&2) = C(2&1) 1

Clasificación para dos poblaciones normales

En este caso se conoce la función de densidad para 1 2 y .

1 2y Dada la variable y las dos poblacionescon

respectivamente, el objetivo es hallar las dos regiones R1 y R2 que minimizan el CEMC.

),(~),(~

TeoremaLas regiones R1 y R2 que minimizan el CEMC son:

1 1 1 1

1 2 1 1 2 2

1 1 1 1

1 2 1 1 2 2

1' ' '

(1&2) log

1' ' '

(1&2) log

x xx k

X X X k

siendo 1 1 11 1 1 2 2 2

1 1log ' ' .

Observación

Si la regla de clasificación es cuadrática. Si se obtienen las regiones:

1 21 2

(1&2)log

Si se considera , entonces se

llega a la regla discriminante lineal de Fisher.

1 1 11 2 1 1 1 2 2 2

1( ) ' ' ' 0

1)1&2(

Clasificación para dos poblaciones normalesVersión muestral

Dadas dos poblaciones y las matrices de datos1 2y

)2()2(2

)1()1(2

222111

Nota: no es necesario n1= n2

Clasificación para dos poblaciones normales:Versión muestral

estimando y , se tiene:)(ˆ)(ˆ21 xfxf

ˆ ( ) (1& 2)1 2ˆ ( ) (2 &1)2 1

f x pC

f x C p

f x pC

f x C p

Clasificación general para g poblaciones

siendo sus respectivas funciones de densidad y las probabilidades a priori.

1 2, , g Sea la variable y las g poblaciones

gff ,,1 gpp ,,1

El coste de clasificar en viniendo de esC(i&k), siendo C(i&i) = 0,

i k.,...,1 gi

Las g regiones en las se puede clasificar vienendadas por:

: se clasifica en pi iR x x

La probabilidad de clasificar en si viene de es ki

kidxxfikPkR

i )()|(

La probabilidad de clasificar en si viene de esi i

kiikPdxxfiiPg

)|(1)()|(

El objetivo es encontrar la mejor regla de clasificación,que dará lugar a las regiones que hacen mínimo el coste por mala clasificación.

VIENE DE

C(1&2) C(1&g)

C(2&g)C(2&1)

C(g&1) C(g&2)

El coste esperado por mala clasificación dado que laobservación viene de es:i

( ) ( & ) ( | )g

CEMC i C k i p k i

En general, el coste esperado por mala clasificaciónes:

( & ) ( )k

i iRi k

CEMC C k i p f x dx

El CEMC también se puede escribir como:

( & ) ( | )g g

CEMC C k i P k i p

TeoremaEl CEMC se minimiza asignando la observación x a lapoblación para la cualk

( & ) ( ) es mínimag

C k i p f x

Corolario

Si todos los costes de clasificación son iguales, el CEMC

se minimiza cuando es mínima, es decir,

cuando se clasifica x en la población donde

es máxima.

( )k kp f x

La región de puntos que se clasifican en la población i es

Clasificación para g poblaciones normales

En este caso se conoce la función de densidad para

1 2, , , .g

Dada la variable y las g poblaciones con

respectivamente, el objetivo es hallar las g regiones R1,R2 ,...,Rg que minimizan el CEMC.

),(~ 11

1 2, , , g

La función de densidad en el caso normal para laspoblaciones es:1 2, , , g

1121/ 2/ 2

1( ) exp ( ) ' ( ) ,

1,2, ,

i i i ipi

f x x x

Si los costes son iguales, hay que maximizar .)(xfp ii

Se clasifica x en si , es decir, si:

11 12 2 2

log log 2 log ( ) ' ( )

max ( )

pk k k k k

i ii g

)(logmax)(,...,1

xfpXfp iigi

Como las matrices de covarianzas son distintas, se tiene una expresión cuadrática:

Se clasifica x en sik

Score cuadrático de clasificación

Nota: Si no hay probabilidades a priori, log pi = 0.

1)()'(

1log)(

i iiiiQi xxpxd

)(max)(,...1

xdxd Qi

Clasificación para g poblaciones normalesVersión muestral

Sea y sean g poblaciones conocidas .

g matrices de datos, de tamaños n1, n2,...,ng, no necesariamente iguales:

)1()1(2

)1( ,,

gggXXX

1 2, , , g

pppSSSXXX

,,,,,,

La función de densidad estimada es:

El score cuadrático de clasificación es:

11 12 2

ˆ ( ) log log ( ) ' ( ).Qi i i i i id x p S x X S x X

Se clasifica x en si , es

decir, si

kixfpxfp iikk ),(ˆ)(ˆ

1121/ 2/ 2

1( ) exp ( ) ' ( ) ,

1,2, ,

i i i ipi

f x x X S x XS

)(max)(,...1

xdxd Qi

Clasificación para g poblaciones normales conmatrices de covarianzas igualesScore lineal de clasificación

Nota: si las matrices de covarianzas son:

•Iguales: caso lineal•Distintas: caso cuadrático

giNX ip ,,1),,(~

Si todas las poblaciones tienen distribución normal, el score cuadrático sería:

11 12 2log log ( ) ' ( )Q

i i i id p x x

Clasificación para g poblaciones normales conmatrices de covarianzas iguales:Score lineal de clasificación

Si desarrollando la forma cuadrática se llega al score lineal de clasificación.

)(xd i

Clasificación para g poblaciones normales conmatrices de covarianzas igualesScore lineal de clasificación

Para clasificar, hay que maximizar

1 11( ) ' ' lg .

2i i i i id x x p

La regla de clasificación por tanto, es clasificar x en

Score lineal de clasificación

)(max)(,...1

xdxd igi

Clasificación para g poblaciones normales conmatrices de covarianzas igualesVersión muestral

Sea la variable y las g poblaciones con distribucionesestimadas

respectivamente. Si se estima con Si=S, el score lineal de clasificación queda

),(~ 11

g ,,, 21

iiiii pxSxxSxxd log'2

1')(ˆ 11

Score lineal muestral de clasificación

Clasificación para g poblaciones normales conmatrices de covarianzas igualesVersión muestral

La regla de clasificación es asignar x a si

SnSnSnS

2211 )1()1()1(

k)(ˆmax)(ˆ

,...,1xdxd i

es el estimador de la media y S es el estimador de :

6 Analisis discriminante

Documents