Post on 28-Dec-2015
transcript
Introducción
Regla discriminante lineal de Fisher Versión poblacional Versión muestral
El problema general de clasificación para dos poblaciones
Probabilidad a priori Costes de clasificación Coste esperado por mala clasificación Regiones óptimas
1
6. ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales Versión poblacional Versión muestral
Clasificación general para g poblaciones Costes de clasificación Coste esperado por mala clasificación Regiones óptimas
2
6. ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales Score cuadrático de clasificación Versión muestral
Clasificación para g poblaciones normales con matrices de covarianzas iguales
Score lineal de clasificación Versión muestral
3
6. ANÁLISIS DISCRIMINANTE
ANÁLISIS DISCRIMINANTE
Introducción
4
Supervisada: Análisis discriminante Clasificación No supervisada: Análisis de conglo- merados (clustering)
El análisis discriminante es una técnica declasificación para asignar nuevas observaciones a grupos ya conocidos.
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher
5
Sea la variable y dos poblaciones y
Sean y
Se busca una combinación lineal de la forma
que sea óptima para clasificar una observaciónen alguna de las dos poblaciones.
pX
X
X 1
.21
.)()(
)()(
21
21 21
XVXV
XEXE
ppXlXlXlXlY 2211'
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher
6
)()'(')'()(
')'()(
')'()(
2211
22
11
2
22
11
YVXlVllXlVYV
lXlEYE
lXlEYE
Y
Y
Y
Se tiene que
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher
7
Hay que buscar l que optimice la separación entre lasdos poblaciones: se maximiza la separación entre las medias:
221
221 )''( max)( max ll
pp lYY
l
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher
8
Si se maximiza sin restricciones, el máximo puede no ser finito: se maximiza dividiendo por la varianza
La solución que se obtiene es:
2
221
2
221 )''(
max)(
maxY
lY
YY
l
llpp
XY 121 )'( Función discriminante
lineal de Fisher
Nota: es común.2Y
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher
9
En el caso en que , se tiene:
2
1
X
XX
π2
π1
2
1
Proyección de 1
Proyección de 2
Y (mejor recta)
2211' XlXlXlY l1 y l2 determinan la recta
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher
10
El punto medio es:
Dada una nueva observación x0:
Asignar x0 a π1 si
Asignar x0 a π2 si
)()'(2
121
121 m
2
1
Y=l’X
Y1
m
Y2
x0
l’x0 0)'( 01
21 mx
0)'( 01
21 mx
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher:Versión muestral
12
Dadas dos poblaciones y , se tienen las siguientes matrices de datos:
21
)2()2(2
)2(1
)2(2
)2(22
)2(21
)2(1
)2(12
)2(11
)2(
)1()1(2
)1(1
)1(2
)1(22
)1(21
)1(1
)1(12
)1(11
)1(
222111 pnnn
p
p
pnnn
p
p
XXX
XXX
XXX
X
XXX
XXX
XXX
X
y sean
.2
)1()1(y
,
21
2211
21
nn
SnSnS
XX
p
Nota: no es necesario n1=n2
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher:Versión muestral
13
La regla lineal es:
XSXXXlY p1
21 )'('ˆ
Función discriminante lineal muestral de Fisher
que es óptima para clasificar entre las dos poblaciones.
El punto medio es: ).()'(2
1ˆ 21
121 XXSXXm p
ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher:Versión muestral
14
Dada una nueva observación x0 , la regla de clasificación sería: Asignar x0 a π1 si
Asignar x0 a π2 si
0ˆ)'( 01
21 mxSXX p
Y=l’X
Y2
m
Y1
x0
l’x0
1X
2X
X
X
0ˆ)'( 01
21 mxSXX p
ANÁLISIS DISCRIMINANTE
Clasificación
15
Ejemplo
21
11
8
5
6
3
84
75
96
74
42
73
21
21
pSxx
XX
(i) Calcular la función de discriminación lineal.(ii) Clasificar la observación .72'ox
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones
16
siendo f1 la función de densidad de y f2 la función
de densidad de
pX
X
X 1
1 2 ,
1
2.
Dada la variable y dos poblaciones y
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones
17
El problema es separar el espacio muestral endos regiones R1 y R2 disjuntas tales que:
2121 , RRRR
f2f1
R1 R2
En1
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dospoblaciones
18
Probabilidad de clasificar en si viene de
Probabilidad de clasificar en si viene de
Probabilidad de clasificar en si viene de
Probabilidad de clasificar en si viene de
1 1
1
1
2
2
22
1
)()1|1( 1RdxxfP
1
)()2|1( 2RdxxfP
2
)()1|2( 1RdxxfP
2
)()2|2( 2RdxxfP
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dospoblaciones
19
p1 : probabilidad de que venga de p2 : probabilidad de que venga de
1
1
2
P(clasificar correctamente en ) =
P(clasificar incorrectamente en ) =
P(clasificar correctamente en ) =
P(clasificar incorrectamente en ) =
1
2
2
1)1|1( pP
1)1|2( pP
2)2|1( pP
2)2|2( pP
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones
20
El objetivo es encontrar la mejor regla de clasificación,que proporcionará las regiones que minimicenel coste esperado por mala clasificación.
VIENE DE
CL
AS
IFIC
AR
EN
1
1
2
2
0
0
C(1&2)
C(2&1)
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones
21
El coste esperado por mala clasificación parados regiones es:
12 )1|2()1&2()2|1()2&1( pPCpPCCEMC
El objetivo es hallar dos regiones que minimicen el CEMC.
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones
22
Teorema
Las regiones R1 y R2 que minimizan el coste esperado pormala clasificación son:
1 21
2 1
1 22
2 1
( ) (1& 2)
( ) (2 &1)
( ) (1& 2)
( ) (2 &1)
:
:
p
p
f x pC
f x C p
f x pC
f x C p
R x
R x
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones
23
Corolario
11
2
12
2
( ) (1& 2)
( ) (2 &1)
( ) (1& 2)
( ) (2 &1)
:
:
p
p
f x C
f x C
f x C
f x C
R x
R x
p1 = p2
C(1&2) = C(2&1)
1 21
2 1
1 22
2 1
( )
( )
( )
( )
:
:
p
p
f x p
f x p
f x p
f x p
R x
R x
ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones
24
p1= p2 y C(1&2) = C(2&1) 1
12
12
2
( )1
( )
( )1
( )
:
:
p
p
f x
f x
f x
f x
R x
R x
ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales
25
En este caso se conoce la función de densidad para 1 2 y .
pX
X
X 1
1 2y Dada la variable y las dos poblacionescon
,
respectivamente, el objetivo es hallar las dos regiones R1 y R2 que minimizan el CEMC.
),(~),(~
22
11
p
p
NXNX
ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales
26
TeoremaLas regiones R1 y R2 que minimizan el CEMC son:
1 1 1 1
1 2 1 1 2 2
2
1
1 1 1 1
1 2 1 1 2 2
2
1
1
2
1' ' '
2
(1&2) log
(2&1)
1' ' '
2
(1&2) log
(2&1)
:
;,
p
p
x xx k
pCC p
X X X k
pCC p
xR
xR
siendo 1 1 11 1 1 2 2 2
2
1 1log ' ' .
2 2k
ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales
27
Observación
Si la regla de clasificación es cuadrática. Si se obtienen las regiones:
1 21 2
1
1 21 2
1
1
2
'
'
(1&2)log
(2&1)
(1&2)log
(2&1)
:
:
p
p
pCx k
C p
pCx k
C p
R x
R x
21 21
ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales
28
Si se considera , entonces se
llega a la regla discriminante lineal de Fisher.
1 1 11 2 1 1 1 2 2 2
1( ) ' ' ' 0
2x
1)1&2(
)2&1(
1
2 p
p
C
C
ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normalesVersión muestral
29
Dadas dos poblaciones y las matrices de datos1 2y
,
)2()2(2
)2(1
)2(2
)2(22
)2(21
)2(1
)2(12
)2(11
)2(
)1()1(2
)1(1
)1(2
)1(22
)1(21
)1(1
)1(12
)1(11
)1(
222111
pnnn
p
p
pnnn
p
p
XXX
XXX
XXX
X
XXX
XXX
XXX
X
Nota: no es necesario n1= n2
ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales:Versión muestral
30
estimando y , se tiene:)(ˆ)(ˆ21 xfxf
1
2
ˆ ( ) (1& 2)1 2ˆ ( ) (2 &1)2 1
ˆ ( ) (1& 2)1 2ˆ ( ) (2 &1)2 1
:
:
p
p
f x pC
f x C p
f x pC
f x C p
R x
R x
ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones
31
siendo sus respectivas funciones de densidad y las probabilidades a priori.
pX
X
X 1
1 2, , g Sea la variable y las g poblaciones
gff ,,1 gpp ,,1
ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones
32
El coste de clasificar en viniendo de esC(i&k), siendo C(i&i) = 0,
i k.,...,1 gi
Las g regiones en las se puede clasificar vienendadas por:
: se clasifica en pi iR x x
ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones
33
La probabilidad de clasificar en si viene de es ki
kidxxfikPkR
i )()|(
La probabilidad de clasificar en si viene de esi i
kiikPdxxfiiPg
kR ii
1
)|(1)()|(
ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones
34
El objetivo es encontrar la mejor regla de clasificación,que dará lugar a las regiones que hacen mínimo el coste por mala clasificación.
VIENE DE
CL
AS
IFIC
AR
EN
1
12
2
g
g
0
0
0
C(1&2) C(1&g)
C(2&g)C(2&1)
C(g&1) C(g&2)
ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones
35
El coste esperado por mala clasificación dado que laobservación viene de es:i
1
( ) ( & ) ( | )g
kk i
CEMC i C k i p k i
En general, el coste esperado por mala clasificaciónes:
1 1
( & ) ( )k
g g
i iRi k
k i
CEMC C k i p f x dx
ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones
36
El CEMC también se puede escribir como:
1 1
( & ) ( | )g g
ii k
k i
CEMC C k i P k i p
ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones
37
TeoremaEl CEMC se minimiza asignando la observación x a lapoblación para la cualk
1
( & ) ( ) es mínimag
i ii
C k i p f x
Corolario
Si todos los costes de clasificación son iguales, el CEMC
se minimiza cuando es mínima, es decir,
cuando se clasifica x en la población donde
es máxima.
1
( )g
i ii
p f x
( )k kp f x
ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones
38
La región de puntos que se clasifican en la población i es
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales
39
En este caso se conoce la función de densidad para
1 2, , , .g
pX
X
X 1
Dada la variable y las g poblaciones con
respectivamente, el objetivo es hallar las g regiones R1,R2 ,...,Rg que minimizan el CEMC.
),,(~
),(~ 11
ggp
p
NX
NX
1 2, , , g
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales
40
La función de densidad en el caso normal para laspoblaciones es:1 2, , , g
1121/ 2/ 2
1( ) exp ( ) ' ( ) ,
(2 )
1,2, ,
i i i ipi
f x x x
i g
Si los costes son iguales, hay que maximizar .)(xfp ii
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales
41
Se clasifica x en si , es decir, si:
k
11 12 2 2
1,...
log log 2 log ( ) ' ( )
max ( )
pk k k k k
i ii g
p x x
p f x
)(logmax)(,...,1
xfpXfp iigi
kk
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales
42
Como las matrices de covarianzas son distintas, se tiene una expresión cuadrática:
Se clasifica x en sik
Score cuadrático de clasificación
Nota: Si no hay probabilidades a priori, log pi = 0.
1)()'(
2
1log
2
1log)(
i iiiiQi xxpxd
)(max)(,...1
xdxd Qi
gi
Qk
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normalesVersión muestral
43
Sea y sean g poblaciones conocidas .
g matrices de datos, de tamaños n1, n2,...,ng, no necesariamente iguales:
)()(2
)(1
)(2
)(22
)(21
)(1
)(12
)(11
)(
)1()1(2
)1(1
)1(2
)1(22
)1(21
)1(1
)1(12
)1(11
)1( ,,
111
gpn
gn
gn
gp
gg
gp
gg
g
pnnn
p
p
gggXXX
XXX
XXX
X
XXX
XXX
XXX
X
1 2, , , g
pX
X
X 1
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normalesVersión muestral
44
Sean
g
g
g
pppSSSXXX
,,,,,,
,,,
21
21
21
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normalesVersión muestral
45
La función de densidad estimada es:
El score cuadrático de clasificación es:
11 12 2
ˆ ( ) log log ( ) ' ( ).Qi i i i i id x p S x X S x X
Se clasifica x en si , es
decir, si
k
kixfpxfp iikk ),(ˆ)(ˆ
1121/ 2/ 2
1( ) exp ( ) ' ( ) ,
(2 )
1,2, ,
i i i ipi
f x x X S x XS
i g
)(max)(,...1
xdxd Qi
gi
Qk
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales conmatrices de covarianzas igualesScore lineal de clasificación
46
Sean
Nota: si las matrices de covarianzas son:
•Iguales: caso lineal•Distintas: caso cuadrático
giNX ip ,,1),,(~
Si todas las poblaciones tienen distribución normal, el score cuadrático sería:
11 12 2log log ( ) ' ( )Q
i i i id p x x
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales conmatrices de covarianzas iguales:Score lineal de clasificación
47
Si desarrollando la forma cuadrática se llega al score lineal de clasificación.
,i
)(xd i
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales conmatrices de covarianzas igualesScore lineal de clasificación
48
Para clasificar, hay que maximizar
1 11( ) ' ' lg .
2i i i i id x x p
La regla de clasificación por tanto, es clasificar x en
si
Score lineal de clasificación
k
)(max)(,...1
xdxd igi
k
ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales conmatrices de covarianzas igualesVersión muestral
49
pX
X
X 1
Sea la variable y las g poblaciones con distribucionesestimadas
respectivamente. Si se estima con Si=S, el score lineal de clasificación queda
),,(~
),(~ 11
ggp
p
SXNX
SXNX
g ,,, 21
iiiii pxSxxSxxd log'2
1')(ˆ 11
Score lineal muestral de clasificación