+ All Categories

Download - Me Todos de in t Artificial

Transcript

Mtodos deInteligencia Artificial

L. Enrique Sucar (INAOE)[email protected]

ccc.inaoep.mx/esucarTecnologas de Informacin

UPAEP
Agentes que Aprenden:Clasificador Bayesiano

Clasificacin Clasificador bayesiano Clasificador bayesiano simple Extensiones: TAN y BAN Mejora estructural Discretizacin
L.E. Sucar: MGP - Bsicos 3

Clasificacin

El concepto de clasificacin tiene dossignificados: No supervisada: dado un conjunto de datos,

establecer clases o agrupaciones (clusters) Supervisada: dadas ciertas clases, encontrar

una regla para clasificar una nueva observacindentro de las clases existentes
4Clasificacin

El problema de clasificacin (supervisada)consiste en obtener el valor ms probable de unavariable (hiptesis) dados los valores de otrasvariables (evidencia, atributos)

ArgH [ Max P(H | E1, E2, ...EN) ]ArgH [ Max P(H | EE) ]

EE = {E1, E2, ...EN}
5Tipos de Clasificadores

Mtodos estadsticos clsicos Clasificador bayesiano simple (naive Bayes) Descriminadores lineales

Modelos de dependencias Redes bayesianas

Aprendizaje simblico rboles de decisin, reglas,

Redes neuronales, SVM,
6Clasificacin

Consideraciones para un clasificador: Exactitud proporcin de clasificaciones

correctas Rapidez tiempo que toma hacer la

clasificacin Claridad que tan comprensible es para los

humanos Tiempo de aprendizaje tiempo para obtener o

ajustar el clasificador a partir de datos
7Regla de Bayes

La probabilidad posterior se puede obtener en basea la regla de Bayes:

P(H | EE) = P(H) P(EE | H) / P(EE)P(H | EE) = P(H) P(EE | H) / i P(EE | Hi ) P(Hi)

Normalmente no se requiere saber el valor deprobabilidad, solamente el valor ms probable de H
8Regla de Bayes

Para el caso de 2 clases H:{0, 1}, la regla dedecisin de Bayes es:

H*(E) = 1 si P(H=1 | EE) > 1/20, de otra forma

Se puede demostrar que la regla de Bayes esptima
9Valores Equivalentes

Se puede utilizar cualquier funcin monotnicapara la clasificacin:

ArgH [ Max P(H | EE) ]ArgH [ Max P(H) P(EE | H) / P(EE) ]

ArgH [ Max P(H) P(EE | H) ]ArgH [ Max log {P(H) P(EE | H)} ]

ArgH [ Max ( log P(H) + log P(EE | H) ) ]
10

Clasificador bayesiano simple

Estimar la probabilidad: P(EE | H) es complejo, pero sesimplifica si se considera que los atributos son independientesdada la hipotesis:

P(E1, E2, ...EN | H) = P(E1 | H) P(E2 | H) ... P(EN | H) Por lo que la probabilidad de la hiptesis dada la evidencia

puede estimarse como:P(H | E1, E2, ...EN) = P(H) P(E1 | H) P(E2 | H) ... P(EN | H)

P(EE) Esto se conoce como el clasificador bayesiano simple
11

Clasificador bayesiano simple

Como veamos, no es necesario calcular eldenominador:

P(H | E1, E2, ...EN) ~P(H) P(E1 | H) P(E2 | H) ... P(EN | H)

P(H) se conoce como la probabilidad a priori,P(Ei | H) es la probabilidad de los atributos dadala hiptesis (verosimilitud), y P(H | E1, E2, ...EN)es la probabilidad posterior
12

Ejemplo

Para el caso del golf, cul es la accin msprobable (jugar / no-jugar) dado elambiente y la temperatura?
13

Ventajas

Bajo tiempo de clasificacin Bajo tiempo de aprendizaje Bajos requerimientos de memoria Sencillez Buenos resultados en muchos dominios
14

Limitaciones En muchas ocasiones la suposicin de independencia

condicional no es vlida Para variables continuas, existe el problema de

discretizacin Alternativas dependencias:

Estructuras que consideran dependencias Mejora estructural del clasificador

Alternativas variables continuas: Descriminador lineal (variables gaussianas) Tcnicas de discretizacin
L.E. Sucar: MGP - Bsicos 15

CBS modelo grfico

C

A2A1 An
16

Extensiones

TAN

C

A2A1 An

Se incorpora algunasdependencias entre atributos mediante laconstruccin de unrbol entre ellos(tcnica de Chow-Liu)
17

Extensiones

BAN

C

A2

A1 An

Se incorpora una red para modelar lasdependencias entre atributos (aprendizajede redes bayesianas).
18

Mejora estructural

Otra alternativa para mejorar el CBS es partir deuna estructura simple y modificarla mediante: Eliminacin de atributos irrelevantes (seleccin de

atributos) Verificacin de las relaciones de independencia entre

atributos y alterando la estructura: Eliminar nodos Combinar nodos Insertar nodos
19

Eliminacin de atributos Medir la dependencia entre la clase y atributos

(por ejemplo con la informacin mutua), yeliminar aquellos con poca aportacin

C

A2A1 A4A3
20

Mejora estructural

Medir la dependencia entre pares de atributosdada la clase (por ejemplo mediante lainformacin mutua condicional), alterar laestructura si hay 2 dependientes:

1. Eliminacin: quitar uno de los dos (redundantes)2. Unin: juntar los 2 atributos en uno, combinando sus

valores3. Insercin: insertar un atributo virtual entre la clase

y los dos atributos que los haga independientes.
21

Mejora Estructural

YX

Z

X

Z

XY

Z W

Z

YX
22

Atributos redundantes

Prueba de dependencia entre cada atributoy la clase

Informacin mutua:I(C, Ai) = P(C, Ai) log [P(C, Ai) / P(C) P(Ai)]

Eliminar atributos que no proveaninformacin a la clase
23

Atributos dependientes

Prueba de independencia de cada atributodada la clase

Informacin mutua condicionalI(Ai, Aj | C) =

P(Ai,Aj|C) log [P(Ai,Aj|C) / P(Ai|C) P(Aj|C)] Eliminar, unir o (insertar) atributos
24

Ejemplo:clasificacin de piel

9 atributos - 3 modelos de color: RGB,HSV, YIQ

S

GR B IY QSH V
25

Mejora estructural

S

GR IY QSH V

Elimina B
26

S

GR IYSH V

Elimina Q
27

S

GR IYS V

Elimina H
28

S

RG IYS V

Unir RG
29

S

RG IYS

Elimina V
30

S

RG IY

Elimina S Exactitud: inicial 94%final 98%
31

Discretizacin

Si los atributos no siguen una distribucingaussiana, la alternativa es convertirlos adiscretos agrupando los valores en unconjunto de rangos o intervalos

Dos tipos de tcnicas de discretizacin: No supervisada: no considera la clase Supervisada: en base a la clase
32

Discretizacin no supervisada

Intervalos iguales Intervalos con los mismos datos En base al histograma
33

Discretizacin supervisada

Considerando los posibles cortes entreclases: Probar clasificador (con datos diferentes) Utilizar medidas de informacin (p. ej., reducir

la entropa) Problema de complejidad computacional
34

Costo de mala clasificacin

En realidad, no slo debemos considerar laclase ms probable si no tambin el costode una mala clasificacin Si el costo es igual para todas las clases,

entonces es equivalente a seleccionar la demayor probabilidad

Si el costo es diferente, entonces se debeminimizar el costo esperado
35

Costo de mala clasificacin El costo esperado (para dos clases, + y -) est

dado por la siguiente ecuacin:CE = FN p(-) C(-|+) + FP p(+) C(+|-)

FN: razn de falsos negativosFP: razn de falsos positivosp: probabilidad de negativo o positivoC(-|+): costo de clasificar un positivo como negativoC(+|-): costo de clasificar un negativo como positivo

Considerando esto y tambin la proporcin decada clase, existen tcnicas ms adecuadas paracomparar clasificadores como la curva ROC y lascurvas de costo
Tarea

Leer Captulo 19 de Russell Prctica de Redes Bayesianas (en la pgina

del curso)

Top Related

In for Me Conte Nidos Digital Es

In for Me 2010

In for Me 2

Tek Hne in for Me Bogota Junio 2001

In for Me Anual 2013

Tutorial de log me in

In for Me Inca Tops Final

La confianza - lavoznews.com fileparticipated in films such as 1967’s La Soldadera, in Frida, in 2002, singing La Llorona. She also performed in Babel, in 2006, singing Tú me acostumbraste,