Redes bayesianas para inferir integridad ecológica · 2014-11-11 · Redes bayesianas para inferir...

transcript

UNIVERSIDAD VERACRUZANA

Redes Bayesianas para inferir integridad ecológica en

los ecosistemas mexicanos.

TRABAJO RECEPCIONAL

Reporte de aplicación

QUE COMO REQUISITO PARCIAL PARA OBTENER EL

DIPLOMA DE ESTA ESPECIALIZACIÓN

PRESENTA:

Liliana Areli Sánchez Parra

DIRIGE:

Dr. Nicandro Cruz Ramírez

CO - DIRIGE:

Dr. Octavio Miguel Pérez Maqueo

XALAPA, VER., agosto 2014

FACULTAD DE ESTADÍSTICA E INFORMÁTICA

ESPECIALIZACIÓN EN MÉTODOS ESTADÍSTICOS

Redes bayesianas para inferir integridad ecológica

EME - UV

Redes Bayesianas para inferir integridad ecológica en los

ecosistemas mexicanos.

Liliana Areli Sánchez Parra

Xal1 – 36 – 1213

FEI_EME_397

EME - UV

Agradecimientos

Al Dr. Octavio Pérez Maqueo porque desde aquella vez que nos recibió en

el INECOL, nos permitió adentrarnos a sus proyectos. También por

contagiarme el interés por las Redes Bayesianas y de su entusiasmo. Por

todo el apoyo brindado, la paciencia y sobretodo el conocimiento

impartido. Por aquella presentación aterradora en la CONABIO y a todo el

equipo de ROBIN en general.

Al Dr. Nicandro Cruz Ramírez por haber aceptado dirigir mi trabajo, dado

que ya comenzaba a correr el tiempo, por todo los paper’s y material que

me proporciono así como la resolución de dudas.

A la coordinación de la EME y sobre todo a la Dra. María Luisa Hernández

Maldonado, por todo el apoyo durante todo el año de este programa. Por

aceptarme y por ser lectora de este trabajo, por guiarme en el proceso de

titulación y los consejos dados.

Finalmente a mi familia por todo el apoyo y paciencia que siempre me han

tenido, y a Dios por darme la vida y ayudarme día a día.

EME - UV

Resumen

Con nuestra vida se daña nuestro planeta, tan solo con un cambio se ve

afectado el ecosistema y todo lo que en él habita, se habla de la desaparición de

especies vegetales y animales. Existe mucho interés en encontrar la manera de

medir la integridad de los ecosistemas, pero antes una definición para ésta

característica deseable. En nuestro país investigadores de dos instituciones

colaboran en un proyecto internacional para encontrar relaciones entre

variables y de esta manera inferir que tanto los ecosistemas de México son

íntegros.

Se recurre a las Redes Bayesianas para determinar las relaciones

probabilistas, es una técnica relativamente nueva que consta de dos partes:

una gráfica y las tablas de probabilidades. Pertenece a la minería de datos por

lo que se pueden manejar bases de datos muy grandes y combinan los

principios de la teoría de grafos, teoría de la probabilidad, la informática y la

estadística, ya que las dependencias entre variables se estiman utilizando

métodos estadísticos y computacionales.

En este trabajo se presentan estructuras generadas mediante algoritmos de

búsqueda y se finaliza eligiendo una red para cada una de las dos bases

empleadas y tomadas del Inventario Nacional Forestal y de Suelos, mediante

criterios de información.

EME - UV

Tabla de contenido

1. INTRODUCCIÓN .................................................................................................................................. 1

1.1 MARCO CONTEXTUAL ........................................................................................................................... 1

1.2 ANTECEDENTES ................................................................................................................................... 3

1.3 PLANTEAMIENTO DEL PROBLEMA ............................................................................................................. 5

1.4 JUSTIFICACIÓN .................................................................................................................................... 6

1.5 OBJETIVOS ......................................................................................................................................... 7

Objetivo general .................................................................................................................................. 7

Objetivos específicos............................................................................................................................ 7

2. TEORÍA DE LA PROBABILIDAD ............................................................................................................. 8

2.1 PROBABILIDAD CONJUNTA Y MARGINAL ................................................................................................... 10

2.2 PROBABILIDAD CONDICIONAL................................................................................................................ 10

2.3 INDEPENDENCIA CONDICIONAL .............................................................................................................. 11

2.4 TEOREMA DE BAYES ........................................................................................................................... 11

2.5 ESPERANZA MATEMÁTICA .................................................................................................................... 14

3. MÉTRICAS ......................................................................................................................................... 16

3.1 MDL.............................................................................................................................................. 17

3.2 ENTROPÍA ........................................................................................................................................ 18

3.3 CRITERIOS DE SELECCIÓN: AIC Y BIC ...................................................................................................... 20

4. REDES BAYESIANAS........................................................................................................................... 22

4.1 DEFINICIÓN ...................................................................................................................................... 22

4.2 APRENDIZAJE DE LOS PARÁMETROS ........................................................................................................ 25

4.2.1 Aprendizaje de la estructura ................................................................................................ 28

4.2.2 Aprendizaje de variables latentes ......................................................................................... 29

4.3 INFERENCIA EN UNA RED BAYESIANA....................................................................................................... 32

4.4 CLASIFICACIÓN .................................................................................................................................. 33

4.4.1 Métodos de evaluación ........................................................................................................ 33

5. MATERIALES & MÉTODOS................................................................................................................. 35

5.1 DESCRIPCIÓN DE LAS BASES DE DATOS ..................................................................................................... 35

5.2 ALGORITMOS QUE APRENDEN LA ESTRUCTURA DE LA RED BAYESIANA A PARTIR DE DATOS. .................................... 38

5.2.1 Hill Climbing (ascenso de colinas) ......................................................................................... 38

EME - UV

5.2.2 K2 ........................................................................................................................................ 39

5.2.3 Simulated annealing (recocido simulado) ............................................................................. 40

5.2.4 Tabú Search (búsqueda tabú) ............................................................................................... 41

5.2.5 TAN (Naïve Bayes Aumentado a Árbol) ................................................................................. 42

6. METODOLOGÍA Y RESULTADOS. ....................................................................................................... 44

6.1 METODOLOGÍA ................................................................................................................................. 44

6.2 RESULTADOS .................................................................................................................................... 45

7. CONCLUSIONES Y TRABAJO FUTURO ................................................................................................ 48

8. BIBLIOGRAFÍA ................................................................................................................................... 49

9. ANEXOS .............................................................................................................................................. 1

9.1 RESULTADOS (COMPLETOS) .................................................................................................................... 1

9.2 USANDO WEKA ............................................................................................................................... 13

EME - UV

Liliana A. Sánchez Parra

1. Introducción

1.1 Marco Contextual

Según la Real Academia Española, algo es íntegro cuando no carece de

ninguna de sus partes1. Pero, ¿cómo se mide la integridad en los seres vivos, en

los ecosistemas y espacios de nuestro entorno? Intuitivamente, se podría

pensar que en un estado de integridad debería estar toda especie vegetal y

animal según la caracterización del ecosistema. Sin embargo la medición de

integridad no es tan sencilla como se señala a continuación, dado que se trata

de una variable latente.

Un análisis de la literatura en la materia muestra que no existe una

definición única y objetiva de integridad ecológica. Hasta ahora se ha recurrido

a conceptos como el de estabilidad o resiliencia para describir en la teoría

ecológica las respuestas de los ecosistemas a los factores de tensión (Kay, 1991).

Sin embargo existen algunas definiciones que se han propuesto en distintas

fuentes.

Groves define la integridad ecológica como la capacidad de un sistema de

mantener comunidades bióticas2 y una organización funcional comparable con

los hábitats naturales (sin disturbios antropogénicos) (Groves, 2003). Por otro

lado, (Angermaier, 1994) la define como la habilidad de un ecosistema de

1 Consulta en línea 2014 http://lema.rae.es/drae/srv/search?key=%C3%ADntegro

2 Conjunto de poblaciones que viven en un hábitat o zona definida que puede ser amplia o reducida. Las interacciones de los diversos tipos de organismos conservan la estructura y función de la comunidad y brindan la base para la regularización ecológica de la sucesión en la misma. Consultado en http://ecologiasomosnaturaleza.blogspot.mx/2007/04/comunidades-biticas.html

EME - UV

perpetuar su funcionamiento siguiendo su camino natural de evolución y de

poder recuperarse tras una perturbación3.

La enciclopedia de la salud y ecología la define como la protección y

restauración de los sistemas ecológicos del planeta Tierra, prestando particular

atención al mantenimiento de la diversidad ecológica. También como la

protección de todos los seres vivos evitando por todos los medios su destrucción.

(Biblioteca educación y salud, 2002). Si bien es difícil contar con una definición

única de integridad ecológica es posible tratar de encontrar indicadores sobre

una condición deseable (integra) de los ecosistemas. Por tanto, en este trabajo y

de acuerdo con Equihua et al (Equihua Z., Miguel; García A., N; Pérez M,

Octavio; Benítez Badillo, G; Kolb, M; Schmidt, M; Equihua Benítez, J; Maeda,

P) se considera que la integridad ecológica constituye un atributo subyacente

no medible directamente (como lo serían la salud o la inteligencia humanas por

ejemplo).

A nivel nacional se cuenta con una gran cantidad de información que

puede ser utilizada en la evaluación de integridad. Se tienen variables

contenidas en el Inventario Nacional Forestal (INFyS), el cual tiene un rico

acervo de datos y es operado por la Comisión Nacional Forestal (CONAFOR).

Este instrumento está basado en un esquema de muestreo constituido por una

retícula espaciada entre 5 y 20 km sobre el territorio nacional. Incluye 57 tipos

de vegetación (Serie IV de INEGI) y tres grandes grupos de uso del suelo

(agricultura, ganadería y urbanización). En el protocolo de medición vigente el

INFyS produce datos sobre la estructura y estado de la vegetación así como de

la riqueza de especies en un conjunto de más de 200 variables.

Aparentemente, existe un dilema por parte de los expertos en ecología ya

que la formulación de políticas públicas orientadas hacia la sustentabilidad

3 Ejemplos de perturbaciones naturales son el fuego, las avalanchas de nieve, fenómenos meteorológicos extremos (vientos intensos, temperaturas anormalmente altas o bajas), inundaciones y deposición de partículas, las plagas de insectos, las enfermedades y algunos mamíferos.

EME - UV

requiere de forma urgente evaluar sus impactos económicos, sociales y

ambientales (Boulanger, P., y T. Bréchet, 2005). Como respuesta, se ha optado

por usar índices que “denotan” una condición de integridad ante las dificultades

que se han encontrado distintos autores por medir esta característica desde un

enfoque determinista.

Como se mencionó se cuenta con una gran cantidad de información que

puede ser utilizada en la evaluación de integridad. A través del proyecto

internacional llamado ROBIN (Role Of Biodiversity In climate change

mitigatioN), en colaboración con el Instituto de Ecología, y la Comisión

Nacional para el Conocimiento y Uso de la Biodiversidad (CONABIO), haciendo

uso de la metodología bayesiana se pretende modelar patrones de dependencia

entre un conjunto de variables (contenidas en el Inventario Nacional Forestal).

1.2 Antecedentes

A lo largo de las décadas se le ha dado mayor importancia a la

preservación de los ecosistemas en su forma natural. No obstante, fue en la

década de los 60s cuando comenzó a ser utilizado el término de “integridad”. Se

dice que algo es íntegro cuando existe garantía de la exactitud de la

información frente a la alteración, pérdida o destrucción, ya sea de forma

accidental o con base en un propósito determinado.

En 1975 bajo la organización de la Agencia de Protección al Ambiente de

los Estados Unidos (EPA por sus siglas en inglés) se discutió el concepto de

integridad, como referencia a ser una “característica deseable de los

ecosistemas” así como su “principio cultural o moral”. Como resultado de lo

anterior, existe una amplia gama de interpretaciones sobre lo que significa

integridad. No obstante, existía el consenso de que era necesario asegurar la

EME - UV

integridad ecológica en la práctica.

Ulanowicz publicó que nunca se puede decir que los ecosistemas están

completos ya que hay cambios en ellos que conducen a una condición madura

congruente con el entorno físico prevaleciente (Ulanowicz, 1990).

Para mediados de los 90s el concepto de integridad ecológica así como el

de integridad ecosistémica, fueron mencionados en un gran número de

instrumentos regulatorios en EUA (Navarrete, 2001). En México ha ocurrido

algo semejante en relación con el manejo de los ecosistemas o las consecuencias

de la intervención humana en ellos. Se le concibe como un referente o bien

como una meta para el manejo con criterios de sustentabilidad.

De acuerdo con (Westra, 2000) un tema importante en biología de la

conservación es conocer qué requerimientos espaciales son necesarios para

mantener los ecosistemas nativos. No sólo en términos de superficie sino

también en cuanto a la configuración espacial necesaria de modo que su

ocurrencia combinada constituya un elemento de integridad ecológica.

Para promover la transición hacia formas sostenibles de vida y una

sociedad global con base en un marco ético compartido ampliamente. Dicho

marco establecido en la Carta de la Tierra incluye el respeto y el cuidado de la

comunidad de vida, la integridad ecológica, los derechos humanos universales,

el respeto a la diversidad, la justicia económica, la democracia y una cultura de

paz. La Carta de la Tierra es un documento internacional y todos los países

pueden firmarlo y de esta manera comprometerse. En la Carta de la Tierra

(Mackey, 2005) se menciona que la integridad ecológica es el funcionamiento

permanente saludable o apropiado de los ecosistemas a escala global y local, así

como a su provisión continua de recursos renovables y servicios ambientales.

De esta forma los procesos naturales que sostienen la integridad ecológica de

los ecosistemas incluyen la evolución de nuevas especies y la dispersión de

EME - UV

especies existentes de flora y fauna y sus propágulos4.

En el proyecto ROBIN (antes mencionado) se manifiesta que la

biodiversidad juega un papel importante en el bienestar humano. En este

sentido, la pérdida de biodiversidad podría considerarse como una de las

principales fuerzas mundiales del cambio ambiental. Para arrojar luz sobre el

papel de la biodiversidad en la mitigación del cambio climático en los procesos

de los ecosistemas, este proyecto analiza la relación entre ésta y la provisión de

servicios ambientales dentro de un contexto socio-ecológico que considera por

ejemplo, el impacto de varias políticas relacionadas con la actividad humana.

Como parte de este proyecto, investigadores del INECOL y de la

CONABIO han propuesto el uso de redes bayesianas para evaluar la integridad

de los distintos ecosistemas presentes. Resultados preliminares se basan en

redes automáticas utilizando el clasificador Naïve. Este es el modelo más

simple de clasificación con redes bayesianas, ya que asume independencia

entre todos los atributos dada una clase, además existen otras propuestas

basadas en opinión de expertos utilizando distintas fuentes de información.

1.3 Planteamiento del problema

Como se ha mencionado la integridad es una característica deseable en

todos los ecosistemas, sin embargo poder decir si existe y en qué grado es un

proceso muy complejo. Si bien existen propuestas de redes basadas en

opiniones de expertos y con otras fuentes de información, mediante este trabajo

se proponen distintas redes para encontrar las relaciones entre variables y de

esta forma evaluar la integridad ecológica haciendo uso de distintos algoritmos

4 Propágulo (del latín propagulum) en biología es cualquier germen, parte o estructura de un organismo (planta, hongo o bacteria), producido sexual o asexualmente, capaz de desarrollarse separada para dar lugar a un nuevo organismo idéntico al que le formó.1 2 Es decir, es cualquier estructura de reproducción y propagación biológica. Consulta en línea en http://es.wikipedia.org/wiki/Prop%C3%A1gulo

EME - UV

de búsqueda y determinar la mejor red en base a los criterios de información. A

partir de esto surgen las siguientes preguntas:

¿Cómo saber cuándo un ecosistema es integro? ¿Cuáles son las variables

que lo determinan? ¿Se podrían reducir algunos recursos en la medición de

variables y emplearlos en mejorar la medida de otras?

A nivel nacional el principal objetivo de los distintos instrumentos

normativos mexicanos en materia ambiental se enfocan a la conservación de los

ecosistemas, la vida silvestre y sus hábitats. El plan Nacional de Desarrollo

correspondiente convoca a detener la pérdida y degradación de ecosistemas y

lograr un uso sustentable del capital natural.

1.4 Justificación

Si se asume que la integridad es una condición valiosa y medible de un

sistema biológico, el concepto da oportunidad para conjuntar las

preocupaciones de la ciencia y la política pública. La pérdida de integridad

interfiere con los procesos del ecosistema y al modificar su funcionamiento

altera las formas de producción de los servicios ecosistémicos que éste provee.

Se pretende con las redes bayesianas tener mayor claridad para identificar la

relación entre variables que mejor contribuyan a identificar condiciones de

integridad ecológica.

En México actualmente se hacen grandes esfuerzos por preservar los

ecosistemas en un estado alto de conservación. Este trabajo proporcionará

información relevante para las instituciones que tiene la responsabilidad de

realizar acciones en pro de la conservación de los ecosistemas. Lo anterior a

través de colaborar en la construcción de medidas sobre integridad que les

EME - UV

permitan diseñar y optimizar las estrategias de conservación y desarrollo.

1.5 Objetivos

Objetivo general

Crear una red bayesiana a través de distintos algoritmos para identificar la

estructura de las variables que definen a un ecosistema íntegro y que aporte

información útil para la toma de decisiones dentro de los esfuerzos que se

hacen para la preservación de los ecosistemas.

Objetivos específicos

a) Proponer una estructura de red bayesiana obtenida a partir de datos que

evalúen integridad ecológica.

b) Comparar esta red con otras propuestas existentes (incluida Naive o

ingenua).

EME - UV

2. Teoría de la probabilidad

La probabilidad es un método por el cual se obtiene la frecuencia de un

acontecimiento determinado mediante la realización de un experimento

aleatorio, del que se conocen todos los resultados posibles, bajo

condiciones estables. La Teoría de la Probabilidad nos permite la obtención de

modelos aleatorios o estocásticos mediante los cuales podremos conocer, en

términos de probabilidad el comportamiento de los fenómenos aleatorios

(Montes S, 2007).

Se considera el siguiente fenómeno aleatorio: lanzar un dado y observar el

número de puntos en la cara. Lo cual da lugar a un resultado de entre un

conjunto de posibles resultados, los cuales pueden ser . Este

conjunto de posibles resultados recibe el nombre de espacio muestral. Si se

considera alguna característica en común de los posibles resultados se habla de

un suceso, (Degroot, 1988). La

probabilidad de que la cara del dado tenga un número par sería

De manera más formal, la probabilidad de aparición de un suceso de un

total de casos posibles sería y se define como la razón entre el número de

ocurrencias en que dicho suceso es cierto y el número total de casos posibles

Esta definición tiene el problema de que las frecuencias sólo son exactas

en el límite de infinitas repeticiones (De Finetti, 1989).

La probabilidad es una herramienta que nos permitirá modelar nuestro

conocimiento aproximado sobre un suceso.

En 1993, el matemático ruso Andrei N. Kolmogorov estableció un conjunto

EME - UV

de axiomas (N. Kolmogorov, 1956), que deben satisfacerse para que podamos

determinar consistentemente la probabilidad sobre unos sucesos (García F. J.,

2009), dichos axiomas son:

Primer axioma: la probabilidad de un suceso es un número real no

negativo, es decir:

Segundo axioma: la probabilidad del espacio muestral es 1:

Tercer axioma: si son un conjunto de sucesos mutuamente

excluyentes, entonces la probabilidad de que al menos uno de estos

sucesos ocurra, es la suma de las probabilidades individuales:

∑( )

De estos axiomas hay una serie de propiedades que se pueden deducir:

Normalización:

Monotonicidad: si entonces

Inclusión – Exclusión: dado cualquier par de subconjuntos y de ,

se cumple siempre la siguiente igualdad:

Para cualquier suceso

Como y su complementario son dos sucesos disjuntos, es decir,

podemos deducir que

Antes de comenzar a describir las probabilidades conjunta y condicional es

necesario describir la distribución de probabilidad de una variable aleatoria ,

esta es una función que asigna a cada evento definido sobre la variable

EME - UV

aleatoria una probabilidad. La distribución de probabilidad describe el rango de

valores de la variable aleatoria así como la probabilidad de que el valor de la

variable aleatoria esté dentro de un subconjunto de dicho rango (García F. J.,

2009).

2.1 Probabilidad conjunta y marginal

Sea la distribución de probabilidad conjunta sobre

es decir

Entonces la distribución de probabilidad marginal sobre la i-ésima variable se

obtiene mediante la siguiente fórmula:

2.2 Probabilidad condicional

Sean y dos variables que toman valores en y tales que ( )

. Entonces la probabilidad condicional de dado viene dada

EME - UV

Por lo tanto, la distribución de probabilidad conjunta de y puede obtenerse

2.3 Independencia condicional

Sean tres conjuntos disjuntos de variables. Se dice que es

condicionalmente independiente de dado que conocemos , si y solo si para

se verifica que

De lo contrario se dice que son condicionalmente dependientes dado

. Cuando son condicionalmente independientes dado se nota como

2.4 Teorema de Bayes

En la teoría de la probabilidad el Teorema de Bayes se expresa como la

probabilidad condicional de un suceso aleatorio dado en términos de la

distribución de probabilidad condicional del suceso dado y la distribución de

probabilidad marginal de sólo . La capacidad de vincular la probabilidad de

dado , con la de dado , a veces es llamado también teorema de las causas.

(Mesa P., 2011).

Este teorema nos permite representar la probabilidad condicionada |

mediante la siguiente expresión (García F. J., 2009).

EME - UV

Teniendo en cuenta que ∑ y que | ,

podemos representar el teorema de Bayes usando la siguiente expresión:

De la ecuación anterior se puede distinguir:

La probabilidad se denomina probabilidad marginal, a priori o

inicial de puesto que puede ser obtenida antes de conocer la

evidencia, es decir, no tiene en cuenta ninguna información acerca de

La probabilidad | es la probabilidad posterior, a posteriori, o

condicional de puesto que después de conocer la evidencia, es decir,

depende del valor .

La probabilidad | se le llama verosimilitud y es la probabilidad de

la observación dado .

Un ejemplo (Carreño S, 2006) de la aplicación de este teorema es la

de que un paciente con resultado positivo en la prueba de la diabetes sea

realmente diabético, sabiendo que dicha prueba presenta errores de detección.

Un esquema nos será muy útil para calcular su probabilidad:

EME - UV

Ilustración 1 Ejemplo del diagnóstico de diabetes

Para el ejemplo anterior, la prevalencia de la diabetes es de alrededor del

4%, de lo que se extrae que el 96% de los individuos no son diabéticos. Además,

dicha prueba diagnóstica correctamente al 80% de los pacientes diabéticos (el

20% restante obtiene valores erróneos), mientras que lo hace correctamente en

el 90% de los pacientes no diabéticos (aparece un resultado positivo cuando

debería ser negativo en el 10% de los no diabéticos, se le conoce como falso

negativo).

Lo que nos interesa es conocer los resultados positivos que provienen de

pacientes diabéticos, de entre todos los que son diabéticos. Por tanto, según el

teorema de Bayes, la probabilidad de que un paciente sea diabético (D) cuando

el test sale positivo (+) sería la probabilidad de que el diagnóstico positivo sea

correcto, de entre todas las posibilidades de que sea positivo sustituyendo en la

fórmula del teorema, se obtiene lo siguiente:

( | ) |

De este modo se observa que a pesar de haber obtenido un resultado

positivo en la prueba, solo existe un 25% de posibilidades de que el paciente sea

R. Positivo

R. Negativo

R. Positivo

R. Negativo

No Diabético

Diabético

Población

Diagnóstico Prueba

EME - UV

diabético.

El teorema de Bayes es válido en todas las aplicaciones de la teoría de la

probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades

que emplea. En ciertas condiciones, los partidarios de la estadística tradicional

sólo admiten probabilidades basadas en experimentos repetibles y que tengan

una confirmación empírica mientras que los llamados estadísticos bayesianos

permiten probabilidades subjetivas.

No elaboramos más aquí sobre la teoría bayesiana por no usarla en este

trabajo, sin embargo se sugiere consultar (López de Castilla Vásquez, 2011).

2.5 Esperanza matemática

Una variable aleatoria es discreta si existe una sucesión de

números reales tales que

El valor esperado para variables aleatorias discretas, se define como:

Sea una variable discreta con la notación anterior, y llamemos

diremos que existe el valor esperado, la media o la

esperanza matemática si la serie es convergente (Ortega, 2009).

∑| |

En ese caso, el valor esperado se denota y se define mediante la

EME - UV

Ejemplo

Sea el resultado de lanzar un dado, entonces toma valores

con probabilidad uniforme en este conjunto. Por lo tanto

En este caso el valor esperado no es un valor posible de la variable aleatoria.

EME - UV

3. Métricas

Hay distintas métricas, la mayoría pueden ser agrupadas en dos categorías:

bayesianas y basadas en medidas de información (García F. J., 2009).

Las métricas bayesianas (L. Buntine, 1994) buscan la estructura que

maximiza la probabilidad de una red condicionada a la base de datos |

usando para ello la fórmula de Bayes.

El término representa la distribución a priori de cada estructura

candidata, y | llamada evidencia, es la verosimilitud muestral promedio

que puede calcularse bajo ciertas suposiciones (diferentes suposiciones dan

lugar a diferentes métricas) (García F. J., 2009).

Las métricas basadas en teoría de la información representan otra

opción para medir el ajuste del grafo dirigido acíclico al conjunto de datos

(Bouckaert, 1993). Están basadas en conceptos de la teoría de la codificación e

información.

En la codificación de un mensaje se trata de reducir lo más posible el

número de elementos necesarios para representarlos atendiendo a su

probabilidad de ocurrencia esto es, los mensajes más frecuentes tienen códigos

cortos y los mensajes menos frecuentes tendrán códigos largos. El principio de

mínima longitud de descripción (Rissanen, 1978) (o MDL, del inglés Mínimum

Description Length), selecciona la codificación que conduce a una mínima

longitud en la codificación de los mensajes. En el caso de las redes bayesianas,

modelos muy complejos serán aquellos donde los nodos estén densamente

conectados (el caso extremo sería un grafo completo) y serán redes muy

precisas, bastante ajustadas a los datos. No obstante, redes tan complejas

EME - UV

suponen serios problemas de comprensión, computación y sobre ajuste, por lo

que se buscan redes más simples aunque menos precisas (García F. J., 2009).

3.1 MDL

El comportamiento esperado para la métrica MDL consiste en que

comienza con un valor x, y a medida que se van incrementando relaciones entre

variables (arcos), la complejidad del modelo va incrementando y el valor de

MDL se decrementa hasta llegar a su valor mínimo, lo que significa que MDL

ha encontrado el mejor modelo con el mejor balance entre bondad de ajuste y

complejidad. La bondad de ajuste se define como el ajuste que toman los datos

en relación con una estructura de red Bayesiana propuesta, dicha de otra

manera, es la precisión con la que los datos pueden ser representados con la

estructura de red (Domínguez Sánchez, 2009).

La idea principal en la que se basa el principio MDL es el considerar

equivalente el aprendizaje con el descubrimiento de regularidades (Gutiérrez

Fragoso, 2007) (semejanzas entre datos). Entre más datos existan, habrá mayor

certeza en los resultados y mayor posibilidad de encontrar regularidades en los

datos (aunque puede no haberlas). A mayor cantidad de regularidades, mucho

mayor será la comprensión de los datos. Entre mayor sea la comprensión de los

datos, mayor será el aprendizaje obtenido a partir de ellos. Entre mayor sea el

aprendizaje obtenido, menor será el valor de la entropía o incertidumbre. Se

entiende por entropía como el grado de certeza en cuanto a la aceptación de

una hipótesis, por tanto, entre mayor aprendizaje se obtenga a partir de los

datos, disminuirá la incertidumbre y por ende, tendremos mayor certeza en

cuanto a nuestras inferencias (Domínguez Sánchez, 2009).

EME - UV

La ecuación para MDL es la siguiente:

Donde representa los datos, denota los parámetros del modelo,

representa la dimensión del modelo y es una noción de complejidad, es el

tamaño de la muestra y es una constante que no depende de sino de , el

cual es un término que representa el número de variables.

Representa la longitud de la descripción de la estructura de la red

Bayesiana y se define por la siguiente ecuación:

∑ | |

Donde | | denota la cardinalidad de los padres de en la red Bayesiana

(Grünwald, 2005).

3.2 Entropía

Este término aparece en algunas otras teorías, pero en el ámbito de la

teoría de información se utiliza para medir la incertidumbre de una fuente de

información.

La entropía asociada a la variable aleatoria es un número que depende

directamente de la distribución de probabilidad de e indica como es de

predictible el resultado del proceso sujeto a incertidumbre o experimento.

Desde un punto de vista matemático cuanto más plana sea la distribución de

probabilidad más difícil será acertar cuál de las posibilidades se dará en cada

EME - UV

instancia. Una distribución es plana (tiene alta entropía) cuando todos los

valores de tienen probabilidades similares, mientras que es poco plana

cuando algunos valores de son mucho más probables que otros (se dice que la

función es más puntiaguda en los valores más probables). En una distribución

de probabilidad plana (con alta entropía) es difícil poder predecir cuál es el

próximo valor de que va a presentarse, ya que todos los valores de son

igualmente probables (Rodríguez-Caballero, 2012).

Shannon ofrece una definición de entropía que satisface las siguientes

afirmaciones:

La medida de información debe ser proporcional (continua). Es decir, el

cambio pequeño en una de las probabilidades de aparición de uno de los

elementos de la señal debe cambiar poco la entropía.

Si todos los elementos de la señal son equiprobables a la hora de

aparecer, entonces la entropía será máxima.

La información que aporta un determinado valor de una variable

aleatoria discreta se define como:

A pesar del signo negativo de la última expresión, la información

siempre tiene signo positivo.

La entropía determina el límite máximo al que se puede comprimir un

mensaje usando un enfoque símbolo a símbolo sin ninguna pérdida de

información (demostrado analíticamente por Shannon), el límite de compresión

(en bits) es igual a la entropía multiplicada por el largo del mensaje. También

es una medida de la información promedio contenida en cada símbolo del

mensaje. Su cálculo se realiza a partir de su distribución de probabilidad

mediante la siguiente fórmula:

EME - UV

( ) ∑ (

Propiedades de la entropía:

1. . Es decir, la entropía H está acotada superiormente

(cuando es máxima) y no supone perdida de información.

2. Dado un procesos con posibles resultados con probabilidades

relativas , la función es máxima en el caso de que

3. Dado un proceso con posibles resultados con probabilidades

relativas , la función , es nula en el caso de que

para cualquier .

3.3 Criterios de selección: AIC y BIC

Una de las características de los modelos estadísticos es la parsimonia, es

decir, que un modelo sea fácil de interpretar y que contenga pocos parámetros.

Los índices más comunes son:

Criterio de inferencia de Akaike (AIC (del inglés Akaike Information

Criterion)): Existen dos formas de calcular este índice para comparar

conjuntos de MCL. El índice propuesto originalmente por Akaike

(Akaike, 1974), está basado en el logaritmo de la función de

verosimilitud, . Un procedimiento alternativo , está basado en el

estadístico . Se tiene:

Donde es el número de parámetros independientes estimados y son

EME - UV

los correspondientes grados de libertad. La decisión está basada en elegir

el modelo con el mínimo o .

Criterio Bayesiano de Schwarz (BIC (del inglés Bayesian Information

Criterion)) una crítica al criterio anterior, es el hecho de que no

considera explícitamente el tamaño de muestra . Schwarz (Schwarz,

1978) utiliza el BIC para desarrollar una medida consistente

asintóticamente basada en el logaritmo de la función de verosimilitud ,

el número de parámetros independientes a ser estimados , y el tamaño

muestral. Una versión alternativa puede ser calculada utilizando

y los grados de libertad correspondientes .

El criterio de selección es igual al anterior.

Como regla, el tiende a seleccionar modelos menos complejos (con

menos número de parámetros) que el . En el contexto del modelo de clases

latentes, investigaciones empíricas (Lin & Dayton, 1997) sugieren que se debe

preferir utilizar el a menos que el tamaño muestral sea de varios cientos de

casos o los modelos estimados estén basados en un número relativamente

pequeño de parámetros, en cuyo caso es preferible utilizar el índice .

Cuando se tienen valores pequeños en los índices, implica que un modelo es

parsimonioso.

EME - UV

4. Redes Bayesianas

4.1 Definición

Las redes bayesianas también conocidas como redes de creencias (o redes

de Bayes para abreviar), pertenecen a la familia de los modelos gráficos

probabilistas (GMS) (Ruggeri, Faltin, & Kenett, 2007). Estas estructuras

gráficas se utilizan para representar el conocimiento acerca de un dominio

incierto. En particular, cada nodo en el gráfico representa una variable

aleatoria, mientras que los arcos o aristas entre los nodos representan

dependencias probabilistas entre las correspondientes variables aleatorias. Los

nodos se clasifican en nodos padre y nodos hijo, en donde el nodo padre es aquel

donde inicia un arco y los nodos hijos son aquellos hacia los que va dirigido

dicho arco (Domínguez Sánchez, 2009).

Una red probabilista tiene al menos un nodo raíz (sin padre alguno) y un

nodo terminal (sin hijo alguno).

Ilustración 2 Componentes de una red bayesiana

Por lo tanto, las redes bayesianas combinan los principios de la teoría de

grafos, teoría de la probabilidad, la informática y la estadística, ya que las

dependencias entre variables se estiman utilizando métodos estadísticos y

Nodos Arcos o aristas

EME - UV

computacionales (Ruggeri, Faltin, & Kenett, 2007).

Las redes bayesianas o modelos bayesianos son gráficos probabilistas que

representan un conjunto de variables aleatorias y sus dependencias

condicionales a través de la topología y un conjunto de tablas de probabilidad

condicional. La topología es la parte grafica del modelo y está conformada por

dos elementos descritos en la figura anterior, y las tablas probabilistas son

aquellas en las que se almacenan los valores de probabilidad condicional para

cada nodo.

Las redes bayesianas están dentro de las técnicas de clasificación, son

grafos dirigidos acíclicos cuyos nodos representan variables aleatorias en el

sentido de Bayes: las mismas pueden ser cantidades observables, variables

latentes, parámetros desconocidos o hipótesis.

En la siguiente ilustración se observa que la imagen (a) es un clico,

imagen (b) y (c) no lo son (Lauritzen & Spiegelhalter, 1988).

Ilustración 3 Ejemplos de Redes Bayesianas

En 1985 Judea Pearl (Pearl, 1985) propuso el término «red bayesiana» para

representar e inferir en sistemas inteligentes, teniendo en cuenta las siguientes

características:

EME - UV

La naturaleza subjetiva de la información de entrada.

La confianza en el condicionamiento de Bayes como la base para

actualizar la información.

La distinción entre los modos de razonamiento casual y evidencial.

A fines de la década de 1980 los textos “Probabilistic Reasoning in

Intelligent Systems” y “Probabilistic Reasoning in Expert Systems”

sintetizaron las propiedades de las Redes Bayesianas y ayudaron a su

establecimiento como un campo de estudio.

Las redes bayesianas se pueden interpretar de dos formas (Morales &

González, 2012):

Distribución de probabilidad: Representa la distribución de la

probabilidad conjunta de las variables representadas en la red.

Ilustración 4 Ejemplo de distribución de probabilidad

| | | | |

Base de reglas: Cada arco representa un conjunto de reglas que asocian

las variables involucradas, Si .

Dichas reglas están cuantificadas por las probabilidades respectivas.

Esta técnica busca determinar relaciones probabilistas que expliquen un

EME - UV

fenómeno y es aplicado en aquellos casos que son de carácter predictivo y

diagnóstico. Es decir, el razonamiento probabilista o propagación de

probabilidades consiste en difundir los efectos de la evidencia por medio de la

red para conocer la probabilidad a posteriori de las variables. Dicho de otra

forma a determinadas variables (conocidas) se les otorga una probabilidad y

con base a esto se obtiene una probabilidad posterior.

4.2 Aprendizaje de los parámetros

Una red bayesiana constituye un dispositivo potente para el razonamiento

probabilista. Pero ¿Cómo se construye una red bayesiana? Existen tres

enfoques para de determinar la topología de una red Bayesiana, es decir, las

relaciones de dependencia entre las variables relevantes involucradas en un

problema dado: de forma manual o tradicional, de forma automática y el

enfoque Bayesiano que puede ser visto como una combinación de los dos

anteriores (Cruz Ramírez, 2001).

En muchos casos, la estructura y la asignación de probabilidades de una

red bayesiana son dadas a través de la opinión de expertos ayudado por el

ingeniero del conocimiento, forma manual o tradicional. El experto humano

plasma su conocimiento dibujando la red con las relaciones de dependencia e

independencia condicional entre las variables involucradas en un problema

determinado. Aunque ésta es una tarea bastante difícil y tardada, la

construcción de la estructura realizada de esta forma puede pensarse como la

determinación de las relaciones entre las variables de una manera causal. Sin

embargo, en muchos de los casos, el mismo experto no tiene bien definidas las

relaciones de dependencia relevantes entre las variables del problema. Esto

significa que si dos variables están conectadas, se piensa que la primera es la

EME - UV

causa de la segunda (Jiménez, 2003). Debido al gran volumen de datos con los

que se trabaja, es de enorme interés proporcionarles a estos expertos

herramientas que adquieran este tipo de conocimiento de forma automática a

partir de datos de ejemplos del problema en cuestión, para que de esta manera

tengan una herramienta de soporte para la decisión (Hernández Orallo, Ferri

Ramírez, & Ramírez Quintana, 2004).

La forma automática o de aprendizaje a partir de datos consiste en definir

la red probabilista a partir de datos almacenados en bases de datos en lugar de

obtener el conocimiento directamente del experto. Este tipo de aprendizaje

ofrece la posibilidad de inducir la estructura gráfica de la red a partir de los

datos observados y de definir las relaciones entre los nodos basándose también

en dichos casos.

Obtener una red Bayesiana a partir de datos es un proceso de aprendizaje

que se divide en dos etapas: el aprendizaje estructural y el aprendizaje

paramétrico (Césari, 2006). La primera de ellas, consiste en obtener la

estructura de la red bayesiana, es decir, las relaciones de dependencia e

independencia entre las variables involucradas (se verá con detalle más

adelante). La segunda etapa, tiene como finalidad obtener las probabilidades a

priori y condicionales requeridas a partir de una estructura dada.

A continuación se presenta un ejemplo de Red Bayesiana automática o

aprendizaje (Ruiz Reina, 2006).

EME - UV

Ilustración 5 Ejemplo diagnóstico caries

En esta red observamos que:

Caries es una causa directa de Dolor y Huecos

Dolor y Huecos son condicionalmente independientes dada Caries

Tiempo es independiente de las otras variables

La combinación de ambas posibilidades (enfoque bayesiano), permite

orientar al experto y al ingeniero del conocimiento para afianzar o corregir su

percepción del dominio. Se puede optar por obtener el modelo de forma manual,

a través de la ayuda de expertos humanos y aplicar alguno de los algoritmos de

aprendizaje para la obtención de las probabilidades. Por otro lado, también se

puede aprender la red a partir de una base de datos y posteriormente realizar

una depuración refinando la estructura y los parámetros con la ayuda de

expertos humanos (García D. , 2010).

EME - UV

4.2.1 Aprendizaje de la estructura

Es una etapa del aprendizaje automático, en la cual se buscan las

relaciones cualitativas entre las variables del problema, el conjunto de redes

bayesianas con nodos es de orden súper-exponencial5 (Robinson, 1977), con lo

que un recorrido exhaustivo por dicho conjunto con el fin de encontrar la mejor

red candidata no es factible en la mayoría de los casos.

Podemos realizar la siguiente clasificación de las estrategias de aprendizaje con

base a la técnica utilizada para obtener la parte cualitativa de la red.

Basadas en pruebas de Independencia: son métodos que utilizan criterios

de independencia entre variables, para obtener la estructura que mejor

representa el conjunto de independencias que se deducen de los datos.

Métricas + búsqueda: son paradigmas de aprendizaje que se basan en el

criterio de bondad del ajuste de una estructura a los datos. Utilizando

dicho criterio se realiza un proceso de búsqueda entre las estructuras

candidatas, dando como resultado aquella estructura que mejor se ajuste

a los datos.

Híbridos: son modelos que combinan ideas de las anteriores técnicas.

La idea subyacente en el segundo tipo de métodos, es encontrar el grafo que

mejor represente los datos, utilizando el menor número de arcos posibles, es

decir, la calidad de cada grafo candidato se cuantifica mediante algún tipo de

medida o métrica. Dicha medida es utilizada por algún algoritmo de búsqueda

para encontrar las mejores soluciones desde el punto de vista de la medida

utilizada. Por lo tanto, estos métodos se caracterizan tanto por lo métrica usada

como por el algoritmo de búsqueda (García F. J., 2009).

5 El número de grafos dirigidos acíclicos posibles para nodos sería ∑

Por ejemplo,

EME - UV

4.2.2 Aprendizaje de variables latentes

El Análisis de Clases (o variables) Latentes (ACL) es una técnica de

reciente desarrollo, esta se puede aplicar en diversas áreas, principalmente se

utiliza en estudios de mercado, en investigaciones científicas, sociales,

educativas entre otras.

Esta técnica permite estudiar identifica y define grupos de una muestra en

estudio, por medio del principio de Independencia Condicional, esta prueba nos

asegura que cada grupo es diferente de los restantes, metodología que trabaja

con dos tipos de variables (Sánchez Parra, 2012):

Las primeras se llaman indicadoras, son las variables que se han

observado, esta variable sirve para definir o medir la variable latente

(Vermunt y Magdison, 2000).

Las segundas variables se llaman latentes, son aquellas variables que no

son directamente observadas o cuantificadas y se construyen a partir de

otras variables (Vermunt y Magdison, 2000).

El ACL es una técnica estadística que permite estudiar la existencia de una

o varias variables latentes a partir de un conjunto de variables indicadoras

observadas y definir, a partir de sus clases, una clasificación o topología de los

datos con los que se trabaja. (Pérez & Fajardo, 2001)

El diseño estadístico de clases latentes permite construir una variable nominal

no observada; es decir, una variable latente con k categorías, las cuales

representan a cada una de las clases identificadas en la población bajo estudio

(Reyes, 2009).

El Modelo de Clases Latentes (MCL) es una técnica estadística que

permite estudiar la existencia de una o varias variables latentes a partir de un

conjunto de variables explicativas observadas, este modelo puede parametrizar

EME - UV

de dos formas distintas, por probabilidades condicionadas entre las variables o

mediante un modelo log-lineal (Goodman, 1974).

Supóngase que se tiene un conjunto de variables indicadoras ,

con un número de categorías . Por otro lado, sea una variable latente

con un total de clases. Las ecuaciones básicas del modelo de clases latentes

| | | | |

Representa la probabilidad de estar en la celda de la

distribución conjunta

Es la probabilidad de pertenecer a la clase latente .

| Es la probabilidad de tener un patrón de respuesta concreta dado .

Son probabilidades condicionadas.

Como se observa que las variables son estadísticamente independientes

dentro de cada clase latente (Pérez & Fajardo, 2001).

Por tanto, los parámetros del modelo de clases latentes son las

probabilidades condicionadas | | | | y las probabilidades de las clases

latentes que estarán sometidas a las siguientes restricciones:

EME - UV

Los primeros métodos que se utilizaban para resolver un MCL se basaba

en cálculos matriciales y en sistemas de ecuaciones lineales, lo cual traía como

consecuencia una enorme cantidad de cálculos y gran consumo de tiempo y

recursos computacionales, en la actualidad se utilizan procedimientos

numéricos iterativos para obtener las soluciones a las ecuaciones de

verosimilitud, lo cual disminuye la complejidad del proceso de estimación.

Para las estimaciones máximo-verosímiles de los parámetros de un

modelo de clases latentes se utilizan varios métodos, lo más usados son el

algoritmo de Newton-Raphson y el algoritmo EM (Dempster, Laird, & Rubin,

1977). En este trabajo se hace uso de este último algoritmo.

Goodman en 1974 (Goodman, 1974) propone un proceso iterativo de estimación

que consta de los siguientes pasos:

1. Esperanza se calculan todos los valores esperados dados los valores

observados y los “actuales” parámetros del modelo.

2. Maximización se maximiza la función de verosimilitud de todos los

datos a partir de los valores esperados calculadas en el paso 1. Esto

implica el cálculo de estimaciones actualizadas de los parámetros del

modelo como si no faltaran datos. Las iteraciones continúan hasta que se

alcanza la convergencia.

Así finalmente, se obtienen las estimaciones máximo-verosímiles

| | | |

A partir de las que es posible calcular las probabilidades

EME - UV

El siguiente paso en el análisis es asignar cada individuo a las diferentes

clases de la variable latente , para ello se calcula la probabilidad condicionada

de que un individuo que se sitúe en las categorías de las variables

indicadoras , pertenezca a la clase de la variable de la siguiente

manera:

Dada esta probabilidad, la regla de asignación es mediante la

probabilidad modal, es decir, los individuos situados en la celda de la

tabla serán asignados a aquella clase latente cuya | sea mayor. Como

vemos se utiliza un proceso bayesiano para realizar dicha asignación (Reyes,

2009).

4.3 Inferencia en una red Bayesiana

Se entiende por inferencia cuando deducimos algo tomando en cuenta el

contexto o las otras opciones presentes, se puede llegar a alguna conclusión

teniendo en cuenta la incertidumbre.

De manera más formal Inferencia se refiere a obtener conclusiones

basadas en premisas, es decir basada en una nueva información, permitiendo

realizar predicciones en caso de intervenciones que se hagan en base a las

nuevas probabilidades (Roche B., 2002).

La inferencia es el proceso de introducción de nuevas observaciones y

calcular las nuevas probabilidades que tendrán las variables, dicho proceso

consiste en calcular la probabilidad a posteriori | de un conjunto de

variables después de obtener un conjunto de observaciones (donde es

EME - UV

la lista de variables observadas e es la lista correspondiente de los valores

observados para esas variables) (Felgaer, 2005).

4.4 Clasificación

Al construir clasificadores debemos cuantificar de alguna manera qué tan

buenos o malos son, existen distintos criterios de evaluarlos puede ser el tiempo

que se tarda en construirlo, la interpretabilidad del modelo obtenido, la

sencillez del modelo o diferencias respecto al original; sin embargo es la

precisión que posee el modelo la característica que más importante se considera

(García F. J., 2009).

4.4.1 Métodos de evaluación

La precisión de un clasificador es la probabilidad con la que se clasifica

correctamente un caso seleccionado al azar (Kohavi, 1996), o también lo

podemos ver como el número de casos clasificados correctamente entre el

número total de elementos.

Además de ser la medida más aceptada para la evaluación de un

clasificador, la precisión es utilizada en algunos procedimientos para guiar la

construcción (García F. J., 2009). Existen varias formas de obtener su valor,

una de éstas y a la que se recurre en esta investigación es la validación

EME - UV

cruzada.

Validación cruzada de k-hojas (k-fold cross validation) (Stone, 1974). Se

puede ver como una generalización del criterio de re muestreo. Hacemos k

particiones del conjunto de datos mutuamente excluyentes y de igual tamaño. k

- 1 conjuntos se utilizan para construir el clasificador y se valida con el

conjunto restante. Este paso se efectúa k veces y la estimación de la precisión

del clasificador se obtiene como la medida de las k mediciones realizadas.

El algoritmo de inducción es probado k veces de la siguiente manera: en

la primera iteración el algoritmo es entrenado con los subconjuntos y

probado con el subconjunto ; en la segunda iteración, el algoritmo se entrena

con los subconjuntos y se prueba con el subconjunto y así

sucesivamente. El número total de clasificaciones correctas de las k iteraciones

se divide por el tamaño completo del conjunto de datos para obtener la

estimación de la exactitud en este método (Jiménez, 2003).

∑ ( )

Donde ( ) denota la proposición construida por el modelo \ en el

conjunto , la cual es asignada a la etiqueta y probada en el conjunto

es el tamaño total de conjunto de datos . Si de lo contrario

. Lo anterior quiere decir que la función de pérdida usada para

calcular la exactitud del con el método cross-validation es una función de

pérdida 0/1, lo cual considera un costo igual para una clasificación errónea.

EME - UV

5. Materiales & métodos

5.1 Descripción de las bases de datos

Este proyecto de investigación es retrospectivo, transversal, descriptivo y

observacional. Se utilizaran dos bases de datos, la primera fue proporcionada

por le INECOL y está conformada con 14 variables contenidas en 4 grupos:

integridad, composición, funcional, de estructura. Tomadas del Inventario

Nacional Forestal y de Suelos, imágenes MODIS y Áreas de Distribución

Potencial obtenidas a partir de la Comisión Nacional para el Conocimiento y

Uso de la Biodiversidad (CONABIO), consta de 2254 datos los cuales fueron

procesados previamente tanto por investigadores del INECOL como de

CONABIO para tener representada cada variable en pixeles de 1 km2.

Para el procesamiento de los datos y construcción de las redes

bayesianas se hace uso del software de acceso libre WEKA (Waikato, 1999-

2013) véase anexo.

Base 1 Nombre de

Variable Descripción

Valores que

Idanofor Índice de daño Forestal con base a los daños antropogénicos

registrados en el INFyS. 0 – 0.23

Hsi Índice de Establecimientos Humanos (luces de zonas Urbanas) 0.126 – 2.89

Contfor Conectividad de fragmentos naturales de imágenes MODIS. 0 – 1000

Dext Deuda de Extinción. Los valores de menos uno (-1) significan

extinción total en los sitios. Cero significa que no hay deuda de

extinción.

-1 – 0

Rsg Proporción de Especialistas. 0 – 0.43

Nomam Número de especies de la NOM presentes 0 – 63

EME - UV

Carncon Estimación de conectividad por ocupación de diferentes tipos de habitat (ZVH).

6 – 44

Dap Diámetro a la altura del pecho promedio por 1km2 13.25 – 24.20

Areabasl Área basal del arbolado promedio por 1km2 174.15 – 519.51

alt_prom Alturas promedio de los arboles por 1km2 3.72 – 10.53

Plagas

En el INFyS se reportan impactos ambientales de las

actividades forestales percibidas en cada conglomerado; estos

se registran en 11 categorías, para el caso de plagas se toma la

categoría número 8.

1 – presencia

0 – ausencia

Arbolrip

En el INFyS se reporta el tipo de vigor observado para cada

una de las especies reportadas en los sitios de muestreo y

posteriormente por conglomerado. A cada especie se le asigna

un tipo de vigor dependiendo si son arboles muy jóvenes,

jóvenes, maduros, viejos y sin vigor (muerto); para el caso de

árboles muertos se tomó la última categoría.

1 – presencia

0 – ausencia

Sppinvas

El INFyS, reporta las especies encontradas en cada sitio de

muestreo y posteriormente en cada conglomerado, estas

especies fueron cotejadas en 2011 por el Dr. José Luis

Villaseñor, posteriormente son verificadas en el GLOBAL

INVASIVE SPECIES DATABASE para corroborar la

categoría de invasora no invasora.

1 – presencia

0 – ausencia

Hojarasc Se reporta la cantidad de mantillo (hojarasca) de tipo fíbrico,

hemíco y sapríco, para cada conglomerado con presencia

ausencia.

1 – presencia

0 – ausencia

Clase Variable construida a partir del algoritmo EM. 0 – 4

Tabla 1 Descripción de las variables de la base 1

La segunda base consta de 13 variables, fue tomada del Inventario

Nacional Forestal y de Suelos (INFyS), se trabaja con una muestra de 30051.

No fue necesario realizar la clasificación ya que existe la variable zvh como

variable clase.

EME - UV

Base 2

Nombre variable Descripción Valores que toma

Zvh_ph

Zonas de vida de Holdridge: clasifica las

diferentes áreas terrestres según su

comportamiento global bioclimático

1. Desierto

2. Tundra

3. Estepa espinosa

4. Estepa

5. Matorral desértico

6. Bosque espinoso

7. Bosque muy seco

8. Bosque seco

9. Bosque sub húmedo

10. Bosque húmedo

11. Bosque lluvioso

Rf_arip

En el INFyS se reporta el tipo de vigor

observado para cada una de las especies

reportadas en los sitios de muestreo y

posteriormente por conglomerado. A cada

especie se le asigna un tipo de vigor

dependiendo si son arboles muy jóvenes,

jóvenes, maduros, viejos y sin vigor

(muerto); para el caso de árboles muertos

se tomó la última categoría.

0 – 0.96

rf_na_correcion Cantidad de árboles 28.46 – 1414.64

rf_altde Desviación estándar de la altura de los

árboles 0.48 – 9.45

rf_altprom_2 Altura promedio de los árboles 2.09 – 20.66

Rf_afust Altura fuste: altura tomada de la base del

árbol a la base de la copa 0.67 – 12.72

rf_afustde_correction2 Desviación estándar de la altura fuste 0.34 – 7.14

rf_dapde Desviación estándar del diámetro a la

altura del pecho 2.15 – 32.39

Rf_dap Diámetro a la altura del pecho 10.99 – 47.26

rf_dcopde Desviación estándar del diámetro de la

copa 0.29 – 3.13

rf_dcop_correction Diámetro de la copa 1.45 – 8.28

rf_musgo Número de árboles con musgo 12 – 580

rf_hojarasca Porcentaje de cobertura en el suelo 0.03 – 0.97

Tabla 2 Descripción de variables de la base 2

EME - UV

5.2 Algoritmos que aprenden la estructura de la red bayesiana a partir

de datos.

A continuación se presentan los algoritmos de búsqueda utilizados en esta

investigación, sin embargo existen más para continuar con lo descrito en la

sección 4.2.1

5.2.1 Hill Climbing (ascenso de colinas)

Se trata simplemente de un bucle que continuamente mueve en la dirección

para incrementar el valor. El algoritmo no mantiene un árbol de búsqueda, por

lo que la estructura de datos de nodo sólo tiene que registrar el estado y su

evaluación, que denotamos por valor. Un refinamiento importante es que

cuando hay más de un mejor sucesor para elegir, el algoritmo puede seleccionar

entre ellos al azar. Esta política simple tiene tres inconvenientes conocidos.

Máximos locales: un máximo local, en oposición a un máximo global, es

un pico que es más bajo que el pico más alto en el espacio de estados.

Una vez en un máximo local, el algoritmo se detiene a pesar de que la

solución puede estar lejos de ser satisfactoria.

Mesetas: una meseta es un área del espacio de estado, donde la función

de evaluación es esencialmente plana. La búsqueda realiza una

caminata aleatoria. Dado que el algoritmo realiza una búsqueda al azar,

un sucesor podría encontrarse en esta área.

Cresta: una cresta puede tener lados con fuertes pendientes, por lo que

la búsqueda llega a la parte superior de la cresta con facilidad. A menos

que suceda que los operadores que se mueven directamente a lo largo de

la parte superior de la cresta, la búsqueda puede oscilar desde de lado a

EME - UV

lado, haciendo pocos progresos.

En cada caso, el algoritmo llega a un punto en el que se está haciendo

ningún progreso. Si esto sucede, una cosa obvia a hacer es empezar de nuevo

desde un punto de partida diferente. Se reinicia aleatoriamente y en escalada

hace precisamente esto: que lleva a cabo una serie de allanamientos en

escalada desde inicial generada aleatoriamente estados, ejecutando cada uno

hasta que se detiene o hace ningún progreso discernible. Guarda el mejor

resultado encontrado tan lejos de cualquiera de la búsqueda. Se puede utilizar

un número fijo de iteraciones, o puede continuar hasta que el resultado mejor

guardado no ha sido mejorado para un cierto número de iteraciones.

Es evidente que si se permite suficientes iteraciones, el re arranque al azar

en escalada eventualmente encontrará la solución óptima. El éxito de este

algoritmo depende mucho de la forma del espacio "superficie" del estado si sólo

hay unos pocos máximos locales, el re-arranque al azar de escalada encuentra

una buena solución muy rápidamente (Norvig, 1995).

Ilustración 6 Hill climbing

5.2.2 K2

Este algoritmo fue desarrollado por Cooper y Herskovits en 1992 (Cooper

& Herskovits, 1992). Se trata de un algoritmo de búsqueda, muy rápido que

EME - UV

optimiza la probabilidad de la red dada la base de datos. En realidad lo que

hace este algoritmo es encontrar el conjunto de padres más probables,

utilizando la métrica Bayesiana, que mide precisamente la probabilidad de la

estructura dado los datos. La heurística de este algoritmo se basa en un

ordenamiento topológico 6que tiene que ser especificado por el usuario.

El funcionamiento del algoritmo inicia con la red más simple, es decir,

una red sin arcos, y supone que los nodos se encuentran ordenados. Para cada

variable, el algoritmo añade a su conjunto de padres, el nodo menor de la

variable que conduce a un máximo de incremento de la calidad correspondiente

a la medida de calidad elegida para el proceso de búsqueda. El proceso se

repite hasta que no se incrementa la calidad, o se llega a una red completa

(Sánchez S., 2009).

5.2.3 Simulated annealing (recocido simulado)

Es un algoritmo de Hill-Climbing (UPC, 2012) estocástico (elegimos un

sucesor de entre todos los posibles según una distribución de probabilidad, el

sucesor podría ser peor). Hacemos paseos aleatorios por el espacio de soluciones

Inspirado en el proceso físico de enfriamiento controlado (cristalización,

templado de metales).

Se calienta un metal/disolución a alta temperatura y se enfría

progresivamente de manera controlada Si el enfriamiento es adecuado se

obtiene la estructura de menor energía (mínimo global).

Debemos identificar los elementos del problema con los del problema físico

Temperatura parámetro de control

Energía calidad de la solución

6 Ordenamiento topológico de un grafo acíclico G dirigido es una ordenación lineal de todos los nodos de G que conserva la unión entre vértices del grafo G original. La condición que el grafo no contenga ciclos es importante, ya que no se puede obtener ordenación topológica de grafos que contengan ciclos. http://es.wikipedia.org/wiki/Ordenaci%C3%B3n_topol%C3%B3gica

EME - UV

Función de aceptación permite decidir si escoger un nodo sucesor

Función de la temperatura y la diferencia de calidad entre la solución

actual y la solución candidata. A menor temperatura menor probabilidad de

elegir sucesores peores.

Estrategia de enfriamiento número de iteraciones a realizar, como bajar

la temperatura y cuantos sucesores explorar para cada paso de

temperatura.

A continuación se muestra el algoritmo

Ilustración 7 Algoritmo Simulated Annealing

5.2.4 Tabú Search (búsqueda tabú)

La búsqueda tabú se basa en la premisa de que la resolución de

problemas, debe incorporar la memoria adaptativa y exploración sensible7. La

función de adaptación de la memoria permite la aplicación de procedimientos

que son capaces de buscar el espacio, la solución económica y efectiva. El

énfasis en la exploración de respuesta en la búsqueda tabú, ya sea en una

aplicación determinista o probabilista, se deriva de la suposición de que una

7 se concentra en buscar buenas características de las soluciones

EME - UV

mala elección estratégica puede producir más información que una buena

elección al azar (Glover, 1997).

En otras palabras, este algoritmo clasifica algunos movimientos y los

introduce en una lista tabú: los movimientos que se encuentran aquí no serán

posibles de realizar. Enfrenta el problema de ciclos impidiendo temporalmente

movimientos que podrían hacer volver a una solución que ha sido revisada. En

una lista se guardan los movimientos prohibidos y en cada iteración se elige el

mejor movimiento no tabú. Se agregan a la lista los movimientos no factibles.

Ilustración 8 Algoritmo Tabú search8

5.2.5 TAN (Naïve Bayes Aumentado a Árbol)

El algoritmo TAN es un algoritmo de aprendizaje para clasificadores de

redes Bayesianas, es llamado así por sus siglas en inglés Tree Augmented

Naive Bayes (Jiménez, 2003). Hace uso de la clasificación Naïve Bayes y agrega

arcos entre los atributos, este algoritmo hace que sus componentes formen un

árbol. El atributo clase o salida es el único padre de cada nodo de la red Naïve

Bayes y el algoritmo considera agregar un segundo padre a cada nodo (Sánchez

S., 2009).

La estructura para representar a una red Bayesiana TAN es como la que

se muestra en la figura siguiente.

8 Tomado de (Hernández-Díaz, Guerrero Casas, Caballero Fernandez, & Molina Luque, 2006)

EME - UV

Ilustración 9 Estructura de TAN

B C D E

EME - UV

6. Metodología y resultados.

6.1 Metodología

Como primera etapa fue la obtención de las bases de datos, por parte de

las personas del INECOL. Se realizó la exploración de la base, con lo cual se

observa que no existen datos faltantes, y se convirtió a formato .csv para poder

trabajarlos en Weka. Para el caso de la base 1, mediante el algoritmo EM

(véase sección 4.2.2) se construyó la variable latente “clase”, con niveles del 0 al

Comienza un proceso iterativo en el que mediante los algoritmos se

encuentran las distintas estructuras y relaciones probabilistas entre las

variables, además de incluir la consulta de los ecólogos expertos para la toma

de decisiones en cuanto a la creación de estas redes, y de ésta manera

encontrar una red adecuada que modele el fenómeno de manera confiable.

Se calculan los criterios de información de cada estructura obtenida por

cada algoritmo, y mediante estos elegir la red Bayesiana más parsimoniosa.

Bases Búsqueda de

estructuras

Algoritmo

Exploración

Determinar red

adecuada

Ilustración 10 Pasos realizados para el desarrollo de las pruebas

EME - UV

6.2 Resultados

En esta parte se presenta solo el resultado así como las interpretaciones

de una red, las demás se incluyen en la parte de anexos. Después de esto, se

presenta una tabla resumiendo los valores así como el porcentaje de

correcta clasificación.

La siguiente estructura pertenece a los datos de la primer base y se utilizó

el algoritmo Hill climbing.

Ilustración 11 Estructura 1, base 1 algoritmo Hill Climbing

Dada la estructura de manera gráfica y con relaciones directas de

variables como índice de daño forestal, área basal, conectividad de fragmentos

EME - UV

naturales y diámetro a la altura del pecho, indican mayor probabilidad de que

la clasificación sea en el clúster 3.

Ilustración 12 Probabilidad de pertenecer al Cluster, estructura 1

Con el logaritmo Hill climbing, se observa que se clasificó correctamente

el 93% de los casos, se calcula un valor log score Bayes igual a -23398.60, y

según la matriz de confusión se tiene que el clúster 3, es el que mayor cantidad

de datos clasificó correctamente.

Hill climbing – false – 10000 – false Log Score Bayes: -23398.60317310535 Log Score BDeu: -30552.750398087293 Log Score MDL: -29260.869018823156 Log Score ENTROPY: -24022.836846239872 Log Score AIC: -25379.836846239872 Correctly Classified Instances 93.0759 %

=== Confusion Matrix ===

Tabla 3 Resultados con algoritmo Hill Climbing

A continuación se presenta el resumen de ambas bases y los resultados

según los algoritmos usados así como los criterios de información.

Base 1

Algoritmo AIC BIC % correcta clasificación

Hill Climbing -25379.84 -23398.60 93.1

k2 -24915.16 -23562.14 93.7

Simulated Annealing -25663.81 -23462.45 93.3

Tabú search -24383.23 -23555.74 94.2

TAN -24813.51 -23558.23 94.5 Tabla 4 Criterios de selección de acuerdo a los algoritmos empleados: Base 1

De acuerdo a lo descrito en la sección 3.3, en este caso es preferible

utilizar el ya que se tiene una muestra grande de datos. Sin embargo en la

tabla se presenta también el .

De los algoritmos usados el Hill Climbing es el que presenta el menor, y

EME - UV

clasificó de manera correcta el 93.1% de los datos. Ahora bien, si utilizáramos

el la estructura seleccionada sería la construida bajo el algoritmo Tabú

search.

Base 2

Algoritmo AIC BIC % correcta clasificación

Hill Climbing -914620.13 -741699.19 73.49

K2 -982342.56 -751713.07 73.15

Simulated Annealing -883392.86 -747316.56 72.72

Tabú search -811707.69 -747125.46 72.73

TAN -811884.66 -742331.83 73.55 Tabla 5 Criterios de selección de acuerdo a los algoritmos empleados: Base 2

Para los datos de la base 2, se observa que existe un comportamiento igual

en los criterios de selección, el BIC elige a Hill Climbing, mientras que AIC a Tabú

search.

EME - UV

7. Conclusiones y trabajo futuro

De acuerdo a los objetivos y las preguntas del planteamiento del problema

se encontró que:

Mediante redes bayesianas y con los algoritmos utilizados se generó una red

para cada base de datos, seleccionando la mejor mediante los criterios de

información, con las cuales se determinaron las relaciones probabilistas y se

observó que la mayoría de ellas se relacionan directamente.

Como se mencionó para ambas bases se elige la estructura creada con el

algoritmo Hill climbing, se podría decir que se adecua bien a este tipo de datos.

Sólo con la primera base se puede llegar a un acuerdo con los expertos para

evaluar la integridad ya que se creó la variable Cluster, con la que se puede

tomar los valores como escala, en el caso se la segunda, se podrá evaluar en qué

medida están relacionadas las variables de acuerdo al tipo de ecosistema (zvh).

Este trabajo proporcionará información relevante con las relaciones

probabilistas encontradas, será trabajo de los expertos evaluar la importancia y

pertinencia biológicamente de éstas. Si bien no se lograron algunos objetivos, se

presenta como un inicio de análisis.

Se planea seguir con la evaluación de cada una de las estructuras de los

expertos así como las relaciones probabilistas desde sus conocimientos

expertos. Además del cálculo de las tablas de probabilidad.

EME - UV

8. Bibliografía

Akaike, H. (1974). A new look at the statistical model identification. Automatic

control, IEEE Transactions on 19(6), 716-723.

Angermaier, P. (1994). Does Biodiversity include artificial diversity?

Conservation Biology.

Biblioteca educación y salud. (2002). Enciclopedia de la ecología y la salud.

España: Safeliz, S. L.

Bouckaert, R. (1993). Belief networks construction using the minimum

description length principle. Symbolic and Quantitative Approaches to

Reasoning and Uncertainty, Lecture Notes in Computer Science., 747, 47-

Boulanger, P., y T. Bréchet. (2005). Models for policy-making in sustainable

development: The state of the art and perspectives for research.

Ecological Economics 55, 337-350.

Carreño S, Á. (Diciembre de 2006). Recuperado el Diciembre de 2013, de

http://www.seden.org/files/7-CAP%207.pdf

Césari, M. I. (2006). Nivel de significación estadística para el aprendizaje de

una red bayesiana. Mendoza: ITBA.

Cooper, G., & Herskovits, E. (1992). A bayesian method fot the induction of

probabilistic networks from data. Machine Learning, 9, 309-347.

Cruz Ramírez, N. (2001). Building Bayesian Networks From Data: a Constraint

Based Approach. Ph D Thesis. Department of Psychology. The

University of Sheffield.

De Finetti, B. (1989). Probabilism: A critical essay on the theory of probability

and on the value of science. Erkenntnis, 31.

EME - UV

Degroot, M. (1988). Probabilidad y estadística. EUA: ADDISON-WESLEY

IBEROAMERICA.

Dempster, A., Laird, N., & Rubin, D. (1977). Maximum Likelihood from

Incomplete Data via the EM Algorithm. Journal of the Royal Statistical

Society., 39(1), 1-38.

Domínguez Sánchez, F. (2009). Evaluación empírica del comportamiento de

MDL en el aprendizaje de redes Bayesianas para Minería de datos.

México: Tesis de Licenciatura. Universidad Veracruzana. Facultad de

Estadística e Informática.

Equihua Z., Miguel; García A., N; Pérez M, Octavio; Benítez Badillo, G; Kolb,

M; Schmidt, M; Equihua Benítez, J; Maeda, P. (s.f.). Integridad ecológica

como indicador de la calidad ambiental. (A. V.-P. C. Gonzalez-Zuarth,

Ed.) Bioindicadores: guardianes de nuestro futuro ecológico.

Felgaer, P. (2005). Optimización de Redes Bayesianas basado en técnicas de

aprendizaje por inducción. Buenos Aires, Argentina: Tesis de grado en

Ingeniería Informática, Facultad de Ingeniería, Universidad de Buenos

Aires.

García, D. (2010). Desarrollo de un entorno de usuario para aplicación de redes

bayesianas dinámicas a problemas de fusión de información. Madrid:

Tesis de licenciatura. Universidad Carlos III de Madrid.

García, F. J. (2009). Modelos bayesianos para la clasificación supervisada.

Aplicaciones al análisis de datos de expresión genética. Granada, España:

Tesis Doctotal, Universidad de Granada.

Glover, F. y. (1997). Tabu Search. Boston: Kluwer Academic Publishers.

Goodman. (1974). Exploraty latent analysis using both identificable and

inidentificable models. Biometrika.

EME - UV

Groves, C. R. (2003). Drafting a conservation Blueprint: a practitioner's guide

to planing for Biodiversity. Washington: Island Press.

Grünwald, P. (2005). A tutorial inroduction to the Minimun Description Length

Principle. (P. Grünwald, I. Myung, & M. Pitt, Edits.) Advances in

Minimum Description Length: Theory and Applications.

Gutiérrez Fragoso, K. (2007). Anáisis del compportamiento de MDL en el

contexto del aprendizaje de la estructura de redes Bayesianas a partir de

datos. Veracruz, México: Departamento de Inteligencia Artificial,

Universidad Veracruzana. Tesis para obtener el grado de Maestra en

Inteligencia Artificial.

Hernández Orallo, J., Ferri Ramírez, C., & Ramírez Quintana, J. (2004).

Introducción a la minería de datos. PEARSON EDUCACIÓN.

Hernández-Díaz, A., Guerrero Casas, F., Caballero Fernandez, R., & Molina

Luque, J. (2006). Algoritmo Tabú para un problema de distribución de

espacios. Métodos cuantitativos para la economía y la empresa, 25-37.

Jiménez, J. L. (2003). BayesN: Un Algoritmo para Aprender Redes Bayesianas

Clasificadoras a partir de datos. Xalapa, Veracruz: Tesis de maestría.

Universidad Veracruzana. Facultad de Física e Inteligencia Artificial.

Kay, J. J. (1991). A nonequilibrium thermodynamic framework for discussing

ecosystem integrity. Environmental Management.

Kohavi, R. (1996). Wrappers for performance enhancement and oblivious

decision graphs. Stanford, CA, USA: Tesis doctoral, Stanford University.

L. Buntine, W. (1994). Operations for learning with graphical models. Journal

of Artificial Intelligence Research.(2), 159-225.

Lauritzen, S., & Spiegelhalter, D. (1988). Local computations wilh probabililics

on graphical structures and their application to expert systems. Journal

EME - UV

of the Royal Statistical Society, 157-224.

Lin, T. S., & Dayton, C. M. (1997). Model-selection information criteria for

nonnested latent class models. Journal of Educational and Behavioral

Statistics(22), 249-264.

López de Castilla Vásquez, C. (19 de Octubre de 2011). Recuperado el

Noviembre de 2013, de

http://tarwi.lamolina.edu.pe/~clopez/Estadistica%20Bayesiana/Estadistic

a_Bayesiana.pdf

Mackey, B. (2005). Carta de la tierra en acción. Ámsterdam, Los Países Bajos:

KIT Publishers.

Mesa P., e. a. (2011). Recuperado el Diciembre de 2013, de

http://www.urosario.edu.co/urosario_files/38/38e60ea0-497e-4197-913d-

e156ae0bb084.pdf

Montes S, F. (2007). Introducción a la probabilidad. Valencia: Universidad de

Valencia, Departamento de Estadística e Investigación Operativa.

Morales, E., & González, J. (Enero de 2012). Aprendizaje bayesiano. INAOE.

N. Kolmogorov, A. (1956). Foundations of the theory of probability (2 ed.). New

York: Chelsea Publishing Company.

Navarrete, M. (2001). A historical overview of the ecological.

Norvig, S. J. (1995). Artificial Intelligence, A Modern Approach. New Jersey:

Prentice-Hall.

Ortega, J. (2009). Capítulo 6. Esperanza matemática. Guanajuato, México.

Pearl, J. (1985). Recuperado el Diciembre de 2013, de

http://es.wikipedia.org/wiki/Red_de_inferencia

Pérez, J., & Fajardo, M. (2001). Determinación de la lealtad de voto mediante

EME - UV

un modelo de clases latentes. Estadística española, 147(43), 89-103.

Reyes, Y. (2009). Introducción al análisis de clases latentes. Xalapa, Veracruz,

México: Tesis de licenciatura, Facultad de Estadística e Informática,

Universidad Veracruzana.

Rissanen, J. (1978). Modelling by the shortest data description. Automatica 14,

465-471.

Robinson, R. W. (1977). Counting unlabeled acyclic digraphs. Combinatorial

mathematics V: Proceedings of the Fifth Australian Conference, 28-43.

Roche B., D. (2002). Métodos para obtener conocimiento utilizando redes

Bayesianas y procesos de aprendizaje con algoritmos evolutivos. Sevilla,

Eapaña: Tesis Doctoral. Universidad de Sevilla, Departamento de

Lenguajes y Sistemas Informáticos.

Rodríguez-Caballero, C. (2012). Entropía y teoría de la información.

Econometría I. (U. Facultad de Ciencias, Ed.) México.

Ruggeri, F., Faltin, F., & Kenett, R. (2007). Encyclopedia of Statistics in

Quality & Reliability: Bayesian Networks. Wiley & Sons.

Ruiz Reina, J. (2006). Recuperado el Diciembre de 2013, de

http://www.cs.us.es/cursos/ia2-2005/temas/tema-08.pdf

Sánchez Parra, L. (2012). Análisis sobre la percepción, conocimientos y

prácticas de riesgo en relación con el VIH y SIDA de consumidores de

drogas que asisten a Centros de Tratamiento en el Estado de Veracruz.

Xalapa, Veracruz, México: Tesis de licenciatura, Facultad de Estadística

e Informática, Universidad Veracruzana.

Sánchez S., D. (2009). Evaluación del comportamiento de Clasificadores

basados en Redes Bayesianas. Xalapa, Veracruz, México: Tesis para

obtener el grado de licenciado en Informática. Facultad de Estadística e

EME - UV

Informática. Universidad Veracruzana.

Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics

6, 461-464.

Stone, M. (1974). Cross Validatory choice and assessment of statistical

predictions. Journal of the Royal Statistical Society B 36(1), 111-147.

Ulanowicz, R. E. (1990). Ecosystem integrity and network theory. Edwards y

H. A. Higashi.

UPC. (2012). Departament de Llenguatges i Sistemes Informàtics. Recuperado

el agosto de 2014, de Búsqueda Local:

http://www.lsi.upc.edu/~bejar/ia/transpas/teoria/2-BH3-

Busqueda_local.pdf

Vermunt y Magdison. (2000). Latent gold 4.0 user's guide. Nueva York:

Statistical Innovations.

Waikato, U. d. (1999-2013). Patente nº Version 3.6.10 . Nueva Zelanda.

Westra, L. P. (2000). Ecological integrity and the aims of the global integrity

project. Island Press: Washington, DC.

EME - UV

9. Anexos

9.1 Resultados (completos)

En la sección 6.2 se presentan los resultados del primer algoritmo, Hill

climbing. A continuación se presentan las estructuras, probabilidad de

clasificación así como tabla de resultados de cada uno de los demás algoritmos.

Algoritmo K2

Ilustración 13 Estructura 2, base 1 algoritmo K2

EME - UV

K2 - false – 10000 – false LogScore Bayes: -23562.136961983902 LogScore BDeu: -28516.442440905295 LogScore MDL: -28001.10477652969 LogScore ENTROPY: -23836.155097666495 LogScore AIC: -24915.155097666502 Correctly Classified Instances 93.6973 %

Tabla 6 Resultados con algoritmo K2

Algoritmo Simulated Annealing

Ilustración 15 Estructura 3, base 1 algoritmo Simulated Annealing

EME - UV

Tabla 7 Resultados con algoritmo Simulated Annealing

Algoritmo Tabú search

Ilustración 17 Estructura 4, base 1 algoritmo Tabú search

Simulated Annealing - false– false LogScore Bayes: -23462.453977319026 LogScore BDeu: -31289.523440510202 LogScore MDL: -29893.759509092393 LogScore ENTROPY: -24184.80624214273 LogScore AIC: -25663.806242142724 Correctly Classified Instances 93.3422 %

EME - UV

Ilustración 19 Resultados con algoritmo Tabú search

Algoritmo TAN

Ilustración 20 Estructura 5, base 1 algoritmo TAN

Tabú search - false– false LogScore Bayes: -23555.73888413739 LogScore BDeu: -26658.780952017503 LogScore MDL: -26410.977202515976 LogScore ENTROPY: -23674.23084263275 LogScore AIC: -24383.23084263275 Correctly Classified Instances 94.1855 %

EME - UV

Tabla 8 Resultados con algoritmo TAN

Base 2

Algoritmo Hill climbing

Ilustración 22 Estructura 1, base 2 algoritmo Hill Climbing

Ilustración 23 Probabilidad de pertenecer al zvh estructura 1

TAN - S– Bayes LogScore Bayes: -23558.230518833705 LogScore BDeu: -28119.16526410393 LogScore MDL: -27684.960995344474 LogScore ENTROPY: -23809.511989247483 LogScore AIC: -24813.511989247476 Correctly Classified Instances 94.4518 %

EME - UV

Hill climbing – false – 10000 – false LogScore Bayes: -741699.1910544233 LogScore BDeu: -1513892.9755854046 LogScore MDL: -1240425.4366588404 LogScore ENTROPY: -836213.1262494246 LogScore AIC: -914620.1262494408 Correctly Classified Instances 73.4908 %

a b c d e f g h i j k <-- classified as 40 0 0 0 0 0 0 0 0 0 10 | a = V2

0 4943 59 0 0 426 6 237 212 5 0 | b = V5 0 9 6187 948 7 198 102 79 0 48 144 | c = V8

3 0 993 4119 204 5 1 2 0 6 677 | d = V9 2 0 1 54 993 0 0 0 0 0 270 | e = V11

1 282 324 16 2 2763 3 150 1 52 2 | f = V3 0 7 124 4 0 16 166 60 1 0 0 | g = V7

0 492 158 2 0 299 72 1063 7 7 0 | h = V6 0 202 0 0 0 16 0 3 388 0 0 | i = V1 0 0 41 6 0 77 0 0 0 125 0 | j = V4

7 0 69 393 362 0 0 0 0 0 1297 | k = V10 Tabla 9 Resultados con algoritmo Hill Climbing

EME - UV

Algoritmo K2

Ilustración 24 Estructura 2, base 2 algoritmo K2

Ilustración 25 Probabilidad de pertenecer a ZVH, estructura 2

K2 – false – 10000 – false LogScore Bayes: -751713.0678051873 LogScore BDeu: -1794866.5042554142 LogScore MDL: -1415059.8158636456 LogScore ENTROPY: -878206.5609655143 LogScore AIC: -982342.5609655415 Correctly Classified Instances 73.1481 %

EME - UV

0 4952 72 10 0 433 20 241 149 11 0 | b = V5 1 13 6145 913 10 320 91 65 0 14 150 | c = V8

2 1 983 4154 138 1 0 0 0 4 727 | d = V9 0 0 2 73 965 0 0 0 0 0 280 | e = V11

1 294 392 8 0 2698 5 144 6 46 2 | f = V3 0 9 125 5 1 21 163 54 0 0 0 | g = V7

0 468 177 3 0 315 66 1063 5 3 0 | h = V6 0 195 3 1 0 13 0 17 374 3 3 | i = V1 0 4 73 2 0 69 0 2 1 98 0 | j = V4

9 0 98 380 304 0 0 0 0 1 1336 | k = V10 Tabla 10 Resultados con algoritmo K2

EME - UV

Algoritmo Simulated Annealing

Ilustración 26 Estructura 3, base 2 algoritmo Simulated Annealing

Simulated Annealing– false– false LogScore Bayes: -747316.5603340995 LogScore BDeu: -1339555.003229849 LogScore MDL: -1148543.1248765974 LogScore ENTROPY: -819582.8595020369 LogScore AIC: -883392.8595020572 Correctly Classified Instances 72.7221 %

EME - UV

0 5044 48 0 1 373 9 233 174 6 0 | b = V5 0 10 6127 955 8 205 111 102 2 45 157 | c = V8

1 1 984 4119 184 1 1 0 1 4 714 | d = V9 0 0 1 63 970 0 0 0 1 0 285 | e = V11

0 329 304 17 2 2713 4 178 0 46 3 | f = V3 0 14 141 6 0 24 151 41 0 1 0 | g = V7

0 541 157 1 0 364 64 950 5 18 0 | h = V6 0 236 0 0 0 7 0 3 362 1 0 | i = V1 0 0 40 6 1 85 0 3 0 113 1 | j = V4

8 0 91 385 368 0 0 0 1 0 1275 | k = V10 Tabla 11 Resultados con algoritmo Simulated Annealing

Algoritmo Tabú search

Ilustración 28 Estructura 4, base 2 algoritmo Tabú search

EME - UV

Tabú Search– false - 10000– false LogScore Bayes: -747125.4574814732 LogScore BDeu: -1009911.9749531187 LogScore MDL: -943480.8518110849 LogScore ENTROPY: -779995.6937550211 LogScore AIC: -811707.693755022 Correctly Classified Instances 72.7255 %

0 4901 59 1 0 424 7 251 241 4 0 | b = V5 3 6 6148 918 9 192 101 106 0 58 181 | c = V8

5 0 1045 3951 189 2 0 6 0 7 805 | d = V9 0 0 1 40 999 0 0 0 0 0 280 | e = V11

1 300 332 13 2 2716 4 161 1 61 5 | f = V3 0 7 118 5 0 20 175 53 0 0 0 | g = V7

0 470 155 4 0 312 80 1068 4 7 0 | h = V6 0 194 1 0 0 9 1 10 394 0 0 | i = V1 0 0 49 3 0 75 0 0 0 121 1 | j = V4

7 0 71 338 370 0 0 0 0 0 1342 | k = V10 Ilustración 30 Resultados con algoritmo Tabú search

Algoritmo TAN

Ilustración 31 Estructura 5, base 2 algoritmo TAN

EME - UV

TAN– false - 10000– false LogScore Bayes: -742331.8334505183 LogScore BDeu: -1023802.95231424 LogScore MDL: -952845.2059700268 LogScore ENTROPY: -777961.6597813366 LogScore AIC: -811884.6597813367 Correctly Classified Instances 73.5541 %

0 4907 52 0 1 401 8 292 223 3 1 | b = V5 4 7 6309 811 8 178 88 107 0 33 177 | c = V8 1 0 1068 3987 190 7 2 2 0 3 750 | d = V9

0 0 3 52 998 0 0 0 0 0 267 | e = V11 0 301 279 6 3 2776 3 167 4 55 2 | f = V3

0 4 124 7 0 18 166 58 0 1 0 | g = V7 0 449 133 2 0 323 78 1108 4 3 0 | h = V6

0 204 0 0 0 11 1 21 371 1 0 | i = V1 0 0 58 2 0 78 0 0 0 109 2 | j = V4

7 0 120 307 354 0 0 0 0 0 1340 | k = V10 Tabla 12 Resultados con algoritmo TAN

EME - UV

9.2 Usando WEKA

Como se mencionó en la es un software de uso libre y se puede descargar

http://www.cs.waikato.ac.nz/ml/weka/. La siguiente es la pantalla inicial, se

mostraran los pasos para reproducir los resultados aquí mostrados.

Después de elegir Explorer aparece la siguiente pantalla, en esta se carga la

base de datos y aparece una pequeña descripción del comportamiento, también

se puede elegir las variables que se usaran y remover las demás, y/o aplicar

Es la opción que permite

llevar a cabo la ejecución de

los algoritmos de análisis

implementados sobre los

ficheros de entrada, una

ejecución independiente por

cada prueba. En esta opción

se trabajaron los resultados.

Esta opción permite definir

experimentos más complejos, con

objeto de ejecutar uno o varios

algoritmos sobre uno o varios

conjuntos de datos de entrada, y

comparar estadísticamente los

resultados

Es una novedad de WEKA 3-4 que permite

llevar a cabo las mismas acciones del

"Explorer", con una configuración

totalmente gráfica, inspirada en

herramientas de tipo "data-flow" para

seleccionar componentes y conectarlos en

un proyecto de minería de datos, desde

que se cargan los datos, se aplican

algoritmos de tratamiento y análisis,

hasta el tipo de evaluación deseada.

EME - UV

algún filtro.

Estadísticas

descriptivas.

Se puede observar la distribución de los datos

de acuerdo a la variable clase, si es que existe.

Filtros que se pueden

seleccionar, para

discretizar, re muestrear,

Cargar base de datos,

pueden leer archivos .arff,

.csv entre otros

EME - UV

De las opciones que se tienen en la parte superior:

Preprocess: selección de la fuente de datos y preparación (filtrado).

Clasify: Facilidades para aplicar esquemas de clasificación, entrenar

modelos y evaluar su precisión

Cluster: Algoritmos de agrupamiento

Associate: Algoritmos de búsqueda de reglas de asociación

Select Attributes: Búsqueda supervisada de subconjuntos de atributos

representativos

Visualize: Herramienta interactiva de presentación gráfica en 2D.

Proceso para crear variable latente.

Una vez seleccionada la base de datos en la sección de Preprocess, pasamos a

la sección de Cluster. En la imagen pequeña se observa la lista de algoritmos

disponibles para hacer los Cluster, en este trabajo se utilizó EM. Una vez

seleccionado el algoritmo, oprimir Start.

EME - UV

En el caso de la base 1, en donde se crea la variable clase, se debe

guardar e incluir en la base para cargarla de nuevo.

EME - UV

Una vez incluida en la base de datos, se procede a generar las

estructuras mediante los algoritmos. Se realiza en la sección de “Classify”. En

choose se elige BayesNet.

Elegir el algoritmo

BayesNet

EME - UV

Una vez elegido, con un click aparece el editor en el que se pueden elegir los

algoritmos.

Elegido el algoritmo se pueden editar los parámetros.

EME - UV

A continuación se muestran los parámetros utilizados en este trabajo.

Hill Climbing

Validación cruzada

Variable clase

Iniciar

Parámetros

EME - UV

Simulated Annealing

EME - UV

Tabú search

Redes bayesianas para inferir integridad ecológica · 2014-11-11 · Redes bayesianas para inferir...

Documents