Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un...

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción del diccionario para un

clasificador Naïves Bayes de tuits.

Francisco BerrizbeitiaNoviembre 2014

Queremos encontrar una manera automática de clasificar Tuits

Machine Learning: Clasificadores automáticos

Agenda

• Bag Of Words• El problema de la selección de atributos o generación del

diccionario• Preprocesamiento:

– Eliminación de ruido– Eliminación de terminaciones

• Descripción de los datos• Descripción de método propuesto• Resultados• Observaciones• Conclusiones

Bag of Words

El tratamiento de tuits en un contexto de clasificación se realiza utilizando la técnica de

«Bag Of Words»

Bag of words

Selección de atributos

Uno de los problemas al trabajar con esta técnica es el que el número de dimensiones puede llegar a ser demasiado grande.

Quisiéramos construir un diccionario con el menor número de palabras posibles que nos permita tener una cobertura de al menos 2 palabras para cada tuit

Construcción del diccionario

Para atacar este problema primeros se eliminar las palabras muy comunes que no aportaran ningún valor discriminatorio (Stopwords).

Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn

obama administration back sanctions venezuela official

Construcción del diccionario

Un segundo paso consiste el eliminar las terminaciones (Stemming) tratando de encontrar las raíces de las palabras.

Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn

obama administration back sanctions venezuela official

obama administr back sanction venezuela offici

Existen varia técnicas para hacer esto, nosotros utilizamos el algoritmo de Porter

Planteamiento del problema

Queremos responder las siguientes preguntas:

• ¿Cuántos tuits necesito para construir un diccionario que me garantice una buena cobertura?

• ¿La calidad del diccionario en términos de cobertura variará si el conjunto de tuits para crear el diccionario se toma utilizando MAS o Estratificando por temas?

Método Utilizado

Para obtener el número de tuits que requerimos para el diccionario, diseñamos e implementamos el siguiente algoritmo.

Método Utilizado

Una vez obtenido el número de tuits utilizando el algoritmo anterior , generamos un diccionario utilizando MAS y uno realizando muestreo estratificado por temas.

Para medir la calidad del diccionario se obtuvieron varias muestras de 100 mensajes (Utilizando MAS) y se cuantifico la cobertura sobre la muestra.

Descripción de los datos

• Se recuperaron 6793 tuits, en idioma ingles, creados entre el 18 y el 20 de Noviembre sobre los siguientes temas

• Obama: 1000• ukraine: 681• ISIS: 547• New York: 1080• Siria: 119• FARC: 102• Venezuela: 450• London: 862• gunman: 627• ferguson: 754• amnesty: 571

Descripción de los datos

• Sobre este conjunto de datos se realizo un MAS de 3000 elementos para asegurar la aleatoriedad de la población

• A los mensajes de esta nueva población se le aplicaron los procesos de reducción de ruido y stemming.

• Todos los experimentos se hicieron sobre los mensajes sin Stop Words y Stemmed

Resultados

Se corrió el algoritmo cuatro veces variando los parámetros de ganancia de información y el umbral de parada.

5 tuits seguidos aportaron menos de 2 palabras nuevas al diccionario

Resultados

Se genero un diccionario realizando un MAS de 234 tuitssobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población.

Resultados

Se genero otro diccionario realizando un muestreo estratificado por temas de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población.La cantidad de tuits a tomar por estrato se calculo de la siguiente manera:1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.

Resultados

Ambos diccionarios de comportan de manera muy similar

Resultados

La tasa de cobertura es ligeramente mejor para el diccionario generado a través de un MAS

Conclusiones

• Al parecer es posible construir un diccionario con una cobertura superior al 95% con unos 240 tuits generando un diccionario de cerca de 1100 entradas.

• Estratificar por temas no aporta ninguna ganancia en la construcción del diccionario.

Gracias

Francisco BerrizbeitiaNoviembre 2014

Date post:	15-Jul-2015
Category:	Science
Upload:	francisco-berrizbeitia
View:	171 times
Download:	1 times

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un...

Science