+ All Categories
Home > Education > Aplicación de aprendizaje automático en minería de datos en la evaluación del Sistema de...

Aplicación de aprendizaje automático en minería de datos en la evaluación del Sistema de...

Date post: 17-Jul-2015
Category:
Upload: mariasusanasd
View: 2,961 times
Download: 0 times
Share this document with a friend
21
Aplicación de aprendizaje automático en Aplicación de aprendizaje automático en minería de datos en la evaluación del minería de datos en la evaluación del sistema de gestión de cursos de la OUI. sistema de gestión de cursos de la OUI. ESCUELA DE CIENCIAS DE LA COMPUTACION Inteligencia Artificial Avanzada Adriana Becerra Susana Guasha Mercy Jiménez
Transcript

Aplicación de aprendizaje automático en Aplicación de aprendizaje automático en minería de datos en la evaluación del minería de datos en la evaluación del

sistema de gestión de cursos de la OUI.sistema de gestión de cursos de la OUI.

ESCUELA DE CIENCIAS DE LA COMPUTACION

Inteligencia Artificial Avanzada

Adriana BecerraSusana GuashaMercy Jiménez

ResumenResumen

La inteligencia artificial influye en la actualidad de manera La inteligencia artificial influye en la actualidad de manera progresiva mediante las técnicas de aprendizaje automático, la progresiva mediante las técnicas de aprendizaje automático, la cual se ha difundido en distintos ámbitos de la ciencia y como cual se ha difundido en distintos ámbitos de la ciencia y como complemento para la explotación del conocimiento interviene la complemento para la explotación del conocimiento interviene la minería de datos. Se utilizó WEKA versión 3.4.15 y el algoritmo minería de datos. Se utilizó WEKA versión 3.4.15 y el algoritmo J48, que se aplicó sobre una base de datos histórica que contienen J48, que se aplicó sobre una base de datos histórica que contienen información sobre un sistema de gestión de cursos implementado información sobre un sistema de gestión de cursos implementado en la dependencia OUI-Loja, con el propósito de determinar cuál en la dependencia OUI-Loja, con el propósito de determinar cuál es el nivel de aceptación de los cursos ofertados por el área que es el nivel de aceptación de los cursos ofertados por el área que desempeña el participante; decisiones que se que se pretenden desempeña el participante; decisiones que se que se pretenden recomendar luego de hacer un análisis y clasificación de los datos recomendar luego de hacer un análisis y clasificación de los datos extraídos.extraídos.

Introducción Introducción

❂ Mediante las técnicas de aprendizaje automatizado surgen Mediante las técnicas de aprendizaje automatizado surgen investigaciones de gran aporte a la ciencia y las investigaciones de gran aporte a la ciencia y las organizaciones en la toma de decisiones, así también la organizaciones en la toma de decisiones, así también la minería de datos se denomina inteligente y uno de sus minería de datos se denomina inteligente y uno de sus campos de aplicación es en las empresas. El presente campos de aplicación es en las empresas. El presente trabajo se aplicó el algoritmo de clasificación J4.8, trabajo se aplicó el algoritmo de clasificación J4.8, mediante el API de JAVA usando WEKA 3.4.7, sobre una mediante el API de JAVA usando WEKA 3.4.7, sobre una base de datos que contiene actividades relacionadas con base de datos que contiene actividades relacionadas con actividades de la OUI-sede Loja, en el sistema de gestión actividades de la OUI-sede Loja, en el sistema de gestión de cursos. de cursos.

Introducción Introducción

❂ Y como mecanismo de explotación usamos la técnica de Y como mecanismo de explotación usamos la técnica de minería de datos. Con el fin de determinar cual es el nivel minería de datos. Con el fin de determinar cual es el nivel de aceptación de los cursos ofertados, las temáticas más de aceptación de los cursos ofertados, las temáticas más solicitadas por los profesionales, las mismas que se solicitadas por los profesionales, las mismas que se pretenden llevar a cabo luego de hacer un análisis y pretenden llevar a cabo luego de hacer un análisis y extracción de la información más relevante de la base extracción de la información más relevante de la base datos para una futura conclusión basada en la eficiencia datos para una futura conclusión basada en la eficiencia al momento de clasificar las instancias por parte del al momento de clasificar las instancias por parte del algoritmo.algoritmo.

DESARROLLO DE LA INVESTIGACIÓN

PREDICCIONES PREDICCIONES DEDE LA ACEPTACION DE LOS LA ACEPTACION DE LOS CURSOS QUE OFRECE LA “OUI”CURSOS QUE OFRECE LA “OUI”

PREDICCION :PREDICCION :El nivel de aceptación de los cursos por el área El nivel de aceptación de los cursos por el área de los participantes. de los participantes.

PROBLEMA Y AREA DE APLICACIÓNPROBLEMA Y AREA DE APLICACIÓN

La OUI-Sede Loja maneja un sistema de gestión de cursos La OUI-Sede Loja maneja un sistema de gestión de cursos presenciales y en línea, el cual mantiene un registro de presenciales y en línea, el cual mantiene un registro de información de las capacitaciones y de sus participantes. información de las capacitaciones y de sus participantes. Sistema que cuenta con una base de datos, donde se registra Sistema que cuenta con una base de datos, donde se registra la información de los participantes, formas de pago, duración la información de los participantes, formas de pago, duración de los cursos, temática, etc. de los cursos, temática, etc.

OBJETIVOOBJETIVO

❂ Identificar los patrones de correlación de entre cursos Identificar los patrones de correlación de entre cursos ofertados e interesados en ellos, para apoyar a la toma de ofertados e interesados en ellos, para apoyar a la toma de decisiones, a partir de una base de conocimiento en torno a decisiones, a partir de una base de conocimiento en torno a perfiles definidos.perfiles definidos.

DESCRIPCIÓN DE LA BASE DE DATOS HISTÓRICADESCRIPCIÓN DE LA BASE DE DATOS HISTÓRICA

❂ La OUI oferta cursos con diferentes temáticas orientadas La OUI oferta cursos con diferentes temáticas orientadas en las aéreas (Técnica, Administrativa. Socio-Humanística, en las aéreas (Técnica, Administrativa. Socio-Humanística, Biológica), donde el participante Biológica), donde el participante puede inscribirse en puede inscribirse en línea o presencial, a su vez los inscritos están clasificados línea o presencial, a su vez los inscritos están clasificados por por categorías categorías (Participantes, docentes, estudiantes). (Participantes, docentes, estudiantes). Culminado el curso obtiene un certificado de participación Culminado el curso obtiene un certificado de participación y/o aprobación. y/o aprobación.

❂ El sistema registra el costo, forma de pago, ubicación de la El sistema registra el costo, forma de pago, ubicación de la sala, expositores, acompañantes, duración del curso y sala, expositores, acompañantes, duración del curso y responsables organizadores, números de inscritos.responsables organizadores, números de inscritos.

❂ Para la construcción del modelo se extrae las variables mas Para la construcción del modelo se extrae las variables mas relevantes de la relevantes de la base de datos base de datos intraouibd intraouibd como son:como son:

Código: indica la temática del eventoCódigo: indica la temática del evento

area_inscrito: determina el área del participante area_inscrito: determina el área del participante

certificado: que otorga después de la culminación del curso.certificado: que otorga después de la culminación del curso.

Modalidad: la forma de inscripción Modalidad: la forma de inscripción

Costo: de acuerdo a la categoría del inscrito.Costo: de acuerdo a la categoría del inscrito.

tipo_asistente: particpante, estudiante y docente. tipo_asistente: particpante, estudiante y docente.

número_inscritos: total de inscritos por áreanúmero_inscritos: total de inscritos por área

DESCRIPCIÓN DE LA BASE DE DATOS HISTÓRICADESCRIPCIÓN DE LA BASE DE DATOS HISTÓRICA

TÉCNICAS DE CLASIFICACIÓN SUPERVISADA TÉCNICAS DE CLASIFICACIÓN SUPERVISADA Algoritmo de clasificación J48Algoritmo de clasificación J48

ÁÁrboles de clasificación: rboles de clasificación: Los árboles de clasificación tienen Los árboles de clasificación tienen una estructura en forma de árbol, es un método de una estructura en forma de árbol, es un método de clasificación supervisada, se construyen mediante el clasificación supervisada, se construyen mediante el proceso de inducción. proceso de inducción.

Algoritmos de clasificación : IAlgoritmos de clasificación : Inducen un clasificador para nducen un clasificador para poder resolver el problema. poder resolver el problema.

Algoritmo J4.8 : CAlgoritmo J4.8 : Consiste en: onsiste en: ❂ Escoger el atributo que mejor diferencia las salidas.Escoger el atributo que mejor diferencia las salidas.❂ Crear una rama por cada salida.Crear una rama por cada salida.❂ Dividir las instancias en los correspondientes subgrupos.Dividir las instancias en los correspondientes subgrupos.❂ Terminar cada rama si: todos los miembros tienen la Terminar cada rama si: todos los miembros tienen la

misma clase. Etiquetar esa rama con dicha clase.misma clase. Etiquetar esa rama con dicha clase.

TÉCNICAS DE CLASIFICACIÓN SUPERVISADA TÉCNICAS DE CLASIFICACIÓN SUPERVISADA Algoritmo de clasificación J48Algoritmo de clasificación J48

❂ Sólo hay un miembro o no quedan más atributos, Sólo hay un miembro o no quedan más atributos, en cuyo casi la rama tendrá etiqueta en cuyo casi la rama tendrá etiqueta correspondiente a la mayoría de instancias.correspondiente a la mayoría de instancias.

❂ Para los subgrupos creados en 3 que no sean terminales, Para los subgrupos creados en 3 que no sean terminales, repartirles el algoritmo, dicho árbol puede ser visto por un repartirles el algoritmo, dicho árbol puede ser visto por un experto o usado para clasificar posteriores instancias. experto o usado para clasificar posteriores instancias.

ATRIBUTOS Y CLASES PARA LA BASE DE ATRIBUTOS Y CLASES PARA LA BASE DE ENTRENAMIENTO Y DE EVALUACIÓNENTRENAMIENTO Y DE EVALUACIÓN

TABLA: info_eventosTABLA: info_eventos

TABLA: inscritos_cursosTABLA: inscritos_cursos

TABLA: categoriasTABLA: categorias

TABLA: evento_categoriaTABLA: evento_categoria

ANALISIS Y MODELADO DE DATOSANALISIS Y MODELADO DE DATOS

Estructura del modelo de datos, las variables: Estructura del modelo de datos, las variables: Curso, área Curso, área del participante, documento otorgado, modalidad, costo, del participante, documento otorgado, modalidad, costo, tipo de participante, número de inscritostipo de participante, número de inscritos

EXPERIMENTACIÓN DEL MODELOEXPERIMENTACIÓN DEL MODELO❂ Mediante sentencias SQL se realizó la obtención de la base de Mediante sentencias SQL se realizó la obtención de la base de

entrenamiento a partir de la base de datos histórica. entrenamiento a partir de la base de datos histórica.

❂ presenta el resultado obtenido de la consulta, el cual presenta el resultado obtenido de la consulta, el cual conforma nuestra conforma nuestra base de entrenamientobase de entrenamiento

ESPECIFICACIÓNESPECIFICACIÓN

❂ Herramientas de la extracción del conocimientoHerramientas de la extracción del conocimiento❂ MySql: Mediante las consultas se extrae la información MySql: Mediante las consultas se extrae la información

relevante de la base de datos, que servirá para el modelo de relevante de la base de datos, que servirá para el modelo de la base de entrenamiento.la base de entrenamiento.

❂ ❂ WEKA: Tiene un conjunto de librerías JAVA para la WEKA: Tiene un conjunto de librerías JAVA para la

extracción del conocimiento; desde las bases de datos y así extracción del conocimiento; desde las bases de datos y así poder realizar tareas de minerías de datos, cuenta con un poder realizar tareas de minerías de datos, cuenta con un API, el mismo que nos permite trabajar con el IDE de Java API, el mismo que nos permite trabajar con el IDE de Java Netbeans. En la aplicación de java se carga la base de Netbeans. En la aplicación de java se carga la base de entrenamiento y mediante las librerías de weka se puede entrenamiento y mediante las librerías de weka se puede clasificar los datos en base del algortimo de clasificación.clasificar los datos en base del algortimo de clasificación.

LaboratorioLaboratorio❂ El resultado de la base de entrenamiento determina, que El resultado de la base de entrenamiento determina, que

de un conjunto de 69 datos a clasificar, se obtiene un de un conjunto de 69 datos a clasificar, se obtiene un resultado de un 98 % de instancias bien clasificadas y un resultado de un 98 % de instancias bien clasificadas y un 1% de instancias mal clasificadas con un margen de error 1% de instancias mal clasificadas con un margen de error relativo de 37.77%.relativo de 37.77%.

EVALUACIONEVALUACIONLa evaluación del nivel de aceptación de los cursos por parte La evaluación del nivel de aceptación de los cursos por parte de los inscritos se determina mediante los resultados que nos de los inscritos se determina mediante los resultados que nos da el algoritmo J48.da el algoritmo J48.

DISCUCION Y ANÁLISIS DE RESULTADOSDISCUCION Y ANÁLISIS DE RESULTADOS

Esto significa que el algoritmo aprendió en gran medida para Esto significa que el algoritmo aprendió en gran medida para la clasificación con la prueba de test dado que el margen de la clasificación con la prueba de test dado que el margen de instancias mal clasificadas es mínimo..instancias mal clasificadas es mínimo..

Algoritmo Resultados con validación cruzada

Resultados con la base de datos de prueba

J48 Instancias correctamente

clasificadas: 98.5075 %

Instancias incorrectamente

clasificadas: 1.4925 %

Error relativo absoluto: 37.77 %

Instancias correctamente

clasificadas: 100 %Instancias incorrectamente

clasificadas: 0 %Error relativo absoluto: 14.7925 %

CONCLUSIONESCONCLUSIONES

❂ Es importante tener un conocimiento general del Es importante tener un conocimiento general del tema de análisis para una posterior elección de la tema de análisis para una posterior elección de la herramienta de aprendizaje automático ya sea herramienta de aprendizaje automático ya sea supervisada o no supervisada que facilite la supervisada o no supervisada que facilite la interpretación de los resultados de manera fácil y interpretación de los resultados de manera fácil y completa.completa.

CONCLUSIONESCONCLUSIONES

❂ La minería de datos es fundamental para la La minería de datos es fundamental para la extracción relevante para un posterior análisis, extracción relevante para un posterior análisis, pero es fundamental complementar con técnicas pero es fundamental complementar con técnicas de aprendizaje automático para concluir con un de aprendizaje automático para concluir con un análisis más preciso y fundamentado. análisis más preciso y fundamentado.

❂ ❂ La minería de datos genera conocimiento y La minería de datos genera conocimiento y

mediante el aprendizaje automático se puede mediante el aprendizaje automático se puede evidenciar claramente los resultados siendo este evidenciar claramente los resultados siendo este un factor fundamental para la toma de decisiones un factor fundamental para la toma de decisiones en una organización.en una organización.


Recommended