v.1.0
Clase 2
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Minería de datos
Herramientas de
DM
Temas
Clase 1: Conceptos de Minería
de Datos
Referencias
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Proceso de DM
Minería de datos
La minería de datos o descubrimiento de conocimiento en bases de datos (KDD,
さknowledge discovery in databasesざぶが es una poderosa herramienta informática de
gran alcance con un gran potencial para la extracción de información previamente
desconocida y potencialmente útil a partir de grandes bases de datos.
La minería de datos automatiza el proceso de búsqueda de relaciones y patrones
en los datos y proporciona resultados que pueden ser utilizados en un sistema de
apoyo a las decisiones estratégicas del negocio [11].
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Previamente a un proyecto en el que se someten los datos a técnicas de DM,
conviene tener claro qué objetivo de negocio se persigue y también se deben
considerar aspectos sobre la naturaleza de nuestros datos, entre los cuales se
tienen [12]:
¿Se tienen los datos disponibles?
Los datos deben estar en un formato accesible. Es común encontrar los datos
dispersos en diferentes ubicaciones y formatos (electrónicos y físicos), donde es
necesario unirlos en un solo archivo electrónico.
¿Los datos cubren los factores relevantes de análisis?
Es crítico contar con los factores/variables relevantes del proyecto, aunque es
propio de DM averiguar cuales son dichos factores relevantes. La experiencia y
conocimiento de un experto en el tópico es útil al momento de seleccionar los
factores.
¿Tienen mucho «ruido» los datos?
El término ruido se refiere a errores en los datos o valores perdidos. A mayor
ruido, mayor será la dificultad de alcanzar resultados satisfactorios.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Minería de datos
¿Hay suficientes datos?
Depende da cada situación en particular. En las técnicas de análisis de datos, si se
trata de detectar relaciones o patrones más complejos, será necesario contar con
un mayor número de registros para encontrarlos.
¿Hay conocimiento sobre los datos disponibles?
Usualmente se cuenta con un experto que tiene conocimiento de sus datos y se
encarga de aplicar las distintas técnicas de DM. Pero si el responsable del proyecto
es indiferente al contexto del problema, es necesario contar con la ayuda de
expertos que no solamente ayudarán a identificar factores relevantes e interpretar
los resultados sino que también la orientación en la selección de la información
relevante para los objetivos perseguidos.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Minería de datos
Una metodología como CRISP-DM (Cross Industry Standard Process of data
mininig) sugerida por SPSS, no solo garantizaría una adecuada planeación sino una
mayor efectividad en los resultados de un proyecto de minería de datos. Se debe
tener presente que a pesar de disponer de la tecnología o las herramientas más
sofisticadas; un peso realmente importante del trabajo recaerá sobre alguien o un
grupo con un conocimiento profundo del negocio. Bajo la metodología CRISP-DM,
se deben responder las siguientes preguntas [13]
¿Cuál es el principal objetivo que se persigue resolver?
¿Qué datos se tendrán disponibles y cuales son relevantes en cuestión?
¿Qué clase de depuración de datos es requerida?
¿Qué técnica de minería de datos se empleará?
¿Cómo se evaluarán los resultados?
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Proceso de DM
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Herramientas de DM
Un riguroso proyecto en minería de datos, contempla las anteriores preguntas para
aumentar las posibilidades de éxito en los resultados obtenidos.
El objetivo del presente artículo no es abordar en detalle cada uno de estos
cuestionamientos, sino dar un acercamiento a los elementos más importante y de
fácil comprensión por parte de la cabeza estratégica del área, equipo o compañía.
Esta metodología fue concebida en 1996, por Comisión Europea
SPSS / ISL, NCR, Daimler Chrysler, OHRA
Alrededor de 200 miembros de CRISP-DM al nivel
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Proceso de DM
CRISP-DM consiste fundamentalmente
de 5 etapas:
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelado
Evaluación
Despliegue
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Proceso de DM
Fuente: CRISP-DM 1.0, 2007.
Comprensión del negocio (Objetivos y
requerimientos desde una perspectiva no
técnica)
Esta fase se enfoca en entender el objetivo
del proyecto y requerimientos desde una
perspectiva del negocio.
Objetivos:
• Situación de la compañía (área)
• Necesidades
Elaborar plan de trabajo:
• Etapas del proyecto
• Recursos requeridos
• Dependencias y herramientas adecuadas
Requerimientos:
• Inventario de recursos
• Supuestos y restricciones
• elación Costo/Beneficio
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: CRISP-DM 1.0, 2007.
Proceso de DM
Comprensión de los datos (Objetivos y
requerimientos desde una perspectiva no
técnica)
Inicia con una recopilación de datos y
procede con actividades para lograr
familiarizarse con los datos identificando
problemas de calidad y descubrir las
primeras ideas sobre los datos o detectar
subconjuntos de interés.
Recolección inicial de datos:
• Consecución de los datos
• Listado y ubicación de la fuentes de datos
• Descripción de datos.
• Cantidad. Campos に registros
• Formatos de los campos
• Tipos de variables
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: CRISP-DM 1.0, 2007.
Proceso de DM
Comprensión de los datos
Análisis Exploratorio de datos:
• Reportes de exploración
• Estadísticos descriptivos
• Gráficos
Calidad de los datos:
• Evaluar el porcentaje de datos perdidos
• Explorar posibles técnicas de imputación
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: CRISP-DM 1.0, 2007.
Proceso de DM
Preparación de los datos (Actividades para
construir la base de datos final que
alimentara los modelos)
Las tareas de preparación de datos
probablemente se realiza múltiples veces y
en cualquier orden. Estas tareas incluyen:
tablas, registros, transformación y limpieza
de los datos.
Selección de datos:
• Tablas, archivos
• Campos y registros
Limpieza de datos:
• Eliminar registros duplicados
• Eliminar registros inconsistentes
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: CRISP-DM 1.0, 2007.
Proceso de DM
Preparación de los datos
Construcción de data
• Derivar (crear) nuevas variables
• Recodificar variables
Integración de datos
• Agregar registros に variables
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: CRISP-DM 1.0, 2007.
Proceso de DM
Modelado (Aplicar las técnicas de minería de
datos a los bases de datos)
Varias técnicas de modelado son
seleccionadas y aplicadas y sus parámetros
son ajustados para un optimo
funcionamiento. Existen múltiples técnicas
para el mismo problema planteado en
minería de datos. Algunas técnicas
especifican requerimientos particulares en
los datos. Entonces, la etapa de preparación
de los datos y el conocimiento profundo de
las tecnicas es fundamental.
Seleccionar la técnica adecuada
Construcción del modelo
Cualidades de los modelos
• Revisión de parámetros
• Revisión de supuestos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: CRISP-DM 1.0, 2007.
Proceso de DM
Evaluación
En esta etapa del proyecto se ha construido
un modelo(s) que aparentemente tienen alta
calidad desde una perspectiva de análisis de
datos. Antes de proceder a la
implementación del modelo, es importante
evaluar a fondo el modelo y revisar los pasos
ejecutados para su construcción y estar
seguros que el modelo está propiamente
cumpliendo los logros del objetivo del
negocio.
Determinar los pasos a seguir:
• Lista de acciones o planes a desarrollar
Conceptos básicos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Despliegue (Explotar utilidad de los modelos,
integrándolos en las tareas de toma de
decisiones de la organización)
La construcción de un modelo generalmente
no es el fin del proyecto de DM. Incluso si el
fin del proyecto es incrementar el
conocimiento de los datos, el conocimiento
ganado necesitará ser organizado y
presentado de forma que los usuarios
puedan usarlo.
Conceptos básicos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
El acrónimo SEMMA に sample (muestra),
explore (explorar), modify (modificar),
model (modelar) y assess (evaluar). Se
refiere al corazón central del proceso de
minería de datos [14]
Inicia con una con un muestra estadística
representativa de los datos, esto facilita
aplicar análisis estadístico exploratorio y
técnicas de visualización de información.
Selecciona y transforma las más
representativas variables predictivas,
modelar las variables para predecir
resultados y confirmar la precisión del
modelo.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Applied Analytics Using
SAS Enterprise Miner, 2010
Proceso de DM
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Applied Analytics Using
SAS Enterprise Miner, 2010
Proceso de DM
Muestra
Crear una o más tablas utilizando muestras
de los datos contenidos en el Data
Warehouse. Las muestras deberían ser lo
suficientemente grandes como para
contener información significativa, aunque lo
suficientemente pequeñas como para poder
procesarse con rapidez.
Las técnicas de muestreo estadístico son
necesarias para un correcto proceso de
muestreo.
Explorar
Buscar por anticipado relaciones, tendencias
no anticipadas y anomalías para ganar
comprensión e ideas.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Applied Analytics Using
SAS Enterprise Miner, 2010
Proceso de DM
Modificar
Creación, selección y transformación de una
o más variables para centrar el proceso de
selección de modelos en una dirección
particular o para aumentar los datos para
obtener claridad o coherencia.
Modelar
Crear un modelo de datos implica la
utilización de una solución de minería que
busque automáticamente una combinación
de datos que prevean de forma fiable un
resultado deseado.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Applied Analytics Using
SAS Enterprise Miner, 2010
Proceso de DM
Evaluar
Estimar el modelo para su posterior
evaluación.
Un método común para evaluar un modelo
es aplicarlo a la porción de los datos que se
dejaron de lado durante la etapa de
muestreo. Si el modelo es válido debería
funcionar para esta muestra reservada, de
igual modo que funciona para la muestra
utilizada para construir el modelo.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Proceso de DM
Tarea 02
1. Realizar la lectura del capítulo Introductorio del texto Data Mining on
Multimedia Data.
2. Comente el método de minería de datos que más le cautivó y las razones de
ello.
3. Sobre el modelo seleccionado, investigue una aplicación en la industria para
ser expuesta en clase.
Referencias
[11] Perner, Petra (2002). Data Mining on Multimedia Data. Springer
[12] IBM SPSS, Introduction a IBM SPSS Modeler, 2012.
[13] CRISP-DM 1.0 Chapman, Clinton, Kerber, Khabaza, Reinartz, Shearer & Wirth,
2007.
[14] Applied Analytics Using SAS Enterprise Miner, 2010
Módulo: Minería de datos Docente: Gustavo Valencia Zapata