Post on 20-Feb-2016
description
transcript
FACULTAD DE INGENIERIA
ESCUELA DE SISTEMAS
Trabajo Final de Data Warehouse y Data Mining:
Creacion de un Datawarehouse usando la
Metodologıa Hefesto y Analisis de datos mediante
WEKA: Prediccion, clasificacion, clustering y
asociacion
Realizado por: Juan Carlos Lojano U.
Profesor:Ing. Vıctor Saquicela
Indice general
Lista de figuras 5
Lista de tablas 7
1. Introduccion 11.1. Problema planteado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Descripcion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. M. Hefeso 52.1. Analisis de requerimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1. Identificar preguntas. Accidentes de carretera . . . . . . . . . . . . 52.1.2. Identificar indicadores y perspectivas. . . . . . . . . . . . . . . . . . 62.1.3. Modelo Conceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Analisis de los OLTP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.1. Conformar Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.2. Establecer Correspondencias . . . . . . . . . . . . . . . . . . . . . . 122.2.3. Nivel de Granularidad . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.4. Modelo Conceptual Ampliado . . . . . . . . . . . . . . . . . . . . . 18
2.3. Modelo Logico del DW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.1. Tipo de Modelo Logico del DW . . . . . . . . . . . . . . . . . . . . 182.3.2. Tablas de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.3. Tablas de hechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.4. Uniones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4. Integracion de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4.1. Carga Inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4.2. Actualizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.4.3. Creacion de cubos multidimensionales . . . . . . . . . . . . . . . . . 292.4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3. Minerıa de Datos 353.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3. Problematia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4. Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2
INDICE GENERAL INDICE GENERAL
3.4.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . . . 373.4.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . . . 373.4.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . . . 373.4.5. Aplicacion de los algoritmos a los datos . . . . . . . . . . . . . . . . 383.4.6. Seleccion del modelo en base al MAPE (Mean Absolute Percentage
Error) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.4.7. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5. Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . . . 443.5.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . . . 443.5.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . . . 453.5.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . . . 453.5.6. Seleccion del modelo en base al MAE (Mean Absolute Error) . . . . 463.5.7. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.6.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.6.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . . . 493.6.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . . . 493.6.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . . . 503.6.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . . . 503.6.6. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7. Asociacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.7.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.7.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . . . 543.7.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . . . 553.7.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . . . 563.7.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . . . 563.7.6. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4. Conclusiones 58
A. Reporte usando Report Designer 60
Universidad de Cuenca 3 Ingenierıa de Sistemas
Indice de figuras
2.1. Modelo Conceptual de Accidentes de Carretera . . . . . . . . . . . . . . . 82.2. Modelo Conceptual de Accidentes Ferroviarios . . . . . . . . . . . . . . . . 92.3. Modelo Entidad Relacion Accidentes de Carretera . . . . . . . . . . . . . . 122.4. Modelo Entidad Relacion Accidentes de Carretera . . . . . . . . . . . . . . 132.5. Correspondencia entre el Modelo Conceptual de Accidentes de Carretera y
el Modelo Entidad Relacion . . . . . . . . . . . . . . . . . . . . . . . . . . 142.6. Correspondencia entre el Modelo Conceptual de Accidentes de Ferroviarios
y el Modelo Entidad Relacion . . . . . . . . . . . . . . . . . . . . . . . . . 152.7. Modelo Conceptual Ampliado de Accidentes de Carretera . . . . . . . . . . 192.8. Modelo Conceptual Ampliado de Accidentes de Ferrocarriles . . . . . . . . 202.9. Dimension Lugar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.10. Dimension Tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.11. Dimension Grupo Edad de Vıctima . . . . . . . . . . . . . . . . . . . . . . 212.12. Dimension Sexo de Vıctima . . . . . . . . . . . . . . . . . . . . . . . . . . 212.13. Dimension Grupo Tipo de Carretera . . . . . . . . . . . . . . . . . . . . . 222.14. Dimension Grupo Tipo Vıctima . . . . . . . . . . . . . . . . . . . . . . . . 222.15. Dimension Transporte de Mercaderıa Peligrosa . . . . . . . . . . . . . . . . 232.16. Dimension Suicidios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.17. Dimension Tipo Accidente Ferroviario . . . . . . . . . . . . . . . . . . . . 242.18. Tabla de hecho ACCIDENTE CARRETERA . . . . . . . . . . . . . . . . 242.19. Tabla de hecho ACCIDENTES FERROVIARIOS . . . . . . . . . . . . . . 252.20. Union ACCIDENTE DE CARRETERA . . . . . . . . . . . . . . . . . . . 252.21. Union ACCIDENTE FERROVIARIO . . . . . . . . . . . . . . . . . . . . . 262.22. Carga Inicial de Accidentes de carretera (1) . . . . . . . . . . . . . . . . . 272.23. Carga Inicial de Accidentes de carretera (2) . . . . . . . . . . . . . . . . . 272.24. Carga Inicial de Accidentes de carretera (3) . . . . . . . . . . . . . . . . . 282.25. Carga Inicial de Accidentes de carretera (4) . . . . . . . . . . . . . . . . . 292.26. CUBO DE ACCIDENTES DE CARRETERA . . . . . . . . . . . . . . . . 302.27. CUBO DE ACCIDENTES FERROVIARIOS . . . . . . . . . . . . . . . . 302.28. DIMENSIONES Y JERARQUIAS PARA CUBO DE CARRETERA . . . 312.29. DIMENSIONES Y JERARQUIAS PARA ACCIDENTES FERROVIARIOS 312.30. MEDIDAS PARA CUBO DE ACCIDENTES DE CARRETERA . . . . . 322.31. MEDIDAS PARA CUBO DE ACCIDENTES FERROVIARIOS . . . . . . 322.32. PUBLICACION DE LOS CUBOS . . . . . . . . . . . . . . . . . . . . . . . 32
5
INDICE DE FIGURAS INDICE DE FIGURAS
2.33. Numero de vıctimas de accidentes de carretera por paıs y ano . . . . . . . 332.34. Numero de vıctimas de accidentes ferroviarios por paıs y ano . . . . . . . . 332.35. Cantidad de suicidios por paıs y ano . . . . . . . . . . . . . . . . . . . . . 342.36. Suicidios por paıs y ano, grafico . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1. Datos para la prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2. Analsis previo de los datos, para conductor . . . . . . . . . . . . . . . . . . 383.3. Configuracion del Mean Absolute Porcentaje Error . . . . . . . . . . . . . 383.4. Entrenamiento con Algoritmo Perceptron Multicapa . . . . . . . . . . . . . 393.5. Prediccion (grafica) con Algoritmo Perceptron Multicapa . . . . . . . . . . 393.6. Predicciones (numerica) con Algoritmo Perceptron Multicapa, para los
proximos 4 anos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.7. Entrenamiento con Algoritmo IBk . . . . . . . . . . . . . . . . . . . . . . . 403.8. Prediccion (grafica) con Algoritmo IBk . . . . . . . . . . . . . . . . . . . . 403.9. Predicciones (numerica) con Algoritmo IBk, para los proximos 4 anos . . . 413.10. Entrenamiento con Algoritmo Holt Winters . . . . . . . . . . . . . . . . . 413.11. Prediccion (grafica) con Algoritmo Holt Winters . . . . . . . . . . . . . . . 423.12. Predicciones (numerica) con Algoritmo Holt Winters, para los proximos 4
anos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.13. Resultados grafico de la prediccion para los proximos 4 anos . . . . . . . . 433.14. Datos para la clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.15. Opciones de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.16. Resultados. Matriz de Confusion . . . . . . . . . . . . . . . . . . . . . . . . 473.17. Resultados. Reglas generadas . . . . . . . . . . . . . . . . . . . . . . . . . 473.18. Variable para clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.19. Resultados del alfrotimo Naive Bayes . . . . . . . . . . . . . . . . . . . . . 483.20. Datos para la clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.21. Cluster mode, Use training set . . . . . . . . . . . . . . . . . . . . . . . . . 503.22. Resultados de Canopy, clustering . . . . . . . . . . . . . . . . . . . . . . . 513.23. Resultados graficos de algoritmo Canopy, clustering . . . . . . . . . . . . . 523.24. Resultados de Simple-K Means, clustering . . . . . . . . . . . . . . . . . . 523.25. Resultados graficos de algoritmo Simple-K Means, clustering . . . . . . . . 533.26. Algoritmo Simple-K Means, clustering . . . . . . . . . . . . . . . . . . . . 543.27. Set de datos para la asociacion . . . . . . . . . . . . . . . . . . . . . . . . . 553.28. Configuracion del numero de reglas para la asociacion . . . . . . . . . . . . 563.29. Mejores reglas de asociacion encontradas . . . . . . . . . . . . . . . . . . . 57
A.1. Vıctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 60A.2. Vıctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 61A.3. Vıctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 62
Universidad de Cuenca 6 Ingenierıa de Sistemas
Indice de cuadros
3.1. Resultados de la prediccion para los proximos 4 anos . . . . . . . . . . . . 433.2. Resultados de la clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7
Capıtulo 1
Introduccion
1.1. Problema planteado
Basicamente lo que se desea implementar es un Datawarehouse sobre accidentes de ca-rretera y accidentes ferroviarios (trenes), que ha ocurrido en paıses de Europa. Para esto seha tomado como referencia varias bases de datos de la EUROSTAT (http://ec.europa.eu),las mismas que contiene datos importantes sobre estos accidentes, como por ejemplo: elnumero de vıctimas, el tipo de accidente, el tipo de carretera donde ha sucedido el acciden-te, el tipo de vıctimas involucrados (pasajero, peaton, conductor), etc., esto respecto a loque son accidentes de carretera o de transito, y de la misma forma respecto a los accidentesque involucran trenes (numero de vıctimas, accidentes por transporte de material peli-groso en trenes, accidentes por incendios, etc). Todos estos datos son de paıses europeostomados de los anos 2004 a 2013. Para implementar este Datawarehouse se ha optado porseguir la metodologıa Hefesto, la misma que presenta pasos claros y concisos de desarrollo.
Basicamente se desea conocer la cantidad de accidentes que se han dado en un ciertoperiodo de tiempo, el tipo de accidentes que se han dado y en que lugar, el numero devıctimas, tipo de vıctimas, etc., todos estos puntos estan detallados mas adelante en elanalisis de requerimientos.
1.2. Descripcion de los datos
Los datos se encuentran en varios formatos, entre ellos estan los siguientes: formato.xlsx, .sql, .cvs, .txt, etc. Y lo que se busca es integrar todas estas fuentes de datos detal manera que se pueda responder a ciertas preguntas, las mismas que se describen en elsiguiente apartado.
Fuentes:Las siguientes son fuentes que contienen los datos respecto a los accidentes decarretera:
1
1.2. DESCRIPCION DE LOS DATOS CAPITULO 1. INTRODUCCION
Fuente 1: Esta primera fuente esta en formato de una base de datos (.sql) y basicamentecontiene las estadısticas de las vıctimas de accidentes de trafico segun el tipo de usuarioque estuvo involucrado en el accidente, esto es conductor, pasajero, peaton.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.ROADUSER: Tipo de vıctima (o usuario de vıa) involucrada en los accidentes: pasaje-ro, conductor o peaton.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 2: Esta segunda fuente esta en formato Excel (.xlsx) y basicamente contienelas estadısticas con el numero de accidentes y el numero de vıctimas segun el tipo decarretera en el que se dio el accidente.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.TRA INFR: Tipo de carretera en donde se dio el accidente.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 3: Esta tercera fuente esta en formato .cvs y basicamente contiene las estadısti-cas de los pasajeros clasificados segun la edad de los mismos, no los involucrados en unaccidente, pero si el numero de pasajeros en un medio de tansporte en Europa, de acuerdoa la edad. Estos datos serviran para conocer que tipo de usuarios son los mas frecuentesen estos paıses, jovenes o adultos, para poder determinar si esto incide en los accidentes.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.AGE: Rango de edad de los pasajeros, este campo contiene las edades de las vıctimasclasificadas por rangos.Value: Numero o cantidad de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 4: Esta cuarta fuente esta en formato de un archivo de texto (.txt) y basica-
Universidad de Cuenca 2 Ingenierıa de Sistemas
CAPITULO 1. INTRODUCCION 1.2. DESCRIPCION DE LOS DATOS
mente contiene las estadısticas de las vıctimas en accidentes, segun la edad. A diferenciade la fuente anterior en este caso si son personas que ya estuvieron involucradas en acci-dentes, y por ende son vıctimas.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto comonumeroAGE: Rango de edad de los pasajeros, este campo contiene las edades de las vıctimasclasificadas por rangos.Value: Numero de vıctimasFlag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 5: Esta quinta fuente basicamente consumira un servicio web que devolvera elnumero de vıctimas clasificadas por sexo.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto comonumero.SEX: Sexo de la vctima.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Las siguientes son fuentes que contienen los datos respecto a los accidentesferroviarios:
Fuente 1: Esta primera fuente esta en formato de una base de datos (.sql) y basicamentecontiene las estadısticas de las vıctimas de accidentes de ferrocarriles. Lo particular deesta fuente es que las vıctimas son por suicidios en ferrocarriles, y que de alguna formaestuvo relacionado con algun accidente del mismo.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 2: Esta segunda fuente esta en formato Excel (.cvs) y contiene las estadısti-cas con el numero de accidentes y el numero de vıctimas segun el tipo de accidente quese dio. Obviamente estos tipos son referentes a los ferrocarriles, por ejemplo: colisiones,
Universidad de Cuenca 3 Ingenierıa de Sistemas
1.2. DESCRIPCION DE LOS DATOS CAPITULO 1. INTRODUCCION
incendios dentro del ferrocarril, descarrilamientos, etc.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto estacomo numero.ACCIDENT: Tipo de accidente que ha ocurrido.Value: Numero de vıctimas.Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 3: Esta tercera fuente esta en formato de un archivo de texto (.txt) y contie-ne las estadısticas de los accidentes ferroviarios que implican el transporte de mercancıaspeligrosas.Los campos que contiene esta fuente son los siguientes:TIME: Ano: 2004 a 2013.GEO: Ubicacion o Paıs de Europa.UNIT: Se refiere a la unidad en la que esta la cantidad de vıctimas. Por defecto comonumeroACCIDENT: Detalle del accidente y de la mercancıa peligrosa involucrada.Value: Numero de vıctimasFlag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Algunos de estos campos contienen informacion que no presentan un gran aporte, porlo cual en el proceso de ETL se hara la limpieza de esta clase de datos.
Universidad de Cuenca 4 Ingenierıa de Sistemas
Capıtulo 2
Desarrollo de la Metologıa Hefesto
2.1. Analisis de requerimientos
2.1.1. Identificar preguntas. Accidentes de carretera
¿Cuantos hombres adultos murieron en accidentes de carretera en un determinadopaıs de Europa y en un determinado ano?
¿Cuantas mujeres jovenes murieron en accidentes de carretera en un determinadopaıs de Europa y en un determinado ano?
¿Cuantos conductores hombres murieron en accidentes de carretera en un determi-nado ano y paıs de Europa?
¿Cuantos pasajeros (jovenes) murieron en accidentes de carretera en un determinadoano y paıs de Europa?
¿Cuantos peatones (mujeres) murieron en accidentes de carretera en un determinadoano y paıs de Europa?
¿Cuantos adultos murieron en accidentes de carreteras rural, en un determinado anoy paıs de Europa?
¿Cuantas mujeres murieron en accidentes de carreteras urbana, en un determinadoano y paıs de Europa?
¿Cuantos pasajeros (no vıctimas) jovenes existen, en un determinado ano y paıs deEuropa?
Identificar preguntas. Accidentes ferroviarios
¿Cuantos suicidos se dieron durante un accidente ferroviario en un determinado paısde Europa y en un determinado ano?
¿Cuantos accidentes involucraron el transporte de mercaderias peligrosas en un de-terminado paıs y en un determinado ano?
5
2.1. ANALISIS DE REQUERIMIENTOS CAPITULO 2. M. HEFESO
¿Cuantos ferrocarriles se incendiaron en un determinado ano y paıs de Europa?
¿Cuantos accidentes de ferrocarriles por descarrilamientos sucedieron en un deter-minado ano y paıs de Europa?
¿Cuantos accidentes de ferrocarriles por material rodante sucedieron en un deter-minado ano y paıs de Europa?
2.1.2. Identificar indicadores y perspectivas.
Accidentes de carretera.
Numero de hombres adultos que murieron en accidentes de carretera en un deter-minado paıs de Europa y en un determinado ano.
Numero de mujeres jovenes que murieron en accidentes de carretera en un determi-nado paıs de Europa y en un determinado ano.
Numero de conductores que hombres murieron en accidentes de carretera en undeterminado ano y paıs de Europa.
Numero de pasajeros (jovenes) que murieron en accidentes de carretera en un de-terminado ano y paıs de Europa.
Numero de peatones (mujeres) que murieron en accidentes de carretera en un de-terminado ano y paıs de Europa.
Numero de adultos que murieron en accidentes de carreteras rural, en un determi-nado ano y paıs de Europa.
Numero de mujeres que murieron en accidentes de carreteras urbana, en un deter-minado ano y paıs de Europa.
Numero de pasajeros (no vıctimas) jovenes que existen, en un determinado ano ypaıs de Europa.
Identificar preguntas. Accidentes ferroviarios
Numero de suicidos se dieron durante un accidente ferroviario en un determinadopaıs de Europa y en un determinado ano.
Numero accidentes involucraron el transporte de mercaderias peligrosas en un de-terminado paıs y en un determinado ano.
Numero ferrocarriles se incendiaron en un determinado ano y paıs de Europa.
Numero accidentes de ferrocarriles por descarrilamientos sucedieron en un determi-nado ano y paıs de Europa.
Universidad de Cuenca 6 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.1. ANALISIS DE REQUERIMIENTOS
Numero accidentes de ferrocarriles por material rodante sucedieron en un determi-nado ano y paıs de Europa.
Perspectivas - Accidentes de carretera
Tiempo.En anos.
Lugar.Por paıs.
Edad de vıctima.Joven.Adulto.
Sexo de vıctima.Hombre.Mujer.
Tipo carretera del accidente.Autopista.Carretera Rural.Carretera Urbana.
Tipo de la vıctimaConductorPasajeroPeaton
Perspectivas - Accidentes ferroviarios
Tiempo.En anos.
Lugar.Por paıs.
Transporte de mercaderia peligrosa.Accidentes por mercaderias peligrosas.Mercaderias peligrosas que no se liberan.Mercaderias peligrosas que se liberan
Suicidios.Cantidad.
Universidad de Cuenca 7 Ingenierıa de Sistemas
2.1. ANALISIS DE REQUERIMIENTOS CAPITULO 2. M. HEFESO
Tipo de accidente.Accidentes por material rodante.Accidentes por paso a nivel.Colisiones.Descarrillamientos.Incendios.
2.1.3. Modelo Conceptual
Se puede ver en la Figura 2.1 el modelo conceptual para los accidentes de carretera.
Figura 2.1: Modelo Conceptual de Accidentes de Carretera
Universidad de Cuenca 8 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP
Se puede ver en la Figura 2.2 el modelo conceptual para los accidentes ferroviarios.
Figura 2.2: Modelo Conceptual de Accidentes Ferroviarios
2.2. Analisis de los OLTP
2.2.1. Conformar Indicadores
Los indicadores para los accidentes de carretera se calcularan de la siguiente manera:
“Hombres adultos muertos”Hechos: Numero de hombres adultos que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de hombres adultos que murieron en accidentes de ca-rretera representa la sumatoria de los hombres que murieron en accidentes de carreteraen un determinado paıs de Europa y en un determinado ano.
“Mujeres jovenes muertas”Hechos: Numero de mujeres jovenes que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de mujeres que murieron en accidentes de carreterarepresenta la sumatoria de las mujeres que murieron en accidentes de carretera en undeterminado paıs de Europa y en un determinado ano.
Universidad de Cuenca 9 Ingenierıa de Sistemas
2.2. ANALISIS DE LOS OLTP CAPITULO 2. M. HEFESO
“Conductores hombres muertos”Hechos: Numero de conductores hombres, que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de conductores que murieron en accidentes de carreterarepresenta la sumatoria de los conductores que murieron en accidentes de carretera en undeterminado paıs de Europa y en un determinado ano.
“Pasajeros jovenes muertos”Hechos: Numero de pasajeros ninos que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de pasajeros que murieron en accidentes de carreterarepresenta la sumatoria de los pasajeros que eran ninos y que murieron en accidentes decarretera en un determinado paıs de Europa y en un determinado ano.
“Pasajeros mujeres en medios de transporte (no muertos)”Hechos: Numero de pasajeros en medios de transporteFuncion de sumarizacion: SUMAclaracion: El indicador numero de pasajeros representa la sumatoria de los pasajerosjovenes presentes en medios de transportes (no en accidentes) en un determinado paıs deEuropa y en un determinado ano.
“Peatones mujeres muertos”Hechos: Numero de peatones mujeres que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de peatones que murieron representa la sumatoria depeatones que eran mujeres y que murieron en accidentes de carretera en un determinadopaıs de Europa y en un determinado ano.
“Vıctimas adultos en carretera rural”Hechos: Vıctimas ninos en carretera rural.Funcion de sumarizacion: SUMAclaracion: El indicador vıctimas ninos en accidentes de carretera representa la suma-toria de ninos que murieron en accidentes de carretera de tipo rural en un determinadopaıs de Europa y en un determinado ano.
“vıctimas mujeres en carretera urbana”Hechos: vıctimas mujeres en carretera urbana.Funcion de sumarizacion: SUMAclaracion: El indicador vıctimas mujeres representa la sumatoria de las mujeres quemurieron en accidentes de carretera de tipo urbana en un determinado paıs de Europa yen un determinado ano.
“Numero de pasajeros (no vıctimas) jovenes”Hechos: Numero de pasajeros (no vıctimas).
Universidad de Cuenca 10 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP
Funcion de sumarizacion: SUMAclaracion: El indicador pasajeros representa la sumatoria de los pasajeros (no vıctimas)en un determinado paıs de Europa y en un determinado ano.
Los indicadores para los accidentes ferroviarios se calcularan de la siguien-te manera:“Numero de suicidos”Hechos: Numero de muertes por suicido.Funcion de sumarizacion: SUMAclaracion: El indicador numero de suicidos representa la sumatoria de las muertes porsuicidos y que involucran accidentes de carretera en un determinado paıs de Europa y enun determinado ano.
“Accidentes por transporte de mercaderias peligrosas”Hechos: Accidentes por transporte de mercaderias peligrosas.Funcion de sumarizacion: SUMAclaracion: El indicador Accidentes por transporte de mercaderias peligrosas representala sumatoria de este tipo de accidentes en un determinado paıs de Europa y en un deter-minado ano.
“Ferrocarriles incendiados”Hechos: Ferrocarriles incendiados.Funcion de sumarizacion: SUMAclaracion: El indicador Ferrocarriles incendiados representa la sumatoria de los acci-dentes que se dieron por incendios de ferrocarriles en un determinado paıs de Europa yen un determinado ano.
“Pasajeros jovenes muertos”Hechos: Numero de pasajeros ninos que murieron en accidentes de carretera.Funcion de sumarizacion: SUMAclaracion: El indicador numero de pasajeros que murieron en accidentes de carreterarepresenta la sumatoria de los pasajeros que eran ninos y que murieron en accidentes decarretera en un determinado paıs de Europa y en un determinado ano.
“Accidentes de ferrocarriles por descarrilamientos”Hechos: Accidentes de ferrocarriles por descarrilamientosFuncion de sumarizacion: SUMAclaracion: Este indicador representa la sumatoria de los accidentes de ferrocarriles pordescarrilamientos en un determinado paıs de Europa y en un determinado ano.
“Accidentes de ferrocarriles por material rodante”Hechos: Accidentes de ferrocarriles por material rodanteFuncion de sumarizacion: SUM
Universidad de Cuenca 11 Ingenierıa de Sistemas
2.2. ANALISIS DE LOS OLTP CAPITULO 2. M. HEFESO
Figura 2.3: Modelo Entidad Relacion Accidentes de Carretera
Aclaracion: Este indicador representa la sumatoria de los accidentes de ferrocarriles pormaterial rodante en un determinado paıs de Europa y en un determinado ano.
2.2.2. Establecer Correspondencias
Se puede ver el modelo Entidad Relacion en la Figura 2.3 y 2.4.Y las correspondencias con los modelos conceptuales en las figuras 2.5 y 2.6
Las relaciones identificadas fueron las siguientes:
Accidentes de Carretera
La tabla Lugar se relaciona con la perspectiva Lugar.
La perspectiva Tiempo se relaciona con el campo fechaAccidente de la tabla Acci-dente.
La perspectiva Edad vıctima se relaciona con el campo Edad vıctima de la tablavıctima.
La perspectiva Sexo vıctima se relaciona con el campo Sexo vıctima de la tablavıctima.
Universidad de Cuenca 12 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP
Figura 2.4: Modelo Entidad Relacion Accidentes de Carretera
La perspectiva Tipo Carretera del accidente se relaciona con la tabla Carretera.
La perspectiva Tipo de vıctima se relaciona con la tabla Tipo de vıctima.
El indicador vıctimas hombres se relaciona con el campo vıctimas hombres de latabla Accidente.
El indicador vıctimas mujeres se relaciona con el campo vıctimas mujeres de la tablaAccidente.
El indicador vıctimas conductores se relaciona con el campo vıctimas conductoresde la tabla Accidente.
El indicador vıctimas pasajeros se relaciona con el campo vıctimas pasajeros de latabla Accidente.
El indicador vıctimas peatones se relaciona con el campo vıctimas peatones de latabla Accidente.
Accidentes Ferroviarios
La tabla Lugar se relaciona con la perspectiva Lugar.
La perspectiva Tiempo se relaciona con el campo fechaAccidente de la tabla Acci-dente de Carretera.
Universidad de Cuenca 13 Ingenierıa de Sistemas
2.2. ANALISIS DE LOS OLTP CAPITULO 2. M. HEFESO
Figura 2.5: Correspondencia entre el Modelo Conceptual de Accidentes de Carretera y elModelo Entidad Relacion
Universidad de Cuenca 14 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP
Figura 2.6: Correspondencia entre el Modelo Conceptual de Accidentes de Ferroviarios yel Modelo Entidad Relacion
Universidad de Cuenca 15 Ingenierıa de Sistemas
2.2. ANALISIS DE LOS OLTP CAPITULO 2. M. HEFESO
La perspectiva Edad vıctima se relaciona con el campo Edad vıctima de la tablavıctima.
La perspectiva Transporte de mercaderia peligrosa se relaciona con la tabla Merca-deria.
La perspectiva Suicidios se relaciona con el campo vıctimas por suicidios de la tablaAccidente Ferrroviarios.
La perspectiva Tipo de accidentes se relaciona con el campo tipo vıctimas de latabla Accidente Ferrroviarios.
El indicador numero de suicidios se relaciona con el campo vıctimas por suicidiosde la tabla AccidenteFerroviario.
El indicador numero de accidentes con mercaderia peligrosa se relacion con la tablamercaderia.
El indicador numero de ferrocarriles incendiados, ferrocarrilles descarrilados, pormaterial rodante se relaciona con el campo tipo de accidente de la tabla AccidentesFerroviarios.
2.2.3. Nivel de Granularidad
Con respecto a la perspectiva Lugar los datos disponibles son los siguientes:
IdLugar: Codigo del accidente
Ubicacion: Es el paıs donde se dio el accidente
Cantidad: Se refiere a la cantidad de vıctimas en el paıs
Con respecto a la perspectiva Tiempo los datos disponibles son los siguientes:
IdTiempo: Codigo del tiempo o fecha.
Ano: Ano en el que se dio el accidente.
Con respecto a la perspectiva Edad vıctima los datos disponibles son los siguientes:
Idcaracterıstica: Codigo de esta caracterıstica.
Grupos de edades de vıctimas: Se refiere a los grupos de edades: jovenes y adultosen los cuales estan clasificados las vıctimas de los accidentes.
Con respecto a la perspectiva Sexo vıctima los datos disponibles son los siguientes:
Idcaracterıstica: Codigo de esta caracterıstica.
Sexo vıctima: Se refiere al sexo de la vıctima: masculino o femenino
Universidad de Cuenca 16 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.2. ANALISIS DE LOS OLTP
Con respecto a la perspectiva Tipo de carretera los datos disponibles son los siguientes:
Idcaracterıstica: Codigo de esta caracterıstica.
Tipo de carretera: Se refiere al tipo de carretera donde se ha dado
el acciente: Autopista, Carretera Rural o Carretera Urbana
Con respecto a la perspectiva Tipo de vıctima los datos disponibles son los siguientes:
Idcaracterıstica: Codigo de esta caracterıstica.
Tipo de vıctima: Se refiere al tipo de vıctima presente en el acciente: conductor,pasajero o peaton.
Con respecto a la perspectiva Lugar de accidentes ferroviarios, los datos disponibles sonlos siguientes:
IdLugar: Codigo del accidente
Ubicacion: Es el paıs donde se dio el accidente
Cantidad: Se refiere a la cantidad de vıctimas en el paıs
Con respecto a la perspectiva Tiempo de accidentes ferroviarios, los datos disponibles sonlos siguientes:
IdTiempo: Codigo del tiempo o fecha.
Ano: Ano en el que se dio el accidente.
Con respecto a la perspectiva Transporte de mercaderia peligrosa, los datos disponiblesson los siguientes:
Idcaracterıstica: Codigo de esta caracterıstica.
Transporte de mercaderia peligrosa: Se refiere al tipo de acciente por transporte demercaderia peligrosa: Accidentes por mercaderias peligrosas, Mercaderias peligrosasque no se liberan o Mercaderias peligrosas que se liberan
Con respecto a la perspectiva Suicidios, los datos disponibles son los siguientes:
Idcaracterıstica: Codigo de esta caracterıstica.
Suicidios: Se refiere a la cantidad de suicidios que se han dado en un paıs determinadoy en un ano determinado
Con respecto a la perspectiva Tipo de accidente los datos disponibles son los siguientes:
Idcaracterıstica: Codigo de esta caracterıstica.
Tipo de accidente: Se refiere al tipo de accidente: Accidentes por material rodanteo Accidentes por paso a nivel o Colisioneso o Descarrillamientos.Incendios.
Universidad de Cuenca 17 Ingenierıa de Sistemas
2.3. MODELO LOGICO DEL DW CAPITULO 2. M. HEFESO
2.2.4. Modelo Conceptual Ampliado
El modelo conceptual amplicado tanto de accidentes de carretera, como de accidentesferroviaros se pueden ver en la figura 2.7 y 2.8 respectivamente:
En este punto cabe aclarar que para la formula de calculo de la sumarizacion en losindicadores, basicamente se harıa una suma de los distintos indicadores, eso para todoslos casos.
2.3. Modelo Logico del DW
2.3.1. Tipo de Modelo Logico del DW
El esquema que se ultizara sera en estrella, esto debido a sus caracterısticas, ventajasy diferencias con los otros esquemas.
2.3.2. Tablas de dimensiones
Las tablas de dimensiones se construyen en base a las perspectivas que se definieronanteriormente, de hecho estas mismas se convierten en dimensiones, para luego formar loque es la tabla de hechos que contiene dimensiones, medidas, etc.
Dimensiones para accidentes de carretera
Perspectiva “Lugar”.La nueva dimension tendra el nombre de “Dim Lugar”.Se le agregara una clave principal con el nombre: “id Lugar”.Se modificara el nombre de “paıs” por “Ubicacion”.Todo esto se puede ver en la figura 2.9:
Perspectiva “Tiempo”.La nueva dimension tendra el nombre de “Dim Tiempo”.
Se le agregara una clave principal con el nombre: “id Tiempo”.Se modificara el nombre de “Anos” por “Ano”.Todo esto se puede ver en la figura 2.10:Perspectiva “Edad de vıctima”.La nueva dimension tendra el nombre de “Dim Grupo Edad Vıctima”.Se le agregara una clave principal con el nombre: “id Grupo Edad Vıctima”.Se modificara el nombre de “Joven” y “Adulto” por el campo “GrupoEdad”.Se le agregara un campo con el nombre: “CantidadVıctimas Grupo Edad”, que con-tendra el numero de vıctimas de acuerdo a la edad.Todo esto se puede ver en la figura 2.11:Perspectiva “Sexo de vıctima”.
Universidad de Cuenca 18 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.3. MODELO LOGICO DEL DW
Figura 2.7: Modelo Conceptual Ampliado de Accidentes de Carretera
La nueva dimension tendra el nombre de “Dim Sexo Vıctima”.
Universidad de Cuenca 19 Ingenierıa de Sistemas
2.3. MODELO LOGICO DEL DW CAPITULO 2. M. HEFESO
Figura 2.8: Modelo Conceptual Ampliado de Accidentes de Ferrocarriles
Universidad de Cuenca 20 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.3. MODELO LOGICO DEL DW
Figura 2.9: Dimension Lugar
Figura 2.10: Dimension Tiempo
Figura 2.11: Dimension Grupo Edad de Vıctima
Se le agregara una clave principal con el nombre: “id Sexo Vıctima”.Se modificara el nombre de “Hombre” y “Mujer” por el campo “GrupoSexo”.Se le agregara un campo con el nombre: “CantidadGrupo Sexo”, que contendra elnumero de vıctimas de acuerdo al sexo.Todo esto se puede ver en la figura 2.12:
Figura 2.12: Dimension Sexo de Vıctima
Perspectiva “Tipo de carretera del accidente”.La nueva dimension tendra el nombre de “Dim Tipo Carretera Accidente”.Se le agregara una clave principal con el nombre: “id Tipo Carretera Accidente”.Se modificara el nombre de “Autopista”, “Carretera Rural” y “Carretera Urbana”por el campo “GrupoTipoCarretera”.Se le agregara un campo con el nombre: “CantidadGrupoTipoCarretera”, que con-tendra el numero de vıctimas de acuerdo al tipo de carretera donde se dio el acci-dente.
Universidad de Cuenca 21 Ingenierıa de Sistemas
2.3. MODELO LOGICO DEL DW CAPITULO 2. M. HEFESO
Todo esto se puede ver en la figura 2.13:
Figura 2.13: Dimension Grupo Tipo de Carretera
Perspectiva “Tipo de vıctima”.La nueva dimension tendra el nombre de “Dim Tipo Vıctima”.Se le agregara una clave principal con el nombre: “id Tipo Vıctima”.Se modificara el nombre de “Conductor”, “Pasajero” y “Peaton” por el campo “Gru-poTipoVıctima”.Se le agregara un campo con el nombre: “CantidadGrupoTipoVıctima”, que con-tendra el numero de vıctimas de acuerdo al tipo de persona.Todo esto se puede ver en la figura 2.14:
Figura 2.14: Dimension Grupo Tipo Vıctima
Universidad de Cuenca 22 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.3. MODELO LOGICO DEL DW
Dimensiones para accidentes ferroviariosLas dimensiones “Tiempo” y “Lugar” son dimensiones que se comparten en ambosmodelos
Perspectiva “Transporte de mercaderıa peligrosa”.La nueva dimension tendra el nombre de “Dim Transporte Mercaderıa Peligrosa”.Se le agregara una clave principal con el nombre: “id Transporte Mercaderıa Peligrosa”.Se modificara el nombre de “Accidentes por mercaderıa peligrosa”, “Accidentes pormercaderıa peligrosa que no se liberan” y “Accidentes por mercaderıa peligrosa quese liberan” por el campo “GrupoTransporteMercaderıa”.Se le agregara un campo con el nombre: “CantidadGrupoTransporteMercaderia”,que contendra el numero de vıctimas de acuerdo al tipo de transporte de mercaderıadel ferrocarril.Todo esto se puede ver en la figura 2.15:
Figura 2.15: Dimension Transporte de Mercaderıa Peligrosa
Perspectiva “Suicidios”.La nueva dimension tendra el nombre de “Dim Suicidios”.Se le agregara una clave principal con el nombre: “id Suicidios”.Se mantedra el nombre de “cantidad”.Se le agregara un campo con el nombre: “razon”, que contendra el detalles de lamuerte de la vıctima.Todo esto se puede ver en la figura 2.16:
Figura 2.16: Dimension Suicidios
Perspectiva “Tipo de accidente ferroviario”.La nueva dimension tendra el nombre de “Dim Tipo Accidente Ferroviario”.Se le agregara una clave principal con el nombre: “id Tipo Accidentes Ferroviarios”.Se modificara el nombre de “Accidentes por material rodante”, “Accidentes por pasoa nivel”, “Colisiones”, “Descarrillamientos” e “Incendios” por el campo “TipoAcci-dente”.Se le agregara un campo con el nombre: “CantidadVıctimas TipoAccidente”, que
Universidad de Cuenca 23 Ingenierıa de Sistemas
2.3. MODELO LOGICO DEL DW CAPITULO 2. M. HEFESO
contendra el numero de vıctimas de acuerdo al tipo de accidente ferroviario.Todo esto se puede ver en la figura 2.17:
Figura 2.17: Dimension Tipo Accidente Ferroviario
2.3.3. Tablas de hechos
En esta parte se presentan las tablas de hechos de los accidentes de carretera y de losaccidentes ferroviarios, en la figura 2.18 y 2.19 respectivamente.
Figura 2.18: Tabla de hecho ACCIDENTE CARRETERA
Universidad de Cuenca 24 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.3. MODELO LOGICO DEL DW
Figura 2.19: Tabla de hecho ACCIDENTES FERROVIARIOS
2.3.4. Uniones
A continuacion, se realizara las uniones pertinentes, segun las dimensiones y los he-chos descritos anteriormente. Esto se puede ver en las figuras 2.20 y 2.21 (Accidentes decarretera y accidentes ferroviarios, respectivamente):
Figura 2.20: Union ACCIDENTE DE CARRETERA
Universidad de Cuenca 25 Ingenierıa de Sistemas
2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO
Figura 2.21: Union ACCIDENTE FERROVIARIO
2.4. Integracion de Datos
2.4.1. Carga Inicial
El proceso ETL planteado para la Carga Inicial a modo general es lo que se muestraen las figuras 2.22, 2.23, 2.24, 2.25.
Las tareas que se lleva a cabo son las siguientes:
Inicio: inicia la ejecucion de los pasos en el momento en que se le indique.
Carga de Dimension LUGAR: Se ejecutan la limpieza de datos y se cargara ladimension LUGAR.
Carga de Dimension TIPOCARRETERRA: Se ejecutan la limpieza de datos y secargara esta dimension.
Carga de Dimension FECHA: Se ejecutan la limpieza de datos y se cargara ladimension FECHA.
Carga de Dimension TIPOvıctima: Se ejecutan la limpieza de datos y se cargara ladimension TIPOvıctima.
Carga de Dimension SEXOvıctima: Se ejecutan la limpieza de datos y se cargara ladimension SEXOvıctima.
Carga de Dimension GRUPOEDAD: Se ejecutan la limpieza de datos y se cargarala dimension GRUPOEDAD.
Universidad de Cuenca 26 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.4. INTEGRACION DE DATOS
Figura 2.22: Carga Inicial de Accidentes de carretera (1)
Figura 2.23: Carga Inicial de Accidentes de carretera (2)
Carga de Dimension MERCADERIAPELIGROSA: Se ejecutan la limpieza de datosy se cargara la dimension MERCADERIAPELIGROSA.
Universidad de Cuenca 27 Ingenierıa de Sistemas
2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO
Figura 2.24: Carga Inicial de Accidentes de carretera (3)
Carga de Dimension TIPOACCIDENTE: Se ejecutan la limpieza de datos y se car-gara la dimension MERCADERIAPELIGROSA.
Obtener datos de OLTP: Esto se obtiene a traves de una consulta SQL los datos del OLTPnecesarios para cargar los datos de vıctimaS POR TIPO DE PERSONA.SELECTidv ıctimasUsuario, T IME,GEO,UNIT ,ROADUSER, V alue, F lagandFootnotesFROMvıctimasporusuarioSELECTTIME,GEO,UNIT, V alue, ‘FlagandFootnotes‘FROMsuicidiosferrocarriles
2.4.2. Actualizacion
Las politicas de Actualizacion son las siguientes:
La informacion se refrescara cada semana sabado a las doce de la noche.
Los datos de las tablas de dimensiones seran cargados totalmente cada vez.
Los datos de la tabla de dimension “FECHA” se cargaran teniendo en cuenta laultima fecha que se actualizo.
Universidad de Cuenca 28 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.4. INTEGRACION DE DATOS
Figura 2.25: Carga Inicial de Accidentes de carretera (4)
Estas acciones se realizaran durante un periodo de prueba, para analizar cual es lamanera mas eficiente de generar las actualizaciones.
2.4.3. Creacion de cubos multidimensionales
A continuacion se creara los cubos multidimensionales, uno para accidentes de carre-tera y otro para accidentes ferroviarios, que seran llamados: CUB ACC 1 y CUB ACC 2respectivamente, bajo un mismo schema que se llamara: SCHEMA ACC. Todo esto se lohara en Schema Workbench y estos estaran basados en los modelos de las figuras 2.20 y2.21.Para los cubos se ha creado las dimensiones descritas en los puntos anteriores, ademas demedidas en las que mayormente se ha usado la funcion de sumarizacion “COUNT” parael numero de vıctimas.Todo esto se ve en las figuras 2.26 y 2.27, que son los cubos para accidentes de carreteray accidentes ferroviarios, respectivamente. Asi mismo en la figura 2.28 y 2.29 se estan lasjerarquıas de las dimensiones, asi como las tablas referenciadas en cada dimension.Mientras que las medidas estan en las figuras 2.30 y 2.31:
Universidad de Cuenca 29 Ingenierıa de Sistemas
2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO
Figura 2.26: CUBO DE ACCIDENTES DE CARRETERA
Figura 2.27: CUBO DE ACCIDENTES FERROVIARIOS
Una vez que se ha terminado de crear los cubos en el Schema Workbench se procedea publicar el mismo en el BI Server para ver los resultados de las consultas realizadas almismo, figura 2.32.
Universidad de Cuenca 30 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.4. INTEGRACION DE DATOS
Figura 2.28: DIMENSIONES Y JERARQUIAS PARA CUBO DE CARRETERA
Figura 2.29: DIMENSIONES Y JERARQUIAS PARA ACCIDENTES FERROVIARIOS
2.4.4. Resultados
A continuacion se presenta ambos cubos publicados en el BI Server y algunos resultadosobtenidos. Cabe recalcar que en este punto se podran responder las preguntas inicialmenteplanteadas, esto mediante los distintos cubos publicados:
Universidad de Cuenca 31 Ingenierıa de Sistemas
2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO
Figura 2.30: MEDIDAS PARA CUBO DE ACCIDENTES DE CARRETERA
Figura 2.31: MEDIDAS PARA CUBO DE ACCIDENTES FERROVIARIOS
Figura 2.32: PUBLICACION DE LOS CUBOS
Universidad de Cuenca 32 Ingenierıa de Sistemas
CAPITULO 2. M. HEFESO 2.4. INTEGRACION DE DATOS
Figura 2.33: Numero de vıctimas de accidentes de carretera por paıs y ano
Figura 2.34: Numero de vıctimas de accidentes ferroviarios por paıs y ano
Universidad de Cuenca 33 Ingenierıa de Sistemas
2.4. INTEGRACION DE DATOS CAPITULO 2. M. HEFESO
Figura 2.35: Cantidad de suicidios por paıs y ano
Figura 2.36: Suicidios por paıs y ano, grafico
Universidad de Cuenca 34 Ingenierıa de Sistemas
Capıtulo 3
Minerıa de Datos
3.1. Introduccion
Hoy en dıa practicamente todas las empresas cuentan con una enorme cantidad dedatos, esto debido a que sus aplicaciones basicamente se han convertido en recolecto-res de datos, ya sean estos de clientes, productos, etc, etc. Pero ahora lo importante esque se pueda emplear esos datos como materia prima bruta para obtener conocimiento yaprovecharlo. El datamining (minerıa de datos), es un conjunto de tecnicas que permitenexplorar grandes bases de datos, con el objetivo de encontrar patrones repetitivos, tenden-cias o reglas que expliquen el comportamiento de los datos en un determinado contexto,lo cual es beneficioso para cualquier tipo de empresa.
Basicamente, el datamining surge para intentar ayudar a comprender el contenido deun repositorio de datos. Con este fin, hace uso de practicas estadısticas y, en algunos casos,de algoritmos de busqueda proximos a la Inteligencia Artificial y a las redes neuronales.En otras palabras se puede decir que existen muchas tecnicas para el proceso de DataMining, y entre las mas usadas estan las que se analizaran en este informe: prediccion,clasificacion, clustering y asociacion. Todos estos tienen diferentes algoritmos que puedenser aplicados a un conjunto de datos, con el fin de obtener conocimiento de los mismos.
3.2. Objetivos
Preparar un conjunto de datos, de manera que esten en un formato aceptado porWeka.
Realizar la prediccion de accidentes para los proximos 4 anos.
Realizar una clasificacion de accidentes aplicando clasificadores de Weka.
Realizar un clustering con los datos de los accidentes para paıses europeos.
Realizar una asociacion en base a caracterısticas presentes en accidentes de carretera.
35
3.3. PROBLEMATIA CAPITULO 3. MINERIA DE DATOS
3.3. Problema general planteado
Basicamente lo que se desea es realizar un analisis de datos estadısticos sobre accidentesde carretera y numero de vıctimas que han ocurrido en paıses de Europa. Para esto se hatomado como referencia varias bases de datos de la EUROSTAT (http://ec.europa.eu),las mismas que contiene datos importantes sobre estos accidentes, como por ejemplo:el numero de vıctimas, el tipo de accidente, el tipo de carretera donde ha sucedido elaccidente, el tipo de vıctimas involucrados (pasajero, peaton, conductor), etc. Con estosdatos se procedera a realizar un analisis de los mismos: prediccion, clasificacion, clusteringy asociacion. Para ello se usara la herramienta: WEKA, misma que permite realizar estosanalsis.
3.4. Prediccion
3.4.1. Marco Teorico
El proceso de realizar una prediccion utiliza tecnicas estadısticas para modelar una se-rie dependiente del tiempo en el que se dan ciertos sucesos que corresponderan al conjuntode datos analizado, es decir, seran diferentes para cada caso. Basicamente lo que se buscaal hacer una prediccion es usar un modelo para predecir eventos futuros en base al analisisde eventos pasados, es decir, en base a las estadısticas de los datos. O en otras palabras,predecir para una fecha futura lo que sucedera con los datos correspondientes a cierto caso.
Perceptron Multicapa“El perceptron multicapa es una red neuronal artificial (RNA) formada por multiples ca-pas, esto le permite resolver problemas que no son linealmente separables. El perceptronmulticapa puede ser totalmente o localmente conectado”. [1]
Ibk“Este algoritmo esta basado en instancias, por ello consiste unicamente en almacenar losdatos presentados. Cuando una nueva instancia es encontrada, un conjunto de instanciassimilares relacionadas es devuelto desde la memoria y usado para clasificar la instanciaconsultada.Se trata, por tanto, de un algoritmo del metodo lazy learning. Este metodo de aprendi-zaje se basa en que los modulos de clasificacion mantienen en memoria una seleccion deejemplos sin crear ningun tipo de abstraccion en forma de reglas o de arboles de decision(de ahı su nombre, lazy, perezosos). Cada vez que una nueva instancia es encontrada, secalcula su relacion con los ejemplos previamente guardados con el proposito de asignarun valor de la funcion objetivo para la nueva instancia.” [2]
HoltWinters“Esta metodologıa es muy utilizada por su simplicidad y la precision de sus pronosticossobre todo con series de tiempo periodicas. Esta basada en cuatro ecuaciones basicas querepresentan la regularidad, tendencia, periodicidad y pronostico de la serie.” [3]
Universidad de Cuenca 36 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.4. PREDICCION
3.4.2. Definicion del problema
Basicamente lo que se busca es realizar una prediccion del numero de accidentes queinvolucren conductores, esto para los proximos 4 anos.Como se puede ver este analisis se enfoca en el tipo de vıctima, donde los parametrosseran el numero de vıctimas, en este caso de tipo conductor, esto frente al tiempo (anos).Cabe recalcar que este mismo analisis se podra realizar para otros tipos de vıctimas comopeaton o pasajero, donde el proceso basicamente sera el mismo.
3.4.3. Obtencion de los datos para el analisis
Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene lossiguientes campos:
Ano: Ano de ocurrencia de los accidentes.
Conductor: Contiene el numero de vıctimas conductores en un ano determinado.
Este set de datos debe estar en un formato adecuado para que sea aceptado en Weka,es por ello que se ha realizado el tratado de los mismos meditante algunas herramientascomo Pentaho y se ha obtenido el siguiente archivo .csv separado por comas:
Figura 3.1: Datos para la prediccion
3.4.4. Eleccion del algoritmo para el analisis de los datos
Para enfrentar este problema de prediccion se aplicaran los siguientes algoritmos: “Per-ceptron Multicapa”, “Ibk” y “HoltWinters”. Ya que lo que se busca es predecir el numerode accidentes de conductores para los siguientes 4 anos.
Jutificacion de la eleccion del tipo de algoritmos como Perceptron MulticapaPreviamente se realizo un analisis de los datos con los que se trabajarian, esto para versi los mismos tenian un comportamiento que motivarıa a la eleccion de un determinado
Universidad de Cuenca 37 Ingenierıa de Sistemas
3.4. PREDICCION CAPITULO 3. MINERIA DE DATOS
algoritmo, por ejemplo el de regresion lineal. Este tipo de algoritmos no se utilizo justa-mente por el comportamiento de los datos, los mismos que se pueden apreciar en la figura3.2:
Figura 3.2: Analsis previo de los datos, para conductor
Como se puede ver los datos no tienen un comportamiento que motive al uso de un algorit-mo de regresion lineal. Y es debido justamente a este comportamiento que se ha escogidoalgoritmos como el MultiLayerPerceptron, el mismo que es una red neuronal artificial(RNA) formada por multiples capas, y es esto lo que le permite resolver problemas queno son linealmente separables.
3.4.5. Aplicacion de los algoritmos a los datos
Para realizar esta prediccion se ha separado el conjunto de datos, dejando un 20 %para pruebas y se predecira el numero de accidentes con vıctimas tipo conductor, paralos siguientes 4 anos.En Weka se realiza la configuracion para obtener el Mean Absolute Porcentaje Error,como se muestra en la figura 3.6, lo cual permitira seleccionar el mejor modelo.
Figura 3.3: Configuracion del Mean Absolute Porcentaje Error
A continuacion se procede a cargar los datos en WEKA y a realizar la prediccion de estosmediante los algoritmos mencionados anteriormente.
Perceptron MulticapaEntrenamiento y Evaluacion de resultadosSe puede apreciar en la figura 3.7 que el entrenamiento el modelo se aparece bastante alos datos originales para conductor, mostrados en la figura 3.2. Ademas se observa que el
Universidad de Cuenca 38 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.4. PREDICCION
numero de vıctimas conductores para los anos 2016 al 2017 aumenta considerablemente,mientras que para los siguientes 2 anos estos se reducen, esto en la figura 3.8.Las predicciones (valores numericos) se pueden ver en la figura 3.6, junto con la evaluaciono pruebas para cada uno de los anos para los que se realizo la prediccion. Aquı tambienesta presente el MAPE (Mean Absolute Percentage Error), el cual servira mas adelantepara la seleccion del modelo.
Figura 3.4: Entrenamiento con Algoritmo Perceptron Multicapa
Figura 3.5: Prediccion (grafica) con Algoritmo Perceptron Multicapa
Figura 3.6: Predicciones (numerica) con Algoritmo Perceptron Multicapa, para los proxi-mos 4 anos
Universidad de Cuenca 39 Ingenierıa de Sistemas
3.4. PREDICCION CAPITULO 3. MINERIA DE DATOS
IBkEntrenamiento y Evaluacion de resultadosSe puede apreciar en la figura 3.7 que en el entrenamiento el modelo encaja bastantebien con los datos originales. Ademas se observa en la figura 3.8, que en este caso losdatos tienen un comportamiento aproximado a los datos originales, ya que el numero devıctimas conductores para los anos 2016 y 2017 se reduce, mientras que para el siguienteano (2018) aumenta en comparacion con los 2 anteriores y en el ultimo ano vuelve areducirse, y como se puede apreciar en la figura 3.7 el comportamiento de los datos paraanos anteriores es similar.Las predicciones (valores numericos) se pueden ver en la figura 3.9, junto con la evaluaciono pruebas para cada uno de los anos para los que se realizo la prediccion. Una vez mas aquise puede observar que los valores tienen un comportamiento similar a los anos anteriores.Ademas aquı tambien esta presente el MAPE (Mean Absolute Percentage Error), el cualservira mas adelante para la seleccion del modelo y que en este caso es 0.
Figura 3.7: Entrenamiento con Algoritmo IBk
Figura 3.8: Prediccion (grafica) con Algoritmo IBk
Universidad de Cuenca 40 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.4. PREDICCION
Figura 3.9: Predicciones (numerica) con Algoritmo IBk, para los proximos 4 anos
Holt WintersEntrenamiento y Evaluacion de resultadosSe puede apreciar en la figura 3.7 que el entrenamiento del modelo se parece bastante alos datos originales. Ademas se observa que segun este algoritmo el numero de vıctimasconductores aumenta de un modo anormal, pasando de datos que maximo llegaban a las3000 vıctimas a datos que se predicen sobrepasan las 13000 vıctimas (para el ano 2019).Este comportamiento resulta anormal para este tipo de datos ya que de darse esa cantidadde vıctimas implicarıa que el numero de conductores aumento considerablemente en estosanos o que en su defecto, lo que aumento fue la irresponsabilidad de coductores que anteseran responsables mientras conducıan. Esta prediccion se puede ver graficamente en lafigura 3.11.Las predicciones (valores numericos) se pueden ver en la figura 3.12, junto con la evaluaciono pruebas para cada uno de los anos para los que se realizo la prediccion. Aquı tambienesta presente el MAPE (Mean Absolute Percentage Error), el cual servira mas adelantepara la seleccion del modelo.
Figura 3.10: Entrenamiento con Algoritmo Holt Winters
Universidad de Cuenca 41 Ingenierıa de Sistemas
3.4. PREDICCION CAPITULO 3. MINERIA DE DATOS
Figura 3.11: Prediccion (grafica) con Algoritmo Holt Winters
Figura 3.12: Predicciones (numerica) con Algoritmo Holt Winters, para los proximos 4anos
3.4.6. Seleccion del modelo en base al MAPE (Mean AbsolutePercentage Error)
En los puntos anteriores se aplico los algoritmos al conjunto de datos y en este procesose obtuvo el MAPE, lo cual ahora permitira realizar la seleccion del modelo.Como se puede ver en la figura 3.6, 3.9 y 3.12 los valores del MAPE son diferentes en cadacaso, pero en el caso del algoritmo IBk se tiene un porcentaje de error 0, lo cual indica queeste es el modelo que mas se ajusta a los datos originales, esto mismo se pudo observaren el analisis de este algoritmo ya que como se menciono este tiene un comportamientobastante similar a los datos originales.
Universidad de Cuenca 42 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.5. CLASIFICACION
Cuadro 3.1: Resultados de la prediccion para los proximos 4 anos
3.4.7. Analisis de resultados
Esta parte del analisis presenta los resultados obtenidos durante todo el proceso, loscuales se pueden ver en el cuadro 3.1 y de modo grafico en la figura 3.13
Figura 3.13: Resultados grafico de la prediccion para los proximos 4 anos
3.5. Clasificacion
3.5.1. Marco Teorico
Con respecto al problema de la clasificacion, que es el mas frecuente en la practica,se puede decir que en ocasiones, este se formula como un refinamiento en el analisis, unavez que se han aplicado algoritmos no supervisados de agrupamiento y asociacion paradescribir relaciones de interes en los datos. [4]
PARTEste algoritmo esta basado en la construccion de reglas de clasificacion, esto en base a losatributos presentes en los datos. PART construye una serie de reglas que se pueden veren la ventana de resultados de WEKA.
Universidad de Cuenca 43 Ingenierıa de Sistemas
3.5. CLASIFICACION CAPITULO 3. MINERIA DE DATOS
J48“El algoritmo J48 de WEKA es una implementaciUn del algoritmo C4.5, uno de los al-goritmos de minerIa de datos mas utilizado.Se trata de un refinamiento del modelo generado con OneR. Supone una mejora moderadaen las prestaciones.El parametro mas importante que deberemos tener en cuenta es el factor de confianzapara la poda (confidence level), que influye en el tamano ycapacidad de prediccion delarbol construido. Para cada operacion de poda, define la probabilidad de error que sepermite a la hipotesis de que el empeoramiento debido a esta operacion es significativo.”[5]
JRip“Este es un algoritmo que genera un listado de reglas obtenidas basicamente a partirde listas de decision (Rivest, 1987). Funciona de modo similar a RIPPER (Repeated In-cremental Pruning to Produce Error Reduction), el cual fue presentado por William W.Cohen (1995).” [6]
Naive Bayes“Este clasificador estadıstico se considera, en general, como uno de los mas basicos (Georgeet al., 1995; Marquez, 2002; inter alia), pero los autores coiciden en que, aunque sencillo,este clasificador sigue mostrando un buen desempeno en una gran variedad de proble-mas. A grandes rasgos, NB se esquematiza como un nodo C representante de la clasey un nodo dependiente para cada atributo Xi que representa cada instancia o ejemplo.Las condiciones metodologicas para la utilizacion de este algoritmo incluyen asumir quelos atributos que modela son independientes unos de otros y que sus valores son determi-nados a partir de la clase C de acuerdo a las distribuciones individuales de P(Xi —C).” [6]
3.5.2. Definicion del problema
Basicamente lo que se busca es aplicar un clasificador a un set de datos que contieneuna serie de atributos, descritos mas delante, para determinar si una persona con esascaracterısticas tiene o no un accidente. Es decir, clasificar en si tuvo o no tuvo un accidente.
3.5.3. Obtencion de los datos para el analisis
Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene lossiguientes campos:
Ubicacion: Paıs donde se dio los accidentes.
Carretera: Tipo de carretera donde ser dio los accidentes
TipoPersona: Tipo de persona que tuvo los accidentes
EdadPersona: Edad de persona que tuvo los accidentes
Universidad de Cuenca 44 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.5. CLASIFICACION
Accidente: Si o No. Determina si hubo o no accidente.
Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema mutidi-mensional del data warehouse y estos deben estar en un formato adecuado para que seaaceptado en Weka, es por ello que se ha realizado el tratado de los mismos meditantealgunas herramientas como Pentaho y se ha obtenido el siguiente archivo .csv separadopor comas:
Figura 3.14: Datos para la clasificacion
3.5.4. Eleccion del algoritmo para el analisis de los datos
Para enfrentar este problema de clasificacion se aplicaran los siguientes algoritmos:“J48”, “PART”, “JRip” y “NaiveBayes”. Ya que lo que se busca es clasificar datos nomi-nales y estos algoritmos permiten interpretar los resultados de una forma sencilla.
3.5.5. Aplicacion del algoritmo a los datos
En la pestana Classify de Weka, primero se debera elegir el clasificador.En esta parte se configurara el analisis para que divida al conjunto de datos en un 80 %para el entrenamiento, y un 20 % para las pruebas, esto se lo hace en las “test options”como se muestra en la figura 3.15:
Universidad de Cuenca 45 Ingenierıa de Sistemas
3.5. CLASIFICACION CAPITULO 3. MINERIA DE DATOS
Figura 3.15: Opciones de prueba
Cuadro 3.2: Resultados de la clasificacion
J48Con este algoritmo se ha conseguido clasificar correctemente el 77.0492 % de los datos.Esto es que 47 han sido correctamente clasificados mientras que 14 no. Esto es asi yaque del total de datos que era de 306, unicamente el 20 % se uso para pruebas. En estealgoritmo ha existido el siguiente error absoluto promedio: 0.3495, este dato servira parala eleccion del modelo en los puntos siguientes.PARTCon este algoritmo se ha conseguido clasificar correctemente el 72.1311 % de los datos.Esto es que 44 han sido correctamente clasificados mientras que 17 no. En este algoritmoha existido el siguiente error absoluto promedio: 0.2797.JRipCon este algoritmo se ha conseguido clasificar correctemente el 72.1311 % de los datos.Esto es que 44 han sido correctamente clasificados mientras que 17 no. En este algoritmoha existido el siguiente error absoluto promedio: 0.3603.NaiveBayesCon este algoritmo se ha conseguido clasificar correctemente el 77.0492 % de los datos.Esto es que 47 han sido correctamente clasificados mientras que 14 no. En este algoritmoha existido el siguiente error absoluto promedio: 0.3516.Como se puede ver el porcentaje de clasificacion correcta es similar en algunos de losalgoritmos, pero tambien se puede ver que el error varia en los mismos.Los resultados de la aplicacion de cada uno de los algoritmos estan en el cuadro 3.2.
3.5.6. Seleccion del modelo en base al MAE (Mean AbsoluteError)
En los puntos anteriores se aplico los algoritmos al conjunto de datos y en este procesose obtuvo el MAE, lo cual servira como base para realizar la seleccion del modelo.Como se pudo ver en el cuadro 3.2 los valores del MAE son diferentes en cada caso, pero
Universidad de Cuenca 46 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.5. CLASIFICACION
en el caso del algoritmo PART se observa un error absoluto promedio menor, lo cualindica que este es el algoritmo mas adecuado. En este punto se debe aclarar que aunquecon este algoritmo el error fue menor, se clasifico correctamente menos datos que con losotros algoritmos, pero como se menciono anteriormente, en este caso se ha tomado comobase el MAE para la seleccion del algoritmo.
3.5.7. Analisis de resultados
Esta parte del analisis presenta los resultados obtenidos durante todo el proceso, loscuales se muestran en el cuadro 3.2. Se puede observar tambien la matriz de confusionque genero cada uno de los algoritmos, aquı se puede ver la cantidad de datos clasificadoscorrectamente y los que no. Se puede observar las reglas formadas, donde por ejemplo
Figura 3.16: Resultados. Matriz de Confusion
Figura 3.17: Resultados. Reglas generadas
si se es joven y esta en Belgium no tiene accidentes 4 de 9 personas (Figura 3.17). Cabemencionar que se ha ejecutado este analisis seleccionando la variable Accidente:
Finalmente tambien se ha incluido el resultado del algoritmo Naive Bayes, ya queel mismo muestra de una forma mas clara los resultados que ofrece este algoritmo, estose puede ver en la figura 3.19. Ademas de ofrecer una mayor cantidad de clasificacionescorrectas, en comparacion con PART :
Universidad de Cuenca 47 Ingenierıa de Sistemas
3.6. CLUSTERING CAPITULO 3. MINERIA DE DATOS
Figura 3.18: Variable para clasificacion
Figura 3.19: Resultados del alfrotimo Naive Bayes
3.6. Clustering
3.6.1. Marco Teorico
Los algoritmos de clustering permiten clasificar un conjunto de elementos de muestraen un determinado numero de grupos basandose en las semejanzas y diferencias existentesentre los componentes de la muestra.
Universidad de Cuenca 48 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.6. CLUSTERING
Simple K Means“Se trata de un algoritmo clasificado como MEtodo de Particionado y Recolocacion. Estemetodo es hasta ahora el mas utilizado en aplicaciones cientıficas e industriales. El nombrele viene porque representa cada uno de los clusters por la media (o media ponderada) desus puntos, es decir, por su centroide.” [7]
Canopy“El algoritmo canopy permite realizar agrupamientos en la cual su operacion se basa enrealizar calculos sencillos para generar subgrupos de puntos en la cual cada dato puedepertenecer a mas de un subgrupo. Despues de la cual usa metodos de segmentacion comoel k-means con la restriccion de no realizar calculos de distancia entre dos puntos que nopertenecen al mismo subgrupo.” [8]
3.6.2. Definicion del problema
En esta parte del analisis se pretende agrupar o clusterizar accidentes y realizar 3clusters con las caracterısticas presentes en cada accidente (tipo vıctima, gravedad, etc.)y determinar si la gravedad de un accidente es grave, media, baja o nula (nula en el casode que dadas las caracterısticas de los datos no se presenta un accidente).
3.6.3. Obtencion de los datos para el analisis
Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene lossiguientes campos:
Ubicacion: Paıs donde se dio los accidentes.
Carretera: Tipo de carretera donde ser dio los accidentes
TipoPersona: Tipo de persona que tuvo los accidentes
EdadPersona: Edad de persona que tuvo los accidentes
Accidente: Si o No. Determina si hubo o no accidente.
Gravedad: Determina la gravedad del accidente.
Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema mutidi-mensional del data warehouse y estos deben estar en un formato adecuado para que seaaceptado en Weka, es por ello que se ha realizado el tratado de los mismos meditantealgunas herramientas como Pentaho y se ha obtenido el siguiente archivo .csv separadopor comas:
Universidad de Cuenca 49 Ingenierıa de Sistemas
3.6. CLUSTERING CAPITULO 3. MINERIA DE DATOS
Figura 3.20: Datos para la clustering
3.6.4. Eleccion del algoritmo para el analisis de los datos
En esta seccion se aplico dos algoritmos de clustering, estos son: “Simple-KMeans”y “Canopy”, los mismos que permitiran tener una comparacion de los clusters que seobtengan de cada uno.
3.6.5. Aplicacion del algoritmo a los datos
Para este analisis se trabajara con todos los datos, tanto para el entrenamiento comopara las pruebas, para ello se debe configurar el modo del cluster en “Use training set”,como se ve en la figura 3.21.
Figura 3.21: Cluster mode, Use training set
Universidad de Cuenca 50 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.6. CLUSTERING
CanopyUna vez aplicado este algoritmo al set de datos, se obtiene los resultados de la figura3.22, donde se puede ver los clusters generados, sus respectivos porcentajes, ademas seobserva que hay presencia de ruido, lo cual dificultara agrupar los accidentes de acuerdoa su gravedad.En la figura 3.23 se puede ver de manera grafica los clusters generados donde se hacruzado la ubicacion (paıs) y la gravedad del accidente. Como se menciono anteriormenteexiste ruido, por lo cual no existe una separacion suficientemente clara entre los clustersgenerados.
Figura 3.22: Resultados de Canopy, clustering
Simple-K MeansAl aplicarse este algoritmo al set de datos, se obtiene los resultados de la figura 3.24, dondese puede ver los clusters generados, sus respectivos porcentajes, y demas caracterısticasde los mismos.En la figura 3.25 se puede ver de manera grafica los clusters generados donde se ha cruzadola ubicacion (paıs) y la gravedad del accidente.
Universidad de Cuenca 51 Ingenierıa de Sistemas
3.6. CLUSTERING CAPITULO 3. MINERIA DE DATOS
Figura 3.23: Resultados graficos de algoritmo Canopy, clustering
Figura 3.24: Resultados de Simple-K Means, clustering
Universidad de Cuenca 52 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.6. CLUSTERING
Figura 3.25: Resultados graficos de algoritmo Simple-K Means, clustering
3.6.6. Analisis de resultados
A sido difıcil establecer un modelo para el set de datos de accidentes, debido a lapresencia de ruido en ambos algoritmos, tanto Canopy como Simple-K Means. Como seha observado en la figura 3.23 y 3.25 existen algunos clusters con menos ruidos que otros,y al parecer el que ofrece un mejor modelo es el Simple-k Means, donde se ha senaladoalgunos de los mejores clusters, esto en la figura 3.26.
Entonces, se puede decir que:
Los accidentes del cluster 0 son nulos, es decir q no ha habido accidentes para esoscasos.
Los accidentes del cluster 1 son de gravedad media.
Los accidentes del cluster 2 son tambien de gravedad media pero se han dado enpaıses diferentes.
Los accidente de gravedad alta presenta demasiado ruido por lo que ningun clusterha podido agruparlos.
Universidad de Cuenca 53 Ingenierıa de Sistemas
3.7. ASOCIACION CAPITULO 3. MINERIA DE DATOS
Figura 3.26: Algoritmo Simple-K Means, clustering
3.7. Asociacion
3.7.1. Marco Teorico
Mediante algoritmos de asociacion se puede realizar la busqueda automatica de reglasque relacionan conjuntos de atributos entre sı. Son algoritmos no supervisados, ya que noexisten relaciones conocidas a priori con las que contrastar la validez de los resultados,sino que se evalua si esas reglas son estadısticamente significativas.
Apriori“El principal algoritmo implementado en WEKA es el algoritmo Apriori, el cual solo bus-ca reglas entre atributos simbolicos, por lo cual todos los atributos numericos deberıanser discretizados previamente.” [9]
3.7.2. Definicion del problema
En esta parte del analisis lo que se pretende es realizar una asociacion de los acci-dentes de carretera, para lo cual se tiene valores nominales (Si y No) de las diferentescaracterısticas presentes en los accidentes. Por ejemplo se busca determinar que si una
Universidad de Cuenca 54 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.7. ASOCIACION
persona que es joven, sera tambien conductor y tendra un accidente de transito, esto enbase al historial de accidentes y de sus respectivas caracterısticas.
3.7.3. Obtencion de los datos para el analisis
Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene lossiguientes campos:
Conductor: Determina si la vıctima fue un conductor.
Jovenes: Determina si la vıctima fue un joven.
Adultos: Determina si la vıctima fue un Adulto o no (puede ser joven, o adulto oninguno de los dos, es decir, nino o anciano).
Muejeres: Determina si la vıctima fue mujer.
C. Urbana: Determina si el accidente se dio en una carretera urbana.
Dıa: Determina si el accidente ocurrio durante el dıa.
Accidente: Determina si el accidente ocurrio o no.
Los datos seran obtenidos de las mismas fuentes que se usaron para el sistemamutidimensional del data warehouse y estos deben estar en un formato adecuadopara que sea aceptado en Weka, es por ello que se ha realizado el tratado de losmismos meditante algunas herramientas como Pentaho y se ha obtenido el siguientearchivo .csv separado por comas, como se ve en la figura 3.27:
Figura 3.27: Set de datos para la asociacion
Universidad de Cuenca 55 Ingenierıa de Sistemas
3.7. ASOCIACION CAPITULO 3. MINERIA DE DATOS
3.7.4. Eleccion del algoritmo para el analisis de los datos
El algoritmo que se ha seleccionado para realizar esta asociacion es el “Apriori”,debido a que es el mas comunmente usado para este tipo de analisis. Y se ha consi-derado generar 10 reglas de asociacion.
3.7.5. Aplicacion del algoritmo a los datos
Para aplicar el algoritmo de asociacion se ha configurado el numero de reglas, estose ve en la figura 3.28.Una vez ejecutado el algoritmo se ha encontrado con un valor aproximado del 90 %de confiabilidad lo cual hace que el modelo sea valido.
Figura 3.28: Configuracion del numero de reglas para la asociacion
3.7.6. Analisis de resultados
En esta parte del analisis se puede ver algunas de las reglas de asociacion queWEKA ha encontrado en el set de datos. Por ejemplo la regla 8 que dice que de losdatos analizados sin son conductores, entonces tambien son adultos, esto con unaconfiabilidad de 0.99, y de la misma forma para las demas reglas encontradas, lasmismas que estan en la figura 3.29.
Universidad de Cuenca 56 Ingenierıa de Sistemas
CAPITULO 3. MINERIA DE DATOS 3.7. ASOCIACION
Figura 3.29: Mejores reglas de asociacion encontradas
Universidad de Cuenca 57 Ingenierıa de Sistemas
Capıtulo 4
Conclusiones
Luego del presente analisis se tiene las siguientes conclusiones:
• Existen muchas metodologıas para la construccion de un Data warehouse, ycada una de estas tiene su propios pasos para el desarrollo. En el caso de estetrabajo se ha seleccionado la metodologıa hefesto por ser clara y sencilla ensu desarrollo.
• Pueden existir un sinnumero de fuentes y las mismas pueden estar en diferentesformatos.
• Los datos deben ser tratados mediante herramientas como pentaho data in-tegration, el cual permite realizar una limpieza de los mismos, entre muchasotras cosas mas.
• Las dimensiones y los hechos se han creado a partir de los modelos conceptualescreados siguiendo la metodologıa hefesto.
• La creacion y publicacion de los cubos multidimensionales se ha hecho median-te schema workbench, en el cual se debe realizar ciertas configuraciones, porejemplo establecer la conexion con la base de datos, claves para la publicacion,etc.
• Una vez publicado correctamente los cubos, estos pueden ser accedidos me-diante BI Server, el cual permite ver los resultados y hacer consultas al datawarehouse.
• Para trabajar con weka los datos deben estar en un formato adecuado, lo queimplica que no todos los tipos de datos se pueden cargar en weka.
• Para realizar los distintos analisis (Prediccion, Clasificacion, etc) existen unaserie de algoritmos, de los cuales se debera escoger el mas adecuado para losdatos.
58
CAPITULO 4. CONCLUSIONES
• No todos los algoritmos se pueden aplicar a todos los datos, su uso dependerade lo que se desee hacer y del comportamiento de los datos.
• Es recomendable realizar un analis previo de los datos para ver su comporta-miento, esto antes de aplicar cualquier algoritmo de weka.
Universidad de Cuenca 59 Ingenierıa de Sistemas
Apendice A
Reporte usando Report Designer
En esta seccion se presenta un ejemplo de reporte del data warehouse construido.Esto mediante la herramienta de pentaho: report designer.El siguiente reporte muestra el numero de vıctimas adultos y jovenes de dos paisesde Europa, perimitiendo ası comparar estos dos paıses.Como se puede ver en la figura A1, A2 y A3, la mayor cantidad de accidentes dehan dado en Austria con un 87 % frente a un 13 % en Bulgaria.
Figura A.1: Vıctimas Jovenes y Adultos de Austria y Bulgaria
De la misma manera se pueden elaborar y obtener todos los reportes que se deseen.——————————————–
60
APENDICE A. REPORTE USANDO REPORT DESIGNER
Figura A.2: Vıctimas Jovenes y Adultos de Austria y Bulgaria
Universidad de Cuenca 61 Ingenierıa de Sistemas
APENDICE A. REPORTE USANDO REPORT DESIGNER
Figura A.3: Vıctimas Jovenes y Adultos de Austria y Bulgaria
Universidad de Cuenca 62 Ingenierıa de Sistemas
Bibliografıa
[1] Wikipedia. Perceptron multicapa.
[2] Zaida Cebrian Jimenez Alejandro Boris Valiente. Inteligencia en redes de comu-nicaciones. diagnostico cardiologıa.
[3] MC. Pedro Flores Perez. Una metodologıa basada en algoritmos geneticos au-toadaptables para la construccion de modelos lineales para series de tiempo yfunciones de transferencia discretas.
[4] MC. Flores P. Tecnicas de analisis de datos en weka.
[5] Aranzazu Alvarez Sierra Marıa Garcıa Jimenez. Analisis de datos en weka.
[6] Nora Marcela Aguilar Caro. AplicaciOn de mEtodos de aprendizaje automAticopara la desambiguaciOn del pp attachment en espaNol.
[7] Aranzazu Alvarez Sierra Marıa Garcıa Jimenez. Analisis de datos en weka.
[8] Wilson Rodrigo Perez Rocano Valeria Alexandra Haro Valle. Data warehousepara el centro de documentacion regional “juan bautista vazquez”.
[9] Aranzazu Alvarez Sierra Marıa Garcıa Jimenez. Analisis de datos en weka.
63