Date post: | 07-Jul-2018 |
Category: |
Documents |
Upload: | gustavo-cancino-macazana |
View: | 221 times |
Download: | 0 times |
of 16
8/19/2019 M2 Procesos ETL
1/16
Procesos ETL
Jordi Conesa i Caralt
Isabel Guitart Hormigo
8/19/2019 M2 Procesos ETL
2/16
Componentes del proceso ETL
Obtención de datos
Transformación, depuración e integración de datos
Carga de datos Herramientas ETL
Ejemplo
Índice
8/19/2019 M2 Procesos ETL
3/16
Componentes del Proceso ETL
ETL = Extract / Transform / Load
La misión de los componentes de integración y transformación es obtener losdatos para los diferentes almacenes de datos de la organización.
8/19/2019 M2 Procesos ETL
4/16
Proceso: Obtención de datos
• El primer paso consiste en determinar, de entre todas lasfuentes de datos posibles, cual es la más adecuada para cadauno de los datos requeridos.
• En la obtención de los datos se distinguen dos fases:a) Obtención de los datos para la imagen inicial.b) Obtención de los datos para las actualizaciones.
•
Clasificación de los datos:a) Datos estructuradosb) Datos semiestructuradosc) Datos no estructurados
8/19/2019 M2 Procesos ETL
5/16
Proceso : Transformación,
Depuración e Integración • Cambiar formato o tipo de datos(ejemplo formato fecha).
•
Reestructurar campos (fusionaro dividir campos).
• Cambiar las unidades o códigosde transformación (cambios demoneda).
• Cambiar el grado de agregación
(calcular las vendas mensuales apartir de las diarias).
• Añadir información temporal(período validez de los datos).
TRANSFORMACIÓN DEPURACIÓN
• Detectar y corregir valoresinconsistentes.
•
Añadir valores por defecto a loscampos con valores no definidos
• Detectar y corregir informaciónduplicada.
INTEGRACION
• El proceso de integracióndependerá si realizamos la cargainicial del almacén de datos o una
actualización.
• Principal problema: Detectardatos que representan el mismoconcepto.
• Se transforman los datos parahomogeneizar la representación y
eliminar la información duplicada.
8/19/2019 M2 Procesos ETL
6/16
Proceso: Carga de datos
El proceso ETL también se encarga de transportar losdatos entre las diferentes plataformas y cargarlas en
las bases de datos correspondientes.
8/19/2019 M2 Procesos ETL
7/16
Herramientas ETL • Control y automatización de la extracción de los datos, disminuyendo eltiempo empleado en el descubrimiento de procesos no documentados,
minimizando el margen de error y permitiendo mayor flexibilidad.
• Acceso a diferentes tecnologías, haciendo un uso efectivo delhardware, software, datos y recursos humanos existentes.
• Proporcionar la gestión integrada del Data Warehouse y los Data Martsexistentes, integrando la extracción, transformación y carga para laconstrucción del Data Warehouse corporativo y de los Data Marts.
• Uso de la arquitectura de metadatos, facilitando la definición de losobjetos de negocio y las reglas de consolidación.
• Acceso a una gran variedad de fuentes de datos diferentes.
• Manejo de excepciones.
• Planificación, logs, interfaces a schedulers de terceros, que nospermitirán llevan una gestión de la planificación de todos los procesosnecesarios para la carga del DW.
• Interfaz independiente de hardware.
• Soporte en la explotación del Data Warehouse.
8/19/2019 M2 Procesos ETL
8/16
EJEMPLO ETL:
Basado en …
8/19/2019 M2 Procesos ETL
9/16
EJEMPLO ETL:
Sistema de análisis de estadísticasWeb
Recopilar la información de loslogs de la web de la empresa
en un único repositorio de
datos que permita el análisisde las visitas web.
8/19/2019 M2 Procesos ETL
10/16
Kettle – Pentaho Data Integration
Basado en el desarrollo de dos tiposde objetos:
•Transformaciones: permitendefinir las operaciones de
transformación de datos.
•Trabajos: permiten gestionar yadministrar procesos ETL a altonivel.
8/19/2019 M2 Procesos ETL
11/16
Kettle – Pentaho Data Integration
Formado por cuatro componentes:•Spoon: entorno gráfico para el desarrollo detransformaciones y trabajos.
•Pan: permite ejecutar transformaciones.
•Kitchen: permite ejecutar trabajos.
•Carte: es un servidor remoto que permite laejecución de transformaciones y trabajos.
8/19/2019 M2 Procesos ETL
12/16
Caso Práctico – Datos de Origen
El archivo log contiene los siguientes campos:
• IP desde la que se accede• RFC 1413: identificador de la máquina en la red• Usuario remoto: identificador del usuario.• Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].• Recurso: aquello a lo que se accede.• Resultado.•
Tiempo: segundos que se tarda en acceder al recurso.• Referente: desde donde se accede al recurso.• User-agent: información del sistema operativo y delnavegador usados para acceder al recurso.
8/19/2019 M2 Procesos ETL
13/16
Caso Práctico – Datos de Origen
El archivo log contiene los siguientes campos:• IP desde la que se accede
• RFC 1413: identificador de la máquina en la red• Usuario remoto: identificador del usuario.• Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].• Recurso: aquello a lo que se accede.• Resultado.• Tiempo: segundos que se tarda en acceder al recurso.
• Referente: desde donde se accede al recurso.• User-agent: información del sistema operativo y delnavegador usados para acceder al recurso.
8/19/2019 M2 Procesos ETL
14/16
Caso Práctico – Más Datos de Origen
Se han preparado otros ficheros coninformación adicional:
• access.log: contiene la información de acceso anuestra aplicación web.
• navegador.csv: contiene un listado de avegadores base.• protocolo.csv: contiene los protocolos de accesoestándar.• resultado.csv: contiene el resultado que puedeproporcionar el servidor a un acceso.• so.cv: contiene un listado de sistemas operativos base.
8/19/2019 M2 Procesos ETL
15/16
Planificación de Procesos ETL
La estrategia que se seguirá será:1. Cargar las dimensiones navegador, protocolo,
resultado y so a partir de los ficherosanteriores.
2. Alimentar la tabla de hecho de visitas.
3. Crear un trabajo para lanzar todas lastransformaciones de una manera única.
8/19/2019 M2 Procesos ETL
16/16
Procesos ETL: Vídeo