Anda di halaman 1dari 16

Procesos ETL

Jordi Conesa i Caralt


Isabel Guitart Hormigo

ndice
Componentes del proceso ETL
Obtencin de datos
Transformacin, depuracin e integracin de datos
Carga de datos
Herramientas ETL
Ejemplo

Componentes del Proceso ETL


ETL = Extract / Transform / Load
La misin de los componentes de integracin y transformacin es obtener los
datos para los diferentes almacenes de datos de la organizacin.

Proceso: Obtencin de datos


El primer paso consiste en determinar, de entre todas las
fuentes de datos posibles, cual es la ms adecuada para cada
uno de los datos requeridos.

En la obtencin de los datos se distinguen dos fases:


a) Obtencin de los datos para la imagen inicial.
b) Obtencin de los datos para las actualizaciones.

Clasificacin de los datos:


a) Datos estructurados
b) Datos semiestructurados
c) Datos no estructurados

Proceso : Transformacin,
Depuracin e Integracin
TRANSFORMACIN

DEPURACIN

Cambiar formato o tipo de datos


(ejemplo formato fecha).

Detectar y corregir valores


inconsistentes.

Reestructurar campos (fusionar


o dividir campos).

Aadir valores por defecto a los


campos con valores no definidos

Cambiar las unidades o cdigos


de transformacin (cambios de
moneda).
Cambiar el grado de agregacin
(calcular las vendas mensuales a
partir de las diarias).

Aadir informacin temporal


(perodo validez de los datos).

Detectar y corregir informacin


duplicada.

INTEGRACION
El proceso de integracin
depender si realizamos la carga
inicial del almacn de datos o una
actualizacin.
Principal problema: Detectar
datos que representan el mismo
concepto.
Se transforman los datos para
homogeneizar la representacin y
eliminar la informacin duplicada.

Proceso: Carga de datos


El proceso ETL tambin se encarga de transportar los
datos entre las diferentes plataformas y cargarlas en
las bases de datos correspondientes.

Herramientas ETL

Control y automatizacin de la extraccin de los datos, disminuyendo el


tiempo empleado en el descubrimiento de procesos no documentados,
minimizando el margen de error y permitiendo mayor flexibilidad.
Acceso a diferentes tecnologas, haciendo un uso efectivo del
hardware, software, datos y recursos humanos existentes.
Proporcionar la gestin integrada del Data Warehouse y los Data Marts
existentes, integrando la extraccin, transformacin y carga para la
construccin del Data Warehouse corporativo y de los Data Marts.
Uso de la arquitectura de metadatos, facilitando la definicin de los
objetos de negocio y las reglas de consolidacin.

Acceso a una gran variedad de fuentes de datos diferentes.


Manejo de excepciones.
Planificacin, logs, interfaces a schedulers de terceros, que nos
permitirn llevan una gestin de la planificacin de todos los procesos
necesarios para la carga del DW.
Interfaz independiente de hardware.
Soporte en la explotacin del Data Warehouse.

EJEMPLO ETL:
Basado en

EJEMPLO ETL:
Sistema de anlisis de estadsticas
Web
Recopilar la informacin de los
logs de la web de la empresa
en un nico repositorio de
datos que permita el anlisis
de las visitas web.

Kettle Pentaho Data Integration


Basado en el desarrollo de dos tipos
de objetos:
Transformaciones: permiten
definir las operaciones de
transformacin de datos.
Trabajos: permiten gestionar y
administrar procesos ETL a alto
nivel.

Kettle Pentaho Data Integration


Formado por cuatro componentes:
Spoon: entorno grfico para el desarrollo de
transformaciones y trabajos.
Pan: permite ejecutar transformaciones.
Kitchen: permite ejecutar trabajos.
Carte: es un servidor remoto que permite la
ejecucin de transformaciones y trabajos.

Caso Prctico Datos de Origen


El archivo log contiene los siguientes campos:
IP desde la que se accede
RFC 1413: identificador de la mquina en la red
Usuario remoto: identificador del usuario.
Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].
Recurso: aquello a lo que se accede.
Resultado.
Tiempo: segundos que se tarda en acceder al recurso.
Referente: desde donde se accede al recurso.
User-agent: informacin del sistema operativo y del
navegador usados para acceder al recurso.

Caso Prctico Datos de Origen


El archivo log contiene los siguientes campos:
IP desde la que se accede
RFC 1413: identificador de la mquina en la red
Usuario remoto: identificador del usuario.
Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].
Recurso: aquello a lo que se accede.
Resultado.
Tiempo: segundos que se tarda en acceder al recurso.
Referente: desde donde se accede al recurso.
User-agent: informacin del sistema operativo y del
navegador usados para acceder al recurso.

Caso Prctico Ms Datos de Origen


Se han preparado otros ficheros con
informacin adicional:
access.log: contiene la informacin de acceso a
nuestra aplicacin web.
navegador.csv: contiene un listado de avegadores base.
protocolo.csv: contiene los protocolos de acceso
estndar.
resultado.csv: contiene el resultado que puede
proporcionar el servidor a un acceso.
so.cv: contiene un listado de sistemas operativos base.

Planificacin de Procesos ETL


La estrategia que se seguir ser:
1. Cargar las dimensiones navegador, protocolo,
resultado y so a partir de los ficheros
anteriores.
2. Alimentar la tabla de hecho de visitas.
3. Crear un trabajo para lanzar todas las
transformaciones de una manera nica.

Procesos ETL: Vdeo

Anda mungkin juga menyukai