Anda di halaman 1dari 7

FACULTA DE INGENIERIA

ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS

PROCESO ETL

NOMBRE DEL ESTUDIANTE

ANDRES ELEODORO SOSA GARCIA

ASIGNATURA

INTELIGENCIA DE NEGOCIOS

DOCENTE

ING. HEBER GOMEZ HURTADO

TRUJILLO, 2014
PERU

1. INTRODUCCION
El proceso ETL organiza el flujo de los datos entre diferentes sistemas en una
organizacin y esta fase de importar y cargar datos se suele realizar con una
herramienta ETL (como por ejemplo Informatica Powercenter, Datastage).
Tambin es posible y ocurre a menudo programar el proceso ETL en el lenguaje
dedicado a la base de datos (PL/SQL por ejemplo).
El almacn de datos puede ser implementado en una arquitectura de base de
datos (como Oracle, SQL Server) o en un producto dedicado (Teradata por
ejemplo).
2. INTELIGENCIA EMPRESARIAL O INTELIGENCIA DE NEGOCIOS (BUSINESS
INTELLIGENCE)
Inteligencia empresarial (Business Intelligence), tambin llamado Gestin de
los Datos (Data Management), es un agregado de aplicaciones y herramientas
enfocadas al procesamiento de los datos en una empresa para poder ayudar
tomar decisiones y hacer varios anlisis. Inteligencia empresarial realiza gestin
de datos, consultas a los datos, generacin de los informes/reportes y ms
especficamente todo el procesamiento para traducir la lgica de negocios a la
lgica de sistemas empresariales.
Las reas ms importantes de Business Intelligence son:

DW - Almacenes de datos, Bodegas de Datos (Data warehouses

ETL - Transformar, Extraer y Cargar datos

DM - Minera de datos (Data mining)

Aplicaciones OLAP - cubos OLAP, procesamiento analtico lnea, Online


Analytical Processing and multidimensional analysis

MIS - Sistemas de Informacin para la Administracin (Management


Information Systems)

Consultas e informes - Information visualization, and Dashboarding

Calidad de Datos y limpieza de Datos

Sistemas de previsin empresarial

DSS - Apoyo en la toma de decisiones (Decision Support Systems)

CRM - Customer Relationship Management

3. Almacn de datos - concepto


Almacn de datos (Bodega de Datos, Data warehouse) es una integrada
coleccin

de

datos

que

contiene

datos

procedentes

de

sistemas

del

planeamiento del recurso de la empresa (SAP, CRM, ERP) y de otros sistemas


relacionados al negocio. Los almacenes de datos contienen a menudo datos y
parmetros introducidos manualmente para mantener configuracin solicitada.
Los almacenes de datos contienen informacin que se subdivide a veces en
unidades lgicas ms pequeas, llamadas los centros comerciales (data marts).
Almacn de datos contiene datos usados en operaciones diarias para la ayuda
en la toma de decisiones, para el anlisis y para controlar.
La

base

de

datos

esta

actualizada

peridicamente

sin

interrumpir

funcionamiento de los sistemas relacionados al negocio (mltiples fuentes).


El almacn de datos puede ser implementado en una arquitectura de base de
datos (como Oracle, SQL Server) o en un producto dedicado (Teradata por
ejemplo).
4. Arquitectura de un sistema de almacn de datos
Un Almacn de Datos (Data Warehouse) es una coleccin de datos que est
formada por Variables (hechos, facts) y Dimensiones (dimensions). Dimensiones
son los elementos para ubicar datos que participan en el anlisis y Variables los
valores que se desean analizar.
La mayor diferencia entre la arquitectura de un almacn de datos y una base de
datos OLTP estndar, conteniendo datos de los sistemas del planeamiento del
recurso de la empresa (como SAP, CRM) es que en una estructura de bodega de
datos las tablas estn denormalizadas entre variables y dimensiones.
En un tpico sistema de bases de datos OLTP (On-line Transaction Processing) lo
ms importante para el funcionamiento deseado es que el diseo de base de
datos sea eficiente. Esto determina si el sistema es til para los usuarios y si
funciona de modo rpido y eficaz.
Este tipo de base de datos tiene que encargarse de insertar miles de filas de
datos cada hora. Por eso se optimiza la base de datos para guardar datos lo
menos posible y ejecutar rpidamente las instrucciones sql: INSERT, UPDATE y
DELETE.
Almacn de Datos, al contrario de OLTP, es un sistema que debe dar una
respuesta a casi cada pregunta con respeto al funcionamiento de la empresa.
Una Bodega de datos es una base de datos que almacena informacin, la cual

se construye a partir de datos bsicos extraidos de otras bases de datos


(operacionales). El motivo para producir informacin de una bodega de datos es
ayudar a la toma de decisiones con la capacidad de realizar en tiempo real
anlisis

multidimensionales

Esta

informacin

tiene

que

ser

accesible

rpidamente, pero no es tan importante que sea lo mas actual posible y al nivel
de detalle muy bajo. Normalmente un almacn de datos se carga diariamente
durante la noche cuando los sistemas fuente no estn sobrecargados. El objeto
mayor de la arquitectura de un almacn de datos es guardar datos histricos y
agregados. Las instrucciones SQL ejecutadas con mayor frecuencia son SELECT.
Hay tres arquitecturas del diseo de sistemas de almacenes de datos:
4.1

Esquema en copos de nieve


Esquema en copo de nieve (bola de nieve) es una variedad ms compleja
del

esquema

estrella.

El

afinamiento

est

orientado

facilitar

mantenimiento de dimensiones.
Lo que distingue a la arquitectura en copo de nieve de la esquema
estrella, es que las tablas de dimensiones en este modelo representan
relaciones normalizadas (3NF) y forman parte de un modelo relacional de
base de datos.
Con varios usos del esquema en bola de nieve, el ms comn es cuando
las tablas de dimensiones estn muy grandes o complejos y es muy difcil
representar los datos en esquema estrella.
Por ejemplo, si una tabla dimensional de los clientes (CUSTOMERS)
contiene un million de filas, seria una idea buena crear una tabla con
grupos de clientes (CUSTOMER_GROUPS) y mover los datos comunes
para cada grupo de clientes a esta tabla. El tamao de estas dos tablas
ser mucho menor que de una tabla no normalizada con todos los datos
de clientes.
El problema es que para extraer datos de las tablas en esquema de copo
de nieve, a veces hay que vincular muchas tablas en las sentencias SQL
que puede llegar a ser muy complejo y difcil para mantener.
4.2

Esquema estrella (Star schema)


Esquema de la estrella es la arquitectura de almacn de datos ms
simple. En este diseo del almacn de datos la tabla de Variables
(Hechos) esta rodeada por Dimensiones y juntos forman una estructura
que permite implementar mecanismos bsicos para poder utilizarla con
una herramienta de consultas OLAP.

Esquema estrella del Almacn de Datos implementa un diseo lgico


relacional de base da datos que resulta en que las tablas de hechos
representan

la

Tercera

Forma

Normal

(3FN)

las

dimensiones

representan la Segunda Forma Normal (2FN).


El motivo por dejar de mantener las tablas en el modelo relacional y
permitir el almacenamiento de informacin redundante, es optimizar el
tiempo de respuesta de base datos y dar informacin a un usuario en
menos tiempo posible. En este modelo, para obtener informacin
solicitada no hay que construir una sentencia SQL muy compleja que
lease muchas tablas de una vez. Una herramienta de consultas slo tiene
que acceder una tabla.
La clave primaria de una tabla de hechos est formada por todas las
columnas que corresponden a las dimensiones (como por ejemplo
ID_CLIENTE, ID_ARTICULO, ID_TIEMPO). Las columnas que contienen los
datos numricos no forman parte de la clave primaria, porque estn
agregadas en los informes (ejemplos de este tipo de columnas:
CANTIDAD, PRECIO, VENTA_TOTAL, IVA).
Se puede encontrar casi cada informacin de una tabla de hechos en una
tabla de dimensiones. Lo caracterstico de la arquitectura de estrella es
que slo existe una tabla de dimensiones para cada dimensin y esta
tabla representa la segunda forma normal.
4.3

Esquema de constelacin de hechos (fact constellation schema)


Para cada esquema estrella o esquema del copo de nieve en almacn de
datos es posible construir un esquema de constelacin de hechos.
Este esquema es ms complejo que las otras arquitecturas debido al
facto de que contiene multiples tablas de hechos. Con este solucin las
tablas de dimensiones pueden estar compartidas entre mas que una
tabla de los factos.
El esquema de constelacin de hechos tiene mucha flexibilidad y este
facto es su grande virtud. Sin embargo, el problema es que cuando el
nmero de las tablas vinculadas aumenta, la arquitectura puede llegar a
ser muy compleja y difcil para mantener.
En una esquema de constelacin de factos las distintas tablas de los
hechos estn asignadas a las dimensiones relevantes para cada de los
hechos. Esto puede ser util cuando los hechos estan asignadas a un

nivel de un dimensin y los otros hechos a otro nivel de detalle de un


dimensin.
El modelo este puede ser una solucin adecuada cuando por ejemplo
hay una tabla de hechos de venta (con un nivel de detalle hasta un da y
el numero de factura) y hay otra tabla de factos con los Pronsticos (con
los campos clave: mes, cdigo articulo, cdigo cliente).
5. Proceso ETL
ETL - este termino viene de ingles de las siglas Extract-Transform-Load que
significan Extraer, Transformar y Cargar y se refiere a los datos en una empresa.
ETL es el proceso que organiza el flujo de los datos entre diferentes sistemas en
una organizacin y aporta los mtodos y herramientas necesarias para mover
datos desde mltiples fuentes a un almacn de datos, reformatearlos, limpiarlos
y cargarlos en otra base de datos, data mart bodega de datos. ETL forma
parte de la Inteligencia Empresarial (Business Intelligence), tambin llamado
Gestin de los Datos (Data Management).
La idea es que una aplicacin ETL lea los datos primarios de unas bases de
datos de sistemas principales, realice transformacin, validacin, el proceso
cualitativo, filtracin y al final escriba datos en el almacn y en este momento
los datos son disponibles para analizar por los usuarios.
Los ms populares herramientas y aplicaciones ETL del mercado:

IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent


DataStage)

Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source


Business Intelligence

SAS ETL Studio

Oracle Warehouse Builder

Informatica PowerCenter

Cognos Decisionstream

Ab Initio

BusinessObjects Data Integrator (BODI)

Microsoft SQL Server Integration Services (SSIS)

6. BIBLIOGRAFIA
Colaboradores de Wikipedia. Extract, transform and load [en lnea]. Wikipedia,
La enciclopedia libre, 2014 [fecha de consulta: 27 de diciembre del 2014].
Disponible en
<http://es.wikipedia.org/w/index.php?
title=Extract,_transform_and_load&oldid=77241323>.

Anda mungkin juga menyukai