Anda di halaman 1dari 26

Base de Datos para Aplicaciones

Profesor: Hugo Omar Alejandres

Business Intelligence
Carlos Manuel Jaimez Vzquez
Humberto Jos Castrejn Flores
Pedro Flores Montebello

8B
Emiliano Zapata, Mor. a 26/Abril/2016

Tecnologas de la Informacin

ndice

Qu es un
Datawarehouse?.....................................................................................
...... 2
Para qu se utiliza?
...
2
VENTAJAS.

.2
Arquitectura (Extraction - Transformation - Load).3
Modelos lgicos (Star y Snowflake).6
Hechos y dimensiones
Qu es un cubo de datos? Incluir un ejemplo
prctico.10
Algoritmos de data mining para business
intelligence23
Conclusiones
25

Tecnologas de la Informacin

Qu es un Datawarehouse?
Hoy en da las competencias entre las empresas es cada da ms grande y porque el contar con la
informacin exacta puede contraer una ventaja competitiva o la omisin de esta puede llevar al
fracaso de la empresa; en otras palabra el contar con la informacin adecuada, en las manos de la
persona adecuada y en el momento preciso; es de gran valor.
Muchas empresas suelen contar con varias fuentes de informacin; para la toma de decisiones. Es
ah donde entra datawarehouse como un sistema de informacin que tiene como caracterstica el
recuperar y consolidar informacin peridica de diversos orgenes y con ello va formando una
coleccin de datos es por lo que es conocido tambin como un almacn de datos. La informacin
que suele contener un datawarehouse puede ser de carcter histrico; con la finalidad de ser
consultada o empleada para tomar decisiones.
La estructura bsica de la arquitectura Data Warehouse (DW) incluye:
1. Datos Operacionales: Un origen de datos para el componente de almacenamiento fsico DW.
2. Extraccin de Datos: Seleccin sistemtica de datos operacionales usados para poblar el
componente de almacenamiento fsico DW.
3. Transformacin de datos: Procesos para sumarizar y realizar otros cambios en los datos
operacionales para reunir los objetivos de orientacin a temas e integracin principalmente.
4. Carga de Datos: Insercin sistemtica de datos en el componente de almacenamiento fsico DW.
5. Datawarehouse: Almacenamiento fsico de datos de la arquitectura DW.
6. Herramientas de Acceso al componente de almacenamiento fisico DW: Herramientas que proveen
acceso a los datos.
Para qu se utiliza?
Dataware house tiene como propsito el apoyar a los ejecutivos para contar con los elementos para
la planeacin a corto, mediano y largo plazo.
Hablando del mbito de negocios; existen varias cuestiones que se realizan en las empresas entre
estas podemos encontrar.

Qu estn comprando los clientes?


Qu no estn comprando?
Qu est realizando la competencia?

Datawarehouse ayuda en la bsqueda de respuestas a estas y otras interrogantes de forma eficiente


y aporta elementos valiosos en la toma de decisiones al personal encargado de las mismas.
Algunas aplicaciones en donde es til Datawarehouse son:

Sistemas de Marketing
Anlisis de Riesgo Financiero

Tecnologas de la Informacin

Anlisis de Riesgo de Crdito

Ventajas

Los tiempos de espera en las consultas por parte de los usuarios son reducidos.
Al proporcionar un resumen de la informacin; esto sirve de apoyo a los empresarios para
realizar la toma de decisiones en cuanto a lo que su empresa requiere.
Soporta el acceso a diversas bases de datos por lo que se llega a obtener informacin
variada y necesaria desde un mismo punto de origen.
Acceso directo, fcil y econmico a todos los datos de la empresa.
Aumenta la productividad como resultado de las decisiones correctas tomada a partir de los
informes obtenidos.

Arquitectura (Extraction - Transformation - Load)


Arquitectura o herramientas ETL por sus siglas en Ingls (Extraction - Transformation - Load); son un
elemento fundamental en la construccin y explotacin de Datawarehouse. Es el proceso que
permite a las organizaciones mover datos desde diversas fuentes de informacin, reestructurarlos y
limpiarlos; as como tambin cargarlos en otra Base de Datos o Datawarehouse para su anlisis o en
otro sistema operacional propio del negocio para el apoyo en algn proceso.

Extraccin

Esta es la primera fase del proceso ETL; consiste en extraer los datos de las diversas fuentes de
origen.

Tecnologas de la Informacin

Los datos son seleccionados para posteriormente procesar la informacin obtenida y posteriormente
transformarla en nuevos valores finalmente se une todos la informacin buscada para que este
mtodo haga el clculo total. Ya teniendo todo el proceso de transformacin el sistema te ordena la
informacin en obtenida para que este te lo muestre en un orden correcto.
Si los datos que son extrados son muchos puede ser contraproducente; trayendo como efecto el
ralentizar e incluso colapsar el sistema. Por tal razn, en sistemas grandes las operaciones de
extraccin suelen programarse en horarios o das donde el impacto sea nulo o mnimo.
-

Transformacin

Las polticas, normas, operaciones, definiciones establecidas dentro de una organizacin; son
aplicadas sobre los datos extrados; es decir son transformados o convertidos en datos para ser
posteriormente cargados.
-

Carga

Esta fase los datos que fueron manipulados o tratados en la fase anterior son cargados en el sistema
de destino. Dependiendo de los requerimientos de la organizacin, este proceso puede abarcar una
amplia variedad de acciones diferente. Los Datawarehouse mantienen un historial de los registros de
La fase de carga interacta directamente con la base de datos de destino. Al realizar esta operacin
se aplicarn todas las restricciones y triggers (disparadores) que se hayan definido en sta (por
ejemplo, valores nicos, integridad referencial, campos obligatorios, rangos de valores). Estas
restricciones y triggers (si estn bien definidos) contribuyen a que se garantice la calidad de los datos
en el proceso ETL, y deben ser tenidos en cuenta.manera que se pueda realizar una auditora de los
mismos.
Por mencionar algunos ejemplos de herramiental ETL tenemos:
IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent DataStage)
Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source Business Intelligence
SAS ETL Studio
Oracle Warehouse Builder
Informatica PowerCenter
Cognos Decisionstream
Ab Initio
BusinessObjects Data Integrator (BODI)
Microsoft SQL Server Integration Services (SSIS)

Modelos lgicos (Star y Snowflake)

Tecnologas de la Informacin

Existen diferentes modelos lgicos para organizar la informacin dentro de una datawarehouse, a
continuacin veremos dos de los ms importantes modelos lgicos que se pueden implementar en el
diseo de una datawarehouse.
Star schema
El esquema en estrella es un tipo de modelo de datos que podemos utilizar para la construccin de
una datawarehouse.
Este tipo de esquema se caracteriza por tener una tabla de hechos (en ingls fact table) la cual est
compuesta por las llaves primarias de todas las tablas con las que est relacionada a las cuales se
les denomina tablas de dimensiones, cada una de estas tablas contiene su clave primaria con la
cual se hace referencia como llave fornea en la tabla de hechos, las tablas de dimensiones pueden
ser desnormalizadas.
A este modelo de datos se le ha llamado esquema de estrella ya que se le puede ver como una
estructura de estrella si lo vemos desde una perspectiva de un modelo relacional.
Donde la tabla de hechos conforma el centro de la estrella y las tablas de dimensiones cada uno de
los picos.
Caractersticas:

Este tipo de modelo es rpido y muy simple cuando es usado en anlisis multidimensionales
tales como OLAP, EIS, Datamarts, entre otros.

Fcil de utilizar.

Realizacin simple de consultas, ya que para realizar condiciones y uniones solo es necesario
la consulta de la tabla de hechos y las tablas de dimensiones.

Permite indexar las dimensiones de manera individual con el propsito de que no afecte al
rendimiento de la base de datos, lo que le permite ser la opcin con el mejor rendimiento y la
mejor velocidad.

Tecnologas de la Informacin

Ilustracin 1 - Ejemplo de un esquema en estrella

Tabla de hechos:

La clave principal est conformada por cada una de las claves principales de las tablas de
dimensiones.
La tabla de hechos puede ser muy grande en relacin con las tablas de dimensiones.
Las tablas de hechos ms eficientes son las que contienen una o ms medidas numricas o
hechos, que se originan por cada uno de los registros en la tabla.
Los hechos ms tiles en una tabla de hechos son los numricos y aditivos.

Tecnologas de la Informacin

Tablas de dimensiones:

Siempre deben contener una clave primaria simple.


En la mayora de los casos estas tablas contienen informacin textual descriptiva.
Los atributos de la tabla de dimensiones son utilizados como restricciones en las consultas de
almacenamiento de datos.

Ejemplo:
En la Ilustracin 1 podemos ver un diagrama de un esquema en estrella, donde la tabla PropertySale
es la tabla de hechos, la cual contiene siete claves forneas que corresponde a cada una de las
tablas que la rodean, tales tablas son Time, Branch, Promotion, Owner, Staff, ClientBuyer,
PropertyForSale, las cuales a su vez contiene una clave primaria y sus atributos.
Las siete claves forneas en la tabla de hechos son en conjunto la clave principal.
Snowflake schema
El esquema de copo de nieve es otro tipo de modelo de datos que podemos utilizar para la
construccin de una datawarehouse.
Este esquema es una variante del esquema de estrella. De igual forma que en el esquema de
estrella, el esquema copo de nieve contiene una tabla de hechos y tablas de dimensiones, las cuales
a la vez pueden tener otras tablas dimensiones, esto con la finalidad de normalizar la informacin y
por ende evitar la duplicidad de los datos.
Este tipo de esquema no genera los mejores rendimientos, ya que se tienen que crear ms tablas de
dimensiones, con lo cual se tienen que realizar ms relaciones entre las diferentes tablas para poder
acceder a los datos necesarios, lo cual afecta el rendimiento y la velocidad con la que es tratada la
informacin.
Este tipo de esquema no es recomendable implementarse en sistemas donde el tiempo de respuesta
sea un factor crtico para los usuarios.

Caractersticas:

Todas las tablas de dimensiones estn normalizadas.

Una tabla de dimensiones puede a su vez estar relacionada con una o ms tablas de
dimensiones, con lo cual se produce la normalizacin de datos.

Tecnologas de la Informacin

Ilustracin 2 - Ejemplo de esquema de copo de nieve

Ejemplo:
En la Ilustracin 2 podemos ver un diagrama de un esquema de copo de nieve, donde la tabla
PropertySale es la tabla de hechos, la cual tambin contiene siete claves forneas que corresponde
a cada una de las tablas que la rodean.
En este ejemplo podemos observar una diferencia con respecto al esquema en estrella de la
Ilustracin 1, ya que la tabla de dimensiones Branch tiene relacin con otra tabla de dimensiones, la
tabla City, y esta a su vez tiene relacin con otra tabla de dimensiones la tabla Regin.
Hgase notar que los atributos city, region y country son con los que se trabaja para poder lograr la
normalizacin en este esquema, donde la normalizacin de los datos es una de las caracterstica de
este tipo de esquema lgico.

Tecnologas de la Informacin

Cubo de datos:

Los cubos son mtodos que permiten analizar la informacin, es decir, que es una estructura
de datos organizados y ordenados de manera jerrquica, que gracias a esta jerarqua el
anlisis de la informacin se puede hacer de manera rpida y tambin permitiendo el
procesamiento de grandes volmenes de informacin. De otra manera, se puede decir que,
es una base de datos que posee varias dimensiones, que, a su vez, estas dimensiones o
escalas son o representan a una jerarqua de datos. Por lo que hace que la informacin sea
precisa y confiable, reduciendo bastante el tiempo y los recursos empleados en el anlisis.
Un claro ejemplo donde se aplicara los cubos de datos es, en una empresa X donde se
requiere sacar las ventas anuales, mensuales, semanales o diarias, se puede decir, de un
cliente, de una empresa, una entidad o pas.
Una de las ventajas es:
-

Facilidad de uso: de una manera u otra se puede ver la estructura del cubo como una
tabla dinmica. Y como ya se haba mencionado su estructura jerrquica hace su fcil
comprensin de la misma.
Rapidez de respuesta: Los tiempos de respuesta en estos cubos suelen ser rpidos,
siempre y cuando este bien diseado.

Hay que tener claro, un cubo no puede sustituir a un modelo relacional, ya que por lo menos
debe existir una base de datos con la informacin normalizada.
Existen distintos tipos de cubos OLAP lo que los hace diferentes son por el tipo de base de
datos sobre lo que se construyen:

Sistema ROLAP: Construido principalmente en base de datos relacionales, que


contienen grandes volmenes de informacin.
Sistema MOLAP: Este sistema trabaja con las bases de datos multidimensionales, es
ms rpido en el almacenamiento de datos, la eficiencia en la extraccin de datos y la
optimizacin en el rendimiento de la memoria cache
Sistema HOLAP: es un hibrido, ya que junta o combina los sistemas ROLAP y
MOLAP. MOLAP para el almacn de datos recientes y ROLAP para los datos ms
antiguos.

Requerimientos para ejemplo prctico:


-

Base de datos SQL Server versin Enterprise


Microsoft Visual Studio

Tecnologas de la Informacin

Ejemplo de cubo de datos


1.

Abrir Microsoft Visual Studio

2.
Presionar las teclas Control + Mayus + N, desplegara una nueva ventana, seleccionar
la primera opcin que dice Proyecto multidimensional y de minera de datos

Tecnologas de la Informacin

3.
En la parte inferior se escribe el nombre del proyecto, la ubicacin del mismo, se
llenan esos datos y se da clic en el botn aceptar.

4.
En la parte derecha se encuentra un Panel, el cual dice Explorador de soluciones. Dar
clic derecho en Orgenes de datos y seleccionar la opcin Nuevo origen de datos.

5.

Aparecer un asistente para orgenes de datos, dar clic derecho en Siguiente.

Tecnologas de la Informacin

6.
En este caso. Como no se tiene una conexin a una base de datos, o es la primera
vez, se da clic en el botn Nueva.

7.
Se mostrar una nueva ventana, el cual se configurar o se escribirn los datos de la
base de datos, como el nombre del servidor, tipo de autenticacin y el nombre de la base de
datos, una vez llenado estos datos, dar clic en Aceptar.

Tecnologas de la Informacin

8.
Una vez que el asistente para orgenes de datos tenga la conexin a la base de datos,
se habilitar el botn Siguiente, y dar clic en ese botn.

9.

Se llena los datos de nombre de usuario y contrasea

Tecnologas de la Informacin

10.
Si se desea otro nombre al origen de datos se le puede cambiar, sino, se le da clic en
botn Finalizar. Y en el panel izquierdo aparecer un archivo con el nombre.

11.
Una vez terminado, se crea una Nueva vista de origen de datos, para ello, dar clic
derecho en la opcin del panel derecho que dice Vista de origen de datos.

Tecnologas de la Informacin

12.
Al igual que la opcin anterior, tambin se abrir una nueva ventana de Asistente para
vistas del origen de datos. Dar clic Siguiente

13.
Y como se puede observar, aparecer o se muestra los orgenes de datos
relacionales, los que se han creado previamente, en este caso, slo se muestra uno, porque
slo se ha creado uno.

Tecnologas de la Informacin

14.

Se selecciona las tablas de la base de datos con las cuales se crearan las vistas

15.

Se muestra una vista previa de lo que va a crear, dar clic en el botn Finalizar

Tecnologas de la Informacin

16.
Y como resultado, se observa que ha creado una vista de las tablas que se han
seleccionado.

17.
Una vez terminado de hacer esos pasos, se procede a crear el cubo, para ello, en el
panel derecho se elige la opcin Cubos, clic derecho sobre la carpeta. Y seleccionar la
opcin Nuevo cubo.

Tecnologas de la Informacin

18.

Se muestra una nueva ventana Asistente para cubos, dar clic en el botn siguiente.

19.
Se selecciona la opcin Usar tablas existentes, esto para que se utilice las vistas
creadas o existentes. Y clic en el botn Siguiente.

Tecnologas de la Informacin

20.
Y se muestras las tablas de la vista que se ha creado, cuando no se sabe la
estructura de la base de datos, de las tablas, etc. Slo se da clic en el botn Sugerir y
aceptar la sugerencia, y clic en el botn siguiente.

21.

Y en la siguiente pantalla se observa la informacin de la tabla.

Tecnologas de la Informacin

22.
En la siguiente pantalla se ve las dimensiones que se van a crear, y dar clic en el
botn siguiente.

23.
Y por ltimo, se observa en la ventana, el resumen de lo que se realizar. Y clic en el
botn Finalizar.

Tecnologas de la Informacin

24.
Y como se puede observar, el cubo ya creado, se puede modificar el nombre de las
columnas, etc. Y ya para terminar, hay que procesar el cubo, ya que si no se procesan, no se
podrn observar los datos desde programas exteriores, para en el panel derecho,
seleccionar el cubo, dar clic derecho y seleccionar la opcin Proceso

Procesando cubo

Tecnologas de la Informacin

Muestra una ventana emergente, dar clic en el botn Si.

25.
Una vez que ha terminado, aparecer una nueva ventana, y en la ventana tiene que
dar clic en el botn ejecutar. Y al final mostrar el mensaje Proceso finalizado
correctamente.
Y sera todo el proceso, para crear cubos.

Algoritmos de data mining para business intelligence

Data mining o minera de datos son el conjunto de tcnicas o tecnologas que permiten
explorar grandes bases de datos de manera automtica o semiautomtica con la finalidad de
encontrar patrones repetitivos, tendencias que explican el comportamiento de los datos en
un determinado contexto, en otras palabra esto es til para entender el contenido de un
repositorio de datos.
Un algoritmo de minera de datos es un conjunto de reglas y clculos con el fin de crear un
modelo de minera de datos (conjunto de datos, estadsticas y patrones) a partir de los
datos.
Para la creacin de un modelo, el algoritmo analiza los datos proporcionados de patrones
especficos.
Por mencionar algunos algoritmos tenemos los siguientes.
-

Arboles de decisin

Consisten en organizar los datos en elecciones que van formando ramas de influencia
despus una decisin inicial. El tronco del rbol representa la decisin inicial y empieza con
preguntas con respuestas de s o no; cada respuesta desarrollara sus propias ramas
divergentes para llevar a un punto final.
-

Algoritmo K-means

Se basa en el anlisis de grupos. Divide los datos recogidos en bloques que comparten
caractersticas en comn.

Tecnologas de la Informacin

Algoritmo Apriori

El algoritmo apriori normalmente controla los datos de transacciones. Por ejemplo, en una
tienda de ropa, el algoritmo podra controlar qu camisas suelen comprar juntas los clientes.
-

Algoritmo EM

Define los parmetros analizando los datos y predice las posibilidades de una salida futura o
evento aleatorio dentro de los parmetros de datos.
-

Algoritmo PageRank

Este algoritmo es base de los motores de bsqueda. Estima la relevancia de un trozo


determinado de datos de un gran conjunto
-

Algoritmo AdaBoost

Funciona dentro de otros algoritmos de aprendizaje que anticipan un comportamiento segn


los datos observados para que sean sensibles a extremos estadsticos. Aunque el algoritmo
EM puede sesgarse debido a un giser que tiene dos erupciones en menos de un minuto
cuando normalmente tiene una erupcin una vez al da, el algoritmo AdaBoost modificara la
salida del algoritmo EM analizando la relevancia del extremo.

Tecnologas de la Informacin

Conclusin
Hoy en da debido a la revolucin de las nuevas tecnologas y al creciente uso de los sistemas de
informacin lo que ms sobra es esto mismo, y toda empresa u organizacin que trabaje con estas
tecnologas siempre estn en constante bsqueda para sacar el mejor aprovechamiento de ello, de
igual forma se buscan nuevas tecnologas para tratar la informacin y poder procesarla, para as
poder trabajar con ella.
Con la presente investigacin sobre Datawarehouse y Business Intelligence, pudimos comprender la
importancia que hoy en da se le est dando a la informacin que puede contener una base de datos,
ya que esta no solo nos puede servir para guardar informacin, si no que podemos trabajar con esa
informacin para predecir hechos o analizar acontecimientos que sucedieron en el pasado, gracias a
que hoy en da existen diferentes sistemas para sacar datos estadsticos y hasta predecir
acontecimientos con relacin a la informacin que alberga nuestra base de datos.
Gracias los modelos lgicos de Star y Snowflake pudimos aprender que existen diferentes esquemas
con los cuales podemos modelar nuestra Datawarehouse, dependiendo la implementacin de cada
uno de ellos conforme a los usos o exigencias que tenga nuestro proyecto, ya que uno es muy
rpido, pero se puede encontrar informacin duplicada, y otro sacrifica la velocidad pero toda la
informacin se encuentra normalizada y se ahorra espacio.
Ahora comprendemos que se puede hacer ms que solo guardar informacin en una base de datos,
podemos trabajar con esta informacin para predecir sucesos a nivel comercial o poder generar
datos estadsticos para trazar directrices en un plan estratgico, ya que gracias a los sistemas como
Business Intelligence contamos con las herramientas necesarias que nos ayudan a la extraccin, la
depuracin, el anlisis y el almacenamiento de los datos que puede generar una organizacin da
con da.

Tecnologas de la Informacin

Bibliografia
Datawarehouse

Arquitectura ETL
Algoritmos Data Mining
Modelos Lgicos
Thomas M. Connolly, Carolyn E. Begg. (2005). Database Systems. England: Pearson
Education Limited.
Thomas M . Connolly, C. E. (2005). Dtabase Systems. England: Pearson Education
Limited.
Cubo de datos

Anda mungkin juga menyukai