Almacn de Datos
Caractersticas
El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de los
datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en
unidades lgicas ms pequeas que son conocidas como los centros comerciales dependientes de
los datos.
Separacin de los datos usados en operaciones diarias de los datos usados del almacn para los
propsitos de la divulgacin, de la ayuda en la toma de decisiones para el anlisis y para controlar.
El programa del proceso previo lee los datos efectuados (a menudo bases de datos primarias de
OLTP de un negocio), realiza el proceso previo cualitativo o la filtracin (desnormalizacin, si juzga
necesario incluyendo), y la escribe en el almacn.
Definiciones
Orientado a temas: Los datos en la base de datos estn organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s.
Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan
registrados para que los informes que se puedan generar reflejen esas variaciones.
Integrado: La base de datos contiene los datos de todos los sistemas operacionales de la
organizacin, y dichos datos deben ser consistentes.
Ralph Kimball es otro conocido autor en el tema de los data warehouse. Define un almacn de
datos como: "una copia de las transacciones de datos especficamente estructurada para la
consulta y el anlisis". Tambin fue Kimball quien determin que un data warehouse no era ms
que: "la unin de todos los Data marts de una entidad". Defiende por tanto una metodologa
ascendente (bottom-up) a la hora de disear un almacn de datos.
Funcin
Estructura
El ambiente de un almacn de datos queda definido por la suma de los diferentes DataMarts
integrados, no slo a nivel fsico sino tambin a nivel lgico.
Cubos de Informacin
Un Cubo de Informacin o DataMart es una vista lgica de los datos en bruto, de los datos
provistos por su sistema de operaciones/finanzas hacia el almacn de datos con la adicin de
nuevas dimensiones o informacin calculada. Se les llama DataMart, porque representan un
conjunto de datos relacionados con un tema en particular como: ventas, operaciones, recursos
humanos, etc, y estn a disposicin de los "clientes" a quienes les puede interesar la misma.
Esta informacin puede accesarse por el Ejecutivo (Dueo) mediante "Tablas Dinmicas" de MS-
Excel o programas personalizados. Las Tablas Dinmicas le permiten manipular las vistas (cruces,
filtrados, organizacin) de la informacin con mucha facilidad. Los cubos de informacin
(DataMarts) se producen con mucha rapidez. A ellos se les aplican las reglas de seguridad de
acceso necesarias.
La informacin estratgica est clasificada en: dimensiones y variables. El anlisis est basado en
las dimensiones y por lo tanto es llamado: Anlisis multidimensional. Llevando estos conceptos a
un DW, un Data Warehouse es una coleccin de datos que est formada por dimensiones y
variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y
variables a los valores que se desean analizar.
Normalmente, las variables son representadas por valores detallados y numricos para cada
instancia del objeto o evento medido.
En forma contraria, las dimensiones son atributos relativos a la variable, y son utilizadas para
ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad
menor y toman como valores un conjunto de elementos menor que el de las variables.
Dimensiones
Son atributos relativos a las variables. Son las perspectivas de anlisis de las variables. Forman
parte de la Tabla de Dimensiones (Dimension Table).
Variables
Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman
parte de la Tabla de Hecho (Fact Table). Ms formalmente, las variables representan algn aspecto
cuantificable o medible de los objetos o eventos a analizar.
Los bloques funcionales se corresponden con un sistema de informacin completo que utiliza un
almacn de datos:
Nivel operacional: Contiene datos primitivos (operacionales) que estn siendo permanentemente
actualizados, usados por los sistemas operacionales tradicionales que realizan operaciones
transaccionales.
Almacn de datos: Contiene datos primitivos correspondientes a sucesivas cargas del Almacn de
Datos y algunos datos derivados. Los datos derivados son datos generados a partir de los datos
primitivos al aplicarles algn tipo de procesamiento (resmenes).
Nivel departamental (Data Mart): Contiene casi exclusivamente datos derivados. Cada
departamento de la empresa determina su nivel departamental con informacin de inters a
dicho nivel. Va a ser el blanco de salida sobre el cual los datos en el almacn son organizados y
almacenados para las consultas directas por los usuarios finales, los desarrolladores de reportes y
otras aplicaciones.
Nivel individual: Contiene pocos datos, resultado de aplicar heursticas, procesos estadsticos, etc.,
a los datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un Almacn de
Datos. Desde este nivel acceder el usuario final y se podrn plantear diferentes hiptesis, as
como navegar a travs de los datos contenidos en el Almacn de Datos.
Metadata
El Metadata documenta exactamente, entre otras cosas, qu tablas existen para esa aplicacin,
qu columnas poseen cada una de las tablas y qu tipo de datos se pueden almacenar. Los datos
son de inters para el usuario final, el Metadata es de inters para los programas que tienen que
manejar estos datos.
Metadata.
Sin embargo, el rol que cumple el Metadata en un ambiente de DW es muy diferente al rol que
cumple en los ambientes operacionales. En un ambiente de DW el Metadata juega un rol
fundamental.
Middleware
API
Mecanismos de Extraccin
Otro de los componentes de la arquitectura de un DW son los sistemas OLAP. Estos tipos de
sistemas estn orientados a la realizacin de anlisis estratgicos de la informacin contenida en
un DW de una manera ad-hoc. Los anlisis estratgicos requieren de una visin dinmica y
multidimensional de la informacin diferente a la que se encuentra en los sistemas OLTP.
Este tipo de anlisis est orientado a procesar grandes volmenes de datos de forma que se puede
medir la evolucin del negocio a travs del tiempo, mediante la confeccin de comparaciones, el
estudio de indicadores, desviaciones, etc. Esto requiere la posibilidad de realizar anlisis Top
Down, es decir, que estos sistemas deben poseer el dinamismo necesario para permitir la
reformulacin de la consulta realizada de acuerdo al anlisis de los resultados obtenidos en una
primera instancia.
Mecanismos de Carga
Acumulacin Simple. La acumulacin simple es, sin duda, la ms sencilla y comn, y consiste en
realizar una sumarizacin o resumen de todas las transacciones comprendidas en el perodo de
tiempo seleccionado y transportar el resultado como una nica transaccin hacia el DW.
Rolling. El proceso de Rolling por su parte, se aplica en los casos en que se opta por mantener
varios niveles de granularidad. Para ello se almacena informacin resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo.
Con este criterio los datos deben ser repartidos entre numerosos Data Marts. Para abordar un
proyecto de Data Warehouse (Bodega de Datos) es necesario hacer el levantamiento de algunos
temas generales de la Organizacin:
Ambiente Actual: Cualquier solucin propuesta de Data Warehouse debe estar muy orientada por
las necesidades del negocio y debe ser compatible con la arquitectura tcnica existente y planeada
de la compaa.
Prototipo : Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto
que ser entregado a los usuarios.
Prueba del concepto tecnolgico : Es un paso opcional que se puede necesitar para determinar si
la arquitectura especificada del DW funcionar finalmente como se espera.