Anda di halaman 1dari 6

Almacn de Datos

Almacn de Datos

Herramienta de inteligencia de negocio para la ayuda en la toma de decisiones.

Almacn de datos o Data warehouse. Coleccin de datos orientada a un dominio, integrado, no


voltil, y que vara en el tiempo. Ayuda a la toma de decisiones de la empresa u organizacin. Un
almacn de datos es, sobre todo, un expediente de una empresa ms all de la informacin
transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis
y la divulgacin eficientes de datos (especialmente OLAP).

Caractersticas

El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de los
datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en
unidades lgicas ms pequeas que son conocidas como los centros comerciales dependientes de
los datos.

Generalmente, dos ideas bsicas dirigen la creacin de un almacn de los datos:

Integracin de los datos de bases de datos distribuidas y diferentemente estructuradas, que


facilita una descripcin global y un anlisis comprensivo en el almacn de los datos.

Separacin de los datos usados en operaciones diarias de los datos usados del almacn para los
propsitos de la divulgacin, de la ayuda en la toma de decisiones para el anlisis y para controlar.

Peridicamente, se importan datos de sistemas de planeamiento del recurso de la empresa (ERP) y


de otros sistemas de software relacionados al negocio en el almacn de los datos para la
transformacin posterior. Es prctica comn "efectuar" datos antes de combinarlos en un
almacn.

Arquitectura del Data Warehouse.

El programa del proceso previo lee los datos efectuados (a menudo bases de datos primarias de
OLTP de un negocio), realiza el proceso previo cualitativo o la filtracin (desnormalizacin, si juzga
necesario incluyendo), y la escribe en el almacn.

Definiciones

Segn Bill Inmon


Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos,
define un data warehouse (almacn de datos) en trminos de las caractersticas del repositorio de
datos:

Orientado a temas: Los datos en la base de datos estn organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s.

Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan
registrados para que los informes que se puedan generar reflejen esas variaciones.

No voltil: La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se


convierte en informacin de slo lectura, y se mantiene para futuras consultas.

Integrado: La base de datos contiene los datos de todos los sistemas operacionales de la
organizacin, y dichos datos deben ser consistentes.

Inmon defiende una metodologa descendente (top-down) a la hora de disear un almacn de


datos, ya que de esta forma se considerarn mejor todos los datos corporativos. En esta
metodologa los Data marts se crearn despus de haber terminado el data warehouse completo
de la organizacin.

Segn Ralph Kimball

Ralph Kimball es otro conocido autor en el tema de los data warehouse. Define un almacn de
datos como: "una copia de las transacciones de datos especficamente estructurada para la
consulta y el anlisis". Tambin fue Kimball quien determin que un data warehouse no era ms
que: "la unin de todos los Data marts de una entidad". Defiende por tanto una metodologa
ascendente (bottom-up) a la hora de disear un almacn de datos.

Funcin

Un almacn de datos debe entregar la informacin correcta a la gente indicada en el momento


adecuado en el formato correcto. El almacn de datos da respuesta a las necesidades de usuarios
conocedores, utilizando sistemas de ayuda en la decisin (DSS), Sistemas de Informacin Ejecutiva
(EIS) o herramientas para hacer consulta o informes. Los usuarios finales fcilmente pueden hacer
consultas sobre sus almacenes de datos sin tocar o afectar la operacin del sistema.

Estructura

El ambiente de un almacn de datos queda definido por la suma de los diferentes DataMarts
integrados, no slo a nivel fsico sino tambin a nivel lgico.

Cubos de Informacin

Un Cubo de Informacin o DataMart es una vista lgica de los datos en bruto, de los datos
provistos por su sistema de operaciones/finanzas hacia el almacn de datos con la adicin de
nuevas dimensiones o informacin calculada. Se les llama DataMart, porque representan un
conjunto de datos relacionados con un tema en particular como: ventas, operaciones, recursos
humanos, etc, y estn a disposicin de los "clientes" a quienes les puede interesar la misma.
Esta informacin puede accesarse por el Ejecutivo (Dueo) mediante "Tablas Dinmicas" de MS-
Excel o programas personalizados. Las Tablas Dinmicas le permiten manipular las vistas (cruces,
filtrados, organizacin) de la informacin con mucha facilidad. Los cubos de informacin
(DataMarts) se producen con mucha rapidez. A ellos se les aplican las reglas de seguridad de
acceso necesarias.

La informacin estratgica est clasificada en: dimensiones y variables. El anlisis est basado en
las dimensiones y por lo tanto es llamado: Anlisis multidimensional. Llevando estos conceptos a
un DW, un Data Warehouse es una coleccin de datos que est formada por dimensiones y
variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y
variables a los valores que se desean analizar.

Normalmente, las variables son representadas por valores detallados y numricos para cada
instancia del objeto o evento medido.

En forma contraria, las dimensiones son atributos relativos a la variable, y son utilizadas para
ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad
menor y toman como valores un conjunto de elementos menor que el de las variables.

Dimensiones

Son atributos relativos a las variables. Son las perspectivas de anlisis de las variables. Forman
parte de la Tabla de Dimensiones (Dimension Table).

Variables

Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman
parte de la Tabla de Hecho (Fact Table). Ms formalmente, las variables representan algn aspecto
cuantificable o medible de los objetos o eventos a analizar.

Arquitectura de un Almacn de Datos

Los bloques funcionales se corresponden con un sistema de informacin completo que utiliza un
almacn de datos:

Nivel operacional: Contiene datos primitivos (operacionales) que estn siendo permanentemente
actualizados, usados por los sistemas operacionales tradicionales que realizan operaciones
transaccionales.

Almacn de datos: Contiene datos primitivos correspondientes a sucesivas cargas del Almacn de
Datos y algunos datos derivados. Los datos derivados son datos generados a partir de los datos
primitivos al aplicarles algn tipo de procesamiento (resmenes).

Nivel departamental (Data Mart): Contiene casi exclusivamente datos derivados. Cada
departamento de la empresa determina su nivel departamental con informacin de inters a
dicho nivel. Va a ser el blanco de salida sobre el cual los datos en el almacn son organizados y
almacenados para las consultas directas por los usuarios finales, los desarrolladores de reportes y
otras aplicaciones.
Nivel individual: Contiene pocos datos, resultado de aplicar heursticas, procesos estadsticos, etc.,
a los datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un Almacn de
Datos. Desde este nivel acceder el usuario final y se podrn plantear diferentes hiptesis, as
como navegar a travs de los datos contenidos en el Almacn de Datos.

Elementos que integran un Almacn de Datos

Metadata

Uno de los componentes ms importantes de la arquitectura de un DW es el Metadata. Es


definido comnmente como: "datos acerca de los datos", en el sentido de que se trata de datos
que describen cul es la estructura de los datos y cmo se relacionan.

El Metadata documenta exactamente, entre otras cosas, qu tablas existen para esa aplicacin,
qu columnas poseen cada una de las tablas y qu tipo de datos se pueden almacenar. Los datos
son de inters para el usuario final, el Metadata es de inters para los programas que tienen que
manejar estos datos.

Error al crear miniatura: Falta archivo

Metadata.

Sin embargo, el rol que cumple el Metadata en un ambiente de DW es muy diferente al rol que
cumple en los ambientes operacionales. En un ambiente de DW el Metadata juega un rol
fundamental.

Middleware

La funcin del Middleware es la de asegurar la conectividad entre todos los componentes de la


arquitectura de un DW. El Middleware puede verse como capa API, en base a la cual los
programadores pueden desarrollar aplicaciones que trabajen en diferentes ambientes sin
preocuparse de los protocolos de red y comunicaciones en que se corrern. De esta manera se
ofrece una mejor relacin costo/rendimiento que pasa por el desarrollo de aplicaciones ms
complejas, en menos tiempo.

API

Application Programmer Interface (Interfaz de Programacin de Aplicacin). Lenguaje y formato


de mensaje utilizados por un programa para activar e interactuar con las funciones de otro
programa o de un equipo fsico. middleware Asegura la conectividad entre todos los componentes
de una infraestructura informtica. Es la estructura para enlazar todas las aplicaciones en forma
integrada.

Mecanismos de Extraccin

Otro de los componentes de la arquitectura de un DW son los sistemas OLAP. Estos tipos de
sistemas estn orientados a la realizacin de anlisis estratgicos de la informacin contenida en
un DW de una manera ad-hoc. Los anlisis estratgicos requieren de una visin dinmica y
multidimensional de la informacin diferente a la que se encuentra en los sistemas OLTP.
Este tipo de anlisis est orientado a procesar grandes volmenes de datos de forma que se puede
medir la evolucin del negocio a travs del tiempo, mediante la confeccin de comparaciones, el
estudio de indicadores, desviaciones, etc. Esto requiere la posibilidad de realizar anlisis Top
Down, es decir, que estos sistemas deben poseer el dinamismo necesario para permitir la
reformulacin de la consulta realizada de acuerdo al anlisis de los resultados obtenidos en una
primera instancia.

Mecanismos de Carga

Existen dos formas bsicas de desarrollar esta tarea:

Acumulacin Simple. La acumulacin simple es, sin duda, la ms sencilla y comn, y consiste en
realizar una sumarizacin o resumen de todas las transacciones comprendidas en el perodo de
tiempo seleccionado y transportar el resultado como una nica transaccin hacia el DW.

Rolling. El proceso de Rolling por su parte, se aplica en los casos en que se opta por mantener
varios niveles de granularidad. Para ello se almacena informacin resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo.

Diseo de un Almacn de Datos

Para construir un Data Warehouse se necesitan herramientas para ayudar a la migracin y a la


transformacin de los datos hacia la bodega de datos. Ya construido, se requieren medios para
manejar grandes volmenes de informacin. Dependiendo de la estructura interna de los datos de
la Bodega y especialmente del tipo de consultas a realizar, se disea la arquitectura de la Bodega
de datos.

Con este criterio los datos deben ser repartidos entre numerosos Data Marts. Para abordar un
proyecto de Data Warehouse (Bodega de Datos) es necesario hacer el levantamiento de algunos
temas generales de la Organizacin:

Ambiente Actual: Cualquier solucin propuesta de Data Warehouse debe estar muy orientada por
las necesidades del negocio y debe ser compatible con la arquitectura tcnica existente y planeada
de la compaa.

Ambiente de Negocios: Es indispensable tener el conocimiento exacto sobre el tipo de negocios de


la Organizacin y el soporte que representa la informacin dentro de todo su proceso de toma de
decisiones.

Ambiente Tcnico : Se debe incluir tanto el aspecto de ambiente hardware: mainframes,


servidores, redes, as como aplicaciones y herramientas. Se dar nfasis a los Sistemas de Soporte
en la Decisin, si existen en la actualidad, cmo operan, etc.

Expectativas de los usuarios. : Un proyecto de Bodega de Datos no es un proyecto tecnolgico, es


una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los
usuarios y su convencimiento sobre su bondad.

Etapas de Desarrollo : Con el conocimiento previo, ya se entra en el desarrollo de una estrategia


conceptual para la construccin de un DW.
Ambiente de Negocios : Es indispensable tener el conocimiento exacto sobre el tipo de negocios
de la organizacin y el soporte que representa la informacin dentro de todo su proceso de toma
de decisiones.

Prototipo : Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto
que ser entregado a los usuarios.

Piloto : El piloto de la Bodega de Datos, simplemente es el primero de muchos esfuerzos iterativos


que se harn para llegar a la construccin de una Bodega de Datos.

Prueba del concepto tecnolgico : Es un paso opcional que se puede necesitar para determinar si
la arquitectura especificada del DW funcionar finalmente como se espera.

Anda mungkin juga menyukai