Anda di halaman 1dari 7

DATA WAREHOUSE

DOCENTE: Ing. Manuel Perez Alumnos: * * * * Cachay Daz, Aldo Daz Daz, Carmen Salazar Incio, Yerak Terrones Tern, Magaly

Carrera Profesional: Administracin y Negocios Internacionales Ciclo: IX

Cajamarca, Julio del 2012

DATA MINING

ALMACEN DE DATOS Es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sea necesario. DEFINICIONES En trminos de las caractersticas del repositorio de datos: Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s. Definicin de Bill Inmon Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas. Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes. Definicin de Ralph Kimball Define un almacn de datos como: "una copia de las transacciones de datos especficamente estructurada para la consulta y el anlisis". Las definiciones anteriores se centran en los datos en s mismos. Sin embargo, los medios para obtener y analizar esos datos, para extraerlos, transformarlos y cargarlos, as como las diferentes formas para realizar la gestin de datos son componentes esenciales de un almacn de datos. Muchas referencias a un almacn de datos utilizan esta definicin ms amplia. Por lo tanto, en esta definicin se incluyen herramientas para la inteligencia empresarial, herramientas para extraer, transformar y cargar datos en el almacn de datos, y herramientas para gestionar y recuperar los metadatos.

Definicin ms amplia de almacn de datos

Funcin de un almacn de datos

ADMINISTRACION Y NEGOCIOS INTERNACIONALES

DATA MINING

En un almacn de datos lo que se quiere es contener datos que son necesarios o tiles para una organizacin, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en informacin til para el usuario. Un almacn de datos debe entregar la informacin correcta a la gente indicada en el momento ptimo y en el formato adecuado. El almacn de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de informacin ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fcilmente consultas sobre sus almacenes de datos sin tocar o afectar la operacin del sistema. Data Marts Los Data Marts son subconjuntos de datos de un warehouse para reas especficas. Entre las caractersticas de una data mart destacan:

Usuarios limitados. rea especifica. Tiene un propsito especfico. Tiene una funcin de apoyo.

Cubos de informacin En los cubos de informacin de un almacn de datos se trata de organizar los datos por tablas o relaciones, los cubos de informacin tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. A la informacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un almacn de datos, ste es una coleccin de datos que est formada por dimensiones y variables. Dimensiones Aquellos elementos que participan en el anlisis. Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos.

Variables Valores que se desean analizar. Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar.

ADMINISTRACION Y NEGOCIOS INTERNACIONALES

DATA MINING

Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. Elementos que integran un almacn de datos Metadatos Se define comnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cul es la estructura de los datos que se van a almacenar y cmo se relacionan. El metadato documenta, entre otras cosas, qu tablas existen en una base de datos, qu columnas posee cada una de las tablas y qu tipo de datos se pueden almacenar. Los datos son de inters para el usuario final, el metadato es de inters para los programas que tienen que manejar estos datos. En el mbito de los warehouse el metadato juega un papel fundamental, su funcin consiste en recoger todas las definiciones de la organizacin y el concepto de los datos en el warehouse, debe contener toda la informacin concerniente a:

Tablas Columnas de tablas Relaciones entre tablas Jerarquas y Dimensiones de datos Entidades y Relaciones Funciones ETL (extraccin, transformacin y carga)

Los procesos de extraccin, transformacin y carga; son importantes ya que son la forma en que los datos se guardan en un almacn de datos (o en cualquier base de datos). Implican algunas operaciones: Extraccin: Es obtener la informacin deseada a partir de los datos almacenados en fuentes externas. Transformacin: Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos. Carga: Consiste en almacenar los datos en la base de datos final. Middleware Trmino genrico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas.

La funcin del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacn de datos. Diseo de un almacn de datos Para construir un Data Warehouse se necesitan herramientas para ayudar a la migracin y a la transformacin de los datos hacia el almacn. Una vez construido, se requieren medios para

ADMINISTRACION Y NEGOCIOS INTERNACIONALES

DATA MINING

manejar grandes volmenes de informacin. Se disea su arquitectura dependiendo de la estructura interna de los datos del almacn y especialmente del tipo de consultas a realizar. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organizacin o empresa, los cuales se describen a continuacin: Situacin actual de partida: Cualquier solucin propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura tcnica existente y planeada de la compaa. Tipo y caractersticas del negocio: Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organizacin y el soporte que representa la informacin dentro de todo su proceso de toma de decisiones. Entorno tcnico: Se debe incluir tanto el aspecto del hardware (servidores, redes, etc...) as como aplicaciones y herramientas. Expectativas de los usuarios: Un proyecto de data warehouse no es nicamente un proyecto tecnolgico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad. Etapas de desarrollo: Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construccin del data warehouse. Prototipo: Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que ser entregado a los usuarios. Piloto: El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harn para llegar a la construccin del producto final deseado. Prueba del concepto tecnolgico: Es un paso opcional que se puede necesitar para determinar si el warehouse funcionar como se espera. Ventajas e inconvenientes de los almacenes de datos a) Ventajas Hay muchas ventajas por las que es recomendable usar un almacn de datos. Algunas de ellas son: Los almacenes de datos hacen ms fcil el acceso a una gran variedad de datos a los usuarios finales Fcil funcionamiento de las aplicaciones de los sistemas de apoyo a la decisin tales como informes de tendencia o Por ejemplo: obtener los tems con la mayora de las ventas en un rea en particular dentro de los ltimos dos aos. informes de excepcin, informes que muestran los resultados reales frente a los objetivos planteados a priori. Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestin de relaciones con clientes. b) Inconvenientes Utilizar almacenes de datos nos provoca inconvenientes que son: A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacn de datos no suele ser esttico. Los costos de mantenimiento son elevados.

ADMINISTRACION Y NEGOCIOS INTERNACIONALES

DATA MINING

Los almacenes de datos se pueden quedar obsoletos relativamente pronto. A veces, ante una peticin de informacin estos devuelven una informacin subptima, que tambin supone una prdida para la organizacin. A menudo existe una delgada lnea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qu funcionalidades de estos se pueden aprovechar y cules se deben implementar en el data warehouse, resultara costoso implementar operaciones no necesarias o dejar de implementar alguna que s vaya a necesitarse. MOLAP Se trata de una alternativa a la tecnologa ROLAP (OLAP-Relacional). Aunque ambos tipos de herramientas estn diseadas para realizar anlisis de datos a travs de un modelo de datos multidimensional, MOLAP se diferencia significativamente en que requiere un preprocesamiento y almacenamiento de la informacin contenida en el cubo OLAP. MOLAP almacena estos datos en una matriz de almacenamiento multidimensional optimizada, ms que en una base de datos relacional (o en un ROLAP). Ventajas de MOLAP Consulta rpidas debido a la optimizacin del rendimiento de almacenamiento, la indexacin multidimensional y la memoria cach. Ocupa menor tamao en disco en comparacin con los datos almacenados en base de datos relacional debido a tcnicas de compresin. Automatizacin del procesamiento de los datos agregados de mayor nivel. Muy compacto para conjuntos de datos de pocas dimensiones. El modelo de almacenamiento en vectores/matrices proporciona una indexacin natural. Eficaz extraccin de datos lograda gracias a la pre-estructuracin de los datos. Desventajas de MOLAP La etapa de procesamiento (carga de datos) puede ser bastante larga, sobre todo para grandes volmenes de datos. Normalmente, esto se puede evitar con un procesamiento incremental, es decir, slo el procesamiento de los datos que han cambiado (por lo general, los nuevos datos) en lugar de volver a procesar de todo el conjunto de datos. Las herramientas MOLAP tradicionalmente tienen dificultades para consultar con modelos con dimensiones muy altas (del orden de millones de miembros). Algunas herramientas MOLAP (por ejemplo, Essbase) tienen dificultades para actualizar y consultar los modelos con ms de diez dimensiones. Este lmite vara en funcin de la complejidad y la cardinalidad de las dimensiones de que se trate. Tambin depende de la cantidad de hechos o medidas almacenados. Otras herramientas MOLAP (por ejemplo, Microsoft Anlisis Services o Applix TM1) puede manejar cientos de dimensiones. El enfoque MOLAP introduce redundancia en los datos. Productos Ejemplos de productos comerciales que utilizan MOLAP son Oracle OLAP, Microsoft Analysis Services, Essbase, icCube Server, Infor OLAP y TM1|Applix TM1. Tambin existe un servidor MOLAP con una versin en cdigo abierto llamado PALO. Tambin se utiliza en Microsoft SQL server en la mayora de sus versiones.

ADMINISTRACION Y NEGOCIOS INTERNACIONALES

DATA MINING

HOLAP HOLAP (Hybrid Online Analytical Process, procesamiento analtico en lnea hbrido) es una combinacin de ROLAP y MOLAP, que son otras posibles implementaciones de OLAP. HOLAP permite almacenar una parte de los datos como en un sistema MOLAP y el resto como en uno ROLAP. El grado de control que el operador de la aplicacin tiene sobre este particionamiento vara de unos productos a otros. ROLAP ROLAP significa Procesamiento Analtico OnLine Relacional, es decir, se trata de sistemas y herramientas OLAP (Procesamiento Analtico OnLine) construidos sobre una base de datos relacional. Es una alternativa a la tecnologa MOLAP (Multidimensional OLAP) que se construye sobre bases de datos multidimensionales. Ambos tipos de herramientas, tanto ROLAP como MOLAP, estn diseadas para realizar anlisis de datos a travs del uso de modelos de datos multidimensionales, aunque en el caso de ROLAP estos modelos no se implementan sobre un sistema multidimensional, sino sobre un sistema relacional clsico.

ADMINISTRACION Y NEGOCIOS INTERNACIONALES

Anda mungkin juga menyukai