Anda di halaman 1dari 14

DOCUMENTO UNIVERSIDAD NACIONAL DE COLOMBIA Conceptos bsicos de Bodega de datos (DWH) Definicin.

Un data warehouse es un conjunto de datos integrados orientados a una materia, que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administracin. (W.H. Inmon, considerado como el padre del data warehouse) [Har96]. Data warehouse es un concepto relativamente nuevo, orientado al manejo de grandes volmenes de datos, provenientes de diversas fuentes, de muy diversos tipos. Estos datos cubren largos perodos de tiempo, lo que trae consigo que se tengan diferentes esquemas de las bases de datos fuentes. La concentracin de esta informacin esta orientada a su anlisis para apoyar la toma de decisiones oportunas y fundamentadas. Su nombre, Data warehouse (bodega o almacn de datos) lo asocia con una coleccin de datos de gran volumen, provenientes de sistemas en operacin y otras fuentes, despus de aplicarles los procesos de anlisis, seleccin y transferencia de datos seleccionados. Su misin consiste en, a partir de estos datos y apoyado en herramientas sofisticadas de anlisis, obtener informacin til para el soporte a la toma de decisiones. El Data warehousing o almacenamiento de datos es el proceso de reunir informacin histrica de una organizacin en una(s) base(s) de datos central(es). Los datos tendrn su fuente en los sistemas operacionales, de los cuales se seleccionara la informacin a transferir. Estos datos pueden estar almacenados en bases de datos relacionales, archivos jerrquicos, archivos planos, etc. Por lo anterior es necesario analizar y definir cuidadosamente que datos representan la esencia o filosofa del negocio que se pretenda manejar y cuales sern importantes para la meta que se le ha determinado a la bodega de datos. La informacin sobre los datos importados se almacena en metadatos, que son precisamente los que describen a los datos provenientes de los sistemas operacionales. Los metadatos guardan informacin sobre los formatos, significado y origen de los datos y facilitan, por lo tanto, el acceso, la navegacin y la administracin de los datos en la bodega. Son datos sobre los datos. Data warehouse es la combinacin de tecnologa y proceso orientada al apoyo a la toma de decisiones, donde interesa mas la historia que el detalle de lo actual. Fuente de Datos: Datos operativos actualizados por aplicaciones OLTP (On Line Processing Transaction. Procesamiento de transacciones en lnea.). Estn almacenados en las bases de datos operacionales. Administrador de duplicacin de datos: Encargado del copiado y distribucin de los datos de acuerdo con el diseo. Se determinan los datos a copiar, desde donde y hacia donde, periodos para las actualizaciones. Se determina si se realiza una regeneracin

(copia de la fuente de datos en su totalidad) o una actualizacin (solo se propagan los cambios). Bases de Datos Integrados: Organizados a travs de intereses concretos. Informacin histrica reflejando transacciones OLTP, acumulada por aos o en general por periodos largos. Esto lo diferencia de otras bases de datos. Generalmente son bases de datos relacionales. Se puede decir que es el servidor de apoyo de decisiones que aade valor a los datos procedentes de las fuentes en produccin. tienen informacin detallada y agregada. El tamao de estas bases de datos es muy grande, se suelen clasificar en: Pequeas: 0-100 GBytes Medianas: 100-500 GBytes Grandes: mas 500 GBytes Incluye Metadatos. Los metadatos llevan registros de los datos almacenados, integrados en la misma base de datos. Describen el contenido de la base de datos de informacin. Describen las tablas, ndices y el contenido de los datos. Los metadatos definen los formatos, significado y origen de los datos y facilitan el acceso y administracin a los datos en la bodega. Directorio de Informacin: Presenta al sistema qu datos estn disponibles, en qu formato y cmo acceder a ellos. Construye sus metadatos a partir de los metadatos de las bases de datos que estn en la red. Son vital ayuda para los Administradores de Bases de Datos DBA. Soporte de herramientas DSS. Proveen la interfaz humana con la bodega de datos. En el procesamiento de la informacin se pasa de simples consultas SQL a OLAP y de esta a Minera de Datos. Los elementos tocados, dan a entender que un Data Warehouse difiere de las bases de datos que soportan las transacciones diarias en los negocios. Veamos algunos aspectos: En los sistemas operativos la informacin est organizada para que sea recuperada y actualizada fcilmente. Se normaliza para estos fines. Dicha organizacin esta orientada a la aplicacin. Un data warehouse esta organizado y orientado con vista al usuario final, buscando que el anlisis a travs de requerimientos empresariales correcto sea posible. Las bases de datos OLPT son accesadas continuamente a lo largo de una jornada de trabajo, mientras que las bases de datos de apoyo de decisiones son accesadas espordicamente. Los datos almacenados en la bodega de datos comprenden largos perodos de tiempo. Durante este lapso en la empresa se han presentado cambios tecnolgicos y de implementacin de las fuentes de datos, es usual que se

requiera condensar informacin desde diferentes productos de bases de datos y dentro de estas, diferentes esquemas que se han dado en el tiempo. Consistente con lo anterior es claro que los volmenes de datos que se administran en una bodega de datos son muy grandes. Por lo cual la condensacin y agregacin es necesaria. En un Data Warehouse se encuentra informacin con diferentes grados de granularidad. 1. Poblacin Adquisicin. Disear procedimientos para: Cargue inicial. Primera extraccin desde los sistemas en operacin hacia la bodega de datos. Actualizaciones. Los datos debern ser extrados peridicamente, en un proceso cclico. Este periodo puede ser cada semana, mes, etc., de acuerdo a la situacin concreta del negocio. Actualizaciones muy constantes, normalmente no benefician el anlisis de datos, puesto que rara vez cambian las tendencias o comparaciones. Algunos puntos a tener en cuenta. Conviene hacer la extraccin a un archivo, esto facilita: Reiniciar en distintos puntos. Se puede repetir el cargue Tambin facilita un preproceso antes de enviar por la red Los cargues deben ser masivos Aprovechar los utilitarios de las bases de datos. No usar INSERT, por su ineficiencia Generalmente es conveniente eliminar los ndices y volverlos a crear. Para los refrescos. Deteccin y propagacin de cambios. Datos Cooperativos: Triggers y aplicaciones asincrnicas. Manejo de bitcoras de cambios. Comparaciones de versiones (Ej. diff en Unix), para deteccin. 2. Almacenamiento Estrategias para lograr eficiencia. Mantener agregados. Especial cuidado con las actualizaciones de datos, deben generar la actualizacin de los datos sumarios. Indices : Bitmap, join index, etc.

3.Uso de herramientas OLAP o de Minera de Datos. Se debe recordar que no es suficiente con almacenar datos, es necesario procesarlos para convertirlos en informacin importante para la organizacin. Los sistemas de apoyo a las decisiones (DSS), conectan a las personas con las bodegas de datos. De la calidad de estas herramientas depende el grado de aprovechamiento de estas. Pueden ser: Herramientas de consultas/reportes, con interfaz grfica, que facilitan, sin usar sentencias SQL, realizar queries o peticiones complejas. Herramientas OLAP (On-Line Analytical Processing). Permiten obtener informacin generando consultas multidimensionales, con columnas y filas mviles y diversos grados de agrupamiento, para diferentes parmetros. Modelo Multidimensional: Modelo estilo hoja de clculo. a. Elementos: Medidas: Valores de inters Dimensiones: Atributos: Propiedades Visin de Cubos: Datos representados en forma de arreglos multidimensionales.

b. Visin de Relaciones : Tablas de hechos (Fact Table): Ej., ventas. Tablas de dimensiones: Ejemplo, tiempo, producto, geografa.

Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. Es usual desnormalizar las tablas. La normalizacin genera un efecto denominado copos de nieve, es preferible usar el mtodo de la estrella, donde las relaciones son mas claras. La actualizacin se hace por periodos, no en lnea.

Tipos de servidores OLAP. MOLAP: Multimensionales OLAP. Arreglos multidimensionales. No escalan a grandes volmenes. No hay estndar. Muy eficiente.

Realmente guarda el cubo de decisin. Interfaz estilo hoja de clculo. Principalmente operaciones de agregacin de medidas diferentes. Niveles jerrquicos de las dimensiones. Subir o bajar en los niveles de agregacin (Roll-up, Drill-Down). Otras operaciones comunes: Filtrar y rotar. Slice and Dice. La herramienta RAD de Inprise, Delphi, permite la construccin de cubos de decisin a partir de consultas SQL, con varios parmetros de agrupacin y fcil manipulacin. Ver figura siguiente. ROLAP: Relational OLAP. Relaciones. Consultas SQL Escalan bien a grandes volmenes Son menos eficientes.

HOLAP: Hbrido OLAP. Datos agregados. MOLAP Datos detallados. ROLAP

En data mining las bsquedas se hacen sobre datos dispersos, con poca o ninguna intervencin del usuario. No se requiere formular un requerimiento estricto para que la herramienta entregue algunas relaciones ocultas y patrones interesantes, conseguidos a travs de clasificacin y prediccin. Algunas aplicaciones de estas tcnicas estn directamente relacionadas con el mercadeo de producto, pudiendo predecir el comportamiento de los clientes ante una oferta o un producto en particular, de acuerdo a su ubicacin geogrfica. Tambin para conocer las preferencias de los consumidores y tomar medidas que los acerquen a los productos que se distribuyen. Buscando Patrones El proceso de buscar patrones significativos en los datos, que expliquen eventos pasados, con el objetivo de usar dichos patrones para ayudar a predecir eventos futuros. Puede ser: Descriptiva. Informacin. Anlisis dimensional.

Predictiva. Generar modelos. Esto realmente es minera de datos. Partir de un cmulo de datos y descubrir relaciones ocultas y complejas a partir de diversas operaciones. Ejemplos de esto son: El anlisis de transacciones de tarjetas de crdito para encontrar patrones de fraudes. Bsqueda de tendencias de los compradores de acuerdo a sexo, edad, ubicacin, etc. Tareas de minera de datos Clustering. Agrupamiento-segmentacin. Particionar un conjunto heterogneo en subconjuntos mas homogneos. Internamente el sistema define estas caractersticas. Clasificacin. Asignar un registro a una o varias posibles clases predefinidas. Agrupamiento por afinidad. Anlisis de correlaciones. Identifica eventos o transacciones que ocurran simultneamente. Ejemplo de compra los das jueves en la noche de paales y cervezas en mercado. Estimacin /prediccin. Asignar un valor a una variable dependiente que toma valores numricos continuos. Esto lo diferencia de la clasificacin. Ejemplo Un ejemplo tradicional de minera de datos es el relacionado con una bsqueda en una bodega de datos, de un negocio de cadena, de hechos comunes y relevantes: Luego del proceso se dio como resultado la siguiente: Esto sirvi para que empresa tomara medidas relacionada con la ubicacin de ciertos productos en sitios comunes. Si edad < 35; y sexo = masculino; y dia = jueves entonces compras incluyen paales; y cerveza Tcnicas de Minera de Datos. Redes Neuronales.

Clasificacin Estimacin Clustering Arboles de decisin

Tcnicas de Algoritmos genticos Optimizacin de funciones, se usan con redes neuronales. Anlisis de Correlaciones K-Vecinos.

Demos un vistazo a algunas de ellas Redes Neuronales artificiales (RNA). Como su nombre lo indica simula el sistema nervioso real en forma abstracta. Estas deben ser entrenadas para que den solucin a los problemas. Esta enseanza se realiza repitiendo sistemticamente entradas clsicas, con sus respectivas salidas o respuestas. Son usadas para reconocimiento de patrones, clasificaciones de voz e imagen, procesamiento de lenguaje natural, prediccin y optimizacin. Reglas de Produccin. Generalmente son transformaciones de rboles de decisin que han crecido mucho, llevndolos al plano proposicional, lo cual facilita el entendimiento. Todas estas tcnicas pueden ser mezcladas para obtener los resultados esperados. K-Vecinos. Usa razonamiento basado en memoria (MBR) para las predicciones. Identifica los vecinos ms cercanos (valores similares para igual atributo) y observa como se comporta la variable de salida. Parte de un conjunto de datos modelo, que representa el mecanismo de clasificacin, se determina la cantidad de vecinos que participan en la clasificacin (K). Es permitido ponderar atributos para expresar su importancia en la tcnica. Arboles de decisin (AD). Representan reglas donde atributos independientes determinan los valores finales. En estos rboles cada nodo representa una propiedad que puede tomar diversos valores, cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones finales. Usadas donde se deben tomar decisiones a partir de varias alternativas combinadas y con pesos diferentes. Son tiles en problemas de alta dimensionalidad y pequeo numero de valores para cada atributo. Se usan, por enumerar unos, en dominios mdicos y en simulaciones de juegos de ajedrez. Inconvenientes En estas tareas de minera de datos, se encuentran inconvenientes inherentes a las bodegas de datos:

Grandes volumen de informacin y altamente dimensionales, lo que dificulta el hallazgo de patrones. Valores inconsistentes o no existentes en algunos atributos importantes. Estas situaciones deberan haberse corregido en la fase de poblacin y actualizacin, pero en caso de presentarse se debe tener una poltica para su manejo. La representacin de los resultados no siempre es comprensible para todos los usuarios. Valor estadstico de los patrones hallados. Productos para minera de datos Hoy existen una buena cantidad de productos, de diversos fabricantes, para minera de datos, varios de ellos impulsados por universidades reconocidas [Esc96]. Por enumerar algunos, Intelligent Miner (IBM), KDD Project (GTE laboratories), Datamind (Datamind Inc), Saxon (PMSI). Algunos se pueden conseguir en sitios Internet, para las diferentes plataformas: Data Surveyor (www.ddi.nl), IDIS (http://datamine.inter.net/datamine), VisDB (http://www.informatik.uni-halle.de/dbs/Research/VisDB). Este ltimo producto tiene una versin para sistema operativo Linux. El VisDB se ha desarrollado para apoyar la exploracin de bancos de datos grandes. Los instrumentos de VisDB implementan severas tcnicas visuales, permitiendo trabajar con bodegas de datos de aproximadamente un milln de valores de datos. Las tcnicas apoyadas por el sistema son: Tcnicas orientadas a pixel (espirales, Ejes y Tcnicas de Agrupacin), Coordenadas Paralelas y figuras de madera. Estos productos, en forma integrada o separada se basan en: Redes neuronales, algoritmos genticos, rboles de decisin, algoritmos estadsticos, funciones de visualizacin grfica, tcnica de K-vecinos, reglas de produccin. Algunos pasos deben seguirse para lograr provechosos resultados Qu se espera?. Qu se quiere descubrir? Conjuntos de datos que se analizaran. Pre-procesamiento. Buscan desechar los valores con desviaciones muy altas, generados por ausencia o datos incorrectos. Limpieza. A partir de un previo conocimiento obtenido en los pasos anteriores se determinan las variables y registros que realmente representaran importancia. Elegir la funcin de la minera y sus algoritmos.

Tareas en la Implementacin de Data Warehouse. Enfrentar un proyecto de data warehouse implica apoyarse en diferentes tcnicas [Har96]: Tcnicas Administrativas. La informacin del data warehouse es propia para cada empresa, esta estrechamente ligada con el negocio que se esta sistematizando, por lo tanto el diseo e implementacin deben apoyar la solucin a las necesidades planteadas. Se debe partir de los requerimientos funcionales de informacin, que generen una ventaja competitiva para la empresa y faciliten la toma de decisiones por parte de la administracin. Como plantean Gill y Rao "Con frecuencia, el reto reside en transformar los enunciados estratgicos generales de la empresa en indagaciones empresariales precisas y despus convertirlos en solicitudes y reportes del data warehouse". Tcnicas de almacenamiento y extraccin de datos. Recordemos que varios son los procesos asociados con esta tecnologa: Poblacin inicial y actualizaciones, almacenamiento y anlisis de datos. Como se explic en el artculo anterior, en ocasiones los datos que poblarn la bodega de datos provienen de diferentes orgenes. Se requiere definir una estructura y esquema eficientes. Adems, consolidar esos datos implica conocer y manejar diferentes sistemas, diferentes motores de bases de datos y eventualmente varios lenguajes de programacin, que permitan la extraccin desde las fuentes. Las extracciones iniciales implicaran generalmente una conversin de tipo de datos y el manejo de datos ausentes o inconsistentes, que garantice la integridad. Las actualizaciones implican la extraccin de datos desde sistemas en operacin, que se harn peridica y cclicamente. Se requiere, de acuerdo al conocimiento de la situacin en particular, definir si se har semanal, mensualmente o en otro perodo establecido. Actualizaciones muy constantes normalmente no benefician el anlisis de datos, puesto que rara vez cambian las tendencias y/o comparaciones. Se recomienda, en caso de extracciones voluminosas, hacerlo hacia un archivo, esto facilita el reinicio desde distintos puntos, repetir el cargue y preprocesar antes de enviar a la red. Los cargues deben ser masivos, aprovechando los utilitarios de las bases de datos o las rutinas desarrolladas para esto y no una simple instruccin insert, que generalmente es ineficiente. Es usual y conveniente eliminar ndices en este proceso y posteriormente volverlos a crear. En el caso de los refrescos es preferible manejar la deteccin y propagacin de cambios. Eventualmente usar triggers (disparadores. Son acciones especiales definidas por el usuario que son automticamente ejecutadas por el servidor de bases de datos a partir de eventos sucedidos: insert, update, delete) o aplicaciones propias. Tambin es permitido la comparacin de versiones, que algunos sistemas operativos apoyan a travs de breves comandos.

En el almacenamiento se debe usar estrategias para lograr eficiencia. En las bodegas de datos es posible manejar diversos niveles de granularidad. A menor granularidad, mayor cantidad de detalle. Para aumentar la granularidad, los datos operacionales deben resumirse y acumularse. Entre mayor sea la granularidad mas procesamiento se tendr para convertir y resumir los datos desde las fuentes pero, al mismo tiempo, menor ser el volumen de almacenamiento y mayor la facilidad de las consultas. Como se nota algunos datos se pueden almacenar como agregados, eso implica un especial cuidado al momento de los refrescos, para que estos datos sumarios tambin sean actualizados. Otro elemento importante son las dimensiones de categorizacin. Un especial inters al momento del anlisis es el tiempo, que permite determinar tendencias e informacin por perodos. Tambin estas son dimensiones que se usan: grupos de clientes, lneas de productos, ubicacin geogrfica, grupo industrial, rea en la organizacin, estrato social y las especficas del negocio a modelar. No obstante lo dicho hasta ahora, existen varios enfoques de la arquitectura del data warehouse y en algn caso podra optarse por no generar copias de los datos de las aplicaciones en produccin sino utilizar los datos operacionales usando aplicaciones que los consulten directamente. Tcnicas de administracin del programa y anlisis de datos. Como se dijo anteriormente, no es suficiente con almacenar un volumen alto de datos. Data warehousing implica la gestin de los mismos para convertirse en vital herramienta de soporte a las decisiones, derivar conclusiones a partir de la historia. Esto incluye el descubrimiento de patrones y tendencias, que puedan ser extrapoladas e intentar predecir comportamientos futuros. Estas tcnicas se basan en las matemticas, estadsticas, en la psicologa, algoritmos genticos, redes neuronales e incluso en la experiencia. Partiendo de datos almacenados es posible obtener consultas sencillas, descriptivas, de datos independientes. Tambin se pueden obtener reportes que manejen varias dimensiones y permitan crecer o bajar en la granularidad, dando una visin de los diferentes valores combinados cuando se requiera. Pero, como se plante en el prrafo anterior podemos ser ms exigentes y a partir de software especializado, optar por la prediccin. Seleccin de Arquitectura de Data Warehouse Otro elemento que reviste importancia al momento de implementar una bodega de datos, es la seleccin de la arquitectura. La arquitectura enfoca el proyecto como componentes (Fuente de datos, bodega de datos, datamart y el acceso y uso). El diagrama siguiente explica como se organizan estos elementos. Este es un caso particular propuesto por la firma Oracle. Otros proveedores ofrecen diferentes modelos. Enfoques

Varios enfoques son elegibles [ORF97]: Consultas desde un esquema virtual hacia los datos operacionales. Normalmente una bodega de datos se asocia con un almacn donde se hacen copias de datos de aplicaciones en produccin y de carcter histrico. En esta arquitectura se elimina la copia y actualizacin y se usan los datos de las bases de datos operacionales, a partir del metamodelo del data warehouse, los cuales se accesarn al momento de la consulta. Almacenamiento propio a partir de varias fuentes. Bodega de datos empresarial, no necesariamente centralizada. Se apoya en la normal necesidad de preprocesar los datos desde las fuentes en operacin y aboga por realizar esta tarea una vez y almacenarlos en bases propias, que sern actualizadas peridicamente. A partir de estas se aplican las herramientas de anlisis. Esta estrategia asegura la consistencia, pero es complejo de crear. Datamarts o mercado de datos nicamente. Plantea y reconoce las particularidades de cada rea o departamento de una organizacin y la imposibilidad de ser satisfechos sus requerimientos por un solo data warehouse. El concepto de datamarts es una analoga a tiendas de vecindario que sirven a la poblacin del sector, en lugar de un gran supermercado que abastece toda la ciudad. Los Datamarts son sub-bodegas, organizadas por temas a nivel de departamentos. Esta arquitectura solo usa datamart. Datawarehouse y mercado de datos. Es una combinacin de las dos anteriores. El data warehouse corporativo es un recopilador y distribuidor de la informacin sin desconocer las particularidades especificas de cada rea. Esta estrategia permite posibles inconsistencias en los datos. Cliente Servidor en dos capas. Solo existen servidores de datos y clientes que los usan. En el servidor (o servidores) residen las fuentes de datos, el data warehouse y los datamarts. En los clientes, se ejecutan las herramientas de acceso del usuario fina; stas pueden ser, y son generalmente, aplicaciones grficas. Cliente Servidor en tres capas Las tareas se dividen en tres niveles.

Un servidor de datos, que contiene las fuentes de los datos. Un servidor de aplicaciones, que contienen los datos de la bodega de datos y manejan el software de data warehouse y datamarts. La porcin cliente, que manejan las aplicaciones de consulta y reporte.

Construccin del Data Warehouse. El ciclo del desarrollo del data warehouse no difiere en mucho de las fases de perfeccionamiento de todos los desarrollos de software. Las fases y las secuencias son las mismas, pero existen variantes nicas asociadas al data warehouse. Comprende:

Planeacin En esta fase se determina: El enfoque que se optar para la implementacin: Top-Down (De Arriba abajo), Bottom-up (De abajo a arriba) o una combinacin de estos. La metodologa de desarrollo: Las ms usuales son el mtodo de anlisis y diseo estructurado y el mtodo del desarrollo en espiral. El alcance inicial de proyecto. Seleccin del enfoque arquitectnico. Programa y presupuesto. Definir las expectativas del usuario final. Recopilacin de metadatos.

Requerimientos Especificacin clara y precisa de las funciones que se esperan obtener del data warehouse. Estos deben definirse desde varias perspectivas: propietario, arquitecto/desarrollador del data warehouse y desde la visin del usuario. Se definen las reas tema que apoyar la bodega de datos, el nivel de detalle de la informacin requerida (nivel de granularidad), las dimensiones de categorizacin (tiempo, geografa, industria, grupo de clientes, lnea de producto, etc.).

Anlisis Consiste en convertir todos los requerimientos conseguidos en la fase anterior en especificaciones concretas que sirvan de base para el diseo. Se definen los modelos lgicos de los datos para el data warehouse, los mercados de datos, definir los procedimientos de conexin con las fuentes de datos y el data warehouse y las herramientas de acceso del usuario final.

Diseo Los modelos lgicos conseguidos en la anterior fase se convierten en modelos fsicos. Se generan los diseos para programas y procesos que se requieren segn la arquitectura, tanto a nivel de los datos como de aplicacin. Construccin. Se conoce tambin como diseo fsico y consiste en plasmar en la prctica, los diseos lgicos de la fase anterior. Incluye la construccin de programas que creen y modifiquen las bases de datos, que extraigan datos de las fuentes, programas para transformacin de datos tales como

integracin, resumen y adicin, programas para la actualizacin de los datos, programas para bsquedas en bases de datos muy grandes. Montaje Relacionados con la instalacin, puesta en marcha y uso del data warehouse. Un elemento importante consiste en concientizar a los usuarios sobre la disponibilidad, beneficios y presentacin de data warehouse, esto se conoce como comercializacin de la informacin.

Retos en la Implementacin Como se aprecia, enfrentar un proyecto de data warehouse exige el conocimiento de la empresa, capacidades administrativas y fortalezas tcnicas. Estos proyectos deben ser asumidos por equipos de trabajo multidisciplinarios, que logren que las ventajas potenciales se lleven a la prctica. Estos son algunas de las tareas que deben ser sorteadas por este equipo: 1. La integracin de datos y metadatos de diferentes fuentes y pocas. Esto conlleva la necesidad de generar datos a almacenar en forma consistente partiendo de datos smiles, sin perder informacin importante. 2. Limpieza, filtrado y refinacin de los datos. Para el proceso de anlisis de los datos es problemtico la ausencia de valores de atributos y la existencia de valores ilgicos o inconsistentes. 3. En los sistemas de procesamiento en lnea (OLTP) el detalle de las operaciones son muy importantes mientras que en data warehouse se busca almacenar datos en forma condensada y agrupada. 4. Siendo la bodega de datos el resultado de la importacin de datos de diferentes fuentes, las cuales son dinmicas, cambian con el tiempo, se requiere generar mecanismos que garanticen la sincronizacin y aseguren la actualizacin a partir de los cambios en las fuentes. 5. Para una correcta operacin de la bodega de datos es necesario tener correcta informacin sobre los datos que se tienen almacenados, la administracin de metadatos toma importancia.

Conclusiones. Se estn convirtiendo en las bases de datos de la inteligencia de un negocio, generando y apoyando elementos de competitividad. Se debe usar en organizaciones donde se tomen

decisiones basadas en la informacin. Data warehouse no es un producto, envuelve muchas tecnologas y herramientas. Se quiere dejar en el ambiente una reflexin: Las necesidades de informacin en las diferentes actividades y en los diferentes niveles de direccin en la organizacin son tambin diferentes. No siempre la informacin al instante, en tiempo real es la requerida. No siempre el detalle es necesario. A pesar de que nos hemos referido a una tecnologa especial, con mtodos de implementacin y herramientas especializadas, la filosofa del manejo de la informacin, en sistemas de menor escala puede dejar grandes enseanzas y rutas para integrar y procesar datos desde diferentes orgenes.

Anda mungkin juga menyukai