Anda di halaman 1dari 8

Gulliver en la tierra de almacenamiento de datos: experiencias prcticas y observaciones de un investigador Resumen La brecha entre investigadores y profesionales es ampliamente discutido

en la comunidad de IT. El propsito de este trabajo es mostrar los temas que ocupan tanto de la investigacin y la prctica, y la medida en que estas cuestiones tienen cualquier superposicin, en el campo del almacenamiento de datos. Para lograr este objetivo presentamos en primer lugar la situacin actual y las tendencias en la investigacin de almacenamiento de datos. A continuacin listamos algunos problemas prcticos, tal como aparecen en la literatura, basadas tambin en nuestra experiencia personal. Por ltimo, tratamos de dar a la relacin de la investigacin y la prctica en un panorama unificado. 1. Introduccin. La brecha entre investigadores y profesionales es ampliamente discutido en la comunidad de IT. La situacin en materia de almacenamiento de datos parece seguir el patrn general, donde los mdicos se quejan de que sus problemas prcticos son pasados por alto por la investigacin y los investigadores estn generalmente satisfechos con la aceptacin de sus ideas en la industria. Vamos a citar algunos resmenes de los resultados del taller DMDW anterior [GJSV99]: Aunque muchas soluciones se han desarrollado para subproblemas interesantes ... la combinacin de estas soluciones parciales y, a menudo muy abstracta y formal de una metodologa de diseo general y la estrategia de almacenamiento todava se dejan a los profesionales ... , ... la influencia de los resultados de la investigacin sobre el flujo comercial de productos de almacn de datos es muy limitada ... , La brecha entre la prctica de almacenamiento de datos y la investigacin se hizo evidente ... . El propsito de este trabajo es mostrar los temas que ocupan la investigacin y la prctica, y la medida en que estas cuestiones tienen cualquier superposicin. El objetivo final es mostrar las posibles nuevas reas de investigacin, basado en problemas prcticos y, al mismo tiempo para dar una idea de cmo la prctica podran beneficiarse de los resultados de investigacin que parecen estar ms bien ignorada. Para ello vamos a dividir el papel en tres partes. La primera parte aparece en la seccin 2, donde se presenta la buena noticia para el almacenamiento de datos y, ms concretamente, el estado actual de la industria de almacenamiento de datos en trminos de beneficio y ventas, as como el estado de la investigacin. Para presentar el estado de la investigacin que hemos enumerado y clasificado los documentos pertinentes para el almacenamiento de datos en tres conferencias de base de datos ms importantes durante los ltimos cinco aos y trat de mostrar las tendencias de la investigacin sobre la base de este estudio. La segunda parte del documento trata los problemas y fracasos durante los proyectos de almacenamiento de datos y aparece en la Seccin 3. La discusin se basa tanto en la literatura (que es sorprendentemente pequeo) y en las experiencias personales del autor. Sobre la base de los problemas que detectan en los prrafos anteriores, entonces procedemos a relacionar el ciclo de vida de almacenamiento de datos con los posibles problemas y soluciones propuestas por la comunidad cientfica. Por ltimo, le damos algunas observaciones finales sobre las razones de la brecha entre las comunidades de investigacin y la prctica. 2. La buena noticia: el dinero y la investigacin. Hay una buena noticia para el campo de almacenamiento de datos: las ventas estn aumentando con tasas elevadas y la investigacin es el logro de un enfoque estndar en el

campo. Resumiremos brevemente la importancia del campo al mencionar las cifras financieras en el inciso 2.1 y dirigirse rpidamente al apartado 2.2, donde se discute el tema principal de esta seccin, que es el estado y las tendencias de la investigacin en almacenamiento de datos. a. El dinero La venta de productos relacionados con el almacenamiento de datos es un negocio de hacer dinero. Como se mencion en un informe de Merrill Lynch a finales de 1998 [ShTy98], la estimacin fue que el mercado de almacenamiento de datos se va a ampliar en los prximos aos. Las cifras son sorprendentemente grande: el mercado de datos se espera que tenga un 40% la tasa de crecimiento compuesto anual (CAGR) y las ventas de RDBMS con fines de almacenamiento de datos un CAGR de 25%, alcanzando unas ventas totales de $ 2.2 mil millones de dlares. El informe OLAP [Pend00] menciona que las ventas han llegado a $ 2.5 mil millones de dlares para las herramientas OLAP (incluidos los servicios de aplicacin) y se espera que crezca un 20% de la tasa en 2000 y una tasa compuesta anual del 19% por un perodo de cinco aos. La figura 1 muestra las ventas estimadas, junto con la tasa compuesta anual de seis categoras de herramientas. RDBMS venta de DW Mercado de datos Herramienta ETL Calidad de los datos Gestion de metadatos OLAP (incluyendo servicios de implementacin )* 1998 900.0 92.4 101.0 48.0 35.0 2000 1999 1110.0 125.0 125.0 55.0 40.0 2500 2000 1390.0 172.0 150.0 64.5 46.0 3000 2001 1750.0 243.0 180.0 76.0 53.0 3600 2002 2200.0 355.0 210.0 90.0 60.0 4000 CAGR (%) 25.0 40.0 20.1 17.0 14.4 18.9

Fig. 1 Las ventas estimadas en millones de dlares [ShTy98] (* Las estimaciones son de [Pend00]).

2.2 La Investigacin La investigacin en el campo del almacenamiento de datos est floreciendo. Sesiones dedicadas al almacenamiento de datos han aparecido en la mayora de las grandes conferencias de la disciplina de gestin de datos. Varios talleres han aparecido [GJSV99, DOLAP] y hay incluso una conferencia dedicada a los datos de los problemas de almacn [DaWaK]. Para obtener una visin general de las tendencias de investigacin en los ltimos cinco aos se han seleccionado tres conferencias de base de datos de prestigio, a saber, PODS, SIGMOD y VLDB y clasificados sus documentos que son relevantes para el rea de almacn de datos. Se incluyeron todos los documentos que se encuentran relevantes para el almacenamiento de datos, a excepcin de los relacionados con la minera de datos (para mantener una separacin clara entre los dos campos). Nos limita a slo tres conferencias, ya que nuestro objetivo es dar una sensacin general de la situacin en el campo de la investigacin, en lugar de realizar un estudio a fondo del tema. Basndose en el contenido de los documentos, se les clasifica a varias categoras, que se muestran en la figura. 3. Por razones de una mejor presentacin y la comprensin, agrupamos estas categoras a grupos ms grandes, a que se refiere como "super-categoras". Por supuesto, varios documentos podran encajar en ms de una categora, aun as ha seguido un enfoque ingenuo y atribuy cada trabajo a una sola categora. Naturalmente, no pretendo ser perfecto: es posible que algunos documentos se puede dejar fuera de nuestro estudio, o clasificado en una categora que no era el ms adecuado. Nos disculpamos de antemano por

cualquier ocurrencia, a pesar de que examin el asunto para evitar este tipo de problemas. Adems, es posible que la contribucin de un papel en una categora, pudiera ir acompaada de resultados en otro "correlacionada" categora. Creemos que los resultados que presentamos no estn lejos de los que podran ser producidos a partir de una clasificacin ms detallada del papel que tomara en consideracin esta cuestin. Sin embargo, no hay ninguna prueba de esta afirmacin y la cuestin sigue abierta (aunque creemos que est fuera del alcance de este documento). Como se puede ver en la figura. 2, el nmero de papeles parece alcanzar la estabilidad. Aunque el inters de la investigacin es ms bien pequeo (tan slo 5 aos de edad) podemos anticipar que la tendencia es mantener un nmero estndar de papeles en las grandes conferencias. La cada en el nmero de trabajos en el ao 1998 podra ser fcilmente justificada debido a la extraa explosin en el nmero de documentos relevantes para la minera de datos durante ese ao en particular. Es muy interesante ver que durante los ltimos cinco aos se han producido 99 documentos relevantes relacionados con el almacenamiento de datos, lo que hace que 20 artculos por ao en promedio. Hemos identificado 22 categoras de los campos de investigacin donde ha sido el inters de los investigadores procedentes. En la secuela, que la lista ms popular de ellos (Fig. 4). - Diseo de almacn de datos: el problema radica en detectar el conjunto de puntos de vista a materializarse en el almacn de datos, a fin de lograr el costo ptimo de funcionamiento (es decir, el costo combinado de consultar y actualizar el contenido del almacn). - Reescritura de la consulta: el problema radica en la reutilizacin de puntos de vista existentes, para volver a escribir una consulta planteada sobre las fuentes. Un nombre alternativo para el problema podra ser "Responder a las consultas que usan los puntos de vista. - Integracin: se trata de una amplia zona que abarca varios temas. El contexto general es que varias fuentes que contienen los datos operativos existen en el entorno del almacn de datos y una interfaz nica debe ser proporcionada con el fin de consultar / actualizar ellos. El problema de la integracin es definitivamente ms grande que el rea de almacenamiento de datos, especialmente con los avances actuales en la tecnologa Web. Tenga en cuenta que en nuestro estudio se excluyeron todos los papeles en materia de integracin que parecan claramente orientado a semi-estructurados o datos de la web.

- Procesamiento de los agregados relacionales: la zona incluye las estructuras y algoritmos para el procesamiento eficaz de las consultas totales. Nos discriminan esta rea de la reescritura de la consulta, en el sentido de que estos documentos se ocupan de los resultados que directamente podran ser implementadas en un DBMS. Tambin se discrimina el rea de los trabajos que involucran el procesamiento de los cubos, que nos pareci ms centrado en bases de datos MOLAP. - Vista de mantenimiento: el problema est en mantener los puntos de vista de almacenamiento de datos de acuerdo con los cambios que ocurren en los datos de origen. El panorama general de la zona se pone de manifiesto en la figura. 5, la clasificacin de los documentos en ms alto nivel super-categoras. La clasificacin se basa en la agrupacin de la figura. 3. Los ms populares sper-categoras hasta ahora ha sido el procesamiento de consultas, Vista tecnolgica, integracin y redundancia. El procesamiento de consultas implica todas las tcnicas para procesar de manera eficiente las solicitudes y responder a las preguntas. Se trata de seis categoras y un 29% por ciento de la investigacin llevada a cabo en los ltimos aos. La vista tecnolgica es tambin una gran categora, se centr en las tcnicas de mantenimiento de las vistas, as como el proceso fsico de datos de almacn de diseo. Integracin, que se ha descrito anteriormente, implica la produccin de una nica interfaz para el procesamiento de datos heterogneos distribuidos, junto con las tcnicas de procesamiento de la consulta para que la causa y resolucin de conflictos a nivel de esquema. La explotacin de la redundancia es un campo en el que los tericos son en su mayora interesados, con la participacin de contencin de consulta y de reescritura. Probablemente el grfico ms interesante es representado en la figura. 6, la agrupacin de los documentos por ao y super-categora. En esta figura podemos ver la evolucin con respecto al paso del tiempo. Uno puede ver caer un inters en los problemas de vista tecnologica, lo cual es bastante normal, ya que la gente se pensaba originalmente de almacenes de datos como colecciones de vistas materializadas. Aunque creemos que esta actitud es todava presente en la comunidad de investigacin, parece que hay un nivel de saturacin en los problemas relacionados con la vista de tecnolgica. Categora Informacin incompleta Integracin de datos Integracin en general Procesamiento de consultas sobre la integracin de los datos Esquema de la integracin Modelado OLAP Almacenamiento en cach Consulta icerberg Procesamiento de consulta agregado Procesamiento de los cubos Procesamiento de consultas en general Top consultas N Contencin de consulta Reescritura de la consulta Agrupacin Indexacin Sper - Categora Informacin incompleta Integracin

Modelado OLAP Procesamiento de consulta

Redundancia de explotacin Administracin de almacenamiento

Almacenamiento de los cubos Almacenamiento en general Deteccin de cambios en las fuentes Diseo de almacn de datos Tamao de estimacin para las vistas Vistas de mantenimiento

Vista tecnolgica

Fig. 3 Agrupacin de las categoras de documentos a las sper categoras.

Al mismo tiempo, el inters en el procesamiento de consultas se eleva continuamente de ao en ao, probablemente debido a la tendencia normal de los investigadores de base de datos hacia este campo.

Hay reas como la informacin incompleta y la administracin de almacenamiento que parecen perder el inters a medida que pasa el tiempo. Redundancia de la explotacin mantiene un inters normal, debido a su audiencia dedicada de los tericos. Integracin y modelado OLAP parecen tener inters, al mismo tiempo. Las razones probables para el primero son debido a las crticas contra la naturaleza materializada de almacenamiento de datos. En cuanto a este ltimo, es posible que la falta de un modelo estndar de OLAP desempea su papel en el creciente inters en esta categora. 3. Los problemas de almacenaje de datos y fracasos Un observador objetivo de enfrentar los hechos de la seccin anterior directamente a la conclusin de que el rea de almacenamiento de datos crece y el potencial de crecimiento es ms que probable. Aunque esto parece ser una descripcin bastante exacta de la situacin, sostenemos que un proyecto de almacenamiento de datos es un gran riesgo y definitivamente esta en peligro de extincin por varios factores. Tenemos la intencin de respaldar esta afirmacin con argumentos concretos basados tanto en nuestra experiencia personal prctica en el campo y la literatura relevante. Categora de Factores Factores de diseo Factores La falta de gestin de metadatos La ingeniera de datos problemticos El diseo del esquema realista Herramientas de cliente se descuidan o dominan el diseo Ningn mtodo de diseo se utiliza Eleccin de los componentes errneos Las reclamaciones de proveedores no han sido probados No hay examen del volumen de consultas, conjuntos de datos y el trfico de red

Factores tcnicos

Factores de procedimiento

Factores socio-tcnicos

Alcance del proyecto inadecuado Mal uso de los proyectos piloto Las comunidades de usuarios no estn involucrados en el diseo No hay ninguna prueba de los requisitos de gestin nuevos La falta de capacitacin de los interesados Los almacenes de datos cruzan las lneas de la organizacin en virtud de tratados La propiedad de los datos y el acceso se reconsider debido a la presencia de un almacn de datos Las prcticas de trabajo de las comunidades de usuarios se ven afectados

Fig. 7 Factores que influyen en el fracaso de los proyectos de almacenamiento de datos [Dema97].

Una muy buena discusin sobre los problemas de los proyectos de almacenamiento de datos se encuentra en [Dema97]. En el documento se menciona el hecho lgico de que nadie realmente habla acerca de los errores de almacenamiento de datos y pasa al grupo de las razones del fracaso de un proyecto de almacenamiento de datos en cuatro categoras el diseo, tcnico, de procedimiento y de los factores socio-tcnicos (Fig. 7). De acuerdo con [ShTy98], el tiempo medio para la construccin de un almacn de datos es de 12 a 36 meses y el coste medio para su ejecucin es de entre $ 1 milln a $ 1,5 millones. Data marts son un gasto menos arriesgado, ya que cuestan cientos de miles de dlares y tardar menos de un ao para poner en prctica. Sin embargo, si un proyecto de esta naturaleza depende de muchos factores para tener xito, entonces las declaraciones de la autocontemplacin en el estado de la tcnica en la gestin de almacenes de datos son ms bien poco realistas. En la segunda parte, vamos a echar un breve vistazo a los factores particulares de la insuficiencia de los proyectos de almacenamiento de datos. En la segunda parte, vamos a echar un breve vistazo a los factores particulares de fallo de los proyectos de almacenamiento de datos. En cuanto a los factores de diseo se refiere, a que existe un dficit evidente en la parte de un "libro de texto" metodologa para el diseo de un almacn de datos. No hay ningn estndar o ampliamente aceptada incluso, tcnicas (1) de gestin de metadatos o lenguajes, tcnicas de ingeniera o las metodologas de diseo de almacenes de datos. Por el contrario, las soluciones propias de los vendedores, o hacer-uno mismo el asesoramiento de los expertos parecen definir el panorama. Si nos fijamos en los trabajos de investigacin pertinentes, el panorama es desalentador: las tres grandes conferencias sobre la gestin de datos no estn realmente preocupados por cuestiones como la gestin de metadatos o metodologas de diseo de almacenes de datos. Existen, sin embargo, las reas pertinentes, tales como la investigacin sobre el diseo del almacn de datos fsico y los problemas de integracin. Sin embargo, una mirada ms cercana revela que las investigaciones parecen identificar los problemas en realidad no cercanos a los prcticos. Por ejemplo, las hiptesis formuladas para el problema de diseo son bastante realistas (el conocimiento de las consultas del usuario, sus tamaos y frecuencias) con respecto a los casos prcticos. Adems, el problema de la integracin es, sin duda orientada hacia una API uniforme a fuentes distribuidas, es decir, a las lenguas y los mecanismos que permiten la consulta de datos. Sin embargo, problemas como la extraccin, transformacin y limpieza que puede tomar hasta un 80% del tiempo invertido en el desarrollo de un almacn de datos [Dema97], parece ser ignorado por la comunidad cientfica.

[ShTy98] informes que la falta de un comn estndar de metadatos (a pesar de la existencia de la norma MDIS al final de 1998) es la fuente bsica de preocupacin para las herramientas de gestin de metadatos.
(1)

Los factores tcnicos tambin ponen de manifiesto la ausencia de investigacin en el enfrentamiento de problemas prcticos. Existen, por supuesto, las normas para la evaluacin de los componentes de software, pero existe un vaco en la evaluacin y eleccin de los componentes de hardware. Como se puede ver en la figura. 8, los costos de hardware de hasta el 60% de un presupuesto de almacenamiento de datos (en disco, procesador y los costes de red). Software critico (DBMS y herramientas de cliente) que se compra (y no se desarroll en el sitio) tarda hasta el 16% del presupuesto. No hay documentos para nuestro conocimiento que tratan con el tema de hardware / software para la seleccin de entornos de almacenamiento de datos. En cuanto a la estimacin de los tamaos de las consultas, conjuntos de datos y el trfico de red, una mirada ms cercana a la apndice se revelan slo una (!) documentos en la estimacin de los tamaos de vista [SDNR96]. El hecho de que el tamao medio de los almacenes de datos se incrementa ao tras ao hace el problema an ms difcil. Ya en 1996 el tamao promedio de los datos de almacn se estima en alrededor de 250 GB. En una explosin de datos de hoy se habla incluso de los almacenes de datos cientficos de 40 TB [SGKT00]. Esto significa que a pesar de la ley de Moore y la cada en el costo de las unidades de almacenamiento, el tamao es todava un problema para el almacenamiento de datos. El aumento del nmero de usuarios aumenta la complejidad del problema. [ShTy98] menciona el caso de un almacn de datos que implica 20.000 usuarios con un incremento anual de 2.000 usuarios al ao. Obviamente, la estimacin del tamao de las vistas materializadas o consultas de los usuarios es de gran importancia, en este contexto.

Anda mungkin juga menyukai