Anda di halaman 1dari 19

Data Warehouse & Olap

Introduccin a la Inteligencia de Negocios

Objetivos:
Revisar los fundamentos de la Inteligencia de Negocios Explicar los conceptos de Data Mart y Data Warehouse.

Mostrar las herramientas disponibles en SQL Server 2005 para la Inteligencia de Negocios. Describir el proceso de la Inteligencia de Negocios.

Temas
1. 2. 3. 4. Introduccin a la Inteligencia de Negocios. Data Marts & Data Warehouses. El proceso de Inteligencia de Negocios. Herramientas de Inteligencia de Negocios en SQL Server 2005.

CIBERTEC

Captulo 1

Data Warehouse & Olap

Introduccin a la Inteligencia de Negocios


La informacin cumple un rol vital en el ciclo de vida de toda organizacin. Todos los das, las organizaciones producen grandes volmenes de informacin, que es utilizada para tomar decisiones de todo tipo. La concepcin tpica entiende por informacin a los datos introducidos en una base de datos relacional, a travs de un aplicativo de software. Evidentemente, esta definicin es insuficiente. El personal de la empresa suele producir y almacenar informacin crtica en mltiples lugares: hojas de Excel, documentos Word, correo electrnico, etc. Por tanto, restringir el anlisis de la informacin de una empresa a la data almacenada en sistemas informatizados limitar la validez de las conclusiones obtenidas. 1.1 Caractersticas Negocios de una solucin de Inteligencia de

Una solucin de Inteligencia de Negocios tiene las siguientes caractersticas: Ubica, extrae, transforma y centraliza datos desde mltiples ubicaciones y formatos. No importa si los datos estn almacenados en sistemas mainframe, bases de datos relacionales, hojas de clculo o archivos de texto. Toda esta informacin ser extrada y almacenada en un repositorio central. Consolida y estandariza la informacin. Por ejemplo, la informacin de un cliente especfico puede encontrarse en varios sistemas de informacin, utilizando un identificador distinto en cada sistema (el RUC en el sistema contable, una clave autogenerada en el sistema CRM, etc.). Esto dificulta la generacin de reportes consolidados. Una solucin de Inteligencia de Negocios consolida la informacin, de manera que se establece una clave nica para cada cliente. Proporciona repositorios centralizados de almacenamiento de la informacin, y herramientas para analizar y explotar dicha informacin. La nocin generalizada de que los usuarios de las soluciones de Inteligencia de Negocios sern los gerentes y altos directivos de la empresa, es errnea. El objetivo fundamental de la Inteligencia de Negocios es llevar la data a quienes la necesitan, en el momento en que la necesitan. Por tanto, los usuarios se encuentran en todos los niveles de la organizacin, desde los estratos operativos hasta los directivos.

CIBERTEC

Data Warehouse & Olap

1.2

Enfoque de la Inteligencia de Negocios en la empresa

El proceso de Inteligencia de Negocios abarca la totalidad de las reas de inters en una organizacin. La figura 1.1 muestra una representacin de dicho proceso. En primer lugar, una intensa labor de anlisis debe determinar qu informacin se desea extraer y explotar, y dnde se encuentra ubicada dicha informacin. Se encontrarn datos valiosos que residen en bases de datos relacionales (de diversas marcas), hojas de clculo Excel, etc. Una vez ubicada la informacin relevante, sta debe ser transferida a un rea de consolidacin (staging area). Esta labor es efectuada por los procesos de extraccin, transformacin y carga de datos (ETL: Extraction, Transformation and Loading), los cuales recopilan, corrigen y consolidan los datos, y los transfieren desde su origen hacia el rea de consolidacin. En esta etapa se corrigen diversos problemas de consistencia de informacin; por ejemplo, la existencia de registros de clientes o productos en varias aplicaciones, con claves primarias distintas en cada aplicacin. Una vez consolidada la informacin, sta es transferida por procesos ETL a los Data Marts. Un Data Mart consiste en informacin almacenada en bases de datos relacionales, y modelada de acuerdo a los esquemas Star (Estrella) o Snowflake (Copo de nieve). Esta etapa prepara la informacin para su transferencia a bases de datos OLAP, donde ser almacenada en cubos: repositorios multidimensionales que permiten efectuar con alto rendimiento consultas complejas, con distintos niveles de agregacin. El Contabilidad Data Mining (minera de datos) consiste en un conjunto de (Fox Pro) herramientas para analizar informacin. Frecuentemente, se utiliza con bases de datos OLAP para extraer conclusiones a partir de la informacin almacenada. Por ejemplo, predecir el comportamiento de (Esquemas Star un segmento de clientes.
Logstica (SQL Server Finalmente, 6.5)

Snowflake)

el proceso de Inteligencia de Negocios debe llevar la DATA MART informacin a las personas que la necesitan. Esto implica permitir a DATA STAGING ETL ETL los usuarios visualizar los datos a travs WAREHOUS de reportes, Office, OLAP AREA E Data dispositivos mviles, etc.
Mining CRM (SQL Server 2005)

Excel

Report es

Exc el

Mobile Devices

CIBERTEC
Figura 1.1: El proceso de la Inteligencia de Negocios

Data Warehouse & Olap

1.3

Bases de datos OLAP y OLTP Bases de datos OLTP (On Line Transaction Processing): Son sistemas dedicados al almacenamiento de informacin sobre las operaciones de la organizacin. En estas bases de datos, la informacin es ingresada en forma de transacciones de corta duracin. Ejemplos: Ingreso de facturas. Atencin a clientes. Administracin de cobranzas. Operaciones bancarias, como depsitos, retiros, transferencias, etc. Bases de datos OLAP (On Line Analytical Processing): Sistemas orientados a la toma de decisiones. Estn optimizados para las consultas. La informacin ingresa a una base de datos OLAP en grandes cantidades, a travs de procesos peridicos en lote. Los usuarios no modifican la informacin de una base de datos OLAP, nicamente la consultan. Ejemplos: Anlisis de ventas anuales y mensuales, por producto y por cliente. Anlisis de informacin demogrfica.

CIBERTEC

Data Warehouse & Olap

La siguiente tabla compara las caractersticas principales de las bases de datos OLTP y OLAP: Bases de datos OLTP Frecuencia de actualizacin Estructuracin Optimizacin Tiempo real Integridad de los datos. Alta normalizacin Bases de datos OLAP Peridica consulta. no

Fcil Informacin normalizada. Procesos transaccionales Consultas. (modificacin de datos)

1.4

Caractersticas especiales de las bases de datos OLAP

Algunas caractersticas particulares de una base de datos OLAP son las siguientes: Datos consolidados y consistentes: La data es extrada desde mltiples orgenes y consolidada antes de su almacenamiento en una base de datos OLAP. La informacin es almacenada con atributos uniformes para todo el personal de la organizacin. Esto significa, por ejemplo, que no existirn mltiples ocurrencias del cliente Inmobiliaria XYZ. Adems, la informacin debe ser consistente: las ventas totales de Lima debe ser la suma de las ventas de todos sus distritos. Est orientada a temas especficos: La atencin se centra en la informacin utilizada para la toma de decisiones en todos los niveles de la empresa. Los datos que no sirven para dicho propsito se descartan. Histrica: La informacin en una base de datos OLAP describe hechos pasados del negocio, y no es actualizable. Es de slo lectura: Los datos slo son modificados si se presentan errores en los orgenes de datos. Informacin nueva es agregada a travs de procesos peridicos, en lotes de gran tamao. Tiene un nivel de granularidad: Una base de datos OLAP almacena informacin consolidada y resumida, con un nivel de detalle especfico. Por ejemplo, puede almacenar las ventas semanales de la empresa, sin llegar al nivel de detalle de cada factura particular.

La siguiente tabla que muestra las caractersticas esenciales de la informacin almacenada en Data Marts y Data Warehouses:

CIBERTEC

Data Warehouse & Olap

Caracterstica de los datos Consolidados

Descripcin Informacin centralizada de una unidad organizacional o de toda la organizacin. Cada entidad de negocio est representada de manera nica. Por ejemplo, cada cliente est representado por un nico registro y una clave uniforme. Los resultados son consistentes. Por ejemplo, el total vendido para Lima es la suma de las ventas parciales por distrito. Copias permanentes de informacin. No pueden ser actualizados. La informacin se almacena con un apropiado nivel de detalle, definido en la fase de anlisis. Por ejemplo, puede definirse que se almacenarn las ventas semanales, y no la informacin de cada factura en particular.

Consistentes

Histricos Slo lectura Totalizados

La ilustracin siguiente nos muestra un tpico reporte de volmenes de ventas en diferentes ciudades en un mes especfico: Reporte Mensual de Ventas Regionales (Zona Sur) - (Jun 2001) Pas PERU PERU PERU Total ARGENTINA ARGENTINA ARGENTINA Total CHILE CHILE Total Zona Sur Total BUENOS AIRES CORDOVA 4,925 SANTIAGO 1,900 2,075 Ciudad LIMA AREQUIPA Unidades Vendidas Ventas en Dolares 2500 12850 2750 14135 $ 26,985.00 3200 1725 16800 9143

5,250

$ 25,943.00 1900 9595 $ 9,595.00 1 $ 62,523.00

CIBERTEC

Data Warehouse & Olap

El reporte mostrado ilustra la manera en que se utiliza la data, no la forma en que los datos estn almacenados. Cubre las siguientes reas: Ventas y unidades vendidas: mtricas importantes que se desea analizar. La informacin se presenta en forma totalizada de acuerdo a la ubicacin geogrfica, por pas, ciudad, regin, etc. La informacin se presenta de acuerdo una determinada unidad de tiempo.

Data Marts & Data Warehouses


Los trminos Data Mart y Data Warehouse pueden causar cierta confusin, debido a que se emplean indistintamente como conceptos equivalentes. A continuacin se explicarn las diferencias en el significado de ambas palabras. 1.1 Diferencias y similitudes entre los conceptos de Data Mart y Data Warehouse

Un Data Mart es una base de datos que consolida informacin relevante para la toma de decisiones en un departamento de la empresa o una determinada lnea de negocio. El mbito de la informacin de un Data Mart est orientado a satisfacer las necesidades de unidades funcionales especficas de la organizacin. Ejemplos: Data Mart para el Departamento de Finanzas. Data Mart para el rea de Produccin.

En cambio, un Data Warehouse es una gran base de datos que centraliza informacin de toda la organizacin. Su mbito no es departamental ni funcional, sino global. Comnmente (aunque no necesariamente), un Data Warehouse est formado por mltiples Data Marts integrados. Tanto los Data Marts como los Data Warehouses deben contener informacin consistente, proveniente de mltiples orgenes de datos. Un error comn consiste en asumir que un Data Mart es pequeo y simple, mientras que un Data Warehouse es grande y complejo. Los Data Marts tambin pueden (y es el caso ms frecuente) ser complejos y contener enormes volmenes de informacin. En ambos casos, el primer paso en la construccin de la solucin es determinar cul es la informacin relevante para la toma de decisiones. Esta etapa requiere de la participacin y el compromiso
CIBERTEC

Data Warehouse & Olap

de los usuarios finales, analistas y ejecutivos de la organizacin. El resultado de esta fase es un conjunto de documentacin que servir como base para el diseo de los repositorios centralizados de informacin. Tanto en los Data Marts como en los Data Warehouses, existen procesos ETL (Extraction, Transformation and Loading) que extraen y consolidan la informacin de los sistemas operacionales. Es muy importante estandarizar toda la informacin, pues diferentes orgenes de datos pueden mostrar el mismo dato en formatos distintos. La siguiente figura ilustra el proceso de construccin de Data Marts y Data Warehouses:

1.2

El proceso de construccin de un Data Warehouses

Existen dos caminos para la construccin de un Data Warehouse: Top Down: Se comienza construyendo el Data Warehouse; y despus de construyen los Data Marts para cada unidad organizacional. Una vez que se puebla el Data Warehouse, la informacin puede ser consultada desde los diferentes departamentos que conforman la organizacin. Bottom Up: Se comienza construyendo los Data Marts para cada departamento o unidad organizacional. Llegado el momento, estos Data Marts se integran en un Data Warehouse.

Enfoque Top Down: Mover datos del Data Warehouse hacia Data Marts

CIBERTEC

Data Warehouse & Olap

Un Data Warehouse central puede ser distribuido en varios Data Marts de menor tamao. Este enfoque ofrece la ventaja de que varios departamentos de la organizacin utilizarn datos comunes y consistentes. Su principal desventaja es que requiere una gran cantidad de tiempo para el anlisis, planificacin y diseo de la solucin. Los directivos vern resultados tangibles despus de una cantidad considerable de tiempo.

Enfoque Button Top: Mover Datos de los Data Marts hacia el Data Warehouse

La principal ventaja del enfoque Button Top reside en la rapidez con la que se puede obtener resultados concretos. Dado que los Data Marts tienen un alcance ms especializado, su anlisis y diseo suele tardar mucho menos que en el caso de los Data Warehouses. La desventaja de este enfoque es que no resulta sencillo integrar todo en un solo Data Warehouse, debido a que la existencia de mltiples
CIBERTEC

Data Warehouse & Olap

10

Data Marts diseados y construidos de manera independiente produce inconsistencias y duplicacin de datos.

SQL Server 2005 y el proceso de Inteligencia de Negocios


Microsoft SQL Server 2005 ofrece una suite completa de herramientas que permiten implementar y administrar el proceso de Inteligencia de Negocios. SQL Server 2005 provee soluciones para efectuar las siguientes tareas: Construir el Staging Area y la base de datos del Data Mart, a travs del motor de datos de SQL Server 2005. Automatizar los procesos ETL a travs de los SQL Server Integration Services (SSIS). Construir repositorios multidimensionales (cubos) de informacin, a travs de Analysis Services de SQL Server 2005. Analizar la informacin a travs de los modelos de Data Mining provistos por Analysis Services. Entregar la informacin a los usuarios finales a travs de Reporting Services de SQL Server 2005.

Adems, la suite de MS Office permite poner la informacin a disposicin de los usuarios a travs de Excel, mediante las siguientes funcionalidades: Tablas dinmicas (pivot tables) enlazadas con cubos de Analysis Services. Formularios personalizados de presentacin de la informacin, a travs de Snap Ins de MS Excel (a partir de la versin 2003).

CIBERTEC

Data Warehouse & Olap

11

Las principales herramientas de apoyo en la implementacin de soluciones de Inteligencia de Negocios provistas por SQL Server 2005 son: Database Services: El motor relacional de SQL Server 2005. Es altamente escalable y de probado rendimiento en mltiples entornos. El Staging Area y el Data Mart pueden almacenarse en bases de datos SQL Server. SQL Server Integration Services (SSIS): Transfiere datos desde mltiples y heterogneos orgenes de datos hacia una o ms bases de datos destino. Las tareas de transformacin definidas en SSIS pueden automatizarse para su ejecucin peridica. Analysis Services de SQL Server 2005: Permite construir bases de datos multidimensionales que contienen a los cubos de informacin. Incluye modelos de Data Mining para el anlisis de los datos. Reporting Services de SQL Server 2005: Herramienta de generacin de reportes, capaz de extraer informacin desde mltiples formatos de datos y presentarla a los usuarios a travs de reportes accesibles desde aplicaciones de escritorio y a travs de Internet.

El proceso de la Inteligencia de Negocios

CIBERTEC

Data Warehouse & Olap

12

La siguiente exposicin se centrar en el proceso de anlisis y la determinacin de indicadores clave de performance del negocio. Los pasos principales del proceso de anlisis se muestran en el siguiente grfico:

Identificar objetivos de negocio: Se debe determinar claramente cules son los objetivos del negocio. stos deben determinarse en un nivel global (objetivos de toda la organizacin, representados por la visin y la misin de la empresa) y en un nivel especfico (objetivos de las unidades organizacionales). Se deben determinar claramente cules son las polticas de negocio autoimpuestas y las que se encuentran normadas por el comportamiento del mercado y las reglamentaciones existentes. Se deben identificar los eventos externos que pueden impactar sobre la organizacin. Algunos de estos eventos son: Aparicin de nuevas organizaciones. Aparicin de nuevos clientes. Regulaciones gubernamentales. Aparicin de nuevos productos y servicios.

CIBERTEC

Data Warehouse & Olap

13

La informacin provista por las soluciones de Inteligencia de Negocios debe ayudar a la organizacin a tomar decisiones clave: Nuevas estrategias de venta. Reduccin de costos. Incrementar la satisfaccin del cliente. Introduccin de estndares para mejorar la productividad.

Alto nivel de anlisis de los requerimientos para analizar la informacin La etapa siguiente consiste en la recoleccin de los requerimientos de informacin en la organizacin. Durante esta fase se debe: Identificar las reas de negocio que requieren ser analizadas. Identificar los roles existentes. Cada rol representa las responsabilidades de un miembro de la organizacin. Se deben determinar los roles de los futuros usuarios de la solucin de Inteligencia de Negocios.

Esta fase requiere un grado muy alto de interaccin con el personal de la empresa, en todos los niveles. Una percepcin muy comn es que las soluciones de Inteligencia de Negocios slo interesan a los gerentes y altos directivos de la empresa. Esta nocin es falsa: los usuarios de la Inteligencia de Negocios pueden estar en cualquiera de los niveles jerrquicos de la organizacin. En un nivel tcnico, en esta etapa se recolecta tambin informacin sobre los recursos tecnolgicos de la organizacin: sistemas operativos, plataformas de datos, aplicaciones existentes, conectividad. Finalmente, en esta fase se determina, sobre la base de la informacin recolectada, cules son los requerimientos crticos y
CIBERTEC

Data Warehouse & Olap

14

prioritarios para el xito de la implementacin de la solucin. Estos requerimientos deben abordarse lo ms pronto posible.

Bajo Ventas Clientes Competidores Movimiento productos de

Mediano

Alto

Almacn, Departamento, Categoras Promociones Recursos Utilidades

Roles y Procesos A continuacin, se deben describir con mayor nivel de detalle los roles y procedimientos del negocio. Es necesario identificar a los participantes en la toma de decisiones. Esto ayudar a delimitar las responsabilidades especficas de cada rol; y determinar sus necesidades de informacin. Hablar de toma de decisiones no implica que los actores de negocio que deben ser entrevistados en esta etapa son nicamente gerentes y directivos. El personal del rea de finanzas, por ejemplo, toma decisiones importantes sobre presupuestacin. La informacin de una solucin de Inteligencia de Negocios puede ser un soporte til para esta tarea.

CIBERTEC

Data Warehouse & Olap

15

Identificar los principales indicadores de performance

Esta etapa consiste en la determinacin de los Key Performance Indicators (KPI). Estos indicadores, en el nivel ms alto, determinan si la organizacin ha logrado cumplir con sus metas corporativas. En un nivel ms detallado, los KPI ayudan a las unidades

CIBERTEC

Data Warehouse & Olap

16

organizacionales a determinar si han cumplido sus metas dentro de la organizacin. Cada KPI representa una mtrica de inters para la empresa, y puede ser presentado a los usuarios disgregado en diversos conceptos (tambin llamados contextos de informacin). Por ejemplo, la informacin sobre movimiento de productos puede presentarse al usuario consolidada por producto y por unidades de tiempo:

Esta etapa proporcionar una idea til sobre los reportes que utilizarn los usuarios de la solucin.

CIBERTEC

Data Warehouse & Olap

17

Dimensiones y Eventos Los KPI miden los resultados de las actividades del negocio. La descripcin completa de la informacin que se almacenar en un Data Mart requiere: Identificacin de los hechos (facts). Cada hecho representa una operacin atmica, cuyos resultados contribuyen en el clculo de los KPI. Por ejemplo: una venta, la presupuestacin de ingresos para un determinado centro de beneficio, una encuesta de satisfaccin del cliente. Identificacin de las dimensiones. Cada dimensin representa una entidad que sirve como criterio para totalizar la informacin de los KPI. Por ejemplo: clientes, tiempo, productos, etc.

La combinacin de dimensiones y hechos permite determinar requerimientos de negocio medibles. Por ejemplo: ingresos (hecho) por producto, cliente y tiempo (dimensiones)

CIBERTEC

Data Warehouse & Olap

18

En este punto, ya se cuenta con las bases para formalizar el modelo conceptual. Fuentes y transformaciones En esta fase, se identifican las fuentes de datos donde reside la informacin relevante para la solucin de Inteligencia de Negocios. Se determinan tambin los cambios y transformaciones de datos necesarios para lograr la consistencia de la informacin. Cada transformacin debe documentarse adecuadamente, para facilitar el trabajo tcnico de los implementadores. No es infrecuente descubrir que existe informacin clave que no se encuentra almacenada en bases de datos relacionales, sino en orgenes atpicos: hojas de clculo Excel, archivos de texto, documentos Word, etc. Esta informacin tambin debe ser transferida al almacn de datos central del Data Mart a travs de procesos ETL.

CIBERTEC

Data Warehouse & Olap

19

Finalmente, se debe determinar los requerimientos tcnicos para la implantacin de la solucin. Estos cuatro criterios pueden ser una gua til para la seleccin de las herramientas adecuadas: La infraestructura de hardware y software. Esto determina el ambiente en el cual existir el Data Mart o el Data Warehouse. Esto incluye el motor de base de datos, las herramientas de reporte y consulta, requerimientos de procesador, memoria y disco, la conectividad, utilitarios de administracin de infraestructura. Las herramientas para la extraccin y transformacin de datos. Estas herramientas sern utilizadas durante la transferencia de datos desde los sistemas de origen hacia el Data Mart o Data Warehouse. Herramientas de backup y restauracin, que garanticen la integridad de la informacin del Data Warehouse ante cualquier emergencia que ponga en peligro los datos. Seguridad. Se debe contar con mecanismos y herramientas que impidan el acceso no autorizado a la informacin.

CIBERTEC

Anda mungkin juga menyukai