Otros conceptos
Dirección: Conduce a la organización a funcionar. Su objetivo es alcanzar el máximo rendimiento
de todos sus empleados en el interés de los aspectos generales. Es el proceso por el cual son
alcanzadas ciertas metas mediante el uso de recursos (humanos, materiales, energéticos,
financieros, informáticos, etc.). Los recursos son considerados la entrada, y la consecución de
las metas, la salida del proceso.
Productividad: es la medida del éxito, la relación entre las entradas y las salidas. Productividad =
S/E. El nivel de productividad depende de funciones como planificación, organización, dirección y
control. Para llevar a cabo estas funciones, el directivo está inmerso en un continuo proceso de
toma de decisiones.
Decidir: Es “realizar un proceso mental, deliberado, voluntario, sistemático, a través del ejercicio
del raciocinio, con la finalidad de elegir un curso de acción (y sólo uno) entre un conjunto de
cursos de acción alternativos...”.
Como resultado de estos factores (cambio del entorno y complejidad de las decisiones), los directivos no
pueden administrar en base a la prueba y el error; se hace necesaria la utilización de técnicas, herramientas,
métodos cuantitativos y científicos que ayuden en este proceso de toma de decisiones.
1/69
SSD – Resumen Examen Final UBP - Mayo 2013
• Son los primeros sistemas de información existentes para la toma de decisiones rutinarias,
estructuradas y anticipadas.
• No poseem capacidades de modelado.
• No son fáciles de utilizar por los usuarios gerenciales.
• Su interfaz no es amigable.
Características
• Provee soporte a las decisiones semi-estructuradas o no estructuradas.
• Es interactivo, por ser un sistema computacional con la posibilidad de interactuar en forma
amigable y con respuestas en tiempo real, con el encargado de tomar decisiones.
• Es fácil de usar, puesto que posee una interfaz amigable y simple y no requiere entrenamiento.
Es simple y posible de aprender y utilizar por el usuario final.
• Posee amplias bases de datos: tiene la capacidad de acceder a la información de las bases de
datos corporativas.
• Soporta modelos y capacidades analíticas.
• Tiene un proceso evolutivo de diseño.
• Da soporte a las diferentes etapas del proceso de toma de decisiones
• No debe imponer una decisión.
Beneficios
• Posibilidad de soportar la solución a problemas complejos.
• Rápida respuesta a los cambios de escenarios.
• Facilita la comunicación de información relevante de los niveles altos a los niveles operativos y
viceversa, a través de gráficas. Puede emplearse por usuarios de diferentes áreas funcionales
como ventas, producción, administración, finanzas y recursos humanos.
• Mejora el control, rendimiento y la eficiencia de los directivos Tiene una utilización frecuente por
parte de la administración media y alta para el desempeño de su función.
• Reduce costos.
• Favorece toma de decisiones objetivas.
Componentes
Los componentes de un SSD son diversos administradores: el administrador de Datos, que contiene la base de
datos decisional y el DBMS; el de Modelos, que agrupa un conjunto de modelos cualitativos y cuantitativos y el
software apropiado para su construcción, el administrador de Diálogo, que provee la interfaz con el usuario y el
administrador de Conocimiento, que se usa en el caso de los Sistemas expertos.
2/69
SSD – Resumen Examen Final UBP - Mayo 2013
capaz de vincular pasos de razonamiento elementales para encontrar una solución completa (Stuart Russell,
2003).
SSDG - Sistemas de Soporte de Decisión en Grupo (1990)
La mayoría de las decisiones complejas en las diferentes organizaciones son tomadas por grupos, no por
individuos aislados, pero reunir un grupo en un lugar para tomar una decisión es complicado y costoso. Para
ello se desarrollaron los SSDG: estos sistemas permiten tomar decisiones cuando los integrantes están
geográficamente separados, reduciendo el costo de reunirlos.
Los SSDG ofrecen a los equipos el potencial de reducir sus esfuerzos mediante métodos automáticos para
ingresar, grabar y operar sobre las ideas de los miembros de los equipos durante el encuentro. Permiten
mostrar las ideas al resto del grupo, como así también la realización de votaciones.
Ejemplos: mails, conferencias, mesas de discusión, etc.
3/69
SSD – Resumen Examen Final UBP - Mayo 2013
inversión.
Enfoque Transacciones Información Decisiones, Transferencia Seguimiento, Reconocimiento
de datos flexibilidad, de la inferencia control y drill de Patrones.
amigable con el del down.
usuario conocimiento
de expertos
Base de Datos Única para Acceso Sistemas de Conocimiento Externo (online) Aprendizaje
cada aplicación, interactivo por administración procedural y de y corporativo, provisto por
actualización programadores. de BD, acceso la realidad, acceso casos
por lotes. interactivo, bases de distribuido a históricos.
conocimiento conocimiento todas las BD de
de la realidad (hechos, reglas) la empresa .
Capacidad de No usado para Problemas Problemas Los sistemas Sólo cuando Principalmente
Decisión decisión rutinarios y semi- realizan está combinado predicciones ,
estructurados estructurados, decisiones con un DSS basado en
usando integra modelos complejas, no información
herramientas de la ciencia de estructuradas, histórica.
convencionales la uso de reglas
de la ciencia de administración. (heurística).
la
administración.
Manipulación Numérica Numérica Numérica Simbólica Principalmente Numérica
numérica, a (necesita pre-
veces simbólica procesamiento)
Tipo de Reportes Reportes por Información Consejos y Reportes de Proyecciones,
información sumarizados, demanda y para soporte a explicaciones. excepción, clasificación de
operacional. programados, decisiones indicadores acuerdo a
reportes de específicas. clave. patrones.
excepción.
Más alto nivel Sub-gerencial, Gerencia Media Gerentes y Gerentes y Sólo ejecutivos Gerentes y
organizacional gerencia de Analistas Especialistas senior especialistas
que sirve bajo nivel
Relevancia en Conveniencia Eficiencia Efectividad Efectividad y Oportunidad de Conveniencia
conveniencia presentación
Tareas que realiza cada uno de los sistemas de Soporte de Dirección (Ejemplo)
Las siguientes son las tareas realizadas por cada uno de los sistemas de soporte de dirección para un sistema
de información basado en computadoras de un Departamento de Personal .
Categoría Tarea
Procesamiento Transaccional Mantener los registros del personal, preparar los pagos, cálculo de salarios
y planes de incentivo.
Sistema de Información Gerencial Preparar reportes sumarizados (por ejemplo: salario promedio de cada
departamento). Efectuar programación a corto plazo. Llevar el seguimiento
del rendimiento de los empleados, presupuesto laboral. Monitoreo del
sistema de control de posiciones (cargos). Realizar cronogramas de corto
plazo. Encontrar posiciones y candidatos. Realizar monitoreo y control de
beneficios.
Sistema de Soporte de Decisión Preparar reportes especializados (logro de igualdad de oportunidades).
Planificación a largo plazo de recursos humanos. Diseño de un plan de
compensaciones.
Sistema Experto Advierte acerca de implicaciones legales y técnicas durante la negociación
laboral. Selecciona el medio de entrenamiento. Diseña programas de
entrenamiento comprensivo. Desarrolla un plan de responsabilidad social.
Ayuda en la selección de nuevos empleados. Asiste en la evaluación anual
de empleados.
Automatización de Oficina Mantiene listas de correo, utiliza el correo electrónico, prepara material de
entrenamiento.
4/69
SSD – Resumen Examen Final UBP - Mayo 2013
Sistema de Información Ejecutivo No existe a nivel departamental, sino corporativo. Mide los indicadores de
performance clave del departamento (tales como $ ganados/ invertidos por
empleado)
Sistema de Soporte de Decisión Soporta el proceso de toma de decisiones polémicas (ej: políticas de
en Grupo personal), brainstorming electrónico. Puede utilizarse para decisiones.
Computación Neuronal Analiza la causa por la cual las personas dejan o se quedan en la empresa
(encuentra patrones). Selecciona aspirantes para un trabajo.
1. Fase de inteligencia
Esta fase comienza con la identificación de los objetivos organizacionales. Generalmente existe un problema
cuando hay diferencia entre lo que fue planeado y lo que sucede (o no sucede) , hay que estar atentos a
encontrar el problema real y no los síntomas del mismo.
La existencia del problema en una organización puede ser estimada, por ejemplo, monitoreando y analizando
los niveles de productividad de los departamentos de la organización. La medición de la productividad está
basada en los datos, la búsqueda de los ya existentes y la estimación de los futuros (este es uno de los pasos
más dificultosos del análisis).
Una vez que se completa la investigación preliminar, es posible determinar si el problema realmente existe,
dónde se localiza y qué importancia tiene.
5/69
SSD – Resumen Examen Final UBP - Mayo 2013
La actividad de conceptuar el problema involucra la clasificación dentro de ciertas categorías, de
acuerdo a la estructura del problema:
• Programados o estructurados: se programan en la medida en que son repetitivos y de
rutina, es decir en la medida en que se ha elaborado un procedimiento definido para
manejarlos de tal modo que no debe tratárselos de nuevo cada vez que se presentan.
Ej.: la fijación de precio de los pedidos comunes de los clientes, determinación de pago
de salarios, etc.
• No programados o no estructurados : en la medida en que resultan novedosos, no
estructurados e inusitadamente importantes en sí mismos. No existe ningún método
previsto para manejar el problema, porque éste no ha surgido antes, o porque su
naturaleza y estructura precisas son huidizas o muy complejas, o porque es tan
importante que merece un tratamiento hecho a la medida. Estos tipos de problemas le
corresponden a la dirección superior, a la alta gerencia.
Ej.: reorganización de la organización, proyecto de desarrollo de nuevos productos, etc.
2. Descomposición del problema.
Muchos problemas complejos pueden ser divididos en subproblemas, y resolviendo cada uno de
ellos se puede ayudar a solucionar el problema total.
Al analizar un problema, es importante establecer quién es su propietario: un problema existe en
una organización sólo si la organización tiene la capacidad de resolverlo.
Ej.: muchas organizaciones perciben que tienen problemas porque las tasas de interés son
demasiado altas. Las tasas de interés son el problema del gobierno y no de la compañía, ya que
ésta no puede reducirlas. El problema de la compañía es cómo operar en un ambiente con esas
altas tasas de interés.
La fase de inteligencia finaliza cuando el problema es identificado y definido, dando comienzo a la fase de
diseño.
2. Fase de diseño
La fase de diseño generalmente requiere desarrollar una tarea de análisis y remata en la generación de las
alternativas. Estas establecen qué caminos tenemos disponibles para el logro de los objetivos. Esta fase
incluye actividades como entendimiento del problema y control de la solución y su viabilidad.
Tanto en la fase de diseño como en la de elección, el decisor se vale de modelos que se construyen, testean y
validan.
Modelado de un problema
El modelado involucra la conceptualización del problema, lo cual incluye la abstracción de un modelo cualitativo
o cuantitativo. Es necesario encontrar el balance entre los niveles de representación del modelo y la realidad, y
no confundir el modelo obtenido con la realidad que representa. La tarea de modelar involucra combinación de
arte y ciencia.
Modelos cualitativos
Surgen en el siglo XX en el marco de la investigación social. Su objetivo es describir las cualidades de un
fenómeno; no se trata de probar ni medir el grado en que se encuentra una cualidad en un acontecimiento, sino
de descubrir tantas cualidades como sea posible.
Estos modelos intentan comprender la realidad dentro de un contexto dado y por lo tanto no pueden
fragmentarse ni dividirse en variables dependientes/independientes. Se aplican mayormente en las Ciencias
Sociales, y comprenden cuatro fases: Preparación, Trabajo de Campo, Fase analítica, Fase informativa.
Modelos cuantitativos
Para el modelado de modelos cuantitativos (matemáticos y financieros), se presentan los siguientes puntos:
1. Componentes del modelo
Los componentes están conectados por relaciones matemáticas (en los cualitativos las relaciones son
símbolos o cualidades), se identifican las variables dependientes e independientes y la ecuación
describe las relaciones entre ambas.
Variables:
• Variables de decisión: Las variables de decisión describen los cursos alternativos de acción.
6/69
SSD – Resumen Examen Final UBP - Mayo 2013
Son clasificadas matemáticamente como variables independientes. Con apoyo de un SSD
se puede encontrar una buena o el mejor valor de esas variables.
Ej.: el número de cajeros de un banco. Uso de las computadoras.
• Variables de resultado: Reflejan el nivel de efectividad de los sistemas, indican cómo éstos
cumplen con la performance o se acercan a las metas.
Ej.: satisfacción del cliente, costo total de la producción.
• Incontrolables o parámetros. Son factores que afectan las variables de resultado, pero no
están bajo el control del sistema.
Ej.: leyes impositivas, tasas de interés.
• Intermedias: Son necesarias para unir las variables de decisión con las de resultado.
Algunas veces reflejan resultados intermedios. Por ejemplo: el salario de los empleados
(decisión) está determinado por la satisfacción de los empleados (salida intermedia) y fija
los niveles de productividad (resultado).
2. Estructura del modelo.
Los componentes son un conjunto de expresiones matemáticas como ecuaciones o inecuaciones.
Ejemplo: Modelo del valor presente
P: valor presente,
F: pago futuro,
I: Tasa de interés,
N: N° de años.
4. Desarrollo de alternativas
Una gran parte del proceso de construcción del modelo consiste en la generación de las alternativas.
En el caso de la programación lineal éstas son generadas automáticamente por el modelo, lo cual
puede ser un muy largo proceso que involucra la búsqueda y creatividad, lo cual toma tiempo y costo.
La generación de alternativas depende de la disponibilidad y el costo de la información. Cuando la
creatividad se usa para la generación de alternativas, pueden utilizarse técnicas como torbellino de
7/69
SSD – Resumen Examen Final UBP - Mayo 2013
ideas, sesiones dinámicas de grupo, etc.
Esta alternativa puede ser automatizada y para ello se utilizan los SSD.
3. Fase de elección
Esta fase del proceso de toma de decisiones involucra la búsqueda, evaluación y recomendación de una
solución apropiada al modelo. La solución del modelo no implica la solución del problema, ésta debe también
ser implementada con éxito. El proceso de búsqueda se puede sintetizar en el siguiente cuadro:
8/69
SSD – Resumen Examen Final UBP - Mayo 2013
La evaluación es el paso anterior a la recomendación de una solución. Varios elementos son importantes en la
evaluación de la solución provista por un SSD.
• Múltiples objetivos: Se debe evaluar cuánto cumple la alternativa seleccionada respecto a los
objetivos propuestos (problema a solucionar). Generalmente se deben alcanzar en forma
simultánea múltiples metas, que a veces se contraponen.
• Análisis sensitivo: Es de ayuda cuando el administrador no se encuentra seguro de la exactitud y la
importancia de la información, o cuando quiere conocer cómo impacta el cambio en la información
de entrada al modelo con los mismos resultados, o medir la performance. Existen dos tipos de
análisis sensitivos:
◦ Análisis sensitivo automático: son aquellos modelos cuantitativos estándares, como el de
programación lineal. Son generalmente limitados a un cambio a la vez y sólo de ciertas
variables.
◦ Prueba/Error: se realizan cambios en los datos de entrada y se resuelve el modelo. Se
efectúa en forma repetitiva, hasta encontrar la mejor alternativa.
Esta experimentación puede realizarse de dos formas:
▪ Análisis “what-if”: qué pasará con la solución si varía el dato de entrada o el valor de un
parámetro es cambiado.
Ej.: ¿Qué sucede con el costo total del inventario si el costo de transporte se incrementa
en un 10%?
▪ Búsqueda de objetivo: determina las entradas necesarias para un nivel deseado de
salida.
Ej.: ¿Cuántos programadores son necesarios para terminar el proyecto el próximo mes?
4. Fase de Implementación
Consiste en colocar la solución recomendada a trabajar.
El Sistema de Soporte de Decisiones
9/69
SSD – Resumen Examen Final UBP - Mayo 2013
Una vez analizado el proceso de la toma de decisiones, comenzamos en particular a analizar los sistemas de
soporte de decisiones. Podemos esquematizar un SSD, en función de sus componentes y la relación con los
usuarios, de la siguiente manera:
Componentes
de un SSD
1. Administrador de datos: este administrador es el que contiene la base de datos decisional y el
DBMS (sistema administrador de la base de datos). Está compuesto por los siguientes elementos:
◦ Base de datos decisional
◦ DBMS (el sistema administrador de la base de datos).
◦ El directorio de datos (metadatos)
◦ El facilitador de la consulta.
El administrador de datos interrelaciona datos de diferentes fuentes (internas y externas), extrae
datos para colocarlos en la base de datos decisional, y actualiza estos datos. Además, recupera
rápidamente datos almacenados (debido a su estructura), proporciona información de su contenido
y fuentes de extracción, y provee seguridad.
2. Administrador de modelos: contiene el conjunto de modelos cuantitativos y cualitativos y el
software apropiado para su administración. Está compuesto por los siguientes elementos:
• Base de modelos.
• MBMS (Model Base Management System).
• Lenguaje de modelado.
• Directorio de modelos.
• Procesador de comandos.
El administrador de modelos tiene la capacidad de crear rápida y fácilmente modelos, y los
almacena de manera lógica e integrada. También vincula los modelos con los datos, y permite que
los usuarios los manipulen con facilidad. Proporciona metadatos: información del contenido de
modelos y su función .
3. Administrador de diálogo: es el que provee la interfaz con el usuario final.
Está compuesto por el software y hardware que proveen la interfaz del usuario con el SSD. Es uno
de los componentes más importantes, ya que una interfaz inconveniente puede producir que los
directivos dejen de utilizar el SSD. Debe contener los siguientes elementos:
• Lenguaje de creación (Input).
• Lenguaje de visualización (Output).
• PProcesador de lenguaje natural.
• DGMS (Dialog Generation and Management System).
10/69
SSD – Resumen Examen Final UBP - Mayo 2013
El administrador de diálogo posee diferentes estilos de diálogo, para usuarios diferentes, y les
provee capacidades de ayuda en linea.
Es flexible: presenta los datos en varios formatos y posibilita un amplio rango de dispositivos de
entrada/salida; además provee capacidades gráficas y casos-tipo de ejemplos. Se encarga de
interactuar con el administrador de datos y el de modelos.
4. Administrador de conocimiento: es utilizado en el caso de los sistemas expertos, no lo analizaremos.
11/69
SSD – Resumen Examen Final UBP - Mayo 2013
12/69
SSD – Resumen Examen Final UBP - Mayo 2013
13/69
SSD – Resumen Examen Final UBP - Mayo 2013
tendencia del negocio con respecto a una o más dimensiones. Representan el criterio de evaluación
de algún aspecto del negocio, son datos cuantificadores acerca de un tema particular.
Son los elementos sobre los cuales quiero realizar el control, por ejemplo la cantidad, importe
vendido, las horas trabajadas, etc. , indican cómo se está llevando a cabo una operación.
Los Hechos se almacenan en la tabla de hechos.
2. Dimensiones
Las dimensiones son clases descriptoras de los hechos, son los puntos de vista a través de los
cuales se desean analizar los hechos.
Las dimensiones organizan la información de manera que se pueda preguntar qué, cuándo, dónde...
representan una colección de miembros o unidades del mismo tipo.
Son calificadores de hechos, los ponen en perspectiva.
Por ejemplo, si el hecho es una venta, las dimensiones podrían ser tiempo, geografía, clientes, y/o
productos.
Las dimensiones son almacenadas en tablas junto con los elementos y atributos de dimensión .
3. Elementos
Los Elementos son agrupaciones lógicas de atributos o propiedades de una clase de objeto del
negocio.
Son los componentes conceptuales de una dimensión y están jerárquicamente organizados para
que el usuario final pueda navegar por distintos niveles de detalle de la información.
Por ejemplo: si tomamos la dimensión del “Tiempo”, los elementos podrían ser año, semestre,
bimestre, mes, semana, día.
4. Atributos
Los atributos son los que proporcionan descripciones y otra información relacionada a cada
elemento de dimensión, por lo que un mismo elemento puede contener múltiples atributos.
Facilitan la tarea a los usuarios finales para formular consultas usando términos del negocio que le
son familiares, por ejemplo el nombre, dirección, etc.
5. Miembros
Los miembros representan las instancias reales de una dimensión. Una dimensión comprende dos o
más miembros por ejemplo, Juan Pérez, General Paz 350.
Ejemplo: Elementos
Ejemplo: Elementos
14/69
SSD – Resumen Examen Final UBP - Mayo 2013
Ejemplo: Miembro
15/69
SSD – Resumen Examen Final UBP - Mayo 2013
◦ La tabla de hechos tiene datos detallados y resumidos.
◦ La tabla de hechos solo tiene una columna clave por dimensión y cada clave es generada.
◦ Cada dimensión es una simple tabla altamente desnormalizada.
16/69
SSD – Resumen Examen Final UBP - Mayo 2013
Comenzamos haciendo una lectura detallada de la organización, de los requerimientos y de la base de datos
transaccional. Luego, vamos a identificar los componentes del modelo multidimensional, ya que una vez que
contemos con esta información, nos será fácil el armado de la base.
En nuestro caso en particular son los requerimientos de información del gerente de finanzas. Leyendo
nuevamente los requerimientos, podemos ver que los hechos son:
· Cantidad de facturas,
· Importe cobrado,
· Cantidad de recibos.
Nota: podrían agregarse otros atributos; para ello tenemos en cuenta qué información
necesitará el usuario del SSD. Por ejemplo: podría ser la dirección, sexo, edad, estado civil
del cliente, etc.
4. Graficar la base de datos multidimensional
Una vez cumplidos los pasos anteriores, estamos en condiciones de graficar la base de datos
multidimensional.
En nuestro ejemplo, graficaremos la base con un star schema. Con respecto al modelo
podríamos observar que teniendo en cuenta la granularidad con que hemos almacenado los
datos en la tabla de hechos, la cantidad de facturas es 1 y la cantidad de recibos también es
1. Por lo tanto, esos dos hechos pueden ser eliminados de la tabla de hechos. Esa
información se puede obtener haciendo una consulta sobre la tabla de hechos. El único
hecho que quedaría es el importe cobrado.
Conceptos
avanzados de modelado multidimensional
1. Tabla de hechos que representan eventos
18/69
SSD – Resumen Examen Final UBP - Mayo 2013
Algunos de los procesos de negocio que queremos modelar usando un data warehouse están relacionados con
eventos que han ocurrido. Ciertos ejemplos son servicios de investigación, procedimientos para pacientes de
un hospital y reporte de accidentes.
Por ejemplo, en el modelo de datos de
atención de un colegio, las dimensiones
podrían ser, por supuesto, profesor,
estudiante, instalación y tiempo.
La tabla de hechos consistiría en claves
foráneas que unen a todas las tablas de
dimensión para el evento de
concurrencia de cada estudiante a una
determinada clase.
19/69
SSD – Resumen Examen Final UBP - Mayo 2013
La tabla de dimensión como la tabla cliente o producto puede tener 50 ó 100 atributos y muchos
millones de filas. Los campos que raramente serán usados como restricción en una consulta, o campos
que son frecuentemente comparados simultáneamente, pueden ser separados en una tabla de mini-
dimensión diferente.
En una mini-dimensión como la
del ejemplo, la clave demográfica
puede ser almacenada como una
clave foránea en la tabla y en el
cliente.
• Esto permite a la min-idimensión
demográfica componerse de la
tabla base directamente. La clave
demográfica también puede ser
usada directamente con la tabla
cliente para examinar los atributos
demográfico
4. Cambios en dimensiones y
soluciones de tipo I, II y III
La mayoría de las dimensiones son casi constantes en el tiempo, desde que pueden ocurrir cambios en las
ventas por distritos o regiones, o en nombres y direcciones. Para realizar una comparación histórica, estos
cambios deben ser administrados. Las soluciones pueden ser del tipo I, II o III.
• Solución Tipo I: Cambio en el valor almacenado en una columna de una dimensión.
En el ejemplo de arriba, el registro para Joe Smith en la dimensión cliente podría ser actualizado
para mostrar la dirección nueva en Park Ridge. Todas las historias de ventas a Joe anteriores
estarán ahora asociadas con el barrio Park Ridge en lugar de Des Planes.
• Solución Tipo II: Crear un segundo registro de dimensión con el nuevo valor y una clave
generalizada. Esto efectivamente particiona la historia.
Joe tendría ahora 2 registros en la tabla de dimensión cliente. El viejo registro con la clave 101
permanece, y habría registros en la tabla asociados con él. Un nuevo registro sería agregado a
la tabla de dimensión cliente para Joe, con una nueva clave que consista de la vieja más alguna
versión de dígitos (101.01 por ejemplo). Todos los registros subsecuentes agregados a la tabla
base para Joe serían asociados con esta nueva clave.
• Solución Tipo III: Consiste en agregar un nuevo campo en la tabla de dimensión para el atributo
afectado y renombrar el viejo atributo. Este tipo es raramente usado, a menos que haya una real
necesidad de rastrear la vieja historia en términos del nuevo valor y viceversa.
Joe tendría un nuevo atributo denominado dirección actual, y el atributo viejo sería renombrado
dirección original.
5. Periodos de tiempo continuos
El rastreo de períodos de tiempo continuos puede ser un requerimiento de negocio importante. Una solución es
crear una dimensión de tiempo continua aparte.
Por ejemplo: Un día dado, actualmente pertenecería a períodos de 3 meses y a períodos de 6 meses. El
1o de Junio pertenecería a Abril -Mayo-Junio, Mayo- Junio-Julio y Junio-Julio-Agosto. Habría 3 registros
para el 1o de Junio. Una columna llamada período continuo contaría con valores indicando que Junio 1
perteneció a estos 3 períodos.
Las consultas que involucran un período de tiempo continuo se agrupan en una tabla de dimensión especial en
lugar de una tabla de dimensión estándar. Debido a que la relación muchos a muchos existe entre la tabla base
y la tabla de dimensión especial, es importante que esta última se use sólo con un filtro sobre el período de
tiempo para eliminar las duplicaciones que resultarían.
SELECT Nombre_Cliente, DiaOrden, Renta
FROM cliente, tiempo, ventas
WHERE cliente.CodigoCliente=ventas.CodigoCliente
AND tiempo.CodigoTiempo=ventas.CodigoTiempo
AND tiempo.PeriodoTiempo=”Junio-Julio-Agosto “
20/69
SSD – Resumen Examen Final UBP - Mayo 2013
1. Tablas de agregación: la creación de tablas adicionales que pre-calculan y sumarizan los datos
para consultas críticas.
2. Fragmentación de tablas por sistema o aplicación: para permitir el paralelismo y extender E/S a
través de los discos.
3. Indexación: agregación de índices. (Este punto no será desarrollado)
1. Tablas de agregación
El tiempo requerido para acceder a grandes cantidades de filas y sumarizar los datos puede ser reducido
mediante la creación de tablas adicionales que pre- calculan los totales deseados.
La realización de operaciones de consulta con una tabla de totales en lugar de una tabla de datos muy grande
hace que los resultados estén disponibles más rápidamente.
Por ejemplo, una tabla de totales podría ser creada para ventas por marca y por mes. Si la tabla
base que contiene una fila por producto por día tiene un millón de filas, la tabla de totales
conteniendo una fila por marca debería tener sólo unas pocas miles.
Pautas para tablas agregadas
Construir totales para áreas del modelo de difícil uso.
Construir totales para sumarizar muchos datos.
Construir totales que respondan a una amplia gama de preguntas.
Debido a los costos involucrados, los totales deben ser construidos sólo para la mayor parte de temas
comunes. Auditando el uso para identificar las consultas críticas, las cuales proveerán de candidatos para los
totales. Una vez que un candidato para la agregación es identificado, la densidad de datos estaría determinada
por cuán extensivamente poblado es el nivel de dimensión.
Si la mayoría de los productos tiene sólo unas pocas ventas en cada sucursal por semana, por
ejemplo, no habría una reducción significativa del número de filas procesadas si se creara un total
por producto por sucursal por semana.
Una regla sugerida es crear totales que sumaricen
al menos 10, y preferentemente 20 o más ítems de
nivel más bajo. Los totales más sumarizados
ofrecen la mejor performance, pero como
desventaja, las tablas altamente sumarizadas
frecuentemente contestan un rango limitado de
preguntas.
El equilibrio en la performance se contrapone con
la flexibilidad por selección del menor nivel de
agregación que almacenaría sustancialmente
menos filas que su predecesor.
Beneficios en el uso de tablas agregadas
• Mejor performance en consultas: la recuperación de datos directamente de las tablas de totales
es sustancialmente más rápida que la sumarización de los datos luego de obtenerlos.
• Menores requerimientos de recursos del sistema: con la eliminación de la necesidad de realizar
sumarizaciones intensivas con la memoria RAM, los recursos están libres para otras tareas.
2. Tablas fragmentadas
La performance de las consultas puede ser mejorada si las filas de una tabla individual son distribuidas
(fragmentadas). Ubicar los fragmentos en diferentes discos puede reducir la contención para los discos sobre
los cuales residen los datos.
21/69
SSD – Resumen Examen Final UBP - Mayo 2013
La fragmentación de tablas puede ser ventajosa para máquinas con capacidad de multiprocesamiento para
permitir composiciones paralelas (joins), búsquedas, group by, y clases cuando se realizan consultas.
La performance en la carga de datos puede ser mejorada significativamente a través de la carga en paralelo.
Ejemplo:
Uno de los requerimientos del depósito (warehouse) es almacenar los datos en base a la
registración de un período de 24 meses. La mayoría de los meses recientes son más consultados.
Además, los datos del mes actual serán más utilizados.
El warehouse fue fragmentado por tiempo (los meses anteriores en un fragmento y los meses más
recientes divididos a través de 4 fragmentos). Esto permite búsquedas paralelas para consultas
que direccionan sólo uno de los meses más recientes. Al final de cada mes, pueden agregarse los
fragmentos del mes más nuevo, y los fragmentos de meses más anteriores pueden omitirse o
removerse.
Esquemas de fragmentación
La performance de una tabla fragmentada está determinada primero por la estrategia de fragmentación que es
usada para localizar espacio en disco para los fragmentos, y por el esquema de distribución que se usa para la
asignación de filas a los fragmentos individuales.
El servidor dinámico soporta los siguientes esquemas de distribución:
• Round robin: las filas son ubicadas aleatoriamente en fragmentos, para que la distribución entre
los fragmentos sea equitativa. Este esquema puede incrementar la performance de cargas de
gran volumen y búsquedas paralelas de una tabla entera.
Ejemplo:
CREATE TABLE orders (.....)
FRAGMENT BY ROUND ROBIN;
• Basado en expresión: las filas que cuentan con valores similares son ubicadas en el mismo
fragmento. Esto puede ser utilizado para distribuir lógicamente los datos, basados en patrones
de acceso de sus aplicaciones. El servidor de base de datos puede también eliminar fragmentos
que no se necesitan del plan de consulta, lo cual resulta en un mejor desempeño.
Ejemplo:
CREATE TABLE orders (.....)
FRAGMENT BY EXPRESSION
Order_num <1000 in dbspace1,
Order_num <2000 in dbspace2,
Order_num >=2000 in dbspace3;
Unidad 4: Administración
Administración y Actualización
Habiendo analizado cuáles son los componentes de un sistema de soporte de decisión y los conceptos de
modelado multidimensional, es hora de ver los conceptos asociados a la actualización y mantenimiento de
datos del data warehouse.
22/69
SSD – Resumen Examen Final UBP - Mayo 2013
Cargar (ETL: Extract, Transform, Load en inglés).
Analizando el
ambiente de un Data Warehouse, como está graficado, como soporte, origen y destino de esas operaciones,
encontramos diferentes elementos.
a) Sistemas Operacionales
Los datos administrados por los sistemas de aplicación operacionales son la fuente principal de datos
para el data warehouse. Las bases de datos operacionales se organizan como archivos indexados,
bases de datos de redes/jerárquicas o sistemas de base de datos relacionales (DB2, Oracle, Informix,
etc.).
b) Extracción, Transformación y Carga de los Datos
Se requieren herramientas de gestión de datos para extraer datos desde bases de datos y/o archivos
operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el
data warehouse.
Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el
warehouse, se refiere a la transformación o a la integración de datos. Las bases de datos operacionales,
diseñadas para el soporte de varias aplicaciones de producción, frecuentemente difieren en el formato
del DW, por lo cual los datos que contienen deben ser manipulados.
Además, los mismos elementos de datos, si son usados por aplicaciones diferentes o administrados por
diferentes software DBMS, pueden definirse al usar nombres de elementos inconsistentes, que tienen
formatos inconsistentes y/o ser codificados de manera diferente. Todas estas inconsistencias deben
resolverse antes que los elementos de datos sean almacenados en el data warehouse.
c) Metadatos
Otro paso necesario es crear los metadatos (es decir, datos acerca de datos), los que describen los
contenidos del data warehouse. Los metadatos son definiciones de los elementos de datos fuente
(warehouse). Como los datos, se integran y transforman antes de ser almacenados en información
similar.
d) Acceso de usuario final
Los usuarios accesan al data warehouse por medio de herramientas de productividad basadas en GUI
(Graphical User Interface - Interfase gráfica de usuario). Puede proveerse a los usuarios del data
warehouse varias de estas herramientas, como software de consultas, generadores de reportes,
procesamiento analítico en línea, herramientas data/visual mining, etc., dependiendo de los tipos de
usuarios y sus requerimientos particulares. Sin embargo, una sola herramienta no satisface todos los
requerimientos, por lo que es necesaria la integración de una serie de herramientas.
e) Plataforma del data warehouse
La plataforma para el data warehouse es casi siempre un servidor de base de datos relacional. Cuando
se manipulan volúmenes muy grandes de datos puede requerirse una configuración en bloque de
servidores UNIX con multiprocesamiento simétrico (SMP) o un servidor con procesamiento paralelo
masivo (MPP) especializado.
23/69
SSD – Resumen Examen Final UBP - Mayo 2013
Las extracciones de datos se integran y transforman y se cargan en el data warehouse. La elección de la
plataforma es crítica. El warehouse crecerá y hay que comprender qué requerimientos existirán después
de 3 o 5 años.
f) Datos Externos
Dependiendo de la aplicación, el alcance del data warehouse puede extenderse por la capacidad de
acceder a los datos externos.
La transformación de datos también se encarga de las inconsistencias en el contenido de datos. Una vez que
se toma la decisión sobre que reglas de transformación serán establecidas, deben crearse e incluirse las
definiciones en las rutinas de modificación.
24/69
SSD – Resumen Examen Final UBP - Mayo 2013
Es importante que, para transformar datos inconsistentes y cargarlos en el DW, se haga una planificación
cuidadosa y detallada, ya que además de la integración otra dificultad es la eficiencia de acceso a los sistemas
de datos existentes. Debe saberse qué archivos de sistemas existentes ya se recorrieron, y cuando, porque
intentar recorrerlos por completo cada vez que se actualiza el data warehouse es poco realista y muchas veces
costoso.
Existen 3 tipos de carga que pueden realizarse en un data warehouse desde el ambiente operacional:
• La carga de datos archivados
• La carga de datos actualmente existentes en el ambiente operacional
• La carga continua de actualizaciones al ambiente de data warehouse de los cambios que han ocurrido
en el ambiente operacional desde el último refresco del data warehouse.
Los dos primeros tipos de carga no representan una dificultad mayor, dado que por lo general se realizan por
única vez y solo requieren que el administrador del warehouse cronometre la conversión.
La mayor dificultad para el arquitecto de datos se encuentra en la carga de las actualizaciones continuas de los
datos desde el entorno operacional (resultado del procesamiento transaccional), que es un proceso que se
hace repetidamente y que puede consumir una gran cantidad de recursos.
Las técnicas más comunes para limitar la cantidad de datos recorridos de las aplicaciones existentes, son:
1. Time Stamped
La primera técnica es recorrer datos Time Stamped. Cuando una aplicación establece el tiempo en el
que se realizó el último cambio o actualización de un registro, el recorrido del data warehouse puede
ejecutarse más eficientemente, porque los datos con fecha no necesitan tocarse. Sin embargo
usualmente es circunstancial que los datos hayan sido “fechados”.
2. Delta File
La segunda técnica para limitar la cantidad de datos a recorrer para la extracción del data warehouse
es utilizar un “delta file” (archivo de diferencias).
Un delta file es aquel que se crea por una aplicación, y contiene solo los cambios efectuados. Cuando
existe un archivo de diferencias, el proceso de recorrido es muy eficiente ya que los datos que no son
candidatos para examinarse nunca se tocan. Tampoco existen muchas aplicaciones que guarden
“delta files”.
3. Log de Transacciones
La tercer técnica es aquella que examina y audita el archivo de log. El archivo de log o auditoría
contiene básicamente los mismos datos que un delta file. Las diferencias son las operaciones que
protege los archivos de log , porque son necesarios en el proceso de recuperación y no son propensos
a otra cosa que no sea su propósito original.
Otra diferencia/dificultad con los archivos de log es que su formato interno no ha sido creado para ser
utilizado por aplicaciones y se necesita un gurú en tecnología para realizar la interfaz de aplicación. Por
último, un archivo de log contiene mucha más información que la deseada por el desarrollador del data
warehouse.
4. Modificación de Aplicaciones
La cuarta técnica para examinar la gran cantidad de datos que requiere la extracción para actualizar el
data warehouse es modificar el código de la aplicación.
Generalmente el uso de esta técnica es resistido por la antigüedad del código existente y la fragilidad
del mismo.
5. Creación de Imágenes
La última opción es mantener imágenes anteriores y posteriores conjuntamente. Debe extraerse una
fotografía de la base de datos al momento de la extracción. Cuando se debe realizar otra extracción, se
toma otra fotografía. Cada fotografía se compara con la otra para determinar la actividad transcurrida.
Esta actividad es complicada y requiere gran cantidad de recursos
Los datos se pasan del ambiente operacional al del DW tal como el acumulativo simple. Solo que rotando los
datos sumarizados, los datos se introducen en una estructura muy diferente. Para los primeros siete días de la
semana, la actividad se sumariza en 7 slots diarios (uno por cada día). Al octavo día, los siete slots diarios se
suman y se colocan en el primer slot semanal. El total diario se agrega en el primer slot diario. Al final del mes,
los slots semanales se suman y se ubican en el primer slot mensual. Los slots semanales se resetean a cero.
Al final del año, los slots mensuales se suman y el primer slot de año se carga, luego los slots mensuales se
resetean a cero.
Otra posibilidad de estructurar los datos en el data warehouse es un archivo directo simple. Los datos se
llevan directamente desde el ambiente operacional al del DW. No hay ningún tipo de acumulación. El archivo
directo simple no se realiza en una base diaria, sino sobre un largo periodo de tiempo, como puede ser una
semana o un mes, y representa una fotografía de datos operacionales tomada en un instante del tiempo.
A partir de dos o más archivos directos simple, puede crearse un archivo continuo.
Por ej. Si tomamos dos fotografías con una base mensual –enero y febrero- se unen ambos para
crear un archivo continuo.
Los datos en un archivo continuo representan la continuidad de los datos desde el primer mes (en la base del
ejemplo) hasta el último.
Por último cabe agregar que a nivel de clave, las claves del data warehouse son compuestas inevitablemente
debido fundamentalmente a que la fecha –año, año-mes, año-mes-día, etc- forma parte de la clave, y a que los
datos del data warehouse están particionados, entonces los diferentes componente del particionamiento
también forman parte de la clave .
26/69
SSD – Resumen Examen Final UBP - Mayo 2013
se ensambla cada paso por medio de un script o programa en un lenguaje de alto nivel. Luego, se juntan los
scripts de transformación en un script de carga de tabla destino. Por último, se toman los scripts de carga de
las tablas destino en el orden de ejecución requerido para formar el procesamiento necesario del ciclo batch
(diario, semanal, mensual, y así sucesivamente).
Es importante tener presente que dependiendo de los requerimientos del negocio y la complejidad de las reglas
del negocio necesarias en la transformación, no siempre se necesitará usar las cinco fases para cada tabla
destino.
Fase 1: Comprobación del Origen. En esta fase, su sistema debe acceder, extraer y crear una vista
temporal de los datos del sistema origen. Esta extracción del origen está incluida en respaldos del ciclo
batch completo con propósitos de regeneración y para reconciliación y auditoría durante el testeo.
También se pueden obtener metadatos técnicos y del negocio y verificar el mismo contra el repositorio
de metadatos (si se encuentra disponible), y verificar las reglas del negocio para el sistema origen.
Fase 2: Alteración del Origen. Dependiendo de las necesidades del negocio, en esta fase se pueden
realizar una variedad de transformaciones al origen.
Las opciones incluyen integración de datos desde múltiples sistemas fuente (origen) basados en un
ranking de prioridades o disponibilidad, integrando los datos desde fuentes secundarias, dividiendo los
archivos fuente del
sistema en múltiples archivos de trabajo para múltiples cargas de tablas destino (clusters) y aplicando
lógica y conversiones a los sistemas fuente.
También se pueden aplicar identificadores para metadatos técnicos como por ejemplo identificadores de
fuente del sistema, claves de producción activas, e indicadores de nivel de confianza.
Fase 3: Intercambio Común. En la tercera fase, el intercambio común, se aplican reglas del negocio o
lógica de transformación comunes a múltiples tablas destino –tales como integridad referencial
(introduciendo claves a la tabla de hechos desde las tablas de dimensión, por ejemplo) y definiciones de
la empresa y reglas del negocio desde el repositorio de metadatos.
Por ejemplo: conversión de códigos de país en formato ISO estándar.
Fase 4: Determinación de Carga Destino. En esta fase, el sistema pone los datos en su formato final
para producir los archivos “listos para cargar” en la tabla destino, identifica y selecciona filas a ser
insertadas o actualizadas (si es necesario), identifica los metadatos técnicos, y procesa los datos en un
RDBMS. También compara registros procesados desde el sistema origen para el ciclo batch actual
contra registros cargados en los ciclos anteriores, para determinar si se requieren inserciones o
actualizaciones.
Para los archivos actualizados, los metadatos técnicos registran datos como la fecha de carga, fecha de
actualización, estado actual, ciclo de carga, o los totales de control de redundancia cíclicos para indicar
el cambio en el estado de los registros de datos. Los archivos listos para carga construidos en esta fase
se incluyen en los backups del ciclo batch completo con propósitos de recarga y auditoría durante el
testing.
Dependiendo de la plataforma de DBMS para el DW y el número de registros involucrados, en esta fase
se puede sustituir la opción de carga paralela de gran velocidad en lugar de la utilidad de carga de la
base de datos normal. Se puede lograr a menudo mayor performance en la carga simplemente
eliminando y re insertando todas las filas de datos.
Fase 5: Agregación. En la quinta y última fase, agregación, el sistema usa los archivos listos para
cargar de la fase anterior para construir tablas de agregación que mejoran la performance de las
consultas contra el data warehouse.
Esta fase sólo se aplica contra los procesos de carga con destino tablas de hechos (fact tables).
Asegúrese que los registros agregados finalicen con las claves correctas de las tablas de dimensión para
los niveles de sumarización requeridos en los informes.
Metadatos
Otro aspecto de la arquitectura de data warehouse es crear soporte para los metadatos. Metadatos son la
información sobre los datos que alimentan, se transforman y existen en el data warehouse. Es un concepto
genérico, pero cada implementación de los metadatos usa técnicas y métodos específicos.
27/69
SSD – Resumen Examen Final UBP - Mayo 2013
Los métodos y técnicas específicos dependen de los requerimientos de cada organización, de las capacidades
existentes y de los requerimientos de interfaces de usuario. No hay normas para los metadatos, por lo que los
metadatos se definen desde el punto de vista del software data warehousing, seleccionado para una
implementación específica.
Típicamente, los metadatos incluyen los siguientes ítems:
• Las estructuras de datos que dan una visión de los datos al administrador de datos.
• Las definiciones del sistema de registro desde el cual se construye el data warehouse.
• Las especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se
replica al data warehouse.
• El modelo de datos del data warehouse (es decir, los elementos de datos y sus relaciones).
• Un registro de cuando los nuevos elementos de datos se agregan al data warehouse y cuando
los elementos de datos antiguos se eliminan o se resumen.
• Los niveles de sumarización, el método de sumarización y las tablas de registros de su DW.
Los metadatos sirven como el corazón del ambiente data warehousing. Crear definiciones de metadatos
completos y efectivos puede ser un proceso que consume tiempo, pero lo mejor de las buenas definiciones, si
se usan herramientas de gestión de software integrado, es que ese esfuerzo ayudará al mantenimiento del data
warehouse.
Los metadatos se sitúan en una dimensión diferente al de otros datos del data warehouse, debido a que su
contenido no se toma directamente desde el ambiente operacional.
Juegan un rol especial y muy importante en el data warehouse y se usan como:
• Un directorio para ayudar al analista a ubicar los contenidos del data warehouse.
• Una guía para el mapping de datos de cómo se transforma del ambiente operacional al de data
warehouse.
• Una guía de los algoritmos usados para la esquematización entre el detalle de datos actual, con los
datos ligeramente resumidos y éstos, con los datos completamente resumidos, etc.
Los metadatos juegan un papel mucho más importante en un ambiente data warehousing que en un ambiente
operacional clásico. A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse,
considere el siguiente ejemplo:
El detalle de ventas antiguas son las que se
encuentran antes de 1992. Todos los detalles de
ventas desde 1982 (o cuando el diseñador inició
la colección de los archivos) se almacenan en el
nivel de detalle de datos más antiguo.
El detalle actual contiene información desde
1992 a 1993 (suponiendo que 1993 es el año
actual). En general, el detalle de ventas no se
ubica en el nivel de detalle actual hasta que
hayan pasado, por lo menos, veinticuatro horas
desde que la información de ventas llegue a
estar disponible en el ambiente operacional.
En otras palabras, habría un retraso de tiempo de
por lo menos veinticuatro horas, entre el tiempo
en que en el ambiente operacional se haya
hecho un nuevo ingreso de la venta y el
momento cuando la información de la venta haya
ingresado al data warehouse.
El detalle de las ventas son resumidas
semanalmente por línea de subproducto y por
región, para producir un almacenamiento de
datos ligeramente sintetizados.
El detalle de ventas semanal es adicionalmente
resumido en forma mensual, según una gama de
líneas, para producir los datos completamente resumidos.
Los metadatos contienen (al menos): • La estructura de los datos
28/69
SSD – Resumen Examen Final UBP - Mayo 2013
• Los algoritmos usados para la esquematización
• El mapping desde el ambiente operacional al data warehouse
La información adicional que no se esquematiza se almacena en el data warehouse. En muchas ocasiones, allí
se hará el análisis y se producirá un tipo u otro de resumen. El único tipo de esquematización que se almacena
permanentemente en el data warehouse, es el de los datos que son usados frecuentemente. En otras palabras,
si un analista produce un resumen que tiene una probabilidad muy baja de ser usado nuevamente, entonces la
esquematización no se almacena en el data warehouse.
1. Administración de metadatos. Dentro de ella se incluyen las siguienes actividades:
1. Definiciones estándares de datos (incluyendo definiciones técnicas y descripciones del
negocio) de los datos almacenados en el warehouse.
2. Metadatos creados y capturados en los procesos de Refinamiento y Reingeniería.
3. Metadatos respecto a granularidad, particionamiento, agregaciones y sumarizaciones.
4. Metadatos que describen consultas y reportes predefinidos.
5. Metadatos que describen índices y configuraciones para mejorar el acceso a los datos y
performance de respuesta.
6. Metadatos describiendo reglas para tiempos y periodicidad de refresco, actualización y ciclo
de réplica
2. Tipos de Metadatos:
• Genéricos: Son los que corresponden a definiciones estándares de los Datos, como la
Fuente de Datos, el Volumen de Datos, la Antigüedad de datos, la Fecha de Depuración,
la Estructura de Datos.
• Específicos: Son los utilizados por las Herramientas DSS , como las Relaciones entre las
tablas, Atributos y métricas, Reportes, Niveles de usuarios y permisos, Sumarizaciones,
Particiones.
29/69
SSD – Resumen Examen Final UBP - Mayo 2013
6. ETL Statistics (Estadísticas ETL): La información de
las extracciones individuales, procesos de
transformación y carga, se capturan en este
componente. Esta información puede usarse para
determinar mejoras de los procesos, de la base de
datos, fallas de aislamiento y otros procesos de
optimización para el data warehouse.
7. Query Statistics (Estadísticas de Consulta): En este
componente se almacena la información de cada
consulta efectuada a la base de datos del data
warehouse. Esta información se usa para determinar
qué optimizaciones pueden realizarse a la base de
datos del data warehouse. Las estadísticas de uso
sobre tablas y columnas son analizadas para
determinar datos no utilizados, candidatos para
agregaciones o índices.
En la figura siguiente se muestra la vista lógica de modelado del repositorio genérico de metadatos. Es
importante recordar que este modelo genérico debe ser usado como guía, revisando, agregando y
eliminando los componentes individuales del modelo dependiendo de las necesidades del ambiente del
negocio y de la infraestructura de la empresa específica.
A continuación, se agrupan las tablas acorde al modo en que intervienen para cada componente .
Componente Tablas Descripción
30/69
SSD – Resumen Examen Final UBP - Mayo 2013
Source Estas tablas guardan información física sobre los sistemas operacionales,
Modelo de Datos Origen
Source To Target Estas tablas proveen la estrategia de diseño necesaria para construir los
Mapeo datos Origen a Destino
Column Map procesos de extracción, transformación y carga (ETL, por sus siglas en
inglés), enlazando las fuentes operacionales de origen de datos con las
Source To Target tablas del warehouse que alimentan.
Domain Map
Además del mapeo documentado en estas tablas de referencia cruzada,
en la columna Mapping Semantic Resolution de ambas tablas se describe
cualquier instrucción adicional que sea necesaria.
ETL Process Estas tres tablas mapean tablas del DW y fuentes operacionales con los
procedimientos que acceden a ellas y capturan estadísticas sobre el
ETL Process procesamiento de la carga. La población de estas tablas dependerá de la
Estadísticas ETL
31/69
SSD – Resumen Examen Final UBP - Mayo 2013
Subject Area Estas tablas proveen al usuario final con una agrupamiento lógico o vista del
32/69
SSD – Resumen Examen Final UBP - Mayo 2013
A. Aplicaciones Transaccionales
Las Aplicaciones Transaccionales constituyen los sistemas en donde se hacen las transacciones. Esas
aplicaciones, en gran parte, son legacy systems, escritos hace varios años, y en su mayoría no están
integradas con ninguna otra aplicación. Cada aplicación es dueña de su propio entorno. Estos pueden ser
sistemas internos o externos a la organización, y constituyen el origen del CIF.
B. Aplicaciones ERP
Del mismo modo que las aplicaciones transaccionales, las aplicaciones ERP (Enterprise Resource Plannig) o
de planificación de recursos empresariales, son aquellas provistas por un vendedor ERP y están integradas,
por lo menos dentro del entorno ERP, ya que las transacciones se ejecutan dentro de este entorno. Al igual que
las aplicaciones transaccionales, constituyen la base del CIF.
Estas dos clases de aplicaciones definen los lugares de donde se extraerá la información para su análisis
posterior, e incluyen las BD de sistemas operacionales, BD externas a la empresa, BD de sistemas ERP ,
Internet, datos aportados por especialistas, y cualquier otro medio interno o externo que se use para registrar
33/69
SSD – Resumen Examen Final UBP - Mayo 2013
información (documentos, Mails, Planillas, Memos, Internet, etc.) .
C. Área de Transformación e Integración
El Área de transformación/integración es el lugar en donde los datos son depositados luego de ser extraídos de
las aplicaciones. Representa el lugar en donde los datos pueden ser transformados sin el impacto negativo
sobre la performance de las aplicaciones. Generalmente este área es necesaria solamente en donde hay
grandes volúmenes de datos a procesar.
Normalmente, el área de transformación/integración no es accesible por otros procesos que no sean para la
extracción de datos desde las aplicaciones y preparación para la entrada en el entorno ETL. No se hacen
reportes de ningún tipo que no esté relacionado con el procesamiento de transformación e integración.
D. Procesos ETL o de integración y transformación
La integración y transformación se compone de procesos que se encargan de extraer información de las
fuentes de datos, transformarla, recodificarla, limpiarla, explicitar reglas de negocio ocultas, formatearla y
organizarla de manera de poder incorporarla en el entorno. A estos procesos se los conoce con la sigla ETL
(Extract, Transform and Load).
La capa de procesamiento ETL (Extract, Transformation, Load) es el lugar en donde los datos no integrados y
no depurados provenientes de diferentes aplicaciones son procesados. El propósito de los procesos de ETL es
integrar y depurar los datos para la preparación anterior a la inserción al data warehouse o hacia el ODS
corporativo. El procesamiento ETL realiza las siguientes tareas:
34/69
SSD – Resumen Examen Final UBP - Mayo 2013
diferentes.
El data warehouse tiende a contener grandes volúmenes de datos históricos: es muy común hablar de datos de
más de 10 años de antigüedad. Cada unidad de dato encontrada tiene un elemento de tiempo asociado , cada
registro posee una fecha (o elemento de tiempo) que lo describe. Ya que cada registro es histórico, se dicen
que los datos se mantienen como “snapshots” (fotos) en el data warehouse. Cuando ocurren cambios, se toma
una nueva foto y se almacena un nuevo registro. Los datos en el warehouse no son modificados, pero se
adicionan snapshots constantemente para reflejar los cambios.
El data warehouse no soporta procesamiento de transacciones en línea (OLTP).
Problemas en cada etapa de evolución de un data warehouse
1. Tablas Sumarizadas.
◦ No aislaba carga de Trabajo.
◦ Altos costos de actualización de equipos.
◦ Se debía disponer de datos provistos por OLTP.
◦ El recálculo era muy costoso.
2. Datos operacionales en un Servidor Separado.
◦ No administraba metadatos.
◦ Base de datos no optimizada.
◦ Flexibilidad Limitada.
3. Data Mart aislado.
◦ Futuras expansiones forzaban a replantear los programas
◦ No poseían datos sumarizados.
4. Data Warehouse en capas.
◦ Altos costos de implementación.
◦ Altos tiempos de implementación.
Orientado a un tema
Se dice que un DW está orientado a una materia (a
un tema) cuando está orientado a las principales
entidades de un empresa u organización. El dato
orientado a un tema es un enfoque que contrasta a
la orientación clásica de las aplicaciones y sistemas
operacionales, que casi siempre es proceso/función.
El mundo operacional está diseñado alrededor de
las aplicaciones y funciones tales como préstamos,
ahorros, tarjetas bancarias, y créditos para una
institución financiera.
El mundo de un data warehouse esta organizado a
través de las principales entidades tales como clientes, vendedores, productos y actividad. La alineación a
través de las áreas afecta el diseño e implementación de los datos encontrados en el data warehouse.
El mundo de la aplicación se interesa por el diseño de la base de datos y del diseño de los procesos. El
mundo de un DW se enfoca en el modelado de datos y diseño de base de datos exclusivamente.
Integración
Que haya fácil integración es el aspecto más importante del entorno de un data warehouse y define que los
datos encontrados dentro de este, están integrados. SIEMPRE, SIN EXCEPCIONES. La integración se
muestra de diferentes formas – en la consistencia de convenciones de nombramiento, en la consistencia de
las medidas de las variables, en la consistencia de la codificación de las estructuras, en la consistencia de
los atributos físicos de datos, y muchos más. El contraste de la integración encontrada en el data warehouse
35/69
SSD – Resumen Examen Final UBP - Mayo 2013
con la carencia de integración del ambiente de aplicaciones, se muestran en la figura, con diferencias bien
marcadas
A través de
los años, los
diferentes
diseñadores de aplicaciones han hecho sus propias decisiones de cómo una aplicación debe ser construida.
El estilo y las decisiones de diseño individualizadas de los diseñadores de aplicaciones se muestran en
cientos de formas: en diferencias de codificación, estructuras de claves, características físicas,
nombramientos, y demás.
La habilidad de muchos diseñadores de aplicaciones en crear aplicaciones inconsistentes es legendaria. La
figura, muestra algunas de las diferencias más importantes en las formas en que se diseñan las
aplicaciones:
• Codificación. Los diseñadores codifican el campo GENERO de varias formas. Un diseñador
representa GENERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una
"Y" e inclusive, como "masculino" y "femenino".
No importa mucho cómo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan
buenas como cualquier otra representación. Lo importante es que de cualquier fuente de donde
venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme.
Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicación, donde ha
sido representado en formato "M" y "F", los datos deben convertirse al formato del data warehouse.
36/69
SSD – Resumen Examen Final UBP - Mayo 2013
• Medida de atributos. Los diseñadores de aplicaciones usan diferentes unidades de medida de las
tuberías. Un diseñador almacena los datos de tuberías en centímetros, otros en pulgadas, otros en
millones de pies cúbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformación traduce las diversas unidades de medida usadas
en las diferentes bases de datos para transformarlas en una medida estándar común. Cualquiera
que sea la fuente, cuando la información de la tubería llegue al data warehouse necesitará ser
medida de la misma manera.
• Convenciones de Nombramiento. Se usan nombres diferentes para el mismo elemento en las
diversas aplicaciones. El proceso de transformación asegura que se use preferentemente el nombre
de usuario.
• Fuentes Múltiples: El mismo elemento puede derivarse desde fuentes múltiples. En este caso, el
proceso de transformación debe asegurar que la fuente apropiada sea usada, documentada y
movida al depósito.
Tal como se muestra en la figura, los puntos de integración afectan casi todos los aspectos de diseño -las
características físicas de los datos, la disyuntiva de tener más de una de fuente de datos, el problema de
estándares de denominación inconsistentes, formatos de fecha inconsistentes y otros.
Cualquiera que sea la forma del diseño, el resultado es el mismo - la información necesita ser almacenada
en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas
operacionales subyacentes almacenen los datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el data warehouse, su enfoque deberá
estar en el uso de los datos que se encuentre en el depósito, antes que preguntarse sobre la confiabilidad o
consistencia de los datos.
Variable en el tiempo
Se entiende que todos los datos en el data warehouse son precisos en un momento de tiempo dado. Esta
característica es muy diferente al del entorno operacional en donde los datos son precisos al momento de
acceso, en otras palabras, en el entorno operacional, cuando se accede a una unidad de dato, se espera
que éste refleje el valor preciso a ese momento. Ya que los datos son precisos a un momento en el tiempo,
los datos encontrados en el warehouse se dicen que son “variables en el tiempo” .
La figura muestra
la variabilidad de
los datos:
37/69
SSD – Resumen Examen Final UBP - Mayo 2013
una vez registrada correctamente, no puede ser actualizada. La información del data warehouse es,
para todos los propósitos prácticos, una serie larga de "snapshots" (instantáneas).
4. Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser
cambiados. Asumiendo que los snapshots se han tomado adecuadamente, no son alterados una
vez hechos. En algunos casos puede ser no ético, e incluso ilegal, alterar los snapshots en el data
warehouse. El dato operacional es preciso al momento de acceso, y por lo tanto es modificado
tantas veces como sea necesario.
Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito , por el
contrario, debe incluir los datos históricos para usarlos en la identificación y evaluación de tendencias.
No Volátil
La figura muestra esta ultima característica del DW, la de ser no volátil:
La figura muestra que modificaciones, inserciones, borrados y cambios son hechos regularmente a los
entornos operacionales, registro por registro. Pero la manipulación básica de los datos que existen en el
data warehouse es mas simple. Hay solo dos tipos de operaciones que ocurren en un data warehouse – la
carga inicial de los datos y el acceso a los datos. No hay modificación de los datos en el data warehouse
como parte del procesamiento normal.
Hay algunas consecuencias muy importantes de esta diferencia básica, entre el procesamiento operacional
y del data warehouse. En el nivel de diseño, la necesidad de ser precavido para actualizar las anomalías no
es un factor en el data warehouse, ya que no se hace la actualización de datos. Esto significa que en el nivel
físico de diseño, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la
normalización y denormalización física.
Otra consecuencia de la simplicidad de la operación del data warehouse está en la tecnología subyacente,
utilizada para correr los datos en el depósito. Teniendo que soportar la actualización de registro por registro
en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnología
tenga un fundamento muy complejo debajo de una fachada de simplicidad.
La tecnología permite realizar backup y recuperación, transacciones e integridad de los datos y la detección
y solución al estancamiento que es más complejo. En el data warehouse no es necesario el procesamiento.
La fuente de casi toda la información del data warehouse es el ambiente operacional. A simple vista, se
puede pensar que hay redundancia masiva de datos entre los dos ambientes. Desde luego, la primera
impresión de muchas personas se centra en la gran redundancia de datos, entre el ambiente operacional y
el ambiente de data warehouse. Dicho razonamiento es superficial y demuestra una carencia de
entendimiento con respecto a qué ocurre en el data warehouse. De hecho, hay una mínima redundancia de
datos entre ambos ambientes. Se debe considerar lo siguiente:
• Los datos se filtran cuando pasan desde el ambiente operacional al de depósito. Existe mucha
data que nunca sale del ambiente operacional. Sólo los datos que realmente se necesitan
ingresarán al ambiente de data warehouse.
• El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La información en el
ambiente operacional es más reciente con respecto a la del data warehouse. Desde la
perspectiva de los horizontes de tiempo únicos, hay poca superposición entre los ambientes
38/69
SSD – Resumen Examen Final UBP - Mayo 2013
operacional y de data warehouse.
• El data warehouse contiene un resumen de la información que no se encuentra en el ambiente
operacional.
• Los datos experimentan una transformación fundamental cuando pasa al data warehouse. La
mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data
warehouse. Dicho de otra manera, la mayoría de los datos se alteran física y radicalmente
cuando se mueven al depósito. No es la misma data que reside en el ambiente operacional
desde el punto de vista de integración.
En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara, que
resulta en menos de 1%.
OLTP vs. DSS
Las aplicaciones de BD OLTP (Online Transaction Processing) son óptimas para administrar datos que
cambian. Estas aplicaciones, típicamente, tienen muchos usuarios que ejecutan transacciones que
modifican datos en tiempo real al mismo tiempo; en otras palabras, OLTP es una DB en vivo (con inserts,
deletes, updates, etc).
Las aplicaciones de BD de los Sistemas de Soporte de Decisión son óptimos para consultas que no
modifican los datos. Por ejemplo, una compañía puede sumarizar periódicamente sus ventas por fecha,
por región, o producto y guardar esta información en una DB separada para ser usada para análisis por la
administración. Para tomar decisiones de negocios, los usuarios deben ser capaces de determinar
tendencias en las ventas con rapidez, a través de las consultas a los datos usando diferentes criterios.
Estas consultas no modifican los datos. Las tablas de una BD de soporte a decisiones están fuertemente
indexadas, y los datos crudos son a menudo preprocesados y organizados para soportar varios tipos de
consultas.
Como los usuarios no modifican los datos, la concurrencia y atomicidad no plantean problemas: los datos
se modifican sólo con actualizaciones masivas y periódicas, fuera del horario de trabajo y cuando el
tráfico de datos en la BD es bajo.
Las diferencias resumidas entre ambos ambientes de datos se muestran en la tabla siguiente:
DATOS DSS OLTP
Contenido Datos Sumarizados Valores discretos, Detallados
Organización Por área de interés Por aplicación
Naturaleza Estático hasta hacer el refresco Dinámico
Uso Procesamiento analítico, altamente Procesamiento repetitivo, altamente
desestructurado. estructurado.
Estructura Pocas tablas desnormalizadas Muchas tablas altamente
normalizadas
Granularidad Cierto nivel de sumarización Transaccional
Tiempo de respuesta Desde algunos segundos hasta Desde centésimos hasta 2 ó 3
minutos segundos
39/69
SSD – Resumen Examen Final UBP - Mayo 2013
El ODS corporativo es una estructura híbrida en donde se encuentran algunos aspectos operacionales y
algunos aspectos de sistemas de decisiones (DSS). Soporta procesamiento de transacciones en línea (2 – 3
segundos de tiempo de respuesta) y procesamiento de actualización directa, y también soporta procesamiento
DSS usando datos integrados, exactamente igual que el data warehouse.
El ODS es alimentado por la capa de ETL.
Podemos clasificar los ODS según el momento en que se los refresca, a partir de la actualización de los datos
transaccionales.
Clase I. Las transacciones son movidas hacia el ODS en forma inmediata desde las
aplicaciones, en el rango de uno a dos segundos, desde el momento en que la transacción fue
ejecutada en el entorno operacional hasta que la transacción es incorporada al ODS.
Clase II. Las actividades que ocurren en el entorno operacional fueron almacenadas y
retransmitidas hacia el ODS cada hora y más. En este caso, hay un notable salto entre la
ejecución original y el reflejo de la misma en el ODS.
Clase III. La diferencia de tiempo entre la ejecución en el entorno operacional y el reflejo de la
misma en el ODS, se realiza durante la noche. Este tipo de ODS es fácil de construir.
Clase IV. Un ODS de este tipo es aquel que depende de un data warehouse. La entrada al ODS
puede ser regular o irregular. Esta clase de ODS es más fácil de construir ya que depende
directamente del data warehouse el cual ya ha sido construido y depurado.
G. Data Mart
El Data Mart es el lugar en donde diferentes departamentos ubican sus propios datos para el procesamiento
DSS. El data mart es único por departamento o sub-departamento. Típicamente los departamentos que tienen
su propio data mart son los departamentos de finanzas, ventas, marketing, contabilidad, y Recursos humanos.
El dato granular encontrado en el data warehouse es tomado y transformado en una forma óptima para el
departamento. Típicamente , hay mucho menos datos en el data mart que en el data warehouse ya que en el
data mart los datos son sumarizados y denormalizados, y a su vez, el data mart contiene mucho menos datos
históricos.
La estructura de datos típica del entorno de data mart es el star join (estrella), en donde se ubica una tabla
base y sus tablas de dimensiones. La estructura de un data mart es muy diferente de la estructura de otro data
mart.
En estos entornos, las tecnologías dimensionales son óptimas. Los data marts son periódicamente refrescados
desde el data warehouse para mantener su datos actualizados.
Características básicas:
• Es un subconjunto de datos corporativos válidos para una unidad de negocio específica, sobre
un tema puntual o para un grupo reducido de personas. Este subconjunto consiste de datos
históricos, sumarizados y posiblemente detallados.
• Es una solución menos costosa y mucho más reducida que la implementación de un Data
Warehouse.
• Normalmente comprende un modelo multidimensional.
• Para usuarios con perfil de granjeros (ver mas adelante)
H. Aplicaciones DSS
Las aplicaciones DSS son el lugar en donde una simple función es realizada. La función generalmente recorre
múltiples departamentos. Algunas aplicaciones DSS son CRM, análisis de elasticidad, reportes de ERP
Business Intelligence, etc.
I. Utilidades de exploración/Data Mining.
Análisis estadísticos.
El procesamiento estadístico fuerte ocurre en los medios de exploración y data mining. La separación de los
medios de exploración y data mining con el resto del entorno de data warehouse se basa en que el
procesamiento que ocurre en los medios de exploración y data mining no tienen impacto de performance
con el resto del procesamiento que ocurre en el entorno de data warehouse.
Los tiempos de respuesta pueden ser desde una hora hasta una semana de procesamiento.
40/69
SSD – Resumen Examen Final UBP - Mayo 2013
El dato encontrado en los medios de exploración y data mining es usualmente muy detallado e histórico.
Además, ocasionalmente hay una necesidad de que no se refresquen los datos de exploración. El dato de
exploración se necesita mantener constante para que el resultado obtenido de un análisis pueda ser
comparado con el resultado de otro análisis.
Exploration Warehouse
• Satisface requerimientos de procesamiento temporal y desestructurado con alta velocidad de
respuesta.
• Condensa la información de un EDW y la organiza de manera que pueda ser incorporada
parcialmente en la memoria de un Servidor y conseguir de esta manera, altas velocidades de
respuesta.
• Puede nutrirse del EDW para fines exploratorios o de los sistemas transaccionales si se utilizará
para realizar análisis “What-if”
• Debido a la naturaleza de los requerimientos de exploración sus datos se encuentran altamente
indexados.
• Su existencia es transitoria o temporaria.
• Sirve de puente a un Data Mining Warehouse.
• Para usuarios con perfil de Exploradores.
Data Mining Warehouse
• Es un almacén creado para contener las entradas y las salidas de los procesos de minería, de manera
que no interfieran con los sistemas operacionales y de soporte de decisión.
• Permite realizar búsquedas altamente desestructuradas de exploración.
• Los datos están enriquecidos con variables necesarias para los procesos de minería.
• Para usuarios con perfil de Mineros.
J. Almacenamientos Alternativos
Los almacenamiento Alternativos consisten de medios de almacenamiento de baja performance, entre los que
se incluyen:
• Datos viejos
• Datos de uso no frecuente
• Datos sumarizados de uso no frecuente
• Datos de contingencia, y otros...
Es necesario usar herramientas que controlen el uso y el traspaso de información a estos almacenamientos.
El almacenamiento alternativo es diferente del almacenamiento de discos clásico. Hay mucho datos en el data
warehouse que de alguna forma se transforman en obligatorios. Además, el volumen en un data warehouse
maduro es demasiado, por lo que es necesario separar este en dos clases: Almacenamiento usado
activamente y almacenamiento no usado activamente.
Transcurrido el tiempo, el data warehouse crece y la cantidad de datos inactivos supera ampliamente la
cantidad de datos usado activamente. A este punto, no hay justificación económica ni tecnológica para
continuar almacenando estos datos en almacenamiento de discos de alta performance. Los almacenamientos
alternativos presentan una atractiva alternativa de almacenamiento a un bajo costo.
K. Metadatos
Los Metadatos son el lugar donde se almacena la información que necesitan las herramientas de consulta y el
motor de cálculo para traducir peticiones de datos en consultas contra un motor.
También se almacena información sobre las fuentes, los procedimientos de extracción de datos, la periodicidad
de actualización, las unidades de medida y cualquier otra información válida tanto para el usuario final como
para los componentes intermedios.
Una forma más práctica de definir qué es un metadatos es citando algunos ejemplos:
• Descripción del Dato. El registro de clientes contiene una lista de atributos, y su posición relativa
y formato en el medio de almacenamiento.
◦ Cust-id char (15)
◦ Cust-name varchar (45)
◦ Cust-address varchar (45)
41/69
SSD – Resumen Examen Final UBP - Mayo 2013
◦ Cust-balance dec fixed (15, 2)
• Contenido. Hay 150,000 ocurrencias de la transacción X en la tabla PLK.
• Índices. La tabla XYZ contiene índices en las siguientes columnas:
◦ Columna HYT
◦ Columna BFD
◦ Columna MJI
• Plan de Actualización. La tabla ABC es refrescada cada Martes a las 2:00 P .M.
• Uso. Solamente 2 de 10 columnas en la tabla ABC han sido usadas en los últimos 3 meses.
• Integridad referencial. La tabla XYZ está relacionada con la tabla ABC por la clave QWE.
• Documentación General. “La tabla ABC fue diseñada en 1975 como parte del sistema de
cobranza”. La tabla ABC contiene datos de cuentas morosas calculadas por... ”
Estos ejemplos de metadatos solamente son un subconjunto ínfimo de la información contenida en este. La
forma final deberá ser limitada solamente por la imaginación y por las necesidades que gobiernan el uso y la
administración del CIF.
La razón por la cual los metadatos son importantes para el CIF, y sus diferentes componentes, es que son el
mecanismo que almacenan la arquitectura del CIF. La figura ilustra este rol de los metadatos. Sin metadatos,
los diferentes componentes del CIF son solamente estructuras sin relación entre ellas.
Unidad 6:
Explotación del Corporate Information Factory (CIF)
Hasta ahora hemos detallado cada uno de los componentes de un CIF (Unidad 5), como así también, hemos
analizado una metodología de diseño de modelos multidimensionales contenida en este, pero no hemos
nombrado aún quienes son los principales destinatarios de este gran trabajo.
En primer lugar, se pueden clasificar diferentes tipo de usuarios, identificados por características propias que
marcan esa diferencia.
Al conjunto de todos los usuarios que por su naturaleza utilizan el CIF, se los denomina comunidad de usuarios
del CIF. A primera vista, surgen tres tipos básicos de usuarios, los cuales se detallan a continuación:
• Turistas.
El turista, en términos generales es el tipo de usuario que sabe como encontrar los datos,
navega sobre los mismos en forma ligera y rápida. En general, los turistas no tienen un
conocimiento formado acerca de lo que están buscando, solo conocen todo acerca de índices,
catálogos y metadatos.
Están cómodos con los motores de búsqueda.
• Granjeros
42/69
SSD – Resumen Examen Final UBP - Mayo 2013
El granjero es el usuario regular. Trabaja en forma predecible, busca datos en forma regular y
generalmente realiza consultas rutinarias. El granjero conoce qué es lo que busca, y los
resultados de sus consultas son de poca cantidad de registros. Generalmente, el granjero
encuentra lo que está buscando y accede a un datamart.
• Exploradores
El explorador es una persona impredecible. Ejecuta largas consultas que recorren grandes
cantidades de registros. Este usuario generalmente no encuentra lo que está buscando pero las
pocas veces que encuentra algo, seguramente produce un efecto positivo en la organización. El
explorador opera dentro del Enterprise Data Warehouse ya que precisa de datos altamente
normalizados, históricos y consolidados.
Estos tipos de usuarios están determinados por el uso que hacen del CIF en un determinado momento. Con
esto queremos especificar que un usuario puede ser de un tipo en un momento y luego, tras haber cambiado
su forma de actuar con el tiempo, pasar a representar otro tipo de usuario dentro de la comunidad.
Para simplificar la comparación proponemos el siguiente cuadro :
Recientemente, se han descubierto otros usuarios finales de un CIF: los mineros. Los mineros examinan
metódicamente los datos buscando la confirmación de hipótesis o quizás buscando nuevas. Una vez que han
encontrado el patrón, tratan de explicarlo con sentido técnico y de negocios.
Hay una conexión importante entre el explorador y el minero de datos, en un sentido el explorador precede al
minero y establece el escenario para el éxito del Data Mining (Minería de Datos). El explorador hace el trabajo
necesario para la identificación y creación de las hipótesis. El minero de datos luego toma la hipótesis y la
confirma o rechaza y determina la solidez de la misma. A pesar de esto, existen diferencias muy marcadas,
como las que se detallan a continuación:
43/69
SSD – Resumen Examen Final UBP - Mayo 2013
Explorador Minero de datos
✔ Opera en la misma BD. ✔ Está constantemente cambiando de BD.
✔ La BD está normalizada. ✔ Las BD son planas y no son normalizadas.
✔ No sabe lo que espera antes de la ejecución de la ✔ Tiene una idea clara de qué espera antes de
consulta. presentar la consulta.
Esta clasificación de los usuarios finales de un CIF, provee un marco de trabajo a partir del cual el diseñador y
el arquitecto del CIF pueden comenzar a comprender el mismo. Este marco de trabajo, a su vez, da las bases
para el ordenamiento a través de muchas contradicciones aparentes que se encuentran en el procesamiento y
el diseño. Sin este “mapa de ruta” de los usuarios finales del entorno del CIF, no se puede tener un marco
comprensivo para el procesamiento.
Dentro del entorno de un CIF, los usuarios se relacionan con este de diferentes formas:
1. SQL
2. Query and Reporting.
3. Herramientas OLAP
4. KDD / Data Mining.
Cada usuario tiene formas diferentes de acceder al CIF y a cada una de sus partes. Hay usuarios que con solo
la utilización de sentencias SQL (para motores del tipo relacionales) o de sentencias multidimensionales (para
motores del tipo multidimensionales) pueden obtener lo que están buscando. Una forma mas sofisticada sería
la de embeber en aplicaciones propias, conjuntos de estas sentencias para acceder al CIF. En este caso, nos
estaríamos acercando a herramientas del tipo Query and Reporting.
Las herramientas Query and Reporting pueden ser de terceros o no, y poseen la capacidad de acceder a
estructuras de motores de base de datos de diferentes tipos y marcas, para realizar consultas complejas. En un
escalón adicional, encontramos a usuarios un poco más sofisticados en lo que a análisis respecta, y a los
cuales con sólo SQL o herramientas de Query and Reporting no les alcanza para sus análisis. Estos usuarios
manipulan otro tipo de herramientas, llamadas OLAP.
Las herramientas OLAP tienen la capacidad de acceder a diferentes tipos y marcas de bases de datos, como
así también, interpretan estructuras de metadatos. Muestran la información en términos familiares para el
usuario, es decir, términos del negocio u organización. Las herramientas OLAP son más flexibles que las de
reporting, especialmente por la característica de acceso a metadatos. La forma de navegación es más rica,
amigable e intuitiva. Como característica adicional, podemos decir que el usuario final, con este tipo de
herramientas, no necesariamente necesita conocer acerca de estructuras de sentencias SQL ni de bases de
datos. La misma herramienta ayuda al usuario a realizar las peticiones en forma gráfica y asistida.
Por otro lado, encontramos una cuarta forma de acceso a los datos del CIF. Estos análisis se caracterizan por
búsquedas en grandes bases de datos, búsquedas no convencionales que identifican relaciones y patrones
ocultos dentro de dichas base de datos. Estas relaciones representan conocimiento valuable para una
organización. Para ello, estos usuarios utilizan técnicas variadas tales como predicciones, estimaciones y
clasificaciones. Esta técnica de búsqueda de relaciones y patrones se denomina KDD (Knowledge Discovery
in Databases) o por muchos autores, simplemente Data Mining.
Básicamente, los distintos tipos de usuarios acceden de la siguiente forma a los datos:
44/69
SSD – Resumen Examen Final UBP - Mayo 2013
Herramientas OLAP
OLAP (On Line Analytical Processing) es una categoría de software que, a través de una interfaz sencilla y ágil,
permite a analistas, administradores y ejecutivos analizar datos corporativos desde diferentes puntos de vista,
con niveles de granularidad y agregación variables, ya sean datos históricos o proyecciones y mostrando los
resultados en términos familiares al usuario, con el objeto de tomar decisiones.
La funcionalidad OLAP se caracteriza por los análisis de tipo multidimensional dinámico de datos consolidados
corporativos, soportando actividades analíticas y de navegación del usuario final. Este software ayuda al
usuario final a sintetizar información de la organización por medio de vistas personalizadas como así también
por medio del análisis de datos proyectados e históricos en variados escenarios.
OLAP es implementado en arquitecturas cliente/servidor y en ambientes multiusuario y ofrece rápida respuesta
a las consultas, ocultando el tamaño de la base de datos y su complejidad.
FASMI Test
¿Qué hace que un programa de software sea catalogado como OLAP ? En 1993, E. F. Codd & Associates,
publicaron un white paper comisionado por Arbor Software denominado “Providing OLAP (On Line Analytical
Processing ) to User-Analysts: An IT Mandate”. El Dr. Codd fue siempre muy bien considerado, como así
también, un respetado investigador de tecnología de base de datos desde los años 1960 y fue acreditado como
el creador del modelo de bases de datos relacionales. En este documento, el Dr. Codd enumeraba 12 reglas,
por las cuales una herramienta podía considerarse dentro de la categoría OLAP, sí y solo sí, cumplía con cada
una de ellas. Sin embargo, estas reglas fueron invalidadas por la mayoría de los investigadores ya que se
presumía que habían sido condicionadas por vendedores de software. Unos años mas tarde, en el año 1995,
Nigel Pendse reforzó las 12 reglas, agregando 6 reglas adicionales. A su vez, las reestructuró en cuatro grupos
llamándolos después “características”.
Así nace el “FASMI Test”, que se desprende de las siglas (Fast Analysis Shared Multidimensional Information).
FAST: Significa que la mayoría de los análisis que realiza el sistema, deben ser entregados dentro
de los 5 segundos; los análisis más simples, dentro del segundo y muy pocos, en más de 20
segundos.
Investigaciones independientes han mostrado que el sistema falla si los usuarios no han tenido
respuesta de sus peticiones dentro de los 30 segundos y que intentarían, pasado estos, presionar
las teclas “ALT+CTRL+DEL” mas allá de que el sistema los advirtió de que se iba a tomar su tiempo
para responder. De todos modos, si el usuario no hubiese, en este caso, tomado la decisión de
presionar el conjunto de teclas o bien cancelar la ejecución de la consulta, seguramente su cadena
de pensamiento se verá perjudicada y la calidad del análisis disminuiría. En la actualidad, las
respuestas lerdas a consultas son el problema principal de las herramientas OLAP actuales y
muchas de ellas no pasan este paso en el test.
ANALYSIS: Significa que el sistema se puede adaptar a una lógica de negocio y a análisis
estadísticos que son relevantes para la aplicación y para el usuario. Puede realizarse algún tipo de
preprogramación, pero no sería aceptable que fuera de la totalidad de las definiciones de la
aplicación. Es necesario permitir al usuario final que defina nuevos análisis no especificados con
anterioridad (Ad hoc) sin tener que programar. La aplicación debe incluir características especiales
tales como análisis de series de tiempo, ubicación de costos, cambios de monedas, búsqueda de
objetivos, modelado no procedural, alertas de excepciones, minería de datos y otras dependencias
de aplicaciones.
SHARED: Significa que el software implementa todos los mecanismos de seguridad necesarios
para los requerimientos de confidencialidad. No todas las aplicaciones permiten realizar escritura en
las bases de datos. Esta es el área de mayores conflictos de las herramientas OLAP de hoy y es por
ello que muchos productores de software asumen que deben ser read-only solamente.
MULTIDIMENSIONAL: Es el requerimiento clave, en donde el sistema debe proveer una vista
conceptual de los datos, incluyendo un amplio soporte de jerarquías y jerarquías múltiples. No
estamos determinando un mínimo de dimensiones que la aplicación debe soportar ni tampoco
definimos que tipo de servidor de base de datos deberán usar para soportar el enfoque
45/69
SSD – Resumen Examen Final UBP - Mayo 2013
multidimensional.
INFORMATION: La información está compuesta por todos los datos y toda la información necesaria.
Se mide la capacidad de las aplicaciones en términos de la cantidad de datos de entrada que
pueden administrar , y no en cuantos gigabytes de datos pueden almacenar. Hay muchas
consideraciones aquí, incluyendo la duplicación de datos, memoria RAM requerida, utilización de
espacio en disco, performance, integración con el data warehouse y cómo las resuelve.
46/69
SSD – Resumen Examen Final UBP - Mayo 2013
10. Almacenamiento de resultados OLAP. (Regla Nueva)
Esto forma parte de una implementación más que una característica de una herramienta. Aquí se
hace referencia a que las aplicaciones OLAP que permiten la realización de escrituras hacia el
motor OLAP deben mantener estos datos separados de los datos transaccionales.
11. Extracción de datos perdidos. (Regla Nueva)
Todos los valores perdidos deben ser diferenciados de los valores cero. En este caso, siguiendo el
interés de almacenar datos en forma más compacta obvian estos datos sin ser incluidos dentro de
la base de datos.
12. Tratamientos de valores perdidos. (Regla Nueva)
Todos los valores perdidos deben ser omitidos por el analizador OLAP sin prestar atención a su
origen. Esta regla se relaciona con la anterior y es probablemente la más inevitable consecuencia
de cómo los motores multidimensionales tratan todos los datos.
Características de Reporting (R)
13. Reporting flexible. (Regla Original 11)
El Dr. Codd especifica que todas las dimensiones intervinientes dentro de un modelo, en una
herramienta OLAP, deben poder ser incluidas en cualquier análisis como así también en
combinación con las demás dimensiones. Esto es especificado dentro de las herramientas OLAP
pero no se especifica para los viewers.
14. Performance uniforme de reportes. (Regla Original 4)
El Dr. Codd especifica que la performance de los reportes no debe ser perjudicada por el
incremento de dimensiones o incremento en el tamaño de la Base de Datos. Sin embargo, en la
práctica, reportes con mayor contenido o mayores cálculos no previstos generalmente tardan mas
en la búsqueda de sus datos.
15. Ajuste automático del nivel físico. (Regla Original 7)
El Dr. Codd requiere que los sistemas OLAP ajusten el esquema físico automáticamente para
adaptarse al tipo de modelo, volumen de datos y esparcimiento del mismo. Es una regla difícil de
cumplir pero día a día se está desarrollando cada vez más.
Dentro de las herramientas OLAP sentiremos nombrar en numerosas oportunidades el concepto de Cubo. Nos
referimos a un Cubo cuando hablamos de una estructura de celdas de datos agrupadas y ordenadas en filas y
columnas, cada una de estas representando una dimensión. A un array de tres dimensiones lo podemos
representar con un cubo, con cada dimensión formando un lado del cubo. Arreglos de más de tres dimensiones
no pueden ser representados con una metafórica física.
En esta definición hemos nombrado un nuevo término, Celda. Se entiende por Celda a un dato que ocurre en
la intersección de la selección de un miembro de cada dimensión en un cubo.
Dentro de las estructuras de cubos encontramos cubos del tipo Densos o cubos del tipo Comprimidos. Los
cubos densos son aquellos que poseen un alto porcentaje de posibles combinaciones de las dimensiones que
47/69
SSD – Resumen Examen Final UBP - Mayo 2013
los componen con valor, y esta definición es opuesta a la de cubo esparcido. Decimos que un cubo es
comprimido si un alto porcentaje de las posibles combinaciones de los miembros de las dimensiones
contienen valores perdidos.
Definimos como miembro de una dimensión a un nombre discreto o identificador usado para distinguir una
posición de un ítem de dato y descripción dentro de una dimensión.
Por ejemplo, “Enero de 1989” o “1Trimestre1993” son ejemplos típicos de miembros de una
dimensión.
Como sinónimos podemos nombrar a Atributo, Ítem o Posición. Por consiguiente, una combinación de
miembros es una descripción exacta de una única celda en un array multidimensional, consistiendo de una
selección específica de miembros en cada dimensión. Es decir, es un sinónimo de Celda.
Cualquier miembro puede estar organizado, basados en una relación de padre- hijo, en donde el padre
representa la consolidación de o los miembros hijos. El resultado de esto es una jerarquía y la relación padre-
hijo es una relación jerárquica.
Por otro lado, se dicen que los miembros de una dimensión están en un mismo nivel jerárquico, si dentro de
esta jerarquía tienen el mismo máximo numero de descendientes en una ruta simple hacia abajo. De la misma
forma, si dos miembros poseen la misma cantidad máxima de antecesores, se dice que esos miembros son de
la misma generación.
Estas relaciones y jerarquías nos permiten, al momento de consultar la información, utilizar técnicas analíticas
para navegar a través de los niveles de datos, desde los mas detallados hacia los mas resumidos. Estás
técnicas se llaman Drill Up y Drill Down. La primera de ellas, es la usada para ir desde la sección mas
detallada hacia la mas resumida o consolidada (hacia arriba en la jerarquía). La segunda, nos permite navegar
al revés, es decir, desde la más resumida hacia la mas detallada (hacia abajo en la jerarquía).
Otra técnica muy usada es la de Slice. Con la técnica de slice, uno puede seleccionar para su análisis un
subconjunto del array multidimensional correspondiente a un valor simple de uno o más miembros de una
dimensión que no esté en el subconjunto.
Por ejemplo, si el miembro “actual” es seleccionado de la dimensión “escenarios”, el sub-cubo
formado por todas las dimensiones restantes es el slice.
El cambio de orientación de un reporte se denomina Rotación. La rotación consiste de intercambiar las filas y
las columnas o mover una fila de dimensión dentro de una columna de dimensión. Como sinónimo de este
termino podemos especificar el término Pivotear.
Una técnica muy útil es la que se denomina Reach Through. Esta técnica engloba la acción de extender la
accesibilidad de los datos al usuario final a un sistema transaccional,a través de consultas en el Data
Warehouse.
Existen productos de gran escala que presentan una simple y única estructura lógica, como así también usan
modelos sofisticados para comprimir datos. Estos generalmente permiten que se inserten valores de datos por
cada combinación de miembros de dimensiones, y todas las partes del espacio de datos tienen idéntica
dimensionalidad. A estos los llamamos hipercubos.
Por otro lado, un enfoque mucho mas común, es el uso de multicubos. En productos multicubos, el diseñador
de aplicaciones segmenta la base de datos en conjuntos de estructuras multidimensionales, cada una de las
cuales se compone de un subconjunto de numero promedio de dimensiones en la base de datos. Cada una de
estas estructuras se llama subcubos.
Subcategorías de OLAP
Existen tres subcategorías de OLAP, que se identifican por el tipo de almacenamiento que utilizan. Es obvio
que el tipo de almacenamiento afecta la performance de consulta. Las subcategorías son ROLAP, MOLAP y
HOLAP.
1. ROLAP
ROLAP (Relational OLAP) usa bases de datos relacionales en donde almacena las agregaciones de
los cubos. En contraste con el almacenamiento OLAP, no mantiene una copia de los datos base,
sino que provee acceso a una tabla base para poder buscar los mismos. Las respuestas de los
almacenamientos ROLAP son generalmente lerdas. Un uso particular de este tipo de
almacenamiento es para grandes volúmenes de datos que no se consultan frecuentemente , tales
como datos históricos.
48/69
SSD – Resumen Examen Final UBP - Mayo 2013
2. MOLAP
MOLAP (Multidimensional OLAP) usa una estructura multidimensional que contiene agregaciones y
especificaciones de implementación propias del negocio. Provee el potencial de ser el tipo de
almacenamiento más rápido dentro de las estructuras OLAP. En general , este tipo de estructuras
es la más apropiada para cubos con alta frecuencia de uso y con necesidad de respuesta en tiempo
mínimo.
3. HOLAP (híbrido)
HOLAP (Hybrid OLAP) combina atributos del almacenamiento MOLAP y ROLAP. Los datos
agregados son almacenados en estructuras MOLAP y los datos base son almacenados dentro de
estructuras ROLAP. Los cubos almacenados en ambientes HOLAP son mucho menores que los
mismos cubos almacenados en estructuras MOLAP, y el tiempo de respuesta es mejor a los de
almacenamiento ROLAP para consultas que buscan datos sumarizados.
49/69
SSD – Resumen Examen Final UBP - Mayo 2013
una organización. Es la etapa de descubrimiento de un proceso de KDD.
En este punto debemos hacer una aclaración. Según lo que veníamos viendo en relación con las herramientas
OLAP, el usuario (el explorador, el turista, el granjero) las usaba para responder a preguntas que se formulaba
con el fin de justificar sus ideas. Estas acciones terminaban en consultas que eran lanzadas contra el servidor
OLAP y por último contra el servidor de bases de datos, con el fin de buscar la información adecuada que
respondiera a tales interrogantes. Llamaremos a estas acciones Chequeos de Hipótesis que son Conducidos
por la Verificación. Obviamente, estas acciones son comunes dentro del entorno OLAP, pero ahora, con la
llegada de los mineros, estamos entrando en un campo totalmente distinto, que llamaremos Descubrimiento
del Conocimiento.
Si analizamos las acciones que realizan los mineros, encontraremos que pretenden descubrir conocimiento sin
hipótesis previas o precondiciones. Se limitan a estudiar los datos existentes para hallar comportamiento,
patrones y/o tendencias ocultas con ellos. Acciones totalmente distintas a las de los exploradores, turistas y
granjeros que intentan explicar y/o confirmar una hipótesis planteada por un analista de antemano. Podemos
afirmar que el descubrimiento del conocimiento es conducido por el mismo descubrimiento.
Dentro del Descubrimiento del Conocimiento, encontramos que existen dos tipos de descubrimientos: Directo o
Indirecto.
El Descubrimiento Directo pretende explicar el comportamiento de una variable, denominada Objetivo, a
través del comportamiento de un conjunto de variables llamadas Descriptoras.
El Descubrimiento Indirecto pretende explicar el comportamiento simultáneo de un conjunto de variables y
explicar la relación que existe entre ellas.
Al día de hoy existen lo que se llaman funciones de minería que ayudan al minero a realizar las operaciones
sobre los datos en pos de la búsqueda de sus resultados. Son éstas funciones, acciones bien definidas a
utilizar con diferentes propósitos sobre los datos. Podemos nombrar aquí cinco funciones muy importantes en
la vida de un minero de datos, aunque no son las únicas existentes. Debemos aclarar que la utilización de una
de ellas sobre un conjunto de datos no implica que pueda ser usada otra de las funciones sobre el mismo
universo de datos, ni que sobre los resultados de una función, se utilice otra función que intente explicar los
resultados de la primera.
Estas cinco funciones son:
1. Asociación.
2. Segmentación.
3. Clasificación.
4. Patrones Secuenciales.
5. Secuencias de Tiempo Similares.
1. Asociación
La asociación es una técnica que utiliza el tipo de descubrimiento indirecto y se define como “Dada una
colección de ítems y un conjunto de registros, los cuales están contenidos en un número de ítems de la
colección dada, una función de asociación es una operación sobre este conjunto de registros la cual retorna la
afinidad o patrón que existe sobre colección de ítems”. Estos patrones pueden representarse con reglas como
“el 72% de todos los registros que contienen ítems A, B y C también contienen ítems D y E”.
2. Segmentación
Siendo la Segmentación una técnica del tipo de descubrimiento indirecto y siendo conocida también como
Clustering, se define como “El proceso de creación de particiones compuestas de miembros de una población
por la cual todos los miembros de esa partición son similares entre sí acorde a alguna métrica”. Un cluster es
un conjunto de objetos agrupados a través de su similitud o proximidad.
3. Clasificación
Cuando definimos el Descubrimiento Directo, dijimos que pretende explicar el comportamiento de una variable,
llamada Objetivo, a través del comportamiento de un conjunto de variables llamadas Descriptoras. Podemos
afirmar que la combinación de valores de las variables descriptoras sobre el valor predicho define una clase. El
proceso de descubrir conjuntos de valores de variables descriptoras para definir un valor de la variable objetivo,
se denomina Clasificación.
La salida de una clasificación es un conjunto de reglas en las cuales se definen los diferentes valores que las
variables descriptoras adoptan para cada uno de los valores que puede tomar una variable objetivo. Es válido
50/69
SSD – Resumen Examen Final UBP - Mayo 2013
aclarar que previamente se debe definir cual es la variable objetivo y cuales las descriptoras dentro del
universo de datos.
4. Patrones Secuenciales
Esta técnica analiza un conjunto de registros de un período de tiempo con el objetivo de identificar tendencias.
Con esta técnica podemos identificar que secuencia de eventos o secuencia de registros ocurren relacionados
con una entidad.
Por ejemplo, podremos analizar un conjunto de registros pertenecientes a clientes. Cada registro
posee la misma estructura y se relaciona por el identificador del cliente. En este universo de
registros se podrían ver las diferentes compras de diferentes clientes. Una técnica de patrones
secuenciales podría analizar este conjunto de registros y detectar entre ellos patrones similares de
compra de productos. Un patrón secuencial de ejemplo podría ser el ser de compras que
preceden a la compra de un Horno Microondas.
Con relación a los Patrones Secuenciales podemos definir que las Secuencias de Tiempos Similares tratan de
identificar cada cuanto tiempo ocurren las secuencias encontradas por la técnica de Patrones Secuenciales.
Estas técnicas son usadas dentro de la etapa de minería en un proceso de KDD. Como vemos, la minería de
datos es una de las etapas dentro de un conjunto de etapas que son:
1. Análisis del Problema.
2. Análisis de Datos.
3. Selección de Datos.
4. Preparación de Datos.
5. Minería de Datos.
6. Interpretación de Resultados.
7. Aplicación del Conocimiento obtenido.
El Análisis de Problema es la tarea de entender lo que se quiere encontrar o que objetivo perseguimos con la
ejecución de un proceso de KDD. Es entender en términos organizacionales qué significan cada una de las
partes que componen el problema.
Luego de realizar el análisis del problema, se emprende lo que se llama el Análisis de Datos, que hace
referencia a la búsqueda de las diferentes variables que intervendrán dentro del proceso de KDD. Esta etapa
sólo se interesa en la identificación y no en la selección de los datos en la base de datos, ya que esto lo realiza
la etapa de Selección de Datos.
La Selección de Datos, toma como entrada la definición de las variables conformadas en la etapa de Análisis
de Datos. Dentro de la selección de datos, se definen los algoritmos y procesos a ejecutar sobre la base de
datos para obtener el conjunto de registros con los valores de cada una de las variables buscadas. Una vez
obtenidos los registros, estos conformaran el universo de datos a los cuales se le ejecutarán las funciones de
minería previa Preparación de Datos.
La Preparación de datos consiste de procesos que se denominan Limpieza, Enriquecimiento y Codificación.
La limpieza de datos se usa para corregir desvíos y errores de integridad que pudieran ocurrir en las variables y
en la relación entre ellas. Es necesario tener un entendimiento real y preciso sobre cada una de ellas para
poder detectar cuales son los errores y desvíos. En segundo lugar, el enriquecimiento se refiere a la
transformación de los datos para un mejor entendimiento como así también la creación de datos a partir de las
variables fuentes.
Un ejemplo podría ser el caso de la fecha de nacimiento de los clientes. En este caso, sería muy
conveniente, y contendría mas información, crear una variable con la edad que se deriva de esta
fecha de nacimiento.
Por último la codificación se refiere al proceso de transformar los valores de las variables a valores acordes a
las funciones de minería a ejecutar. Las funciones de minería utilizan procesos estadísticos específicos y
basados en la Ingeniería Artificial los cuales necesitan, en ciertos casos, que las variables adopten valores
específicos o dentro de rangos específicos para que estos puedan ser interpretados. En fin, la codificación es la
adecuación de las variables de entrada a las funciones de minería.
En la etapa siguiente, se procede con la Minería de Datos en donde se realiza la ejecución de las funciones
sobre los datos fuentes. Dentro de esta etapa podemos realizar tareas complementarias a la función de minería
de datos, tales como:
✔ Análisis preliminar utilizando herramientas de consulta de datos.
51/69
SSD – Resumen Examen Final UBP - Mayo 2013
✔ Análisis preliminar utilizando funciones estadísticas.
✔ Análisis preliminar utilizando herramientas OLAP
✔ Aplicación de la técnica de minería propiamente dicha.
Existen diferentes modos de minería de datos, y ellos son Entrenamiento, Prueba y Aplicación/Producción.
a. Entrenamiento: Es la ejecución de la función de minería basándose en datos históricos y con los cuales
se construye el modelo de minería.
b. Prueba: se refiere al testeo del o los modelos construidos en el entrenamiento utilizando como entrada
un conjunto de datos históricos con resultados conocidos. La calidad del o los modelos estará dada por
la cantidad de ocurrencias de los resultados arrojados por el modelo y los resultados reales del
conjunto de datos, sobre la cantidad de datos total.
c. Aplicación / Producción: Es la implementación de los modelos creados sobre conjuntos de datos con
resultados desconocidos.
Previa a la aplicación de los modelos se debe pasar por la etapa de Interpretación de Resultados la cual se
refiere a la realización de un análisis exhaustivo de los resultados obtenidos, tratando de transformarlos en
términos de negocios u organizacionales. Es aquí en donde el conocimiento obtenido por el proceso es
asimilado en términos organizacionales.
Interpretados los resultados, la siguiente etapa dentro de este proceso de KDD es la aplicación de los mismos,
es decir, la Aplicación del Conocimiento obtenido con el fin de obtener los beneficios que este proceso
brinda.
En el mercado actual existen variadas herramientas, las cuales incluyen diferentes técnicas de minería como
las que hemos visto. Estos aspectos, la cantidad y tipos de técnicas que incluye, podrían ser variables fuertes
al momento de tomar la decisión de utilizar o no dicha herramienta. Por otro lado existen otras características
que no debemos dejar de lado, como son:
• La posibilidad de hacer la selección y preparación de los datos en la herramienta misma.
• La existencia de funciones de limpieza y transformación de los datos.
• La existencia de funciones estadísticas para el análisis de los datos.
• La existencia de diferentes tipos y formatos de visualización de los resultados obtenidos por las
diferentes técnicas de minería.
• La existencia de utilidades de almacenamiento de los resultados arrojados por las funciones de
minería, como así también herramientas de almacenamiento del conocimiento e interpretaciones
obtenidas a través de los resultados .
52/69
SSD – Resumen Examen Final UBP - Mayo 2013
11. Entrenamiento
En lo que respecta a esta unidad, se hará un especial énfasis en los temas no comprendidos en las unidades
previas, ampliando fundamentalmente los conceptos de las dos primeras: planificación y determinación de
requerimientos.
1. Planificación
1.1 Seleccionar la Estrategia de Implementación
• Top down:
Se utiliza cuando están identificados los requerimientos del negocio para la solución propuesta de
data warehouse, y los problemas del negocio a resolver están claramente comprendidos.
Se la recomienda para los siguientes escenarios:
◦ Cuando la organización que lo implementa está familiarizada con la tecnología.
◦ Cuando los ejecutivos, quienes toman decisiones e inversores tienen una clara visión de los
objetivos del data warehouse.
◦ Cuando los ejecutivos, quienes toman decisiones e inversores tienen en claro dónde ubicar
el data warehouse en su estructura organizacional como una herramienta para toma de
decisiones.
◦ Cuando los ejecutivos, quienes toman decisiones e inversores tienen en claro que el data
warehouse es un subproceso de un proceso de negocio existente.
• Bottom up:
Generalmente comienza con experimentos y prototipos basados en tecnología. Se selecciona un
subconjunto específico de problemas del negocio y se formula una solución para el mismo.
Normalmente esta solución es más rápida. Permite evaluar la tecnología cuando ésta no está aún
madura y antes de efectuar compromisos mayores. Normalmente utilizada para la implementación
de un data mart, un pequeño EIS, o un warehouse departamental orientado a responder unas pocas
preguntas de un dominio específico, como contabilidad, análisis de mercado o gestión de producto.
Se la recomienda para los siguientes escenarios:
◦ Cuando la tecnología de implementación es novedosa.
◦ Cuando la organización no posee aún una tecnología de data warehouse.
◦ Cuando la organización está evaluando tecnología y experimentando costos y tiempos de
implementación.
◦ Cuando existen objetivos poco claros.
• Combinación de ambas: una organización puede explotar los beneficios de planificación que otorga
la metodología top down, con la implementación rápida y oportuna de la bottom up.
Recomendada cuando:
◦ La organización que implementa el warehouse tiene personal experimentado en tecnología.
◦ La organización tiene un equipo de proyecto comprometido que tiene claro el objetivo de
dónde aplicar la tecnología de data warehouse.
53/69
SSD – Resumen Examen Final UBP - Mayo 2013
de interfaz gráfica de usuario (GUI) y motores de bases de datos (comunicaciones, RDBMS)
• ¿Cuál es el plan en términos de características y funciones?
Es el valor percibido por los usuarios finales para cada característica. Estas características y
funciones están dentro de las siguientes categorías:
◦ Las que son visibles y pueden ser usadas por usuarios finales externos al data warehouse.
◦ Las que no son visibles externamente, pero deben ser implementadas dentro del data
warehouse para desarrollar sus capacidades.
• ¿Cuáles son los distintos orígenes de datos que pueden y/o deben integrarse dentro del data
warehouse?
Hay que tener en cuenta esto, dadas sus implicancias tecnológicas por la dificultad de la extracción
de datos de distintas bases de datos, así como de orígenes externos de datos.
• ¿Cuándo debería estar operacional el data warehouse?
Existen distintos factores para determinar este momento: la competencia está usando tecnología de
data warehouse destinada a los clientes importantes y desarrollo de nuevos servicios. Un
departamento, dentro de la organización, no puede desarrollar sus funciones por no disponibilidad
de información clave respecto a clientes y datos históricos.
2. Determinación de Requerimientos
En esta fase se pretende precisar las especificaciones para las funciones que serán efectuadas por el data
warehouse. Deben describir el ambiente operacional en el que será entregado el data warehouse. Pueden
llamarse requerimientos a las expectativas del sistema que tienen los participantes del proyecto (propietarios,
arquitectos, desarrolladores y usuarios finales).
2.1 Relevamiento a Usuarios:
Desde el punto de vista del propietario (inversor) deberían responderse las siguientes preguntas:
- ¿Por qué se está construyendo un data warehouse o data mart?
- ¿A qué problema del negocio está dirigido?
- ¿Cuáles son los objetivos del negocio?
- ¿Quiénes son los participantes? ¿Quién es el cliente? ¿Quién el sponsor?
- ¿Cuánto costará?
- ¿Cuándo estará listo?
- ¿Cuál es el impacto en la gente/organización?
- ¿Tenemos conocimientos para hacerlo?
- ¿Cuáles son los riesgos?
Respondiendo a estas preguntas, obtendremos los requerimientos que formarán un criterio de aceptación
desde la perspectiva del propietario.
Algunos aspectos que potencialmente brindarán requerimientos son :
- Objetivos del negocio
- Objetivos del data warehouse/data mart, cliente y participantes.
- Orígenes de datos
- Planes, como presupuestos, cronogramas y recursos
- Impacto en inversiones actuales, como ser personal, tecnología y entrenamiento.
Parte de los requerimientos del negocio serán también especificaciones del alcance del DW en términos de lo
siguiente:
• Áreas involucradas:
La selección cuidadosa de áreas involucradas puede contener el alcance de la implementación del
data warehouse, maximizando su utilidad.
Por ejemplo, el departamento de marketing puede tener interés en alguno de los siguientes tópicos:
estudio de mercado, análisis de competitividad, comportamiento de los proveedores, segmentación
del mercado para el producto, decisiones de precio y presupuesto, decisiones de producto,
decisiones de canales, proyección de tendencias, etc. Entonces, el análisis de campo de las áreas
de interés involucradas para el departamento de marketing puede dar como resultado áreas de:
órdenes, promociones, mercados, ventas, ciclo de tiempo.
• Granularidad:
Se refiere al nivel de detalle de la información requerida y tiene una relación directa con las
actividades de sumarización a realizarse con los datos. A menor granularidad, mayor nivel de
detalle. Los datos operacionales tienden a estar en el menor nivel de granularidad. Para incrementar
el nivel de granularidad, los datos deben sumarizarse posteriormente.
Generalmente se requerirá mayor cantidad de procesamiento para sumarizar y convertir los datos
operacionales para obtener una mayor granularidad, pero también a mayor granularidad los datos
necesitan menor cantidad de almacenamiento y pueden consultarse rápida y convenientemente. La
sumarización debe realizarse cada vez que se refresca el data warehouse de los orígenes de datos.
Como conclusión, podemos decir que a un incremento de la granularidad, crecerá la utilidad para los
altos niveles de toma de decisión, disminuirá el volumen de datos e incrementará el procesamiento.
55/69
SSD – Resumen Examen Final UBP - Mayo 2013
Algunos ejemplos de granularidad en consultas de negocio son: ¿Cuál es el beneficio por región en
los últimos seis trimestres (no el beneficio diario por región)?, o bien ¿Cuáles son los nombres de
los diez primeros productos por región por volumen de ventas (no el volumen de ventas actual)?
• Dimensiones:
Los data warehouses organizan un gran almacén de datos operacionales e históricos usando una
categorización de múltiples dimensiones. Los datos se agrupan acorde a un rango temporal para
responder consultas de negocio que requieren, por ejemplo, ventas de un producto específico en el
último trimestre. Las dimensiones más comunes que se usan en consultas de negocio son: tiempo,
grupos de cliente, familias de producto, geográfica (dimensión), estructura organizacional.
Una jerarquía de la dimensión geográfica sería, por ejemplo: representante de ventas, localidad,
provincia, región del país, país, corporación.
• Requerimientos del arquitecto:
Es la persona responsable de determinar los distintos componentes del data warehouse para
soportar necesidades actuales y futuras. El esfuerzo invertido en arquitectura determinará:
1. El rango de funciones y características ofrecidas.
2. Las plataformas necesarias para la implementación.
3. El uso de estándares e interfaces abiertas.
4. Flexibilidad para incorporar mejoras.
Los arquitectos deben compilar un conjunto de requerimientos concordantes con la visión del
propietario así como también un conjunto de requerimientos que reflejen la implementación
tecnológica. Para ello se deben determinar tres componentes importantes de la arquitectura:
◦ La arquitectura de datos se puede desarrollar identificando los elementos de datos y metadatos
◦ La arquitectura de aplicación se puede desarrollar listando las aplicaciones y sus características
y funciones.
◦ La arquitectura de tecnología se desarrolla listando las selecciones para cada nivel y cada
componente del data warehouse.
• Requerimientos del desarrollador:
Si la visión del arquitecto del data warehouse es abstracta, la del desarrollador debe ser concreta.
Los requerimientos del desarrollador están cercanos a la arquitectura de implementación. Requiere
que las arquitecturas de datos, aplicación y tecnología que desarrolló el arquitecto se transformen
en aplicaciones específicas, interfaces, computadoras, bases de datos, comunicaciones y pantallas
de interfaz con el usuario.
• Requerimientos de tecnología:
Se necesitan orígenes de datos y metadatos, extracción de datos y metadatos, almacenamientos de
datos, administración de datos, redes y comunicaciones, un ambiente de procesamiento y
producción, gestión del flujo de trabajo y estándares.
El data warehouse/ data mart necesita refinamiento y reingeniería de la organización de datos,
redes y comunicaciones, un ambiente de procesamiento y producción, almacén de datos y
metadatos, catálogo de metadatos, gestión del flujo de trabajo y estándares.
Respecto a las herramientas del usuario final, se necesita middleware para acceso y devolución de
datos, almacenamiento local, ambiente de datos multidimensional, herramientas para reporte y
navegación de metadatos, estándares, herramientas para usuarios del negocio para efectuar
análisis y reportes, modelado del negocio, data mining, navegación de datos y OLAP .
• Requerimientos de distribución:
Se relacionan con la capacidad del data warehouse para proveer acceso a información distribuida
oportuna y convenientemente. El data warehouse debe proveer una variedad de métodos de acceso
para herramientas del usuario final y aplicaciones especializadas de data warehouse. También debe
proveer un rango de caminos de conexión desde dial-up usando una laptop, hasta estaciones de
trabajo conectadas en una LAN.
Se consideran importantes los siguientes requerimientos para un desarrollo efectivo del data
warehouse:
◦ Métodos de acceso
56/69
SSD – Resumen Examen Final UBP - Mayo 2013
◦ Métodos de entrega
◦ Herramientas de acceso
◦ Requerimientos de conectividad
◦ Requerimientos de la plataforma cliente.
• Requerimientos para efectividad en producción del data warehouse:
Un sistema de data warehouse se convierte en un sistema de producción cuando es de misión
crítica y se usa frecuentemente para decisiones operacionales y estratégicas.
Se relacionan principalmente con la gestión de disponibilidad, mantenimiento de consistencia y
exactitud en la información, rendimiento y crecimiento de datos, definición de políticas y
procedimientos para actualización y mantenimiento tanto de los datos del data warehouse como de
sus metadatos, provisión de control de acceso y procedimientos de seguridad. Algunos de estos
requerimientos son:
◦ Mantenimiento de información consistente, confiable y actualizada.
◦ Gestión de metadatos y meta modelos del data warehouse.
◦ Aseguramiento de que los mecanismos de transporte, bases de datos, computadoras y
mecanismos de comunicaciones están levantados y disponibles todo el tiempo.
◦ Provisión inmediata de soporte técnico y help desk para asistencia a usuarios cuando el
sistema está caído.
◦ Provisión de seguridad de acceso y políticas y procedimientos de autenticación.
◦ Gestión del tamaño de las BD usadas por el data warehouse, que incluye selección de
niveles múltiples de almacenamiento en múltiples medios (discos ópticos, torres de discos,
discos duros, etc.). En grandes proyectos de data warehouse este costo llega a alcanzar un
50% del presupuesto de hardware.
57/69
SSD – Resumen Examen Final UBP - Mayo 2013
operacional: ¿Cuáles son nuestros dos principales métodos de envío este año? ¿Y el
año anterior? ¿Qué destinos deberíamos estandarizar? ¿Cuáles eliminar? Operaciones:
¿Cuáles son nuestros métodos de envío más costosos? ¿Cuál es el método que deja
menor margen de ganancias? ¿Cuáles son nuestros 10 principales destinos? ¿Cuán
cercanos están geográficamente? Clientes: ¿Cuáles son las preferencias de nuestros
clientes respecto a los métodos de envío?
▪ Requerimientos de reportes: Cada usuario final descripto previamente tiene diversos
requerimientos de reportes, por ejemplo:
¿Cuáles fueron las ventas trimestrales para cada localidad y región para los 8 últimos
trimestres? ¿Cuáles fueron las ventas por línea de producto para cada localidad para los
últimos 24 meses (solo respecto a los meses de cambio de estación)?¿Cuál es el gasto
mensual en promociones y publicidad por medio de comunicación en los últimos dos
años? ¿Cuál fue el presupuesto trimestral para cada agencia para los últimos cuatro
trimestres? ¿Cuáles son los montos de venta mensual de productos por línea de
producto para cada localidad en los últimos 24 meses? ¿Envíos mensuales de
productos por método de envío y destino para los últimos 12 meses? Para cada gran
cliente, ¿cuáles son los envíos por semana en el último trimestre?
Los usuarios finales también pueden especificar requerimientos a cumplimentar por las
consultas de datos; por ejemplo:
▪ Acceso rápido, buena manipulación y muy buena presentación.
▪ Responder a las necesidades de variedad de usuarios.
▪ Permitir a los usuarios crear sus propias consultas usando términos del negocio que
ellos conocen y ofrecer una estructura de datos consistente.
▪ Drill-down sin necesidad de re-acceder.
▪ Requerimiento mínimo de entrenamiento y soporte.
▪ Soportar el hardware, software y DBMS del warehouse actual.
▪ También pueden especificar los tipos de análisis de datos que desean realizar sobre los
datos después de que son devueltos del data warehouse. Por ejemplo:
Tipos de Actividades
Slice and dice: ítems de datos separados de distintas formas.
Drill-down: exponer progresivamente mayor nivel de detalle.
Data mining: buscar patrones de datos ocultos
Datasurfing: mostrar de manera indirecta.
Bajar y realizar modificaciones locales.
Crear modelos del negocio, por ejemplo usando hojas de cálculo.
Vista de datos:
Bidimensional –hojas de cálculo–, relacional.
Multi-dimensional.
Reportes y gráficos.
7. Desarrollo de aplicaciones
• Desarrollo de reportes predefinidos.
• Prueba de reportes.
• Aplicación de herramientas DSS.
• Documentación.
8. Validación de datos
• Validaciones de totales.
• Validaciones de sumarizaciones.
• Validaciones con reportes.
• Validaciones de consistencia.
9. Entrenamiento
• Diseño de programas de entrenamiento.
• Diseño de procedimientos para soporte a usuarios.
• Marketing interno.
• Entrenamiento a operadores.
59/69
SSD – Resumen Examen Final UBP - Mayo 2013
Glosario
ALERTAS: Una notificación de un evento que ha excedido un límite preestablecido.
BASE DE DATOS
BASE DE DATOS OPERACIONAL: La base de datos operacional contiene el origen de los datos
para un data warehouse. Este contiene datos detallados usados para ejecutar las operaciones del
día a día del negocio. Los datos continuamente cambian y reflejan el estado actual de la última
transacción.
BASE DE DATOS RELACIONAL: Un sistema de base de datos que soporta un completo rango de
SQL estándar.
RDBMS: Sistema de administración de bases de datos relacionales.
OPTIMIZADOR BASADO EN COSTO: El software en una base de datos relacional que
intenta determinar cómo procesar la consulta asignando costos estimados a varias
alternativas diferentes.
BASE DE DATOS MULTIDIMENSIONAL (MDBMS): Una poderosa base de datos que permite a los
usuarios analizar grandes cantidades de datos. Un MDBMS captura y presenta los datos en arrays
que pueden ser ordenados en múltiples dimensiones.
DBA: Data Base Administrator. Administrador de base de datos.
DISEÑO FÍSICO: El paso de diseño de bases de datos, seguido al diseño lógico que identifica las
estructuras de las tablas de la base de datos actual y la estructura de los índices usados para
implementar el diseño lógico. Comparar con “Diseño lógico”.
DISEÑO LÓGICO: La fase del diseño de base de datos que trata de identificar las relaciones entre
los elementos de datos. Comparar con “Diseño físico”.
CUBO (CUBO DE DATOS): Un nombre para una base de datos dimensional.
BUSINESS INTELLIGENCE (BI): Conocimiento obtenido acerca de un negocio por medio del uso de distintas
tecnologías de hardware / software, las cuales habilitan a las organizaciones a transformar datos en
información.
DICCIONARIO DE DATOS: Una base de datos acerca de la estructura de los datos y de las bases de datos.
Un catálogo de todos los elementos de datos, conteniendo sus nombres, estructuras e información acerca de
su uso.
CATÁLOGO: Un componente de un diccionario de datos que contiene un directorio de los objetos
de un DBMS, como así también atributos de cada objeto.
CLAVE
CLAVE PRIMARIA: Un campo o combinación de campos de una tabla de base de datos que
identifica unívocamente cada uno de los registros de dicha tabla.
CLAVE FORÁNEA: Una clave foránea es una clave primaria de una estructura de datos que está
ubicada en otra estructura de datos, con el fin de establecer una relación entre esas dos estructuras.
Las claves foráneas resuelven las relaciones y dan soporte a la navegación a través de las
estructuras.
CLAVE COMPUESTA: Una clave de una tabla de base de datos, compuesta de varios campos.
Igual que “Clave concatenada”.
CLAVE CONCATENADA: Ver “Clave compuesta”.
CLIENTE / SERVIDOR: Una tecnología distribuida en donde el procesamiento es dividido por funciones. El
servidor realiza funciones compartidas: administra la comunicación, provee servicios de bases de datos, etc. El
cliente realiza funciones específicas del usuario: provee interfaz customizable, realiza navegación pantalla por
60/69
SSD – Resumen Examen Final UBP - Mayo 2013
pantalla, ofrece funciones de ayuda, etc.
SERVER: Servidor. Un servicio que provee funciones estándares para clientes con respuestas a
mensajes estándares desde los clientes. Una definición comúnmente usada de servidor es para
referirse a la computadora física desde la cual los servicios son proveídos.
CLIENTE: Un programa de software usado para contactar y obtener datos desde un programa de
software servidor en otra computadora. Cada programa cliente es diseñado para trabajar con uno o
más programas servidores específicos.
CLIENTE OLAP: Aplicación de usuario final que puede realizar slices desde servidores
OLAP y provee visualización bi-dimensional o multi-dimensional, selecciones, rankings,
cálculos, etc., para propósitos de visualización y navegación. Los clientes OLAP pueden
ser tan simples como planillas de cálculos.
DATA MART: Un subconjunto de datos, usualmente orientado a un propósito específico, que puede ser
distribuido para soportar las necesidades del negocio.
ODS: Operational Data Store. Es una base de datos integrada de datos operacionales. Un ODS puede
contener 30 o 60 días de información histórica, mientras que un data warehouse contiene años de datos.
DATA WAREHOUSE: Una copia de los datos transaccionales especialmente estructurada para consulta y
análisis. Una implementación de una base de datos para información, usada para almacenar orígenes de datos
compartidos de una base de datos operacional.
ARQUITECTURA DE UN DATA WAREHOUSE: Un integrado conjunto de productos que habilitan
la extracción y transformación de datos operacionales para ser cargados en una base de datos,
para análisis de los usuarios finales y para reporting.
DATA WAREHOUSE DIMENSIONAL: Un conjunto de bases de datos para el soporte de las
decisiones, diseñado con un modelo dimensional.
ENTERPRISE DATA WAREHOUSE (EDW): Data Warehouse Empresarial. Data Warehouse
centralizado que sirve de apoyo a la empresa en forma completa.
WAREHOUSE CENTRAL: Una base de datos creada de extracciones operacionales que
conforman un modelo de datos simple, consistente y empresarial, que asegura consistencia en los
datos de soporte de decisiones a través de la corporación. Un estilo de tecnología en donde todos
los sistemas de información son ubicados y administrados desde una locación física simple y
centralizada
DDW: Dimensional Data Warehouse. Data Warehouse dimensional.
DWA: Data Warehouse Administrator. El administrador del Data Warehouse.
INTEGRIDAD REFERENCIAL: Una condición mandatoria en un data warehouse, en donde todas
las claves en las tablas de hechos son legítimas claves foráneas relativas a las tablas de
dimensiones.
TIEMPO DE RESPUESTA DE UNA CONSULTA: El tiempo que un motor de data warehouse se
toma para procesar una consulta compleja a través de grandes volúmenes de datos hasta que
retorna los resultados de la misma.
FILTRO: Conjunto almacenado de criterios elegidos para la selección de un subconjunto de
información en un data warehouse.
MOTOR DE UN DATA WAREHOUSE: RDBMS y MDBMS. Los motores de bases de datos
requieren de fuertes capacidades de consulta, mecanismos de carga de datos rápida y
requerimientos de alto almacenamiento.
METADATOS: Cualquier dato mantenido como soporte de las operaciones de uso del data
warehouse. Los metadatos son los datos acerca de los datos. Como ejemplos pueden incluirse
descripciones de los elementos de datos, descripciones de los tipos de datos, descripciones de las
61/69
SSD – Resumen Examen Final UBP - Mayo 2013
propiedades y los atributos, descripciones de los dominios y rangos, etc.
SLICE Y DICE: La descripción estándar de la habilidad de acceder al data warehouse por medio de
cualquiera de las dimensiones. Un término usado para describir un análisis complejo de datos
provisto por un MDBMS.
DATO: Ítem que representan hechos, texto, gráficos, imágenes, sonido, segmentos de vídeo digital o análogo.
Los datos son la materia prima de los sistemas y son usados por los consumidores de información para crear
información.
DATOS ADMINISTRATIVOS: En una data warehouse, los datos que ayudan a un administrador de
data warehouse a administrar el almacén de datos.
DATOS AGREGADOS: Datos que son el resultado de la aplicación de un proceso de combinar
elementos de datos. Datos que son tomados en forma colectiva o en forma resumida.
DATOS DEL NEGOCIO: Información acerca de la gente, lugares, cosas, reglas de negocio y
eventos, los cuales son usados para operar el negocio.
DATA MINING: Una técnica que usa herramientas de software orientada a usuarios que no
conocen exactamente qué es lo que están buscando. Data Mining es el proceso de búsqueda a
través de una extensa cantidad de datos para producir relaciones entre ellos. Este puede predecir
tendencias y comportamientos futuros, permitiendo al negocio realizar decisiones pro activas y
dirigidas por el conocimiento.
PARTICIONAMIENTO DE DATOS: El proceso de particionamiento físico o lógico de los datos en
segmentos que son mas fácilmente mantenidos o accedidos. Los sistemas de RDBMS actuales
proveen este tipo de funcionalidad. El particionamiento de los datos ayuda a la performance de
consulta.
REDUNDANCIA: El almacenamiento de múltiples copias de un dato idéntico.
MAPEO DE DATOS: El proceso de asignar un elemento de datos origen con un elemento de datos
destino.
GRANULARIDAD: Grado de sumarización o resumen de los datos.
VISUALIZACIÓN DE DATOS: Técnicas para transformar datos en información usando la alta
capacidad del cerebro humano para reconocer visualmente patrones y tendencias.
INFORMACIÓN: Dato que ha sido procesado, el cual incrementa el conocimiento de la persona que
lo recibe. La información es la salida de los sistemas de información.
DIMENSIÓN: Una entidad independiente en un modelo de una organización que sirve como un punto de
entrada, o como un mecanismo de corte de las métricas aditivas de una organización.
DIMENSIÓN DEGENERADA: Una clave de dimensión que no tiene atributos, y por consiguiente no
tiene una tabla de dimensión.
SNOWFLAKE: Una dimensión normalizada en donde una dimensión plana simple es descompuesta
en una estructura de árbol con posibles niveles. Los modelos snowflakes generalmente
comprometen el entendimiento del usuario y la performance de visualización.
TABLA DE DIMENSIÓN: Una tabla en el esquema dimensional.
ATRIBUTO: Un campo en una tabla de dimensión.
MULTIDIMENSIONAL: Estructura de datos con tres o más dimensiones independientes.
RELACIONES JERÁRQUICAS: Un miembro de dimensión puede estar organizado basado en
relaciones padre-hijo, típicamente en donde el miembro padre representa la consolidación del
miembro hijo. El resultado es una jerarquía, y la relación padre-hijo da cuenta de las relaciones
jerárquicas.
RELACIONES MUCHO A MUCHO: Una relación de datos lógica en la cual los valores
62/69
SSD – Resumen Examen Final UBP - Mayo 2013
de uno de los elementos de datos pueden existir en combinación con muchos valores de
otros elementos de datos, y viceversa.
RELACIONES UNA A MUCHOS: Una relación de datos lógica en la cual el valor de un
elemento de datos puede existir en combinación con muchos valores de otros elementos
de datos, pero no viceversa.
DRILL ACROSS: El hecho de analizar datos desde una dimensión hacia otra dimensión, para
cambiar el enfoque de la misma.
DRILL DOWN: El hecho de reemplazar o agregar en un análisis un nuevo atributo de dimensión,
con el fin de detallar el mismo dentro de una misma dimensión.
DRILL UP: El hecho de remover un atributo de dimensión o reemplazar el mismo por otro atributo
de dimensión, con el fin de agrupar la información contenida en la misma, dentro de una misma
dimensión.
ESQUEMA: Una representación diagramática de la estructura de algo. Esta es la definición lógica y física de
los elementos de datos, características físicas e interrelaciones.
ESQUEMA DE BASE DE DATOS: La definición lógica y física de la estructura de la base de datos.
ESQUEMA ESTRELLA: Es un conjunto de tablas compuesto por una simple y central tabla de
hechos seguida por dimensiones denormalizadas. Cada dimensión es representada por una simple
tabla. El esquema estrella implementa estructura de datos dimensionales con dimensiones
denormalizadas. Los datos son almacenados en una tabla central de hechos y una o más tablas que
almacenan la información de cada dimensión. Las dimensiones tienen niveles y cada uno de estos
niveles son representados por columnas en cada tabla de dimensión.
ESQUEMA SNOWFLAKE: Es un conjunto de tablas compuesto por una simple y central tabla de
hechos seguida por normalizadas estructuras de tablas que forman las dimensiones compuestas
por jerarquías. Cada nivel de dimensión es representado en una tabla. Los esquemas snowflakes
implementan estructuras de datos dimensionales con dimensiones completamente normalizadas.
GUI: Graphical User Interface. Interfaz gráfica de usuario. Un estilo de interfaz de computadoras caracterizado
por ventanas, iconos, gráficos y el uso de dispositivos de punteros.
HECHO: Una métrica, típicamente numérica o aditiva, que es almacenada en una tabla de hechos.
63/69
SSD – Resumen Examen Final UBP - Mayo 2013
HECHOS ADITIVOS: Métricas en la tabla de hechos que están disponibles para ser sumarizadas a
través de todas las dimensiones.
HECHOS NO ADITIVOS: Un hecho que no puede ser sumarizado lógicamente entre registros.
Puede ser numérico o no. Si no es numérico, puede ser usado solamente en restricciones,
agrupaciones o conteos.
HECHOS SEMIADITIVOS: Un hecho numérico que puede ser adicionado o sumarizado a través de
algunas dimensiones de la tabla de hechos, pero no por otras.
SNAPSHOT: Un conjunto de tablas de hechos que representan el estado de las cuentas al final de
cada período de tiempo. Snapshots diarios y mensuales son muy comunes.
HERRAMIENTAS
HERRAMIENTA BACK END: Una aplicación de software, típicamente ubicada en el cliente y en el
servidor, que asiste en el proceso de extracción de datos. Comparar con “Herramienta FRONT
END”.
HERRAMIENTA FRONT END: Una herramienta cliente que recorre o manipula los datos
almacenados en una base de datos relacional. Comparar con “Herramienta BACK END”.
HERRAMIENTA DE ACCESO A LOS DATOS: una herramienta de usuario final que permite la
construcción de consultas sql.
HERRAMIENTA DE CONSULTA: una herramienta cliente que mantiene una sesión con el dbms,
enviando pequeños grupos de sentencias sql, y recibiendo pequeños conjuntos de resultados a
tales consultas.
HERRAMIENTA DE CONSULTA AD-HOC: una herramienta de usuario final que acepta
acciones point-and-click para construir una consulta ad-hoc que devuelva el resultado
esperado.
MODELOS
MODELO DE DATOS: Un mapa lógico que representa las propiedades inherentes de los datos
independientes de las consideraciones de hardware, software o performance de las máquinas. El
modelo muestra los elementos de datos agrupados en registros, como así también las asociaciones
de esos registros.
MODELADO DE DATOS: Un método usado para definir y analizar los requerimientos de datos
necesarios para soportar las funciones de negocios de una empresa. Esos requerimientos de datos
son almacenados como un modelo de datos conceptual con definiciones de datos asociadas. El
modelo de datos define las relaciones entre los elementos de datos y las estructuras.
MODELO DE NEGOCIO: Una vista del negocio en un determinado punto en el tiempo. La vista
puede ser pasada, presente o futura.
MODELO DIMENSIONAL: Una metodología de diseño top-down, que para cada proceso de
negocio enumera las dimensiones y los hechos relevantes.
MODELO ENTIDAD RELACIÓN: Un modelo de datos de una organización, el cual es representado
por objetos entidades y objetos relaciones entre dichas entidades.
ODBC: Open Database Connectivity. Conectividad abierta de bases de datos. Un estándar para el acceso a las
64/69
SSD – Resumen Examen Final UBP - Mayo 2013
bases de datos adoptado por Microsoft.
OLAP: On Line Analytic Processing. Procesamiento analítico en línea. Un término que contrasta con el término
OLTP. OLAP es un conjunto definido de principios que provee un marco dimensional para el soporte de
decisiones. Es el procesamiento que soporta el análisis de las tendencias y proyecciones del negocio.
ROLAP: Relational OLAP Un producto que provee análisis multidimensional de los datos,
agregados y metadatos almacenados en un RDBMS. El procesamiento multidimensional puede ser
hecho dentro de un RDBMS, un servidor de capa intermedia o un cliente.
HOLAP: Hybrid OLAP OLAP híbrido. Un producto que puede proveer análisis multidimensional
simultáneamente de datos almacenados en una base de datos multidimensional y en un RDBMS.
OLTP: On Line Transaction Processing. La descripción original para todas las actividades y sistemas asociados
con la carga de datos dentro de las bases de datos, en un entorno de procesamiento de transacciones.
SEMAFORIZACIÓN: Una técnica que usa círculos coloreados para identificar el contenido de un elemento de
dato. Los colores son definidos por un conjunto de límites predefinidos.
SISTEMA
SISTEMA DE INFORMACIÓN EJECUTIVA (SIE): Herramienta programada para proveer reportes o
libros de información resumida hacia los ejecutivos de los niveles más altos. Estos ofrecen reportes
de indicadores estáticos.
SISTEMA DE SOPORTE DE DECISIÓN (DSS): Software que soporta el reporte por excepción,
reporte en base a semáforos, con repositorios estándares, análisis de datos y análisis basados en
reglas. Una base de datos creada para procesamiento de consultas ad-hoc para usuarios finales.
SOPORTE A LAS DECISIONES: La actividad de usar los datos para tomar decisiones
en una organización.
SISTEMA OPERACIONAL: Un sistema que almacena los datos de las operaciones de una
compañía.
65/69
SSD – Resumen Examen Final UBP - Mayo 2013
HECHOS AGREGADOS (SQL): Los ítems en una lista de la sentencia SQL SELECT que participan
con una función SUM, COUNT, MIN, MAX y AVG.
TABLA DE HECHOS o TABLA BASE: La tabla central de un esquema dimensional, caracterizado por una
clave compuesta en donde cada uno de los elementos de dicha clave son claves foráneas a una tabla de
dimensión.
TABLA DE HECHOS SIN HECHOS: Tabla de hechos en donde no intervienen hechos.
TABLA DE SEGUIMIENTO DE EVENTOS: Una tabla de hechos en donde las dimensiones de las
tablas definen una descripción de un evento.
TABLA SUMARIZADA: Tablas creadas por medio del uso de las dimensiones comúnmente accedidas para
proveer velocidad en el tiempo de respuesta de las consultas. Estas tablas incrementan la redundancia de los
datos almacenados en el data warehouse.
AGREGADOS o SUMARIZADOS: Resúmenes precalculados y prealmacenados que son
guardados en el data warehouse para implementar mejoras de performance en las consultas.
66/69
SSD – Resumen Examen Final UBP - Mayo 2013
Identificación de los componentes del Corporate Information Factory (CIF)
La dirección de una empresa de comercialización al por menor de productos alimenticios, con sucursales en
variadas regiones, ha incorporado tecnología a su planta administrativa con el objetivo de mejorar la toma de
decisiones a nivel gerencial y ejecutivo.
La incorporación de la mencionada tecnología se basa en los siguientes elementos:
• Herramientas de captura de datos en servidores con aplicaciones transaccionales (ubicación:
Sucursales).
• Servidores de comunicación entre sucursales y casa matriz (ubicación: Sucursales y Casa
Matriz).
• Líneas de enlaces digitales entre sucursales y casa matriz.
• Servidor de residencia temporal de los datos colectados desde sucursales (ubicación: Casa
Matriz).
• Servidor de base de datos relacionales con capacidad ampliada (ubicación: Casa Matriz).
• Herramientas de transformación y carga de datos.
• Programación de stored procedures y procesos de actualización de modelos de EDW.
• Herramienta de explotación de modelos decisionales.
• Herramientas de monitoreo de performance de consultas.
• Servidores de backups como almacenamientos secundarios.
• Herramientas de extracción y consulta de datos con fines operativos.
El Departamento de Tecnología ha ideado esta implementación sin tener en cuenta el concepto de Corporate
Information Factory.
a) Como consultor de esta organización, esquematice estos elementos dentro del marco del CIF. El
resultado final deberá contener un esquema de la arquitectura de implementación adecuada al CIF.
67/69
SSD – Resumen Examen Final UBP - Mayo 2013
c) En el caso de haber integrado herramientas de minería de datos, ¿qué funciones aplicaría y qué
resultados posibles se obtendrían con dicha incorporación en organizaciones de este rubro?
En el caso de incorporar herramientas de minería de datos (data mining) utilizaríamos las siguientes funciones
68/69
SSD – Resumen Examen Final UBP - Mayo 2013
con los consiguientes resultados:
• Asociación: que identifique canastas de productos de venta en transacciones atómicas.
Ejemplo: en el 80% de los casos, cuando se venden productos de copetín, se venden en la
misma transacción latas de cerveza.
• Segmentación: que identifique grupos de personas (clientes) que poseen patrones de conducta
similares ante la compra.
Ejemplo: dos grupos de clientes, los compradores de productos bajas calorías y los compradores
de productos tradicionales.
• Clasificación: que identifique las características de los clientes que poseen patrones de
conducta similares.
Ejemplo: Luego de identificar los dos grupos de clientes después de la segmentación, la
clasificación arrojaría las reglas más relevantes sobre las variables analizadas que identifiquen a
cada grupo.
Grupo 1: clientes de baja edad de sexo femenino, Grupo 2: resto de los clientes.
• Patrones secuenciales: que identifique cómo se suceden las compras a través del tiempo como
modas en los consumos.
Ejemplo: Año x: caracterizado por la compra de artículos de limpieza de alta calidad. Año n+1:
caracterizado por la compra de artículos de bazar de calidad media y artículos de vidrio.
• Secuencia de patrones secuenciales: que identifique el rango de tiempo en el cual un patrón
secuencial se repite.
Ejemplo: siguiendo con el ejemplo próximo anterior, el mismo se produce cada 10 años.
d) Identifique los tipos de usuarios destinados a explotar esa estructura.
• Operativos: en la utilización del ODS
• Exploradores: en la utilización de los modelos decisionales
• Mineros: en la utilización de las herramientas de minería
69/69