Figura 3.60:
TIPOS DE HERRAMIENTAS
Existen diferentes tipos de herramientas de consulta y anlisis, y de
acuerdo a la necesidad, tipos de usuari@s y requerimientos de informacin, se
debern seleccionar las ms propicias al caso. Entre ellas se destacan las
siguientes:
Reportes y Consultas.
OLAP.
Dashboards.
Data Mining.
EIS.
Reportes y Consultas
Se han desarrollado muchas herramientas para la produccin de consultas y
reportes, que ofrecen a l@s usuari@s, a travs de pantallas grficas intuitivas,
la posibilidad de generar informes avanzados y detallados del tema de inters
de inters que se este analizando. L@s usuari@s solo deben seguir una serie
de simples pasos, como por ejemplo seleccionar opciones de un men,
presionar tal o cual botn para especificar los elementos de datos, sus
condiciones, criterios de agrupacin y dems atributos que se consideren
significativos.
Inclusin de imgenes.
Formatos tipogrficos.
OLAP
El procesamiento analtico en lnea OLAP (On Line Analytic Processing), es la
componente ms poderosa del Data Warehousing, ya que es el motor de
consultas especializado del depsito de datos.
Las herramientas OLAP, son una tecnologa de software para anlisis en
lnea, administracin y ejecucin de consultas, que permiten inferir informacin
del comportamiento del negocio.
Su principal objetivo es el de brindar rpidas respuestas a complejas
preguntas, para interpretar la situacin del negocio y tomar decisiones. Cabe
destacar que lo que es realmente interesante en OLAP, no es la ejecucin de
simples consultas tradicionales, sino la posibilidad de utilizar operadores tales
como drill-up, drill-down, etc, para explotar profundamente la informacin.
Adems, a travs de este tipo de herramientas, se puede analizar el
negocio desde diferentes escenarios histricos, y proyectar como se ha venido
comportando y evolucionando en un ambiente multidimensional, o sea,
mediante la combinacin de diferentes perspectivas, temas de inters o
dimensiones. Esto permite deducir tendencias, por medio del descubrimiento
de relaciones entre las perspectivas que a simple vista no se podran encontrar
sencillamente.
Las herramientas OLAP requieren que los datos estn organizados dentro
del depsito en forma multidimensional, por lo cual se utilizan cubos
multidimensionales.
Adems de las caractersticas ya descritas, se pueden enumerar las
siguientes:
Dashboards
Los Dashboards se pueden entender como una coleccin de reportes,
consultas y anlisis interactivos que hacen referencia a un tema en particular y
que estn relacionados entre s.
Existen diversas maneras de disear un Dashboard, cada una de las cuales
tiene sus objetivos particulares, pero a modo de sntesis se expondrn algunas
caractersticas generales que suelen poseer:
Data Mining
Esta herramienta constituye una poderosa tecnologa con un gran potencial
que ayuda y brinda soporte a l@s usuari@s, con el fin de permitirles analizar y
extraer conocimientos ocultos y predecibles a partir de los datos almacenados
en un DW o en un OLTP. Claro que es deseable que la fuente de informacin sea
un DW, por todas las ventajas que aporta.
La integracin con el depsito de datos facilita que las decisiones
operacionales sean implementadas directamente y monitorizadas.
Implementar Data Mining permitir analizar factores de influencia en
determinados procesos, predecir o estimar variables o comportamientos
futuros, segmentar o agrupar tems similares, adems de obtener secuencias
de eventos que provocan comportamientos especficos.
Una de las principales ventajas del Data Mining es que, como recin se ha
hecho mencin, permite inferir comportamientos, modelos, relaciones y
estimaciones de los datos, para poder desarrollar predicciones sobre los
mismos, sin la necesidad de contar con patrones o reglas preestablecidas,
permitiendo tomar decisiones proactivas y basadas en un conocimiento
acabado de la informacin.
Adems brinda la posibilidad de dar respuesta a preguntas complicadas
sobre los temas de inters, como por ejemplo Qu est pasando?, Por qu? y
Qu pasara s?, estos cuestionamientos aplicados a una empresa podran ser:
Cul de los productos de tal marca y clase sern ms vendidos en la zona norte
en el prximo semestre? y por qu? Adems se podrn ver los resultados en
forma de reportes tabulares, matriciales, grficos, tableros, etc.
Entonces, se puede definir Data Mining como una tcnica para descubrir
patrones y relaciones entre abundantes cantidades de datos, que a simple
vista o que mediante otros tipos de anlisis no se pueden deducir, ya que
tradicionalmente consumira demasiado tiempo o estara fuera de las
expectativas.
Los sistemas Data Mining se desarrollan bajo lenguajes de ltima
generacin basados en Inteligencia Artificial y utilizan mtodos matemticos
tales como:
Redes Neuronales.
Sistemas Expertos.
Programacin Gentica.
rboles de Decisin.
EIS
EIS (Executive Information System) proporciona medios sencillos para
consultar, analizar y acceder a la informacin de estado del negocio. Adems,
pone a disposicin facilidades para que l@s usuari@s puedan conseguir los
datos buscados rpidamente, empleando el menor tiempo posible para
comprender el uso de la herramienta.
Usualmente, EIS se utiliza para analizar los indicadores de performance y
desempeo del negocio o rea de inters, a travs de la presentacin de vistas
con datos simplificados, altamente consolidados, mayormente estticos y
preferentemente grficos.
El concepto principal de esta herramienta, se basa en el simple hecho de
que l@s ejecutiv@s no poseen tiempo, ni las habilidades necesarias para
analizar grandes cantidades de datos.
Al igual que OLAP y Data Mining, los EIS, se pueden aplicar
independientemente de la plataforma DW. Pero tener como base un depsito
de datos para implementar esta herramienta, conlleva todas las ventajas
implcitas del mismo.
Caracterizacin de consultas
Es difcil evaluar y comparar procesadores de consultas para sistemas
centralizados y distribuidos dado que ellos difieren en muchos aspectos.
Caractersticas importantes de los procesadores de consultas que
pueden ser usados como base para su comparacin:
1.-Lenguaje
Gran parte del trabajo de procesamiento tiene que ver con el lenguaje,
pues los lenguajes relacionales proporcionan muchas oportunidades para la
optimizacin. En BBDD distribuidas se cuenta con un lenguaje relacional ms
primitivas de comunicacin.
2.- Tipo de optimizacin
El problema de optimizacin de consultas es altamente demandante en
tiempo de ejecucin y, en el caso general, es un problema de la clase NP.
As existen dos estrategias para su solucin: bsqueda exhaustiva o el
uso de heursticas.
Los algoritmos de bsqueda exhaustiva tienen
combinatorial en el nmero de relaciones de la consulta.
una
complejidad
1. Descomposicin de consultas
La primera capa descompone una consulta en el clculo relacional en
una consulta en el lgebra relacional que opera sobre relaciones globales.
Consiste de cuatro partes:
1. Normalizacin. Involucra la manipulacin de los cuantificadores de la
consulta y de los calificadores de la misma mediante la aplicacin de la
prioridad de los operadores lgicos.
2. Anlisis. Se detecta y rechazan consultas semnticamente incorrectas.
3. Simplificacin. Elimina predicados redundantes.
4. Reestructuracin. Mediante reglas de transformacin una consulta en
el clculo relacional se transforma a una en el lgebra relacional. Se sabe que
puede existir ms de una transformacin. Por tanto, el enfoque seguido
usualmente es empezar con una consulta algebraica y aplicar transformaciones
para mejorarla.
Descomposicin de consultas
1. Normalizacin
La consulta de entrada puede ser arbitrariamente compleja dependiendo
de las facilidades provistas por el lenguaje. El objetivo de la normalizacin es
transformar una consulta a una forma normalizada para facilitar su
procesamiento posterior. La normalizacin consiste de dos partes:
El anlisis lxico y sintctico: En esta parte se verifica la validez de la
expresin que da origen a la consulta. Se verifica que las relaciones y atributos
invocados en la consulta estn acordes con la definicin en la base de datos.
Por ejemplo, se verifica el tipo de los operandos cuando se hace la
calificacin.
2. Anlisis
El anlisis de consultas permite rechazar consultas normalizadas para los
cuales no se requiere mayor procesamiento.
Una consulta se puede rechazar si alguno de sus atributos o nombres de
relacin no estn definidas en el esquema global. Tambin se puede rechazar si
las operaciones que se aplican a los atributos no son del tipo adecuado.
En una grfica de consulta, un nodo indica la relacin resultante, y
cualquier otro nodo representa la relacin operante.
Un arco entre dos nodos que no son resultados representa una junta,
mientras que un arco cuyo nodo destino es una relacin resultante representa
una proyeccin.
Una subgrfica importante de la grfica de conectividad es la grfica de
juntas, en la cual nicamente se consideran las juntas.
La grfica de juntas es particularmente importante durante la fase de
optimizacin.
3. Simplificacin
La consulta en forma normal conjuntiva puede contener predicados
redundantes.
Una evaluacin directa de la consulta con redundancia puede llevarnos a
realizar trabajo duplicado.
Ejemplo: consulta en SQL
SELECT TITULO
FROM E
4. Reestructuracin.
El ltimo paso en la descomposicin de consultas, reescribe la consulta
en el lgebra relacional.
Esto se hace tpicamente en los siguientes paso:
a. Una transformacin directa del clculo relacional en el lgebra
relacional
para
Esto puede ser visto como el reemplazo de las hojas del rbol del
lgebra relacional de la consulta distribuida con subrboles que corresponden a
los programas de localizacin.
A la consulta obtenida por esta forma se le conoce como una consulta
genrica.
En general, el enfoque anterior puede ser ineficiente dado que varias
simplificaciones y reestructuraciones de la consulta genrica an pueden ser
realizadas.
las
es
la
tercera
etapa
del
Modelo de costo
El costo de una estrategia de ejecucin distribuida se puede expresar
con respecto al costo total (tiempo de ejecucin) o al tiempo de respuesta.
Tiempo de Respuesta
El tiempo de respuesta es el tiempo transcurrido desde el inicio de la
consulta hasta su terminacin y se puede expresar como
Costo total = costo de I/O + costo de CPU + costo de comunicacin
Donde:
costo de CPU = costo de una instruccin * no. de instrucciones
secuenciales
costo de I/O = costo unitario de una operacin de I/O a disco *
utilizan
las tcnicas de
optimizacin
de
consultas