Anda di halaman 1dari 45

DATAMINING

Ing. CIP Richard Branko Luque del Carpio

Temas a tratar
Recopilacion

Almacen de datos
(Data Warehousing)
Almacenes de datos y bases de datos
transaccionales.
Arquitectura de los almacenes de datos
Carga
y
mantenimiento
de
los
almacenes de datos
Almacn y minera de datos

1. Necesidad de los almacenes de datos

Los
sistemas
comerciales
incluyen herramientas para:

actualmente

Informes avanzados
Inteligencia
de
negocios
(BUSINESS
INTELLIGENCE)
Sistemas de informacin ejecutivos, etc

Teniendo esto es necesario distinguir 2 usos


diferentes de los sistemas de informacin:

Procesamiento Transaccional
Procesamiento Analtico

1.1 OLTP Y OLAP

OLTP (Online Transactional Processing):

Proceso transaccional en tiempo real


Trabajo primario en un sistema de informacin
Consiste en realizar tareas transaccionales como
actualizacin o consultas a una base de datos

Por ejemplo: En el caso de una empresa, la


insercin de un nuevo cliente, el cambio de
sueldo de un empleado, la tramitacin de un
pedido, el almacenamiento de una venta, la
impresin de una factura, la baja de un
producto, etc

1.1 OLTP Y OLAP

OLAP (OnLine Analytical Processing):

Engloba
un
conjunto
de
operaciones,
EXCLUSIVAMENTE DE CONSULTA, en las que
requiere CRUZAR gran cantidad de informacin.
El objetivo de estas CONSULTAS es realizar
informes y resmenes, generalmente para el
apoyo en la toma de decisiones.

Por ejemplo: Pueden ser resmenes de ventas


mensuales, los consumos elctricos por das,
el producto cuyas ventas han crecido mas en
el ultimo trimestre.

1.1 OLTP Y OLAP

Estos dos procesamientos se caracterizan por


ser "online" es decir que sean relativamente
instantneas.

Esto suele ser claro para OLTP pero no tan


claro para OLAP debido a que utiliza consultas
muy complejas.

Temas a tratar
Recopilacion

Almacen de datos (Data

Warehousing)
Almacenes de datos y bases de
datos transaccionales.
Arquitectura de los almacenes de datos
Carga
y
mantenimiento
de
los
almacenes de datos
Almacn y minera de datos

2. Almacenes de datos y bases de datos


transaccionales.

Es un conjunto de datos histricos internos o


externos, que estn organizados de tal forma
que permiten resumir, descubrir y analizar los
datos con el fin de ayudar a la toma de
decisiones.

Un almacn de datos facilita el anlisis de los


datos en tiempo real (OLAP)

Diferencias entre una base de datos


transaccional y almacn de datos

BASE DE DATOS TRANSACCIONAL

ALMACEN DE DATOS

Proposito

Operaciones diarias. Soporte a las


aplicaciones

Recuperacion de informacion, informes,


analisis y mineria de datos

Tipo de datos

Datos de funcionamiento de la
organizacin

Datos utiles para el analisis.

Caracteristicas de los
datos

Datos de funcionamiento, cambiantes,


internos, incompletos

Datos historicos, datos internos y externos

Modelo de datos

Datos normalizados

Datos en estrella, en copo de nieve,


multidimensionales

Numero y tipo de
usuarios

Cientos/miles: aplicaciones, operarios,


administrador de la base de datos

Decenas, directores, ejecutivos, analistas

Acceso

SQL Lectura y Escritura

SQL y herramientas propias

Temas a tratar
Recopilacion

Almacen de datos (Data

Warehousing)
Almacenes de datos y bases de datos
transaccionales.
Arquitectura de los almacenes de
datos
Carga y mantenimiento de los almacenes
de datos
Almacn y minera de datos

3. ARQUITECTURA DE LOS ALMACENES


DE DATOS

Un almacn de datos recoge datos histricos


o tambin llamados "hechos.

3.1 Modelo multidimensional:

Los datos se organizan en torno a los HECHOS


que tienen ATRIBUTOS O MEDIDAS que pueden
verse en mayor o menor detalle segn ciertas
DIMENSIONES.

Por ejemplo:
Una cadena de supermercados puede tener como
HECHOS bsicos las ventas. Cada venta tiene una
MEDIDA como importe, cantidad, numero de
clientes, etc y esto se puede detallar en varias
DIMENSIONES como tiempo de la venta,
productor de la venta, lugar de la venta, etc.

3.1 Modelo multidimensional:

De acuerdo al ejemplo anterior podemos comprobar


que: las MEDIDAS responden generalmente a la
pregunta CUANTO?, mientras que las dimensiones
respondern al CUANDO?, QUE?, DONDE?, etc.

Por ejemplo: El HECHO "El da 20 de mayo de 2003


la empresa vendi en Espaa 12 327 unidades de
productos de la categora insecticidas

La cantidad 12 327 unidades = representa una MEDIDA


20 de mayo de 2003 = representa la dimensin TIEMPO
Espaa = representa la dimensin LUGAR
Insecticidas = representa la dimensin PRODUCTOS

3.1 Modelo multidimensional:

Por ejemplo: El HECHO "El primer trimestre


de 2004 la empresa vendi en Valencia por un
importe de 22 000 euros el producto X

El importe 22 000 euros = representa una


MEDIDA
primer trimestre 2004 = representa la dimensin
TIEMPO
Valencia = representa la dimensin LUGAR
Producto X = representa la dimensin ARTICULOS

3.1 Modelo multidimensional:

FIGURA PAGINA 49

3.1 Modelo multidimensional:

La forma que tienen el conjunto de HECHOS y sus


DIMENSIONES hace que llamen:

Almacenes de datos en ESTRELLA SIMPLE = cuando no hay


caminos alternativos en las dimensiones.
Almacenes de datos en COPO DE NIEVE = cuando si hay
caminos alternativos en las dimensiones (Comentario: como el
ejemplo anterior).

Cuando el numero de dimensiones no excede de 3 esta


puede representarse en un CUBO.
El CUBO estar formado por casillas donde cada casilla
contendr el valor posible para cada dimensin.

3.1 Modelo multidimensional:

FIGURA PAGINA 50

3.2. DataMarts

Son subconjuntos de datos con el propsito de


ayudar a que un rea especfica dentro del
negocio pueda tomar mejores decisiones.
El Datamart es un sistema orientado a la
consulta
Es consultado mediante herramientas OLAP
(Procesamiento Analtico en Lnea) que
ofrecen una visin multidimensional de la
informacin.

3.2. DataMarts

Beneficios de un DataMart:
Acelera las consultas reduciendo el volumen de datos
a recorrer.
Estructura los datos para su adecuado acceso por
una herramienta.
Segmentar los datos en diferentes plataformas de
hardware.
Los costos que implica la construccin de un
DataMart son mucho menores a un DataWarehouse

3.2. DataMarts

Diferencia DataMart DataWarehouse

El DataMart esta pensando para cubrir necesidades de un


grupo de trabajo o un determinado departamento dentro
de una organizacin.

El Datawarehouse es la organizacin en su conjunto. Se


caracterizan por disponer una estructura optima de datos
para analizar la informacin al detalle desde todas las
perspectivas que afecten a los procesos de dicho
departamento.

3.2. DataMarts - Estructura de un DataMart

Un DataMart se representa un modelo multidimensional


donde se representa un actividad que es un objeto de
anlisis ("HECHO") y las dimensiones que caracterizan
la actividad ("DIMENSIONES")

La informacin relevante sobre el hecho (ACTIVIDAD)


se representa por un conjunto de indicadores
("medidas o atributos de hecho")

La informacin descriptiva de cada DIMENSION se


representa por un conjunto de atributos (ATRIBUTOS
DE DIMENSION).

3.2. DataMarts - Estructura de un DataMart

Ejemplo:

Organizacin: Cadena de supermercados


Actividad de objeto de anlisis: ventas de
productos
Informacin registrada sobre una venta: del
PRODUCTO taurion se han vendido en el
ALMACEN Almacen #1 el DIA 17/07/2014, 5
UNIDADES por un IMPORTE de 103 nuevos
soles.

3.2. DataMarts - Estructura de un DataMart

3.2. DataMarts - Estructura de un DataMart

3.2. DataMarts - Estructura de un DataMart

3.2. DataMarts

La idea general es crear DataMart para cada uno de los


departamentos de una organizacin de acuerdo a su
necesidad.
Se podra tener un DataMart para el rea de Ventas y otro
para el rea de RR.HH.
Por ejemplo:

Un empleado ha dedicado ciertos recursos en un proyecto durante


un periodo en un departamento. Los HECHOS podran llamarse
"Participaciones", Las MEDIDAS O ATRIBUTOS podran ser "hora
de participacin", "numero de participantes", "presupuesto,
nivel de xito del proyecto, etc. y las DIMENSIONES podran ser
tiempo (para representar el periodo en el que ha estado
involucrado), departamento (para representar un empleado,
equipo o divisin en la que se ha desarrollado) y el proyecto
(subproyecto o proyecto del programa)

3.2. DataMarts

Cada una de las estrellas que representan un


mbito dentro de la organizacin se
denominan DATAMARTS
Cada Datamart tendr unas medidas y
dimensiones propias y diferentes de los
dems.
La nica dimensin que suele aparecer en
todos los Datamarts es dimensin TIEMPO, ya
que el almacn de datos representa
informacin histrica.

3.3. Explotacin de una almacn de datos.


(Operadores)

El modelo multidimensional se basa en un conjunto


de datamarts.
Para completar el modelo multidimensional
debemos definir una serie de operadores sobre la
estructura
Los mas importantes son:

DRILL: se trata de disgregar los datos siguiendo los


caminos de una o mas dimensiones
ROLL: se trata de agregar los datos siguiendo los
caminos de una o mas dimensiones
SLICE & DICE: se seleccionan y se proyectan los datos
PIVOT: se reorientan las dimensiones

3.3. Explotacin de una almacn de datos.


(Operadores)

Estos operadores son tambin llamados OLAP,


operadores de anlisis de datos u operadores
de almacenes de datos
Es operadores permiten realizar consultas de
proyeccin, seleccin y agrupamiento que se
pueden hacer en SQL
Por ejemplo:
La consulta "obtener para cada categora y
trimestre el total de ventas" para el Datamart
de la figura:

3.3. Explotacin de una almacn de datos.


(Operadores)

El resultado que se nos puede mostrar de


manera tabular o matricial la consulta del
modelo anterior lo podemos ver en la figura:

FIGURA 1 DE LA PAGINA 53

3.3. Explotacin de una almacn de datos.


(Operadores)

Operador DRILL: Este operador permite


entrar mas en detalle en el informe.
Por
ejemplo:
Queremos
desglosar
la
informacion por ciudades (Valencia y Leon) y
adems
seleccionando
la
categora
REFRESCOS. La respuesta de la consulta la
podemos ver en la figura:
FIGURA 2 DE LA PAGINA 53

3.3. Explotacin de una almacn de datos.


(Operadores)

Operador ROLL: Este operador es la inversa


del DRILL y el objetivo es obtener informacin
mas agregada.
Por ejemplo: Si quisiramos obtener los
totales de las categoras "refrescos" y
"congelados" simplemente seria necesario
aplicar el operador ROLL a la consulta como
se observa en la figura:
FIGURA 1 DE LA PAGINA 54

3.3. Explotacin de una almacn de datos.


(Operadores)

Operador
PIVOT:
se
reorientan
las
dimensiones
Por ejemplo: supongamos que tenemos la
consulta en la situacin en la que estamos
mostrando el importe para las categoras
"refrescos" y "congelados", las ciudades
"Valencia" y "Leon" y todos los Trimestres. La
posible representacin es la que se muestra
en la siguiente figura:

FIGURA 2 DE LA PAGINA 54

3.4. Implementacin de almacn de datos.


(Diseo)

Una de las razones para crear un almacn de datos separada de


la base de datos operaciones es conseguir que anlisis se pueda
realizar de manera eficiente
Con el objetivo de obtener eficiencia deseada los sistemas de
almacenes de bases de datos pueden implementarse utilizando
2 tipos de esquemas fsicos:
ROLAP: fsicamente, el almacn de datos se construye sobre una base
de datos relacional.
MOLAP: fisicamente, el almacn de datos se construye sobre
estructuras basadas en matrices multidimensionales

Una de las maneras mas eficientes de implementar un


DATAMART en bases de datos relacionales se basa en IGNORAR
casi completamente la estructura de los datos en las fuentes de
origen y utiliza una estructura nueva denominada STARFLAKE.

Temas a tratar
Recopilacion

Almacen de datos (Data

Warehousing)
Almacenes de datos y bases de datos
transaccionales.
Arquitectura de los almacenes de datos
Carga
y mantenimiento de los
almacenes de datos
Almacn y minera de datos

4. Carga y mantenimiento de almacn de


datos

Si se ha decidido disear un almacn de datos y ya se


esta implementado bajo alguna tecnologa ROLAP o
MOLAP el siguiente paso es cargar los datos.

Para la carga de informacin existe un Sistema


especializado denominado SISTEMA ETL (Extraction,
Transformation, Load).

La construccin del ETL es responsabilidad del equipo de


desarrollo del almacn de datos y se realiza
especficamente para cada almacn de datos

El sistema ETL se encarga de realizar las siguientes


tareas:

4. Carga y mantenimiento de almacn de


datos

Lectura de datos transaccionales:


Se trata de obtener los datos mediantes consultas SQL
sobre la base de datos transaccional. Generalmente se
intenta que esta lectura sea en horarios de poca carga
transaccional. Para la primera carga los datos pueden
encontrarse en histricos u es posible que en distintos
formatos. Este hecho condiciona muchas veces el numero de
aos que se puede incluir en el almacn de datos.

Incorporacin de datos externos:


Generalmente aqu se deben incorporar otro tipo de
herramientas, para convertir texto, hojas de calculo en tablas
de base de datos que se puedan integrar en el almacn de
datos.

4. Carga y mantenimiento de almacn de


datos

Creacin de claves:
En general se recomienda crear claves primarias
nuevas para todas las tablas que se vayan creando
en el almacenamiento intermedio o en el almacn de
datos.

Integracin de datos:
Consiste en muchos casos en la fusin de datos de
distintas fuentes, detectar cuando representan los
mismos objetos y generar las referencias y
restricciones adecuadas para conectar la informacin
y proporcionar integraridad referencial.

4. Carga y mantenimiento de almacn de


datos

Limpieza y transformacin de datos:


Se trata de evitar datos redundantes, inconsistentes,
estandarizar medidas, formatos, fechas, tratar valores
nulos, etc.

Planificacin de la carga y mantenimiento:


Consiste en definir las fases de carga, el orden, para
evitar violar restricciones de integridad, del mismo
modo que se realizan las migraciones, y las ventanas
de carga, con el objetivo de poder hacer la carga sin
saturar ni la base de datos transaccional, as como el
mantenimiento sin paralizar el almacn de datos.

4. Carga y mantenimiento de almacn de


datos

Indizacin:
Finalmente se han de crear ndices sobre las claves
y atributos del almacn de datos que se consideren
relevantes.

Pruebas de calidad:
En realidad se trata de definir mtricas de calidad de
datos del almacn de datos, as como implantar un
programa de calidad de datos, con un responsable
de
calidad
que
realice
un
seguimiento,
especialmente si el almacn de datos se desea
utilizar para el apoyo en decisiones estratgicas o
especialmente sensibles.

Temas a tratar
Recopilacion

Almacen de datos (Data

Warehousing)
Almacenes de datos y bases de datos
transaccionales.
Arquitectura de los almacenes de datos
Carga
y
mantenimiento
de
los
almacenes de datos
Almacn y minera de datos

4. Almacn y minera de datos

El concepto de almacenes de datos nace hace mas de una


dcada ligado a un concepto EIS(Sistemas de Informacin
Ejecutivo)

Cuando estn cubiertas todas las necesidades operacionales


de una organizacin se plantean herramientas informticas
para asistir o cubrir necesidades ESTRATEGICAS

La definicin original de almacn de datos es de "COLECCION


DE DATOS VARIANTE AL TIEMPO PARA AYUDAR A LA TOMA DE
DECISIONES

Los almacenes de datos pueden utilizarse de muy diferentes


maneras, y pueden agilizar muchos procesos diferentes de
anlisis

4. Almacn y minera de datos

4. Almacn y minera de datos

La variedad de usos del almacn de datos sugiere la existencia


de diferentes grupos de usuarios: analistas, ejecutivos,
investigadores, etc, Segn el carcter de estos usuarios se les
puede catalogar en dos grandes grupos:
picapiedreros (o granjeros): se dedican fundamentalmente a realizar
informes peridicos, ver la evolucin de indicadores, controlar valores
anmalos, etc
exploradores: encargados de encontrar nuevos patrones significativos
utilizando tcnicas OLAP o de minera de datos.

Los almacenes de datos no son imprescindibles para hacer


extraccin de conocimiento a partir de datos, en realidad se
puede hacer minera de dato sobre un simple archivo de datos
de acuerdo al volumen de datos a minar.

GRACIAS POR SU ATENCION

Anda mungkin juga menyukai