Hel Campos R
helicr@gmail.com
helicr.com
1.
2.
3.
Data Warehousing
4.
5.
Ejercicio prctico
helicr.com
-1-
1.
2.
3.
Data Warehousing
4.
5.
Ejercicio prctico
helicr.com
-2-
Esta presentacin se encarga de definir los distintos modelos de datos que es necesario mantener por debajo de
todos estos anlisis, as como las tcnicas necesarias para crearlos.
helicr.com
-3-
Debe mantener una visin nica del cliente, y almacenar una serie de indicadores y dimensiones de
negocio que ayuden a la toma de decisiones.
Es necesario que aporte informacin histrica de los clientes, con el objetivo de realizar anlisis del
comportamiento de stos en el tiempo.
Como vemos, para satisfacer la mayor parte de estas necesidades no es suficiente con un modelo de base de
datos relacional, sino que necesitamos algo ms. En las siguientes secciones hablaremos de los conceptos de
Data Warehouse, Data Mart y finalmente definiremos el concepto de Modelo de datos para Marketing Intelligence,
con el que trabajamos normalmente en CognoData.
helicr.com
-4-
1.
2.
3.
Data Warehousing
4.
5.
Ejercicio prctico
helicr.com
-5-
Data Warehouse
Data Mart
-6-
Volumen de informacin
Operaciones
Propsito
Tipo de datos
Caractersticas de los
datos
Estructura
Redundancia
No se permite
Acceso
Anlisis de calidad
No lo permite
Facilidad de uso
Usuario tcnico
Orientacin
Orientado a la aplicacin
Orientado al sujeto
helicr.com
-7-
1.
2.
3.
Data Warehousing
4.
5.
Ejercicio prctico
helicr.com
-8-
Data Mining
WWW
DataWarehouse
Almacn de datos
DataMarts
BBDD Multidimensionales
OLAP
Explotacin
Orgenes de datos
BBDD Externas
Administracin
helicr.com
-9-
Extraccin
Conexin con BBDD operacionales en distintos formatos y localizaciones, que hacen de fuentes de
datos para el DW.
Transformacin
Carga
En las presentaciones de formacin n 4 y n 5 se explica con mayor detalle cmo realizamos, en la mayora de los
casos, los procesos de ETL en CognoData. Se describe la funcionalidad de SQL Server para crear paquetes DTS y
su integracin con el lenguaje Visual Basic Script. Con ambas funcionalidades se consigue un entorno para realizar
tareas de ETL bastante potente.
helicr.com
- 10 -
BBDD B
Genero = { 0 , 1 }
BBDD C
Genero = { masculino , femenino }
Genero = { m , f }
En este ejemplo podemos ver como en las bases de datos de origen tenemos la misma variable codificada de 3
maneras distintas. Es necesario unificar la codificacin antes de realizar la carga de los datos.
helicr.com
- 11 -
Ligeramente
resumido
Detalle de los
datos actuales
helicr.com
- 12 -
TABLA DE
BUSQUEDA
TABLA DE
HECHOS
JERARQUA
TABLA DE
BUSQUEDA
TABLA DE
BUSQUEDA
TABLA
AGREGADA
DE
BUSQUEDA
TABLAS DE BSQUEDA
Tambin llamadas tablas de dimensiones o de lookup.
Almacenan un conjunto de valores asociados a una
propiedad o dimensin particular contenida en la tabla de
hechos.
En otras palabras, sirven para decodificar los valores de las
columnas tipo clave de la tabla de hechos.
Adicionalmente puede haber tambin tablas agregadas de
bsqueda, en las que se agrupan los valores de una
determinada dimensin en un nivel superior. De esta manera
se crean las jerarquas.
helicr.com
- 13 -
DIMENSIONES
ATRIBUTOS
CLAVE
ID_CLIENTE
ID_PROVINCIA
ID_USO
F_CONSUMO
F_MARGEN
F_VALOR
0000001
13
12,04
6,53
34,22
0000002
41
15,06
2,11
11,91
0000003
17
9,66
7,65
21,93
B_CLIENTES
ID_PROVINCIA
ID_CCAA
DES_PROVINCIA
ID_USO
DES_USO
...
...
...
Sin uso
41
Sevilla
Domstico
...
...
...
Comercial
LKP_PROVINCIA
ID_CCAA
DES_CCAA
Andaluca
...
...
LKP_USO
Tip 1: Nomenclatura
Cuando el volumen de datos empieza a ser muy alto, comienza a crecer el nmero de objetos en el DW. Por eso es importante mantener una
nomenclatura fija que identifique que tipo de campo o tabla es cada uno de ellos simplemente con ver su nombre. En este ejemplo hemos
usado los prefijos ID_ (atributos), DES_ (descripciones), F_ (hechos), B_ (tablas base o tablas de hechos) y LKP_ (tablas de bsqueda)
helicr.com
- 14 -
PROVINCIA
Cada casilla del cubo (en este caso tenemos 3 dimensiones), en la que
podemos encontrar una serie de indicadores o medidas, viene dada por una
interseccin entre coordenadas definidas por los valores de cada dimensin. De
esta manera se plantea un nuevo tipo de anlisis de los datos que se basa en ir
cortando o rebanando el cubo a travs de cada una de las dimensiones para
hallar la informacin deseada.
Este tipo de anlisis se llama OLAP (Online Analytical Processing), y lo veremos
con mas detalle en la presentacin de formacin n 6, en la que se explica el
funcionamiento de la herramienta Analysis Services de Microsoft para realizar
este tipo de anlisis.
TIEMPO
Por ejemplo:
AO < 2005
PROVINCIA = 17
USO < 2
helicr.com
- 15 -
Reporting
Aplicaciones que permiten definir, administrar y distribuir los distintos formatos de informes
dentro de una organizacin con un alto grado de automatizacin. Contienen funcionalidades
como la entrega planificada de informes por correo electrnico o la programacin de informes
de alerta que se generan automticamente en situaciones excepcionales.
Ejemplos usados en CognoData: Microsoft Reporting Services, SPSS OLAP Hub
WWW
Ejemplos usados en CognoData: SAS, SPSS, Clementine y la PMI de CodnoData (Plataforma de Marketing
intelligence)
Aplicaciones que presentan los resultados requeridos de forma grfica e intuitiva en formato
de pginas Web. Permiten montar plataformas de informes con una navegacin integrada,
establecimiento de permisos de acceso a los informes segn los perfiles dentro de la
empresa, seguimiento de objetivos, etc.
Ejemplos usados en CognoData: Aplicaciones propias desarrolladas en lenguajes Web como JavaScript o
VB Script, integradas con las herramientas de reporting.
- 16 -
Por ejemplo, nos podran interesar sacar todos los meses un informe del valor medio de la cartera de clientes en
cada una de las comunidades autnomas. Para ello, lo lgico podra ser mantener una tabla agregada con dicha
informacin, que se actualizase cada mes. De esta manera no se consulta el DW y el rendimiento de la consulta es
mucho mayor.
ID_MES
ID_CCAA
F_VALOR
200601
01
36,45
200601
02
12,99
...
...
...
200602
01
6,88
...
...
...
helicr.com
- 17 -
1.
2.
3.
Data Warehousing
4.
5.
Ejercicio prctico
helicr.com
- 18 -
Podemos dividir el desarrollo de los proyectos en varias fases, aunque a veces no se cumplen todas ellas:
Fase de anlisis
Normalmente se realiza conjuntamente con el cliente, identificando el problema que se desea resolver, la informacin de que se
dispone, qu indicadores relevantes se pueden obtener, etc.
Extraccin de datos
Extraccin de los datos necesarios para construir los indicadores y dimensiones necesarios para el DM. Auditoria de dichos datos.
Pruebas
Verificacin de los procesos ETL desarrollados y de la validez de los indicadores.
Modelo predictivos
Creacin de las tablas y ficheros de entrada para los modelos predictivos. Obtencin de nuevos indicadores mediante los modelos
Presentacin de resultados
Presentacin final de los resultados del proyecto. Documentacin y plataformas de informes va WWW. Si es necesario,
implantacin de la plataforma en el cliente y formacin a usuarios.
helicr.com
- 19 -
Debe servir para cualquier tipo de proyecto, independientemente del tipo de cliente.
Proyectos de Banca
Proyectos de Seguros
Proyectos de Telecomunicaciones
...
2.
3.
Debe poder almacenar las distintas cargas de datos que se producen durante el desarrollo del proyecto.
Carga inicial
Cargas incrementales
Cargas parciales
Debe organizar la informacin para poder realizar 2 tipos de anlisis de los datos.
Anlisis Descriptivos
Anlisis Predictivos
helicr.com
- 20 -
BBDD MARKETING
INTELLIGENCE
ANLISIS
DESCRIPTIVO
INFORMES
Descripciones grficas
Estadstica de los datos
Anlisis
Histogramas
ETL
NORMALIZACIN
Grficos de burbujas
OLAP
ETL
ETL
Tablas extradas
del cliente
ANLISIS
PREDICTIVO
DESNORMALIZACIN
Series temporales
Construccin del target o
funcin objetivo
Creacin de ficheros de
entrada para los modelos
helicr.com
Exportacin
PMI
(PLATAFORMA DE
MARKETING
INTELLIGENCE)
- 21 -
Anlisis Predictivo
ES NECESARIO NORMALIZAR
ES NECESARIO DESNORMALIZAR
F_BAJA
132003
25/11/2005
132007
25/06/2005
CLIENTE
F_ALTA_PROD_1
F_ALTA_PROD_2
F_ALTA_PROD_3
155219
30/02/2005
132003
25/11/2005
14/02/2006
17/03/2006
helicr.com
- 22 -
Cada uno de los sujetos a los cuales la empresa u organizacin suministra servicios. Normalmente es
la unidad mnima sobre la que se suelen centrar los anlisis.
CONTRATO
PRODUCTO
Es el objeto del contrato. Un bien suministrado por la empresa al cliente. Nos lo podremos encontrar
como una entidad independiente o bien como un atributo del contrato.
CONSUMO
Coste asociado al uso de un producto o servicio por parte del cliente en una determinada unidad de
tiempo.
FACTURA
Indica el importe detallado, normalmente mensual, que el cliente abona a la empresa por el uso de sus
servicios o productos.
CONTACTO
Se refiere a comunicaciones que el cliente hace con la empresa u organizacin. Normalmente pueden
ser reclamaciones, incidencias, solicitudes de baja o solicitudes de informacin.
PROSPECT
Clientes potenciales de la empresa, es decir, aquellos sujetos de los que se tienen datos pero que, o
bien no tienen contratos de los servicios suministrados por la empresa, o bien los tienen con alguna
empresa de la competencia.
CAMPAA
Conjunto de acciones que se realizan contra un grupo de clientes en un periodo de tiempo determinado
con el fin de obtener un beneficio para la empresa (fidelizacin, prevencin de fugas, venta cruzada)
ACCIN DE
MARKETING
helicr.com
- 23 -
PROSPECT
Tabla de bsqueda
AO
CONTACTO
ACCION MKT
CLIENTE
CCAA
MES
PROVINCIA
SEMANA
FACTURA
PRODUCTO
SEGMENTO
CAMPAA
CONTRATO
CLIENTES
CONSUMO
MERCADO
MOSAIC
...
helicr.com
- 24 -
PROSPECT
AO
Tabla de bsqueda
MES
CONTACTO
CLIENTE
ACCION MKT
PRODUCTO
CAMPAA
CONTRATO
OFICINA
SEMANA
CANAL VENTA
FECHA ALTA
FACTURA
CONTRATOS
CONSUMO
TIPO
ESTADO
TARIFA
...
helicr.com
- 25 -
135.000
120.000
105.000
90.000
- Grficos de barras
75.000
60.000
45.000
- Grficos de sectores
30.000
15.000
0
- Histogramas
- Grficos de burbujas
Anlisis OLAP:
- Generacin de cubos para la simplificacin de
consultas y agregaciones
(*) Puedes ver un pequeo resumen de tcnicas para estos anlisis aqu
helicr.com
- 26 -
Se le aade la cabecera PMI (hay varios procedimientos desarrollados que automatizan esta tarea).
Se pasa el fichero a un consultor de modelos para que lo ejecute.
ETL
EXPORTACIN
DESNORMALIZACIN
TABLA DE INDICADORES
FICHERO PMI
helicr.com
- 27 -
NUM_PRODUCTOS
5
7
800
9
4
Una ver identificados los valores extremos, tenemos varias opciones, aunque las ms comunes son:
Sustitucin por la media
Sustitucin por la mediana
Borrado de los registros afectados
helicr.com
- 28 -
d) Volumetra
Tambin es recomendable, una vez se ha acabado el diseo del DM, realizar un estudio de volumetra, para prever el
espacio de almacenamiento necesario en los servidores. Un ejemplo sencillo podra ser una tabla como la siguiente:
Tabla
Regs. estimados
Bytes estimados
% crecimiento esperado
...
...
...
...
...
F_ALTA_PROD_1
F_ALTA_PROD_2
F_ALTA_PROD_3
132003
25/11/2005
14/02/2006
17/03/2006
helicr.com
- 29 -
1.
2.
3.
Data Warehousing
4.
5.
Ejercicio prctico
helicr.com
- 30 -
a)
La empresa ALFA, presente en Madrid, Barcelona y Sevilla, necesita realizar un estudio de prevencin de
fugas, para lo que se va a servir principalmente de la informacin de las bajas de productos de sus
clientes. Actualmente, tiene los datos de sus clientes en varios orgenes en funcin de la provincia:
PROVINCIA
FORMATO
COMENTARIOS
Madrid
Excel
Barcelona
Access
Sevilla
Fichero de texto
d)
Una vez importado el fichero, intenta insertar en la tabla ClientesS1, aquellos clientes de datos.txt que
pertenezcan al segmento 1 (puedes usar una consulta del tipo INSERT INTO).
e)
Selecciona el nmero de clientes por cada segmento en una tabla (SELECT INTO), y exporta dicha tabla a
una hoja excel. Abre la hoja de clculo para ver el resultado.
f)
helicr.com
- 31 -
helicr.com
- 32 -
helicr@gmail.com
helicr.com
- 33 -