Anda di halaman 1dari 34

DATAMINING

Hel Campos R
helicr@gmail.com

helicr.com

AGENDA. Diseo de modelos de datos para Data Mining

1.

Introduccin: Qu es Data Mining?

2.

Bases de datos relacionales vs. DWH y Data Marts.

3.

Data Warehousing

4.

Modelo de datos para Marketing Intelligence

5.

Ejercicio prctico

helicr.com

-1-

AGENDA. Diseo de modelos de datos para Data Mining

1.

Introduccin: Qu es Data Mining?

2.

Bases de datos relacionales vs. DWH y Data Marts.

3.

Data Warehousing

4.

Modelo de datos para Marketing Intelligence

5.

Ejercicio prctico

helicr.com

-2-

1. Introduccin: Qu es Data Mining?


1.1 Data Mining
El aumento en el poder de procesamiento de las mquinas y la alta reduccin del coste de almacenamiento, ha
permitido en los ltimos aos un gran crecimiento las capacidades de las empresas de generar y recolectar datos
sobre sus clientes. Sin embargo, dentro de esos datos existe una gran cantidad de informacin oculta, de gran
importancia estratgica, a la que no se puede acceder por las tcnicas convencionales de recuperacin de
informacin.
El Data Mining o minera de datos permite el descubrimiento de esta informacin oculta encontrando patrones y
relaciones dentro de los datos, los cuales permiten la creacin de representaciones abstractas de la realidad para
hallar el conocimiento oculto en dichos datos.
Para ello se sirve, entre otras,
de las siguientes tcnicas:

Herramientas analticas y estadsticas.

Herramientas de inteligencia artificial.


Reconocimiento de patrones.

Esta presentacin se encarga de definir los distintos modelos de datos que es necesario mantener por debajo de
todos estos anlisis, as como las tcnicas necesarias para crearlos.
helicr.com

-3-

1. Introduccin: Qu es Data Mining?


1.2 Soporte de Datos
Para definir un modelo de datos que permita realizar todos estos anlisis es necesario tener en cuenta las
siguientes cuestiones:
La informacin a recopilar puede provenir de distintos orgenes de datos, no necesariamente
heterogneos. Es necesario automatizar procesos de extraccin, transformacin y carga (ETL) de los
datos.
El alto volumen de informacin no debe impedir un tiempo de respuesta aceptable al consultar datos.
El rendimiento debe ser alto para consultas masivas de datos, para lo que es necesario mantener
informacin agregada.
Debe facilitar la explotacin de los datos por medio de herramientas de reporting o de consulta
analtica en lnea (OLAP).

Debe mantener una visin nica del cliente, y almacenar una serie de indicadores y dimensiones de
negocio que ayuden a la toma de decisiones.
Es necesario que aporte informacin histrica de los clientes, con el objetivo de realizar anlisis del
comportamiento de stos en el tiempo.
Como vemos, para satisfacer la mayor parte de estas necesidades no es suficiente con un modelo de base de
datos relacional, sino que necesitamos algo ms. En las siguientes secciones hablaremos de los conceptos de
Data Warehouse, Data Mart y finalmente definiremos el concepto de Modelo de datos para Marketing Intelligence,
con el que trabajamos normalmente en CognoData.
helicr.com

-4-

AGENDA. Diseo de modelos de datos para Data Mining

1.

Introduccin: Qu es Data Mining?

2.

Bases de datos relacionales vs. DWH y Data Marts.

3.

Data Warehousing

4.

Modelo de datos para Marketing Intelligence

5.

Ejercicio prctico

helicr.com

-5-

2.- Bases de datos relacionales vs. DWH y Data Marts


2.1 Definiciones

Data Warehouse

Un Data Warehouse es una coleccin de datos, orientados a reas funcionales de la empresa,


integrados, variables en el tiempo, no voltiles, que soporta el proceso de toma de decisiones.
Un Data Warehouse es un modelo que toma informacin de mltiples sistemas y bases de datos y
la almacena de una manera que est diseada para dar a los usuarios acceso ms rpido, ms fcil
y ms flexible a los aspectos claves.

Data Mart

Un Data Mart es la implementacin de un Data Warehouse con un mbito de datos y funciones ms


pequeo y restringido, que sirve a un departamento nico o a una parte de la organizacin, pero sin
diferencias tcnicas esenciales entre ellos.
Un Data Mart es una vista lgica de una particin de los datos de un Data Warehouse, con la
adicin de nuevas dimensiones o informacin calculada. Representan un conjunto de datos
relacionados con un tema en particular como Ventas, Operaciones, Recursos Humanos, etc, y estn
a disposicin de los usuarios finales a quienes les puede interesar la misma.

Base de datos de Marketing Intelligence

En el contexto de trabajo de CognoData, vamos usar normalmente bases de datos orientadas al


marketing intelligence. Se trata de Data Marts especficos de cada proyecto en los que se definen
una serie de indicadores y dimensiones de negocio asociadas generalmente al cliente, y que
posteriormente a su construccin servirn para aplicar las tcnicas de Data Mining necesarias.
helicr.com

-6-

2.- Bases de datos relacionales vs. DWH y Data Marts


2.2 Diferencias entre BBDD Relacionales y Almacenes de datos
BBDD Relacionales y Operacionales

Almacenes de Datos (DWH DM)

Volumen de informacin

Mnimo por operacin

Muy grande por operacin

Operaciones

Altas, bajas y modificaciones

Consultas y agregaciones de datos

Propsito

Operaciones de consulta diarias

Recuperacin de informacin mediante


informes , anlisis y minera de datos

Tipo de datos

Datos del funcionamiento de la organizacin

Datos tiles para el anlisis y el reporting, y


orientados a la toma de decisiones

Caractersticas de los
datos

Datos de funcionamiento, internos,


incompletos

Datos internos y externos, integrados, no


voltiles, histricos, descriptivos

Estructura

Diagrama entidad relacin, OLTP (OnLine


Transaction Processing)

Datos en estrella, multidimensionales, OLAP


(OnLine Analytical Processing)

Redundancia

No se permite

Redundancia controlada (agregaciones)

Acceso

Lectura y escritura SQL

SQL y herramientas propias. Slo lectura

Anlisis de calidad

No lo permite

Permite realizar anlisis de la calidad de la


informacin

Facilidad de uso

Usuario tcnico

Usuario tcnico y usuario de negocio


mediante herramientes propias

Orientacin

Orientado a la aplicacin

Orientado al sujeto

helicr.com

-7-

AGENDA. Diseo de modelos de datos para Data Mining

1.

Introduccin: Qu es Data Mining?

2.

Bases de datos relacionales vs. DWH y Data Marts.

3.

Data Warehousing

4.

Modelo de datos para Marketing Intelligence

5.

Ejercicio prctico

helicr.com

-8-

3.- Data Warehousing


3.1 Arquitectura
Data Warehouse
Extraccin
Transformacin
Carga
Reporting

Data Mining

WWW

DataWarehouse
Almacn de datos

DataMarts
BBDD Multidimensionales

OLAP

Explotacin
Orgenes de datos
BBDD Externas

Administracin

helicr.com

-9-

3.- Data Warehousing


3.2 Extraccin, Transformacin y Carga (1/2)

Extraccin

Conexin con BBDD operacionales en distintos formatos y localizaciones, que hacen de fuentes de
datos para el DW.

Transformacin

Adecuacin de la informacin, proveniente de distintos orgenes y en distintos formatos, a la


estructura del DW.
Homogeneizacin de formatos.
Series temporales
Tratamiento de missing values (valores nulos)
Tratamiento de outlayers (valores fuera de rango)
Construccin de indicadores derivados.

Carga

Introduccin de los datos en tablas propias de la estructura del DW


Agregacin de los datos.

En las presentaciones de formacin n 4 y n 5 se explica con mayor detalle cmo realizamos, en la mayora de los
casos, los procesos de ETL en CognoData. Se describe la funcionalidad de SQL Server para crear paquetes DTS y
su integracin con el lenguaje Visual Basic Script. Con ambas funcionalidades se consigue un entorno para realizar
tareas de ETL bastante potente.
helicr.com

- 10 -

3.- Data Warehousing


3.2 Extraccin, Transformacin y Carga (2/2)

Ejemplo de proceso ETL


BBDD A
Genero = { m , f }
DATA WAREHOUSE

BBDD B
Genero = { 0 , 1 }

BBDD C
Genero = { masculino , femenino }

Genero = { m , f }

En este ejemplo podemos ver como en las bases de datos de origen tenemos la misma variable codificada de 3
maneras distintas. Es necesario unificar la codificacin antes de realizar la carga de los datos.
helicr.com

- 11 -

3.- Data Warehousing


3.3 Estructura del Data Warehouse
Altamente
resumido

Almacena informacin agregada proveniente de un nivel


inferior en el que los datos estn descritos con mayor
detalle.

Ligeramente
resumido

Estas particiones se construyen teniendo en cuenta unas


funcionalidades concretas, agrupando lo datos en base a
unos campos y unidades de tiempo determinadas.
P.E. Ventas semanales por producto o por provincia

Refleja la fotografa ms reciente de los datos, por lo que


es la informacin a la que se accede con mayor
frecuencia.

Detalle de los
datos actuales

Es la parte ms voluminosa del DW, ya que se almacena


al ms bajo nivel de granularidad. Casi siempre se
almacena en disco, el cual es de fcil acceso, aunque su
administracin sea ms costosa.
Contiene el detalle de todos los clientes.
P.E. Detalle de las ventas de la empresa en el ao 2006

Almacena informacin antigua a un nivel de detalle


consistente con los datos actuales. Se suele almacenar en
dispositivos externos, ya que se accede a ella con menos
frecuencia.
Detalle de los
datos histricos

P.E. Detalle de las ventas desde el 2001 al 2005

helicr.com

- 12 -

3.- Data Warehousing


3.4 Modelo de datos (1/3)
Una de las principales diferencias entre las bases de datos relacionales y el Data Warehouse es que se sustentan
en modelos de datos distintos. Mientras que las primeras usan el modelo entidad relacin, los DW se valen del
modelo multidimensional (tambin llamado en estrella o copo de nieve).
TABLA DE HECHOS
TABLA DE
BUSQUEDA

TABLA DE
BUSQUEDA

Es la tabla central en un esquema dimensional. Se detalla a


nivel de la unidad bsica (como por ejemplo el cliente) y es
en ella donde se almacenan los indicadores de negocio.
Suelen tener 2 tipos de columnas:
- Columnas de tipo clave: referencian valores en
cada una de las tablas de dimensiones (atributos)
- Columnas de tipo hecho: medidas o indicadores
de negocio.

TABLA DE
HECHOS

JERARQUA

TABLA DE
BUSQUEDA

TABLA DE
BUSQUEDA

TABLA
AGREGADA
DE
BUSQUEDA

TABLAS DE BSQUEDA
Tambin llamadas tablas de dimensiones o de lookup.
Almacenan un conjunto de valores asociados a una
propiedad o dimensin particular contenida en la tabla de
hechos.
En otras palabras, sirven para decodificar los valores de las
columnas tipo clave de la tabla de hechos.
Adicionalmente puede haber tambin tablas agregadas de
bsqueda, en las que se agrupan los valores de una
determinada dimensin en un nivel superior. De esta manera
se crean las jerarquas.

helicr.com

- 13 -

3.- Data Warehousing


3.4 Modelo de datos (2/3)

Ejemplo de modelo multidimensional


HECHOS
INDICADORES

DIMENSIONES
ATRIBUTOS

CLAVE

ID_CLIENTE

ID_PROVINCIA

ID_USO

F_CONSUMO

F_MARGEN

F_VALOR

0000001

13

12,04

6,53

34,22

0000002

41

15,06

2,11

11,91

0000003

17

9,66

7,65

21,93
B_CLIENTES

ID_PROVINCIA

ID_CCAA

DES_PROVINCIA

ID_USO

DES_USO

...

...

...

Sin uso

41

Sevilla

Domstico

...

...

...

Comercial

LKP_PROVINCIA

ID_CCAA

DES_CCAA

Andaluca

...

...

En la tabla de hecho se almacenan


los indicadores asociados a cada
cliente, y una serie de atributos
codificados.
Para hallar el valor o descripcin
de dichos atributos slo es
necesario acceder a la tabla de
bsqueda correspondiente.

LKP_USO

Tip 1: Nomenclatura
Cuando el volumen de datos empieza a ser muy alto, comienza a crecer el nmero de objetos en el DW. Por eso es importante mantener una
nomenclatura fija que identifique que tipo de campo o tabla es cada uno de ellos simplemente con ver su nombre. En este ejemplo hemos
usado los prefijos ID_ (atributos), DES_ (descripciones), F_ (hechos), B_ (tablas base o tablas de hechos) y LKP_ (tablas de bsqueda)

helicr.com

- 14 -

3.- Data Warehousing


3.4 Modelo de datos (3/3)
Si consideramos cada una de las dimensiones como un eje en un espacio de coordenadas, cada una de los
registros (clientes) quedar fijado en un punto en dicho espacio. La dimensionalidad de ste espacio estar dada
por el nmero de ejes o dimensiones que le asociemos.

PROVINCIA

Cada casilla del cubo (en este caso tenemos 3 dimensiones), en la que
podemos encontrar una serie de indicadores o medidas, viene dada por una
interseccin entre coordenadas definidas por los valores de cada dimensin. De
esta manera se plantea un nuevo tipo de anlisis de los datos que se basa en ir
cortando o rebanando el cubo a travs de cada una de las dimensiones para
hallar la informacin deseada.
Este tipo de anlisis se llama OLAP (Online Analytical Processing), y lo veremos
con mas detalle en la presentacin de formacin n 6, en la que se explica el
funcionamiento de la herramienta Analysis Services de Microsoft para realizar
este tipo de anlisis.

TIEMPO

Por ejemplo:

AO < 2005

PROVINCIA = 17

USO < 2

helicr.com

AO < 2005 AND


PROVINCIA = 17 AND
USO < 2

- 15 -

3.- Data Warehousing


3.5 Explotacin de los datos (1/2)

Reporting

Aplicaciones que permiten definir, administrar y distribuir los distintos formatos de informes
dentro de una organizacin con un alto grado de automatizacin. Contienen funcionalidades
como la entrega planificada de informes por correo electrnico o la programacin de informes
de alerta que se generan automticamente en situaciones excepcionales.
Ejemplos usados en CognoData: Microsoft Reporting Services, SPSS OLAP Hub

Aplicaciones que integran modelos estadsticos y matemticos para realizar estudios y


predicciones sobre los datos para obtener el conocimiento oculto en ellos. Implementan redes
neuronales, clusterings, rboles de decisin, regresiones, etc.
Data Mining

WWW

Ejemplos usados en CognoData: SAS, SPSS, Clementine y la PMI de CodnoData (Plataforma de Marketing
intelligence)

Aplicaciones que presentan los resultados requeridos de forma grfica e intuitiva en formato
de pginas Web. Permiten montar plataformas de informes con una navegacin integrada,
establecimiento de permisos de acceso a los informes segn los perfiles dentro de la
empresa, seguimiento de objetivos, etc.
Ejemplos usados en CognoData: Aplicaciones propias desarrolladas en lenguajes Web como JavaScript o
VB Script, integradas con las herramientas de reporting.

Herramientas que automatizan el anlisis OLAP y permiten la generacin de cubos


(agregaciones de datos) de manera intuitiva.
OLAP

Ejemplos usados en CognoData: Microsoft Analysis Services


helicr.com

- 16 -

3.- Data Warehousing


3.5 Explotacin de los datos (2/2)
Normalmente las aplicaciones que explotan la informacin del DW se centran en pequeas particiones de datos.
Las consultas sobre el sistema entero tendran un rendimiento muy lento debido al gran volumen de datos y es por
eso que se suele mantener informacin redundante en tablas agregadas que sirven a propsitos determinados
normalmente por los usuarios de negocio.

Por ejemplo, nos podran interesar sacar todos los meses un informe del valor medio de la cartera de clientes en
cada una de las comunidades autnomas. Para ello, lo lgico podra ser mantener una tabla agregada con dicha
informacin, que se actualizase cada mes. De esta manera no se consulta el DW y el rendimiento de la consulta es
mucho mayor.
ID_MES

ID_CCAA

F_VALOR

200601

01

36,45

200601

02

12,99

...

...

...

200602

01

6,88

...

...

...

El informe se surte de la tabla


agregada correspondiente y no
del DM.

helicr.com

- 17 -

AGENDA. Diseo de modelos de datos para Data Mining

1.

Introduccin: Qu es Data Mining?

2.

Bases de datos relacionales vs. DWH y Data Marts.

3.

Data Warehousing

4.

Modelo de datos para Marketing Intelligence

5.

Ejercicio prctico

helicr.com

- 18 -

4.- Modelo de datos para Marketing Intelligence


4.1 Introduccin
Vistas las generalidades de los DW, en las siguientes transparencias vamos a comentar cmo realizamos los
desarrollos de la mayora de los proyectos dentro de CognoData, aplicando algunas de las caractersticas de
dichos sistemas, pero con un alto grado de especializacin.
Normalmente es necesario desarrollar Data Marts que contengan los indicadores y dimensiones definidos en la
fase de anlisis del proyecto. Posteriormente se alimentan los modelos predictivos y las plataformas de
presentacin de informes con esos datos, segn corresponda.

Podemos dividir el desarrollo de los proyectos en varias fases, aunque a veces no se cumplen todas ellas:
Fase de anlisis
Normalmente se realiza conjuntamente con el cliente, identificando el problema que se desea resolver, la informacin de que se
dispone, qu indicadores relevantes se pueden obtener, etc.

Extraccin de datos
Extraccin de los datos necesarios para construir los indicadores y dimensiones necesarios para el DM. Auditoria de dichos datos.

Diseo y construccin del DataMart


Elaboracin del DM con los datos obtenidos del cliente. Unificacin de formatos, seleccin de los indicadores importantes y
construccin de indicadores derivados que resulten de inters.

Pruebas
Verificacin de los procesos ETL desarrollados y de la validez de los indicadores.

Modelo predictivos
Creacin de las tablas y ficheros de entrada para los modelos predictivos. Obtencin de nuevos indicadores mediante los modelos

Presentacin de resultados
Presentacin final de los resultados del proyecto. Documentacin y plataformas de informes va WWW. Si es necesario,
implantacin de la plataforma en el cliente y formacin a usuarios.

helicr.com

- 19 -

4.- Modelo de datos para Marketing Intelligence


4.2 Objetivos
Los objetivos principales que se persiguen con el modelo de datos para Marketing Intelligence con el que
trabajamos en CognoData son los siguientes:
1.

Debe servir para cualquier tipo de proyecto, independientemente del tipo de cliente.
Proyectos de Banca
Proyectos de Seguros
Proyectos de Telecomunicaciones
...

2.

3.

Debe poder almacenar las distintas cargas de datos que se producen durante el desarrollo del proyecto.
Carga inicial

Primera carga que se realiza en el proyecto, con la foto de toda la


base de datos del cliente en un momento de tiempo determinado,
adems del histrico de que disponga el cliente.

Cargas incrementales

Modificaciones o incrementos que ha sufrido la BBDD del cliente


desde el momento de la carga inicial hasta el momento actual
(nuevos clientes, nuevos datos de facturacin, etc).

Cargas parciales

Por determinadas circunstancias o problemas, el cliente slo


entrega una determinada particin de sus clientes

Debe organizar la informacin para poder realizar 2 tipos de anlisis de los datos.
Anlisis Descriptivos
Anlisis Predictivos

helicr.com

- 20 -

4.- Modelo de datos para Marketing Intelligence


4.3 Proceso de un proyecto de Marketing Intelligence

BBDD MARKETING
INTELLIGENCE

ANLISIS
DESCRIPTIVO
INFORMES
Descripciones grficas
Estadstica de los datos

Anlisis

Histogramas

ETL
NORMALIZACIN

Grficos de burbujas
OLAP

ETL

ETL
Tablas extradas
del cliente

ANLISIS
PREDICTIVO

DESNORMALIZACIN

Series temporales
Construccin del target o
funcin objetivo

Creacin de ficheros de
entrada para los modelos

helicr.com

Exportacin
PMI
(PLATAFORMA DE
MARKETING
INTELLIGENCE)

- 21 -

4.- Modelo de datos para Marketing Intelligence


4.4 Distintos tipos de anlisis
En la transparencia anterior hemos visto que una vez desarrollado el DM de origen con la informacin extrada del
cliente, se pueden realizar dos tipos de anlisis. El anlisis a realizar depende de la pregunta que se quiera
contestar:
Anlisis Descriptivo

Anlisis Predictivo

Intenta contestar a preguntas como por ejemplo:

En que mes del ao se producen ms bajas de


clientes?

Que clientes van a comprar un determinado producto


en los prximos 2 meses?

ES NECESARIO NORMALIZAR

ES NECESARIO DESNORMALIZAR

Para aplicar este tipo de anlisis necesitamos que la


informacin de entrada est dividida y organizada segn
dependencias funcionales, por lo tanto cada campo de la
BBDD debe almacenar un concepto distinto:

Para aplicar este tipo de anlisis se necesita que la


informacin se estructure en un mismo nivel, es decir, toda la
informacin de entrada asociada a un cliente debe estar en un
mismo registro:

Ejemplo: clientes de baja con


sus fechas de baja.

Ejemplo: serie temporal de altas de productos.


CLIENTE

F_BAJA

132003

25/11/2005

132007

25/06/2005

CLIENTE

F_ALTA_PROD_1

F_ALTA_PROD_2

F_ALTA_PROD_3

155219

30/02/2005

132003

25/11/2005

14/02/2006

17/03/2006

helicr.com

- 22 -

4.- Modelo de datos para Marketing Intelligence


4.5 Entidades (1/3)
En principio, cada problema a resolver en un cliente es distinto, pero se pretende generar una plantilla de modelo
que valga para cualquier proyecto y cliente, de manera que slo haya que realizar una serie de modificaciones
mnimas para adaptarlo en cada caso.
Normalmente nos encontraremos siempre con las mismas entidades en todos los clientes (aunque pueden adoptar
nombre distintos):
CLIENTE

Cada uno de los sujetos a los cuales la empresa u organizacin suministra servicios. Normalmente es
la unidad mnima sobre la que se suelen centrar los anlisis.

CONTRATO

Es la entidad que representa el uso de un producto o servicio que la empresa u organizacin


suministra al cliente.

PRODUCTO

Es el objeto del contrato. Un bien suministrado por la empresa al cliente. Nos lo podremos encontrar
como una entidad independiente o bien como un atributo del contrato.

CONSUMO

Coste asociado al uso de un producto o servicio por parte del cliente en una determinada unidad de
tiempo.

FACTURA

Indica el importe detallado, normalmente mensual, que el cliente abona a la empresa por el uso de sus
servicios o productos.

CONTACTO

Se refiere a comunicaciones que el cliente hace con la empresa u organizacin. Normalmente pueden
ser reclamaciones, incidencias, solicitudes de baja o solicitudes de informacin.

PROSPECT

Clientes potenciales de la empresa, es decir, aquellos sujetos de los que se tienen datos pero que, o
bien no tienen contratos de los servicios suministrados por la empresa, o bien los tienen con alguna
empresa de la competencia.

CAMPAA

Conjunto de acciones que se realizan contra un grupo de clientes en un periodo de tiempo determinado
con el fin de obtener un beneficio para la empresa (fidelizacin, prevencin de fugas, venta cruzada)

ACCIN DE
MARKETING

Cada una de las distintas operaciones que componen una campaa.

helicr.com

- 23 -

4.- Modelo de datos para Marketing Intelligence


4.5 Entidades (2/3)

Ejemplo de diseo de BBDD para Marketing Intelligence


Tabla de hechos

PROSPECT

Tabla de bsqueda
AO

CONTACTO

ACCION MKT

CLIENTE

CCAA

MES

PROVINCIA

SEMANA

FACTURA

PRODUCTO
SEGMENTO

CAMPAA

CONTRATO

CLIENTES

CONSUMO

MERCADO

Cada una de estas entidades representarn tablas de


hechos en el modelo de datos.
ANTIGUEDAD

MOSAIC

A la derecha se muestra un posible esquema de


estrella simplificado que se podra obtener de la
entidad cliente.

...

helicr.com

- 24 -

4.- Modelo de datos para Marketing Intelligence


4.5 Entidades (3/3)

Ejemplo de diseo de BBDD para Marketing Intelligence


Tabla de hechos

PROSPECT

AO

Tabla de bsqueda
MES

CONTACTO

CLIENTE

ACCION MKT

PRODUCTO

CAMPAA

CONTRATO

OFICINA

SEMANA

CANAL VENTA

FECHA ALTA

FACTURA

CONTRATOS

CONSUMO

TIPO

ESTADO

Otro ejemplo de lo que podra ser el esquema de la


entidad contrato.

TARIFA

...

helicr.com

- 25 -

4.- Modelo de datos para Marketing Intelligence


4.6 Anlisis Descriptivo
Una vez construido el DataMart de origen, parte de los trabajos se enfocan en realizar un anlisis descriptivo de los
datos. Dicho anlisis nos permitir conocer la forma o distribucin de las variables, as como detectar posibles
errores, por ejemplo la presencia de valores fuera de rango y valores nulos.
Para esto, lo normal es desarrollar una serie de tablas agregadas o auxiliares que nos faciliten dicho anlisis.
Descripciones grficas de los datos:

135.000
120.000
105.000
90.000

- Grficos de barras

75.000
60.000
45.000

- Grficos de sectores

30.000
15.000
0

- Histogramas

Segment 1 Segment 2 Segment 3 Segment 4 Segment 6 Segment 7

- Grficos de burbujas

Estadstica de los datos:


- Medidas de posicin (media, moda, mediana,
percentiles)
- Medidas de dispersin (varianza, desviacin tpica)

- Relacin entre variables (Diagramas de dispersin y de


correlacin)

Anlisis OLAP:
- Generacin de cubos para la simplificacin de
consultas y agregaciones
(*) Puedes ver un pequeo resumen de tcnicas para estos anlisis aqu
helicr.com

- 26 -

4.- Modelo de datos para Marketing Intelligence


4.7 Anlisis Predictivo
La otra visin del anlisis se centra en la preparacin de ficheros de entrada a los distintos modelos predictivos que
se vayan a aplicar. Estos modelos se encuentran integrados en CognoData en lo que llamamos PMI (Plataforma de
Marketing Intelligence), una serie de aplicaciones desarrolladas en varias plataformas y lenguajes que
implementan rboles de decisin, redes neuronales, modelos de clustering, etc.
Como input, estas aplicaciones reciben un fichero de datos con un formato determinado. Para preparar cada
modelo a aplicar se siguen los siguientes pasos:
Se crea una tabla auxiliar con los indicadores de entrada al modelo. Dicha tabla debe tener en cada registro la
informacin asociada al objeto del anlisis (normalmente el cliente), es decir, la clave primaria y todos los indicadores de
entrada asociados. En este punto puede ser necesario realizar alguna transformacin para pasar de filas a columnas
(series temporales).
En funcin del modelo que se vaya a ejecutar puede ser necesario calcular un indicador de target o funcin objetivo y
aadirlo a la tabla como una columna ms.
Se exporta el fichero a texto.

Se le aade la cabecera PMI (hay varios procedimientos desarrollados que automatizan esta tarea).
Se pasa el fichero a un consultor de modelos para que lo ejecute.

ETL

EXPORTACIN

DESNORMALIZACIN
TABLA DE INDICADORES

FICHERO PMI

helicr.com

- 27 -

4.- Modelo de datos para Marketing Intelligence


4.8 Cuestiones tcnicas (1/2)
a) Tratamiento de valores nulos (missing values)
Cuando en los datos de entrada a los anlisis tengamos valores nulos en alguno de los campos, es recomendable
sustituirlos por un carcter especial (por ejemplo, **, 99999, NaN), ya que las aplicaciones OLAP y los modelos
predictivos no suelen reconocerlos y normalmente los omiten o producen resultados incorrectos.
Hay ocasiones en las que incluso es necesario distinguir entre distintos tipos de valores nulos. Por ejemplo puede que
interese diferenciar el caso en el que no se dispone del dato del caso en el que no aplica la variable.

b) Tratamiento de valores fuera de rango (outlayers)


Puede ocurrir tambin que en determinadas variables aparezcan valores extremos, tambin llamados outlayers. Para
determinados procesos es necesario tratar estos valores, ya que desvirtan las estadsticas de la variable, como puedes ver
en el siguiente ejemplo
ID_CLIENTE
020303
123002
448522
114932
923881

NUM_PRODUCTOS
5
7
800
9
4

El valor 800 en el indicador del nmero de productos es un outlayer, ya que no es un


valor lgico para esa variable sino un error de los datos. Es necesario tratarlo de
algn modo ya que invalida la media de la distribucin (que en este caso es 165,
mientras que la mediana es 7).

Una ver identificados los valores extremos, tenemos varias opciones, aunque las ms comunes son:
Sustitucin por la media
Sustitucin por la mediana
Borrado de los registros afectados

helicr.com

- 28 -

4.- Modelo de datos para Marketing Intelligence


4.8 Cuestiones tcnicas (2/2)
c) Tabla de tiempo
Por regla general, siempre se hace necesaria la definicin de una tabla calendario en el DM. Esta tabla contendr toda la
informacin de fechas (aos, meses, semanas, etc) y estar relacionada con cualquier campo de tipo fecha, evitando de tal
manera el uso de funciones de fecha, que suelen dar bastantes problemas.

d) Volumetra
Tambin es recomendable, una vez se ha acabado el diseo del DM, realizar un estudio de volumetra, para prever el
espacio de almacenamiento necesario en los servidores. Un ejemplo sencillo podra ser una tabla como la siguiente:
Tabla

Regs. estimados

Bytes por registro

Bytes estimados

% crecimiento esperado

...

...

...

...

...

e) Creacin de series temporales


Para determinados anlisis, como ya hemos visto, es necesario desnormalizar la informacin y generar series de eventos o
series temporales asociadas a un registro. Normalmente esto se hace para ver el comportamiento en el tiempo de
determinados eventos como por ejemplo las altas de productos que un cliente realiza o las llamadas que hace al servicio de
atencin telefnica. Se puede sacar mucha informacin de la frecuencia y la distribucin de estos eventos a lo largo del
tiempo. :
CLIENTE

F_ALTA_PROD_1

F_ALTA_PROD_2

F_ALTA_PROD_3

132003

25/11/2005

14/02/2006

17/03/2006

Actualmente, ya hay desarrollados procesos en SQL que


implementan estas transformaciones. Puedes preguntar a algn
consultor de ETL si quieres ms informacin. :

helicr.com

- 29 -

AGENDA. Diseo de modelos de datos para Data Mining

1.

Introduccin: Qu es Data Mining?

2.

Bases de datos relacionales vs. DWH y Data Marts.

3.

Data Warehousing

4.

Modelo de datos para Marketing Intelligence

5.

Ejercicio prctico

helicr.com

- 30 -

5.- Ejercicio prctico


Puedes practicar las tareas que se han visto en esta presentacin con los siguientes ejercicios..

a)

La empresa ALFA, presente en Madrid, Barcelona y Sevilla, necesita realizar un estudio de prevencin de
fugas, para lo que se va a servir principalmente de la informacin de las bajas de productos de sus
clientes. Actualmente, tiene los datos de sus clientes en varios orgenes en funcin de la provincia:
PROVINCIA

FORMATO

COMENTARIOS

Madrid

Excel

Datos a nivel de producto de los clientes de Madrid

Barcelona

Access

Sevilla

Fichero de texto

d)

Una vez importado el fichero, intenta insertar en la tabla ClientesS1, aquellos clientes de datos.txt que
pertenezcan al segmento 1 (puedes usar una consulta del tipo INSERT INTO).

e)

Selecciona el nmero de clientes por cada segmento en una tabla (SELECT INTO), y exporta dicha tabla a
una hoja excel. Abre la hoja de clculo para ver el resultado.

f)

Borra todas las tablas de la base de datos.

helicr.com

- 31 -

helicr.com

- 32 -

Diseo de modelos de datos para Data Mining

helicr@gmail.com

helicr.com

- 33 -

Anda mungkin juga menyukai