Anda di halaman 1dari 7

Temario

Minera de Datos 5. Otros Aspectos


Jos Hernndez Orallo
jorallo@dsic.upv.es
Mster y Cursos de Postgrado del DSIC

Universitat Politcnica de Valncia

1. Introduccin a la Minera de Datos (DM) 1.1. Motivacin 1.2. Problemas tipo y aplicaciones 1.3. Relacin de DM con otras disciplinas 2. El proceso de KDD 2.1. Las Fases del KDD 2.2. Tipologa de Tcnicas de Minera de Datos 2.3. Sistemas Comerciales y Herramientas de Minera de Datos 2.4. Preparacin y Visualizacin de Datos 3. Tcnicas de Minera de Datos 3.1. El Problema de la Extraccin Automtica de Conocimiento. 3.2. Evaluacin de Hiptesis 3.3. Tcnicas no supervisadas y descriptivas. 3.4. Tcnicas supervisadas y predictivas. 4. Web Mining 4.1. Los Problemas de la Informacin No Estructurada. 4.2. Extraccin de Con. a partir de Documentos HTML y texto. 4.3. Extraccin de Informacin semi-estructurada (XML). 5. Otros Aspectos

Objetivos Tema 5

Metodologa CRISP-DM
CRISP-DM (www.crisp-dm.org) (CRoss-Industry Standard Process for Data Mining)
es un consorcio de empresas (inicialmente bajo una subvencin inicial de la Comisin Europea), incluyendo SPSS, NCR y DaimlerChrysler.
Comprensin del negocio Comprensin de los datos

Conocer la metodologa CRISP-DM Conocer las tendencias del rea de minera de datos, en particular los lenguajes de consulta inductivos. Tener nocin de cuestiones legales que pueden afectar al proceso de minera de datos. Presentar referencias de recursos en DM.

Despliegue

Preparacin de los datos

Modelado Evaluacin

Metodologa CRISP-DM
Comprensin del negocio: entender los objetivos y requerimientos del proyecto desde una perspectiva de negocio. Subfases:
establecimiento de los objetivos de negocio (contexto inicial, objetivos y criterios de xito), evaluacin de la situacin (inventario de recursos, requerimientos, suposiciones y restricciones, riesgos y contingencias, terminologa y costes y beneficios), establecimiento de los objetivos de minera de datos (objetivos de minera de datos y criterios de xito) y generacin del plan del proyecto (plan del proyecto y evaluacin inicial de herramientas y tcnicas).
5

Metodologa CRISP-DM
Comprensin de los datos: recopilar y familiarizarse con los datos, identificar los problemas de calidad de datos y ver las primeras potencialidades o subconjuntos de datos que puede ser interesante analizar (segn los objetivos de negocio en la fase anterior). Subfases:
recopilacin inicial de datos (informe de recopilacin), descripcin de datos (informe de descripcin), exploracin de datos (informe de exploracin) y verificacin de calidad de datos (informacin de calidad).
6

Metodologa CRISP-DM
Preparacin de los datos: el objetivo de esta fase es obtener la vista minable. Aqu se incluye la integracin, seleccin, limpieza y transformacin. Subfases:
seleccin de datos (razones de inclusin / exclusin), limpieza de datos (informe de limpieza de datos), construccin de datos (atributos derivados, registros generados), integracin de datos (datos mezclados) y formateo de datos (datos reformateados).

Metodologa CRISP-DM
Modelado: es la aplicacin de tcnicas de modelado o de minera de datos propiamente dichas a las vistas minables anteriores. Subfases:
seleccin de la tcnica de modelado (tcnica de modelado, suposiciones de modelado), diseo de la evaluacin (diseo del test), construccin del modelo (parmetros elegidos, modelos, descripcin de los modelos) y evaluacin del modelo (medidas del modelo, revisin de los parmetros elegidos).

Metodologa CRISP-DM
Evaluacin: es necesario evaluar (desde el punto de vista de la finalidad) los modelos de la fase anterior. Es decir, si el modelo nos sirve para responder a algunos de los requerimientos del negocio. Subfases:
evaluacin de resultados (evaluacin de los resultados de minera de datos, modelos aprobados), revisar el proceso (revisin del proceso) y establecimiento de los siguientes pasos (lista de posibles acciones, decisin).

Metodologa CRISP-DM
Despliegue: se trata de explotar la potencialidad de los modelos, integrarlos en los procesos de toma de decisin de la organizacin, difundir informes sobre el conocimiento extrado, etc. Subfases:
planificacin del despliegue (plan del despliegue), planificacin de la monitorizacin y del mantenimiento (plan de la monitorizacin y del despliegue), generacin del informe final (informe final, presentacin final) y revisin del proyecto (documentacin de la experiencia).
10

Metodologa CRISP-DM
Implantacin progresiva en una organizacin:
Planificacin y organizacin. Identificar problemas de minera de datos Identificar Problemas de Negocio Extraccin de Conocimiento

Lenguajes de Consulta Inductivos


Nuevos Lenguajes de Consulta:
El descubrimiento en bases de datos se ve como un proceso de consulta a una base de datos. La situacin se parece al desarrollo de lenguajes de consulta en los sesenta y setenta. Una consulta inductiva o de bsqueda de patrones debe permitir al usuario restringir la bsqueda inductiva en los siguientes aspectos (Han et al. 1999):
La parte de la base de datos a ser minada (tambin llamada la vista minable o vista relevante). El tipo de patrn/reglas a ser minado (tambin llamado restricciones del conocimiento). Cuantificadores estadsticos: representatividad (support) %, precisin (confidence/accuracy) %. Otras propiedades que el patrn debera cumplir (nmero y forma de las reglas, inters, novedad, etc.).
11 12

Iter. 1

Iter. 2

Difusin, Despliegue y Explotacin de Modelos

Evaluacin de Resultados. Medida de Costes y Beneficios

Lenguajes de Consulta Inductivos


Propuesta M-SQL (Imielinski et al. 1996)

Lenguajes de Consulta Inductivos


Propuesta DMQ (Data-Mining Query) language (Ng et al. 1998):
Utiliza la sintaxis del SQL para la vista minable Tambin basado en modelos de consulta.

Basada en modelos de consulta...


Ejemplo: SELECT FROM MINE(T): R WHERE R.Consequent = { (Age = *) } R.Support > 1000 R.Confidence > 0.65; R es una variable de regla y se puede utilizar: R.Consequent R.Body (antecedente) R.Support R.Confidence.

EJEMPLO: Esquema: SALES(customer_name, item_name, transaction_id) LIVES(customer_name, district, city) ITEM(item_name, category, price) TRANSACTION(transaction_id, day, month, day) Consulta Inductiva (lenguaje natural): buscar las ventas de qu artculos baratos (con una suma de

precios menor que $100) que puede motivar las ventas de qu artculos caros (con el precio mnimo de $500) de la misma categora de los clientes de Vancouver en 1998.
13 14

Lenguajes de Consulta Inductivos


Propuesta DMQ. EJEMPLO:
Ejemplo de Consulta Inductiva:
+: operador regular (1 o ms tuplas)

Lenguajes de Consulta Inductivos


Propuesta OLE DB for Data Mining de Microsoft. Extensin del protocolo de acceso a BB.DD. OLE DB. Implementa una extensin del SQL que trabaja con DMM( Data Mining Model) y permite: 1. Crear el modelo 2. Entrenar el modelo 3. Realizar predicciones

?[I] : utilizar clave ajena. I mine associations as es la tupla instanciada. lives(C,_, Vancouver) and sales+(C, ?[I], {S}) sales+(C, ?[J], {T}) from sales where S.year = 1998 and T.year = 1998 and I.category = J.category group by C, I.category having sum(I.price) < 100 and min(J.price) >= 500 with min_support = 0.01 and min_confidence = 0.5

Ejemplo de Respuesta:
Es un patrn relacional. lives(C,_, Vancouver) and sales(C, Census_CD, _) and sales(C, Ms/Office97, _) sales(C, Ms/SQLServer,_) [0.015, 0.68] Support & Confidence.
15

16

Lenguajes de Consulta Inductivos


Propuesta OLE DB for Data Mining: Ejemplo: CREACIN DEL MODELO (DMM):
CREATE MINING MODEL CredikRisk ( [Customer ID] LONG KEY, Atributos de Entrada [Profession] TEXT DISCRETE, [Income] TEXT DISCRETE, [Age] LONG CONTINUOUS, [Risk Level] TEXT DISCRETE PREDICT, ) Atributo de Salida USING [Microsoft Decision Tree]

Lenguajes de Consulta Inductivos


Propuesta OLE DB for Data Mining:
Ejemplo: ENTRENAR EL MODELO:
Se usa una sentencia INSERT INTO. A diferencia de insertar datos como en una tabla normal lo que hace es analizar los casos que le introduzcamos y construir el contenido del DMM.
Obtencin de los datos de entrenamiento a travs de una consulta SQL por OLE SQL

INSERT INTO [CreditRisk] ( [CustomerID],[Profession],[Income],[Age],[RiskLevel] ) OPENROWSET('[Provider='MSOLESQL','user','pwd', 'SELECT [CustomerID],[Profession], [Income],[Age],[Risk] FROM [Customers]' )
Vista Minable

Esto crea un DMM vaco.

Tipo de Modelo
17

18

Lenguajes de Consulta Inductivos


Propuesta OLE DB for Data Mining: Ejemplo: USAR EL MODELO:
El modelo se aplica a nuevos datos. La manera de hacerlo es similar a

Lenguajes de consulta inductivos para Web Usage Mining


Tambin existen lenguajes de consulta para seleccionar patrones relativos a uso de pginas web:
P.ej. En el sistema WUM (Web Utilization Miner) (Berendt & Spiliopoulou 2000), basado tambin en un grafo de secuencias de visitas, se puede utilizar el lenguaje MINT para hacer consultas del estilo:

la concatenacin de dos tablas relacionales, considerando el modelo como una tabla y los datos a predecir como otra tabla. El resultado es una nueva tabla con los datos que queramos (todos o slo las predicciones).

SELECT [CustomerID],[Income],[Age], CreditRisk.RiskLevel, PredictProbability(CreditRisk.RiskLevel) FROM CreditRisk PREDICTION JOIN Customers ON CreditRisk.Profession=Customers.Profession AND CreditRisk.Income=Customers.Income AND CreditRisk.Age=Customers.Age 19

SELECT t FROM NODE AS a b, TEMPLATE a * b AS t WHERE a.support > 7 AND (b.support / a.support) >= 0.4 AND b.url != G.html
Seleccionara pares de pginas visitadas consecutivamente en la que

la primera se ha visitado al menos 7 veces y de stas, al menos el 40% han llegado a la segunda. Adems la segunda no puede ser G.html. 20

Algunas Cuestiones Legales


Hay dos cuestiones importantes respecto a un uso indiscriminado de KDD:
El primero es si los clientes o otros usuarios externos en general se pueden ver incomodados o amenazados por la compaa al atacar su privacidad o someterlos a mrketing abusivo. El segundo es si estas polticas pueden ser ilegales. Consecuencias: En el primer caso, la compaa o institucin obtienen mala prensa y antipata (lo cual se puede traducir en una prdida econmica). En el segundo caso, la compaa puede ser demandada por miles de clientes, con unos costes de millones de euros. 21

Algunas Cuestiones Legales


Si nos centramos slo en las cuestiones legales del KDD: Uso de datos de fuentes internas a la compaa: se pueden utilizar los datos como se quiera, siempre internamente. Uso de datos de fuentes externas a la compaa: S se puede si los datos son pblicos (la persona ha decidido que lo sean). Ejemplo: pginas web, gua telefnica, visitas en la web. S se puede si los datos son agregados (i.e. no contienen individuos). Ejemplo: asociaciones entre productos, llamadas por distrito/hora, segmentaciones, etc ... NO se puede si la persona los ha cedido por transaccin u operacin habitual y privada con la otra compaa. Ejemplo: datos bancarios, horarios y nmeros de llamadas, cestas de 22 la compra, historiales clnicos, viajes, etc.

Algunas Cuestiones Legales


Cuestiones legales del KDD. KDD y Discriminacin:

Algunas Cuestiones Legales


Transparencia en decisiones:

Una parte importante de los objetivos del KDD es discriminar poblaciones (especialmente clientes).
No existe una lnea clara entre discriminacin legal/ilegal...
Enviar una campaa/oferta de viajes slo a no-jubilados es legal? No asegurar ciclomotores slo a varones? Enviar una campaa/oferta de libros cientficos slo a mujeres es legal? Enviar una campaa/oferta de bronceadores slo a clientes de piel blanca (determinado por anlisis de las fotos) es legal? Enviar una campaa/oferta de biblias a cristianos (determinado por los minutos de visin del Christian Channel en un paquete digital de pago)?
23

Algunas decisiones (en banca, compaas de seguros, etc.) se toman sin unas reglas pblicas e iguales para todos
La Comisin Europea ha obligado a que dichas reglas sean transparentes. Un modelo de minera de datos sobre el que se base la decisin deber ser comprensible: Redes neuronales reglas

24

Recursos Web
Minera de Datos:
Knowledge Discovery Mine (http://www.kdnuggets.com) The Data Mine (http://www.the-data-mine.com) Thearling (http://www.thearling.com/)

Entidades y Consorcios
Espaa:
RED ESPAOLA DE MINERA DE DATOS (http://www.lsi.us.es/redmidas/)

Business Intelligence:
BI-SPAIN (http://www.bi-spain.com). Documentos libres (hace falta registrarse). The Datawarehousing Institute (http://www.tdwi.org/). La mayora de documentos requieren ser miembro. Datawarehouse (http://www.datawarehouse.com , http://www.dmreview.com/ ). Documentos libres mayoritariamente OLAPreport (http://www.olapreport.com). Informes.
25

Internacional:
CRISP - DM, un consorcio industrial (http://www.crispdm.org) DMG - The Data Mining Group (http://www.dmg.org/), un consorcio mixto para crear estndares para intercambiar modelos.

26

27

Anda mungkin juga menyukai