Anda di halaman 1dari 23

Minera de datos (Fases de la minera de datos)

M. en C. Sergio Luis P erez P erez


UAM CUAJIMALPA, M EXICO, D. F.
Trimestre 14-I.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 1 / 23
Fase de integraci on y recopilaci on
Fase de integraci on y recopilaci on I
El primer paso es, en su caso, la integraci on de m ultiples bases
de datos en almacenes de datos (data warehousing).
Un almacen de datos es un conjunto de datos hist oricos, internos
o externos, que describen un contexto o area de estudio.
Un almacen de datos se encuentra organizado de manera que
permite aplicar ecientemente las herramientas para resumir,
describir y analizar los datos.
Un almacen de datos generalmente maneja modelos de tipo
multidimensional.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 2 / 23
Fase de integraci on y recopilaci on
Fase de integraci on y recopilaci on II
En un modelo multidimensional los datos se organizan en torno a
hechos que poseen ciertos atributos o medidas que pueden verse
con cierto detalle dependiendo de las dimensiones.
Medidas o atributos cu anto.
Dimensiones cu ando, qu e, d onde.
Un almacen de datos es deseable pero no imprescindible.
Se puede trabajar con formatos heterog eneos.
Archivos de texto.
Hojas de c alculo.
Bases de datos.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 3 / 23
Fase de selecci on, limpieza y transformaci on
El proceso de selecci on
Consiste en utilizar la informaci on adecuada para utilizarla en el
modelo de minera de datos.
Considerar la parte de los datos m as pertinentes a analizar.
Entender el tipo de conocimiento que se desea extraer y c omo se
desea presentar.
Destacar el conocimiento que puede ser v alido, novedoso e
interesante.
Buscar el conocimiento que previo que hace falta para generar el
nuevo conocimiento.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 4 / 23
Fase de selecci on, limpieza y transformaci on
Limpieza de datos I
Al obtener la informaci on desde distintas fuentes se debe
procurar que datos sobre el mismo objeto se uniquen.
Posibles errores:
Dos o mas datos de diferentes individuos se mezclan nuevos
individuos que pueden ocasionar ruido en el modelo.
Dos o mas fuentes del mismo individuo se replican ocasiona
menos ruido pero si es recurrente llevar a a resultados inesperados.
Soluciones:
Identicar patrones similares durante el proceso de mezclado. Por
ejemplo:
{hombre, varon, masculino} hombre
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 5 / 23
Fase de selecci on, limpieza y transformaci on
Limpieza de datos II
Identicar posibles formatos de claves y unicarlos. Por ejemplo:
{5558223571, 5558223571, 58223571, +525558223571}
55 58223571
Donde 55 es la lada del estado y 582 de la regi on o zona.
Detecci on de valores faltantes.
Posibles problemas:
El m etodo de minera de datos puede no tratar correctamente
estos datos.
Los valores faltantes pueden ocasionar malos c alculos de totales,
medias.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 6 / 23
Fase de selecci on, limpieza y transformaci on
Limpieza de datos III
Es importante entender la posible causa que origina el dato
faltante. Cuestiones a considerar:
La falta de valores puede expresar caractersticas relevantes.
Ej.: La falta de n umero celular pues no todos poseen.
Valores no existentes. Ej.: Quiz a el registro -usuario, cliente- es
nuevo y a un no tiene historial.
Datos incompletos. Ocasionado por el proceso de mezcla.
Una vez que se ha analizado la causa del dato faltante, se
pueden dar los siguientes tratamientos:
Ignorar tales datos. Pues algoritmos como los arboles de decisi on
son sencibles a esos casos.
Eliminar el campo. S olo si la cantidad de valores nulos es muy
alta.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 7 / 23
Fase de selecci on, limpieza y transformaci on
Limpieza de datos IV
Filtrar la la. Puede sesgar los datos.
Reemplazar el valor. Ya sea manualmente o autom aticamente en
funciones de otros objetos similares.
Esperar los datos faltantes. Puede retrasar el proyecto.
Detecci on de valores err oneos o an omalos.
Posibles problemas:
Pueden afectar severamente el resultado.
No necesariamente son err oneos sino pueden ser especiales o
incluso cruciales seg un el tema de estudio.
Es importante entender la posible causa que origina el an omalo.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 8 / 23
Fase de selecci on, limpieza y transformaci on
Limpieza de datos V
Posibles tratamientos:
Ignorar tales datos.
Eliminar el campo. Si es que afecta a campos de mayor calidad.
Filtrar la la. Puede sesgar los datos pues quiz as sean casos o
tipos especiales.
Reemplazar el valor.
Discretizar. Es decir clasicarlos o discretizarlos.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 9 / 23
Fase de selecci on, limpieza y transformaci on
Transformaci on I
Signica modicar la forma de los datos.
M etodo de an alisis de componentes principales. Consiste en
transformar los atributos o variables originales en otro conjunto tal
que
x
1
, x
2
, . . . , x
n
y
1
, y
2
, . . . , y
m
Donde es deseable que m n.
An alisis factorial. Intenta reducir el n umero de atributos utilizando
t ecnicas de mnimos cuadrados, m axima verosimilitud, entre
otras.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 10 / 23
Fase de minera de datos
Fase de minera de datos I
Entender el problema que se desea resolver.
Determinar el tipo de modelo a aplicar.
Predictivo.
Descriptivo.
Elegir el algoritmo de minera que resuelva la tarea y/o obtenga el
modelo.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 11 / 23
Fase de minera de datos
Fase de minera de datos II
Tareas de la minera de datos:
Clasicaci on (Tarea predictiva)
Cada instancia pertenece a una clase distinguidas por un tipo de
atributo. Los dem as atributos de la instancia se utilizan para predecir
la clase.
Ejemplo: Un oftalm ologo desea determinar cu ales de sus nuevos
clientes son candidatos a una ciruga ocular y cu ales no, basado en
los resultados de sus clientes anteriores y la evoluci on de estos
despu es de la ciruga. Algunos factores a considerar son el tipo de
enfermedad ocular y algunos padecimientos que pueden afectar la
ciruga.
El modelo nal clasicara a los nuevos pacientes como operables o
no.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 12 / 23
Fase de minera de datos
Fase de minera de datos III
Regresi on (Tarea predictiva)
Consiste en aprender una funci on real que asigna a cada instancia un
valor real, de manera que el objetivo es predecir un valor num erico.
Ejemplo: Una constructora desea determinar el costo adecuado para
los departamentos que va a construir y vender en una determinada
zona. Para ello la constructora se puede basar en el costo de las
viviendas cercanas a la zona. El modelo ayudara a predecir el costo
factible de sus nuevos deptos.
Agrupamiento (Tarea descriptiva)
A diferencia de la clasicaci on, aqu se busca agrupar a los individuos
maximizando el grado de similitud entre las instancias de un mismo
grupo y minimizando la similitud entre grupos. Los grupos pueden ser
o no disjuntos.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 13 / 23
Fase de minera de datos
Fase de minera de datos IV
Correlaciones (Tarea descriptiva)
Ayudan a determinar el grado de similitud entre variables num ericas.
El coeciente de correlaci on r , con r [1, 1], si r = 0 indica que no
hay relaci on entre las variables, r > 0 indica que las variables estan
directamente relacionadas y r < 0 indica relaci on inversa.
Ejemplo: El departamento de bomberos desea determinar las
correlaciones negativas entre el empleo de distintos grosores de
protecci on de material el ectrico y la frecuencia de incendios.
Reglas de asociaci on (Tarea descriptiva)
El objetivo es determinar relaciones no evidentes entre atributos
categ oricos. No necesariamente las reglas son del tipo causa-efecto.
Ejemplo: El ejemplo cl asico es el de la cesta de compra para organizar
los productos fsicamente en el supermercado.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 14 / 23
Fase de minera de datos
Fase de minera de datos V
T ecnicas de la minera de datos.
Regresi on lineal. La f ormula general para una regresi on lineal es
y = c
0
+ c
1
x
1
+ . . . c
n
x
n
x
i
son los atributos predictores.
y es la salida o variable dependiente.
Regresi on no lienal.
y = c
0
+ f
1
(x
1
) + . . . f
n
(x
n
)
Cuadrados, logaritmos, etc.
M etodos bayesianos. Basados en el teorema de bayes.
Clasicaci on
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 15 / 23
Fase de minera de datos
Fase de minera de datos VI
p(H|E) =
p(E|H) P(H)
p(E)
Donde P(A) representa la probabilidad del suceso A y p(A|B)
denota la probabilidad del suceso P(A) condicionada al suceso
P(B).

Arboles de decisi on. Son una serie de condiciones organizadas


en forma jer arquica, a modo de arbol.
Clasicaci on, Agrupamiento, Regresi on
Instancia pron ostico humedad viento jugar
1 soleado alta d ebil No
2 nublado alta d ebil Si
3 lluvioso alta d ebil Si
4 lluvioso normal fuerte No
5 soleado baja d ebil Si
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 16 / 23
Fase de minera de datos
Fase de minera de datos VII
Se puede utilizar la inducci on de reglas para derivar el conjunto de
condiciones adecuadas para el problema.
Si cond
1
y cond
2
y . . . ycond
n
entonces pred.
Para nuestro ejemplo tenemos que:
Si pron ostico = soleado y humedad = normal entonces jugar s
Si pron ostico = cubierto entonces jugar s
Si pron ostico = lluvioso y viento = d ebil entonces jugar s
en otro caso no
Problemas con la inducci on de reglas:
Las reglas no necesariamente forman un arbol.
Las reglas pueden no cubrir todas las posibilidades.
Las reglas pueden entrar en conicto.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 17 / 23
Fase de minera de datos
Fase de minera de datos VIII
Redes neuronales. Trabajan directamente con n umeros y en caso
de que se desee trabajar con datos nominales, estos deben
numerizarse.
Clasicaci on, Agrupamiento, Regresi on
Las redes neuronales consisten generalmente de tres capas: de
entrada, oculta y de salida. Internamente pueden verse como una
gr aca dirigida.
Algoritmos evolutivos. Son m etodos de b usqueda colectiva
dentro de un espacio de soluciones. Se siguen patrones de la
evoluci on biol ogica como el cruce de los genes de los padres para
la producci on de hijos.
Clasicaci on, Agrupamiento, Reglas de asociaci on
Algunos tipos de algoritmos evolutivos son:
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 18 / 23
Fase de minera de datos
Fase de minera de datos IX
Algoritmos gen eticos, estrategia evolutiva, programaci on gen etica,
algoritmos mem eticos, algoritmos culturales, evoluci on diferencial.
Construcci on del modelo.
Es bueno explorar varios modelos.
Tambi en es recomendable explorar nuevos modelos mediante otras
t ecnicas.
Se aconseja que el modelo sea validado utilizando parte de los
datos.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 19 / 23
Fase de evaluaci on e interpretaci on
Fase de evaluaci on e interpretaci on I
T ecnicas de evaluaci on. Para entrenar y probar un modelo se
parten los datos en dos conjuntos: el conjunto de entrenamiento y
el conjunto de prueba.
Validaci on simple. Se utiliza cuando se posee un gran conjunto
de datos. De modo que se elige entre el 5 y 50% de los datos para
la parte de las pruebas.
Validaci on cruzada. Se parte el conjunto de datos en dos
conjuntos. Primero se utiliza al primer conjunto para predecir los
datos del segundo conjunto y luego se aplica el mismo proceso en
modo inverso. Si la cantidad de errores no es muy grande se crea
un modelo con ambos conjuntos.
Validaci on cruzada con n pliegues. En este caso los datos se
parten en n conjuntos y s olo se reserva un conjunto para pruebas.
El proceso se repite para los n 1 grupos restantes.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 20 / 23
Fase de evaluaci on e interpretaci on
Fase de evaluaci on e interpretaci on II
Bootstrapping. Se sugiere cuando se poseen muy pocos datos.
1
Se contruye un modelo con todos los datos.
2
Se crean varios conjuntos de datos llamados bootstrap samples
haciendo un muestreo de los datos originales con reemplazo (se
pueden repetir instancias).
3
Se crean tantos modelos como conjuntos de datos se hayan
generado.
4
Con los datos restantes de cada muestreo se hacen las pruebas para
el c alculo del error y se promedian los errores.
Medidas de evaluaci on de modelos. Dependen de la tarea sobre
la que se este trabajando.
Clasicaci on. Se evalua la calidad de los patrones encontrados
respecto a su precisi on predictiva.
instancias clasicadas correctamente
instancias totales
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 21 / 23
Fase de evaluaci on e interpretaci on
Fase de evaluaci on e interpretaci on III
Reglas de asociaci on. Se suele evaluar aquellas reglas que
pueden aplicarse a un n umero mayor de instancias. Se suele
medir:
Cobertura. N umero de instancias a las que la regla predice
correctamente.
Conanza. Proporci on de instancias que la regla predice
correctamente.
Regresi on. Dado que la salida de este modelo es un valor
num erico, lo m as com un es evaluar utilizando el error cuadr atico
medio.
Se utiliza el valor predicho vs el valor utilizado para la validaci on.
Agrupamiento. Se suele evaluar mediante funciones que nos
proporcionen la cohesi on del grupo y la separaci on entre grupos.
Por ejemplo calculando la distancia media al centro del grupo y la
distancia media entre grupos.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 22 / 23
Fase de difusi on y despliegue de resultados
Fase de difusi on y despliegue de resultados
Al nal se tiene un modelo que se utilizar a para proporcionar
recomendaciones.
Tales recomendaciones ayudar an en procesos:
De la vida real solicitud de cr editos bancarios, agencias de
viajes
Virtuales detecci on de spam, detecci on de compras
fraudulentas
Se recomienda medir constantemente la evoluci on de la
funcionalidad del modelo. Por ejemplo ciertos patrones o
recomendaciones respecto a las ventas pueden verse afectados
por factores externos como la tasa de inaci on.
Revaluado Re-entrenado o reconstruido por completo.
Sergio Luis P erez (UAM CUAJIMALPA) Curso de minera de datos 23 / 23

Anda mungkin juga menyukai