Anda di halaman 1dari 26

Knowledge Discovery in Data Bases

Muffins:
Alfaro Iuit Sary Campos Osorio Ishira Caamal Noh Virginia Chan Mat Cinthia

Chi Ceh Jos

La Extraccin de conocimiento est principalmente relacionado con el proceso de descubrimiento conocido como Knowledge Discovery in Databases (KDD), que se refiere al proceso no-trivial de descubrir conocimiento e informacin potencialmente til dentro de los datos contenidos en algn repositorio de informacin.

Una de las definiciones ms completas, es la siguiente:

El descubrimiento de conocimiento en bases de datos es un campo de la inteligencia artificial de rpido crecimiento, que combina tcnicas del aprendizaje de mquina, reconocimiento de patrones, estadstica, bases de datos, y visualizacin para automticamente extraer conocimiento (o informacin), de un nivel bajo de datos (bases de datos) -Fayyad

Intervienen los datos o fuentes de informacin en bruto que se cree pueden ser tiles para la investigacin. Se define cmo y de dnde extraemos esa informacin.
Es uno de los procesos ms lentos y el cual requiere mayor atencin

Data Warehouse . Este almacn de datos que consta de informacin similar, relevante y generalmente nica, sirve para poder detectar inconsistencia o redundancia de datos y como un primer acercamiento con los datos a estudiar o que potencialmente interesan ser estudiados.

A parte de informacin interna, los almacenes pueden recoger informacin externa:


-Demografas, pginas amarillas, uso de internet -Datos compartidos.

-Datos resumidos de reas geogrficas, distribucin de la competencia, evolucin de la economa. -Bases de datos externas.

Una vez terminado el proceso de integracin y recopilacin de informacin es necesario limpiar, identificar errores, o datos faltantes.

Esta etapa consiste en la preparacin y limpieza de los datos extrados desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores.

En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que estn fuera de rango, obtenindose al final una estructura de datos adecuada para su posterior transformacin.

Seleccionar el conjunto de datos adecuado

La limpieza de datos, consiste en rellenar valores perdidos, identificar y/o eliminar valores anmalos (outliers), suavizar el ruido, eliminar inconsistencias.

Preprocesamiento: transformacin de los datos, variables, valores.

Limpieza de datos (data cleaning)


Acciones ante datos anmalos (outliers):
Ignorar

Filtrar (eliminar o reemplazar) la columna


Filtrar la fila: puede sesgar los datos, porque muchas veces las causas de un dato errneo estn relacionadas con casos o tipos especiales.

Reemplazar el valor: A veces se puede predecir a partir de otros datos Discretizar: transformar un valor continuo en uno discreto

Acciones ante datos faltantes (missing values): Ignorar Filtrar (eliminar o reemplazar) la columna: Aveces existe otra columna dependiente con datos de mayor calidad Filtrar la fila: claramente sesga los datos Reemplazar el valor: A veces se puede predecir a partir de otros datos, Segmentar: Se segmentan las tuplas por los valores que tienen disponibles. Se obtienen modelos diferentes para cada segmento y luego se combinan. Modificar la poltica de calidad de datos y esperar hasta que los datos faltantes estn disponibles.

Ruido: error aleatorio o siguiendo una varianza en los datos. El tratamiento bsico es suavizar mediante tcnicas estadsticas.

Inconsistencias: registros duplicados, datos inconsistentes,


(normalmente ya tratado en la elaboracin del DW.)

Transformacin
Redefinicin de los atributos mediante agrupamiento o separacin.

Discretizacin. Pasar atributos continuos (o discretos con muchos valores) a casos discretos manejables.

Transformacin de los atributos:


fecha nacimiento => edad, apellidos => etiquetas separadas

Data Mining
Es la fase de modelamiento propiamente tal, en donde mtodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, vlidos, nuevos, potencialmente tiles y comprensibles y que estn contenidos u ocultos en los datos.

Tareas

Elegir la tarea/tcnica de Data Mining


Escoger el algoritmo de Data Mining Utilizar el algoritmo de Data Mining

Insumos/Resultados

Insumos/Resultados
Vista Minable
Atributos numricos: enteros, reales.

Patrones
Reglas de clasificacin Clusters

Atributos nominales: tambin referenciados como atributos categricos, enumerados o discretos. Toman valores en un conjunto finito y preestablecido de categoras.

rboles de decisin Redes neuronales Reglas de asociacin


Reglas relacionales Reglas difusas

Ecuaciones de regresin
rboles de regresin K-NN y CBR Modelos Bayesianos

En esta fase se identifican los patrones obtenidos y que son realmente interesantes, basndose en algunas medidas y se realiza una evaluacin de los resultados obtenidos.

Modelos precisos, comprensibles (inteligibles) e interesantes (tiles y novedosos)

La fase de MD puede producir varias hiptesis de modelos Ser necesario establecer qu modelos son los ms vlidos (tcnicas habituales son el uso de conjuntos de tests independientes, ...) . La interpretacin de los mejores modelos (visualizacin, simplicidad, posibilidad de integracin, ventajas colaterales, ...) ayudar a la seleccin del modelo(s) final(es)

Conocimiento

Decisiones

Difusin: el modelo puede requerir ser expresado de una manera comprensible para ser distribuido en la organizacin

(Cervezas y los productos congelados se compran frecuentemente en conjunto ponerlos en estantes distantes) Elaboracin de informes para su distribucin

Medir la evolucin del modelo a lo largo del tiempo (patrones tipo pueden cambiar)

Reevaluado, Reentrenado y Reconstruido

Referencias
http://users.dsic.upv.es/~jorallo/master/dm2.pdf http://pensamiento-integralia.wikispaces.com/file/view/dm-II_kdd.pdf http://exa.unne.edu.ar/depar/areas/informatica/SistemasO perativos/Mineria_Datos_Vallejos.pdf http://www.webmining.cl/2011/01/proceso-de-extraccionde-conocimiento/ Han, J.; Kamber M. (2001). Data Mining: Concepts ans Techniques . Morgan Kaufmann Publishers, USA. Oded Maimon, Lior Rokach. Introduction to knowledge discovery in databases. Tel-Aviv University.

http://exa.unne.edu.ar/depar/areas/informatica/SistemasO perativos/Mineria_Datos_Vallejos.pdf

https://www.google.com.mx/url?sa=t&rct=j&q=&esrc=s&sou rce=web&cd=7&cad=rja&ved=0CEkQFjAG&url=http%3A%2F %2Flaurel.datsi.fi.upm.es%2F_media%2Fdocencia%2Fcursos% 2Finap%2Fcursodm.ppt&ei=TGpoUuGFJafuiAf67oDwCA&us g=AFQjCNFmzVdjOhEnzqVfGu1fjUiCD_ZOg&bvm=bv.55123115,d.aGc


http://mineriadatos.blogspot.mx/2009/04/el-proceso-dekdd.html Data Mining, Concepts and Techniques, Han &Kamber http://bibliotecarios.cl/conferencia_2006/C2006_019.pdf http://sedici.unlp.edu.ar/bitstream/handle/10915/21220/Do cumento_completo.pdf?sequence=1 http://users.dsic.upv.es/~jorallo/cursoDWDM/dwdm-III-2.pdf

Anda mungkin juga menyukai