KDD

Knowledge Discovery in Data Bases
Muffins:
Alfaro Iuit Sary Campos Osorio Ishira Caamal Noh Virginia Chan Mat Cinthia
Chi Ceh Jos
La Extraccin de conocimiento est principalmente relacionado con el proceso de descubrimiento conocido como Knowledge Discovery in Databases (KDD), que se refiere al proceso no-trivial de descubrir conocimiento e informacin potencialmente til dentro de los datos contenidos en algn repositorio de informacin.
Una de las definiciones ms completas, es la siguiente:
El descubrimiento de conocimiento en bases de datos es un campo de la inteligencia artificial de rpido crecimiento, que combina tcnicas del aprendizaje de mquina, reconocimiento de patrones, estadstica, bases de datos, y visualizacin para automticamente extraer conocimiento (o informacin), de un nivel bajo de datos (bases de datos) -Fayyad
Intervienen los datos o fuentes de informacin en bruto que se cree pueden ser tiles para la investigacin. Se define cmo y de dnde extraemos esa informacin.
Es uno de los procesos ms lentos y el cual requiere mayor atencin
Data Warehouse . Este almacn de datos que consta de informacin similar, relevante y generalmente nica, sirve para poder detectar inconsistencia o redundancia de datos y como un primer acercamiento con los datos a estudiar o que potencialmente interesan ser estudiados.
A parte de informacin interna, los almacenes pueden recoger informacin externa:

-Demografas, pginas amarillas, uso de internet -Datos compartidos.
-Datos resumidos de reas geogrficas, distribucin de la competencia, evolucin de la economa. -Bases de datos externas.
Una vez terminado el proceso de integracin y recopilacin de informacin es necesario limpiar, identificar errores, o datos faltantes.
Esta etapa consiste en la preparacin y limpieza de los datos extrados desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores.
En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que estn fuera de rango, obtenindose al final una estructura de datos adecuada para su posterior transformacin.
Seleccionar el conjunto de datos adecuado
La limpieza de datos, consiste en rellenar valores perdidos, identificar y/o eliminar valores anmalos (outliers), suavizar el ruido, eliminar inconsistencias.
Preprocesamiento: transformacin de los datos, variables, valores.
Limpieza de datos (data cleaning)

Acciones ante datos anmalos (outliers):
Ignorar
Filtrar (eliminar o reemplazar) la columna

Filtrar la fila: puede sesgar los datos, porque muchas veces las causas de un dato errneo estn relacionadas con casos o tipos especiales.
Reemplazar el valor: A veces se puede predecir a partir de otros datos Discretizar: transformar un valor continuo en uno discreto
Acciones ante datos faltantes (missing values): Ignorar Filtrar (eliminar o reemplazar) la columna: Aveces existe otra columna dependiente con datos de mayor calidad Filtrar la fila: claramente sesga los datos Reemplazar el valor: A veces se puede predecir a partir de otros datos, Segmentar: Se segmentan las tuplas por los valores que tienen disponibles. Se obtienen modelos diferentes para cada segmento y luego se combinan. Modificar la poltica de calidad de datos y esperar hasta que los datos faltantes estn disponibles.
Ruido: error aleatorio o siguiendo una varianza en los datos. El tratamiento bsico es suavizar mediante tcnicas estadsticas.
Inconsistencias: registros duplicados, datos inconsistentes,

(normalmente ya tratado en la elaboracin del DW.)
Transformacin
Redefinicin de los atributos mediante agrupamiento o separacin.
Discretizacin. Pasar atributos continuos (o discretos con muchos valores) a casos discretos manejables.
Transformacin de los atributos:

fecha nacimiento => edad, apellidos => etiquetas separadas
Data Mining
Es la fase de modelamiento propiamente tal, en donde mtodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, vlidos, nuevos, potencialmente tiles y comprensibles y que estn contenidos u ocultos en los datos.
Tareas
Elegir la tarea/tcnica de Data Mining

Escoger el algoritmo de Data Mining Utilizar el algoritmo de Data Mining
Insumos/Resultados
Insumos/Resultados
Vista Minable
Atributos numricos: enteros, reales.
Patrones
Reglas de clasificacin Clusters
Atributos nominales: tambin referenciados como atributos categricos, enumerados o discretos. Toman valores en un conjunto finito y preestablecido de categoras.
rboles de decisin Redes neuronales Reglas de asociacin

Reglas relacionales Reglas difusas
Ecuaciones de regresin
rboles de regresin K-NN y CBR Modelos Bayesianos
En esta fase se identifican los patrones obtenidos y que son realmente interesantes, basndose en algunas medidas y se realiza una evaluacin de los resultados obtenidos.
Modelos precisos, comprensibles (inteligibles) e interesantes (tiles y novedosos)
La fase de MD puede producir varias hiptesis de modelos Ser necesario establecer qu modelos son los ms vlidos (tcnicas habituales son el uso de conjuntos de tests independientes, ...) . La interpretacin de los mejores modelos (visualizacin, simplicidad, posibilidad de integracin, ventajas colaterales, ...) ayudar a la seleccin del modelo(s) final(es)
Conocimiento
Decisiones
Difusin: el modelo puede requerir ser expresado de una manera comprensible para ser distribuido en la organizacin
(Cervezas y los productos congelados se compran frecuentemente en conjunto ponerlos en estantes distantes) Elaboracin de informes para su distribucin
Medir la evolucin del modelo a lo largo del tiempo (patrones tipo pueden cambiar)
Reevaluado, Reentrenado y Reconstruido
Referencias
http://users.dsic.upv.es/~jorallo/master/dm2.pdf http://pensamiento-integralia.wikispaces.com/file/view/dm-II_kdd.pdf http://exa.unne.edu.ar/depar/areas/informatica/SistemasO perativos/Mineria_Datos_Vallejos.pdf http://www.webmining.cl/2011/01/proceso-de-extraccionde-conocimiento/ Han, J.; Kamber M. (2001). Data Mining: Concepts ans Techniques . Morgan Kaufmann Publishers, USA. Oded Maimon, Lior Rokach. Introduction to knowledge discovery in databases. Tel-Aviv University.
http://exa.unne.edu.ar/depar/areas/informatica/SistemasO perativos/Mineria_Datos_Vallejos.pdf
https://www.google.com.mx/url?sa=t&rct=j&q=&esrc=s&sou rce=web&cd=7&cad=rja&ved=0CEkQFjAG&url=http%3A%2F %2Flaurel.datsi.fi.upm.es%2F_media%2Fdocencia%2Fcursos% 2Finap%2Fcursodm.ppt&ei=TGpoUuGFJafuiAf67oDwCA&us g=AFQjCNFmzVdjOhEnzqVfGu1fjUiCD_ZOg&bvm=bv.55123115,d.aGc

http://mineriadatos.blogspot.mx/2009/04/el-proceso-dekdd.html Data Mining, Concepts and Techniques, Han &Kamber http://bibliotecarios.cl/conferencia_2006/C2006_019.pdf http://sedici.unlp.edu.ar/bitstream/handle/10915/21220/Do cumento_completo.pdf?sequence=1 http://users.dsic.upv.es/~jorallo/cursoDWDM/dwdm-III-2.pdf

KDD

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

KDD

Diunggah oleh

Hak Cipta:

Format Tersedia

Knowledge Discovery in Data Bases

Chi Ceh Jos

Una de las definiciones ms completas, es la siguiente:

A parte de informacin interna, los almacenes pueden recoger informacin externa:

Seleccionar el conjunto de datos adecuado

Preprocesamiento: transformacin de los datos, variables, valores.

Limpieza de datos (data cleaning)

Filtrar (eliminar o reemplazar) la columna

Inconsistencias: registros duplicados, datos inconsistentes,

Transformacin de los atributos:

Elegir la tarea/tcnica de Data Mining

rboles de decisin Redes neuronales Reglas de asociacin

Modelos precisos, comprensibles (inteligibles) e interesantes (tiles y novedosos)

Reevaluado, Reentrenado y Reconstruido

https://www.google.com.mx/url?sa=t&rct=j&q=&esrc=s&sou rce=web&cd=7&cad=rja&ved=0CEkQFjAG&url=http%3A%2F %2Flaurel.datsi.fi.upm.es%2F_media%2Fdocencia%2Fcursos% 2Finap%2Fcursodm.ppt&ei=TGpoUuGFJafuiAf67oDwCA&us g=AFQjCNFmzVdjOhEnzqVfGu1fjUiCD_ZOg&bvm=bv.55123115,d.aGc

Anda mungkin juga menyukai