Anda di halaman 1dari 20

Minera de Datos

Introduccin
La revolucin digital ha permitido que la captura de datos

sea fcil, y su almacenamiento tenga un costo casi nulo.


Enormes cantidades de datos son recogidas y almacenadas

en BD en la vida diaria.
Resultado: Para analizar estas enormes cantidades de

datos, las herramientas tradicionales de gestin de datos y


las herramientas estadsticas no son adecuadas.

Introduccin
Los datos por s solos no producen beneficio

directo. Su verdadero valor consiste en poder


extraer informacin til para la toma de decisiones.
Tradicionalmente se analizaban datos con la ayuda

de tcnicas estadsticas (resumiendo y generando


informes) o validando modelos sugeridos
manualmente por los expertos.

Introduccin
Estos procesos son irrealizables a medida que

aumenta el tamao de los datos.

Bases de datos con un n de registros del orden de

109 y 103 de dimensin, son fenmenos


relativamente comunes.

La tecnologa informtica puede automatizar este

proceso. Minera de datos

Qu es la Minera de Datos?
Es un mecanismo de explotacin que consiste en la

bsqueda de informacin valiosa en grandes


volmenes de datos.
Ligada a las bodegas de datos (informacin histrica)

con la cual los algoritmos de minera de datos


obtienen informacin necesaria para la toma de
decisiones.

Qu es la Minera de Datos?
La minera de datos se puede dividir en:
Minera de datos predictiva (mdp): usa

primordialmente tcnicas estadsticas.


Minera de datos para descubrimiento de

conocimiento (mddc): usa principalmente


tcnicas de inteligencia artificial.

Qu es la Minera de Datos?
Definiciones necesarias:
Datos: hechos o medidas que describen caractersticas de objetos,

eventos o personas, es la materia prima de la que se obtendr la


informacin.
Informacin: Datos analizados y presentados en forma adecuada,

de inters para un observador en un momento determinado.


Conocimiento: informacin procesada para emitir juicios que

llevan a conclusiones.
Meta Conocimiento: Reglas que permiten obtener conocimiento.

Qu es la Minera de Datos?
Una definicin de Minera de datos es:
Un proceso no trivial de identificacin vlida, novedosa,

potencialmente til y entendible de obtencin de patrones de


los datos

Un proceso ms general es KDD (Knowledge Discovery on

Databases/ Descubrimiento de conocimiento en Bases de


Datos).

KDD es empleado para describir el proceso de extraccin de

conocimiento de los datos.


Definicin: La extraccin no-trivial de conocimiento
implcito en los datos que resulte ser previamente desconocido
y potencialmente til.
El conocimiento debe ser nuevo, no obvio y debe estar
disponible para el uso.

Qu es la Minera de Datos?
La minera de datos tiene como propsito la

identificacin de un conocimiento obtenido a partir


de las bases de datos que aporten hacia la toma de
decisin.

Principales etapas en el proceso de Minera de


Datos
Los pasos a seguir para la realizacin de un proyecto

de minera de datos son siempre los mismos,


independientemente de la tcnica especfica de
extraccin de conocimiento usada.
El proceso parece secuencial con desarrollo lineal,
pero en la prctica, en cualquier etapa se detiene y
vuelve atrs.

Filtro de Datos
El formato de los datos contenidos en la fuente de

datos (base de datos, Data Warehouse) nunca es el


idneo, y la mayora de las veces no es posible ni
siquiera utilizar ningn algoritmo de minera sobre los
datos
"en
bruto".
Mediante el preprocesado, se filtran los datos (de
forma que se eliminan valores incorrectos, no vlidos,
desconocidos), se obtienen muestras de los mismos (en
busca de una mayor velocidad de respuesta del
proceso), o se reducen el nmero de valores posibles
(mediante redondeo, clustering,...).

Seleccin de variables
An despus de haber sido preprocesados, en la mayora de los

casos se tiene una cantidad bastante grande de datos.


La seleccin de variables se realiza generalmente de una base de
datos operacional. Para facilitar el proceso, los datos son copiados
en otra base de datos denominada analtica. Las principales
caractersticas de una Base de Datos Analtica, es que contienen
gran cantidad de registros (informacin corporativa), son diseadas
para fines especficos y siempre son de consulta.
El principal objetivo de la seleccin de variables es escoger datos
que contengan la informacin o el conocimiento que se desea
obtener

Extraccin de Conocimiento
Mediante

una tcnica de minera de datos


(visualizacin, verificacin y descubrimiento), se
obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los
valores de las variables del problema o relaciones de
asociacin entre dichas variables. Tambin pueden
usarse varias tcnicas a la vez para generar distintos
modelos, aunque generalmente cada tcnica obliga a
un preprocesado diferente de los datos. El problema
de la extraccin de conocimiento en general se puede
reducir a la forma como se manipulan los diferentes
tipos de datos.

Interpretacin y Evaluacin
Una vez obtenido el modelo, se debe proceder a su

validacin, comprobando que las conclusiones que


arroja son vlidas y suficientemente satisfactorias. En
el caso de haber obtenido varios modelos mediante el
uso de distintas tcnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al
problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los
pasos anteriores para generar nuevos modelos.

Lneas de Investigacin

Web Mining: consiste en aplicar tecnicas de

mineria de datos a servicios web.

Text mining: trata de obtener informacin sin

haber partido de algo.

Software
Software
Weka: Completo y recurrente software de minera de

datos de libre distribucin.


MLC++: Conjunto de libreras y utilidades de minera
de datos.
Xelopes: Librera con licencia pblica GNU para el
desarrollo de aplicaciones de minera de datos.
C4.5: Sistema clsico de aprendizaje de rboles de
decisin.
FOIL: Software que permite el aprendizaje de modelos
relacionales.

Ventajas de Minera de Datos


Contribuye a la toma de decisiones tcticas y estratgicas proporcionando un

sentido automatizado para identificar informacin clave desde volmenes de datos


generados por procesos tradicionales y de e-Business.

Proporciona poderes de decisin a los usuarios del negocio que mejor entienden el

problema y el entorno y es capaz de medir la acciones y los resultados de la mejor


forma
.
Genera Modelos descriptivos: permite a empresas, sin tener en cuenta el rubro o el
tamao, explorar automticamente, visualizar y comprender los datos e identificar
patrones, relaciones y dependencias que impactan en los resultados finales de la
cuenta de resultados (tales como el aumento de los ingresos, incremento de los
beneficios, contencin de costes y gestin de riesgos).
Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas

a travs del proceso de Minera de Datos sean expresadas como reglas de negocio o
modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales
(presentaciones, informes, informacin electrnica compartida, etc.) para guiar la
estrategia y planificacin de la empresa.

Ejemplos
Clientes que compran paales tienden a comprar

cerveza.
Casi el 5% de clientes de un banco nacieron el 11 del
noviembre de 1911.
Comportamiento y perfil de los usuarios de una red
LAN, mediante anlisis de trfico.
Clusterizacin e Identificacin de Tendencias
Temporales en Bases de datos de Documentos

Ej: Clusterizacin e Identificacin de Tendencias


Temporales en Bases de datos de Documentos

Aplicacin: Weka (Waikato Environment for Knowledge


Analysis)

Anda mungkin juga menyukai