Anda di halaman 1dari 12

Facultad de Ciencias Empresariales

Escuela Acadmico Profesional de Ciencias Contables y


Financieras


CURSO: Sistemas de Informacin II

TEMA: Minera de Datos. Data Mining


HECHO POR:
Ziga Vigil Janira Luciana
Gutirrez Gutirrez Jos Manuel

CICLO: VIII

DOCENTE: Cesar Altamirano

2014


MINERA DE DATOS DATA MINING

INTRODUCCIN

En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de
generar y colectar datos, debido bsicamente al gran poder de procesamiento de
las mquinas como a su bajo costo de almacenamiento.
Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad
de informacin oculta, de gran importancia estratgica, a la que no se puede
acceder por las tcnicas clsicas de recuperacin de la informacin.
El descubrimiento de esta informacin oculta es posible gracias a la Minera de
Datos (DataMining), que entre otras sofisticadas tcnicas aplica la inteligencia
artificial para encontrar patrones y relaciones dentro de los datos permitiendo la
creacin de modelos, es decir, representaciones abstractas de la realidad, pero es
el descubrimiento del conocimiento (KDD, por sus siglas en ingls) que se encarga
de la preparacin de los datos y la interpretacin de los resultados obtenidos, los
cuales dan un significado a estos patrones encontrados.

Aunque desde un punto de vista acadmico el trmino data Mining es una etapa
dentro de un proceso mayor llamado extraccin de conocimiento en bases de
datos, (mencionado en el captulo anterior) en el entorno comercial, as como en
este trabajo, ambos trminos se usan de manera indistinta. Lo que en verdad hace
el data Mining es reunir las ventajas de varias reas como la Estadstica, la
Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima las bases de
datos.



1. DEFINICIONES

DEFINICION TRADICIONAL: Un proceso no trivial de identificacin vlida,
novedosa, potencialmente til y entendible de patrones comprensibles que
se encuentran ocultos en los datos

DEFINICION EMPRESARIAL: La integracin de un conjunto de reas que
tienen como propsito la identificacin de un conocimiento obtenido a partir
de las bases de datos que aporten un sesgo hacia la toma de decisin

2. HISTORIA

La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos
manejaban trminos como data fishing, data mining o data archaeology con la idea
de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A
principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y
Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de
data mining y KDD.[3] A finales de los aos ochenta slo existan un par de
empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en
el mundo que ofrecen alrededor de 300 soluciones.
Las listas de discusin sobre este tema las forman investigadores de ms de
ochenta pases. Esta tecnologa ha sido un buen punto de encuentro entre
personas pertenecientes al mbito acadmico y al de los negocios.

3. CONCEPTO

El data mining es una tecnologa compuesta por etapas que integra varias reas y
que no se debe confundir con un gran software. Durante el desarrollo de un
proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que
pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales de
data mining muy poderosas que contienen un sinfn de utileras que facilitan el
desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose
con otra herramienta.
La data mining es la etapa de descubrimiento en el proceso de KDD: Paso
consistente en el uso de algoritmos concretos que generan una enumeracin de
patrones a partir de los datos pre procesados (Fayyad et al., 1996) Aunque se
suelen usar indistintamente los trminos KDD y Minera de Datos.

4. FUNDAMENTOS DE DATA MINING

Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin
y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios
fueron almacenados por primera vez en computadoras, y continu con mejoras en
el acceso a los datos, y ms recientemente con tecnologas generadas para
permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining
toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de
los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining
est lista para su aplicacin en la comunidad de negocios porque est soportado
por tres tecnologas que ya estn suficientemente maduras:
Recoleccin masiva de datos.
Potentes computadoras con multiprocesadores.
Algoritmos de Data Mining.

Las bases de datos comerciales estn creciendo a un ritmo sin precedentes. Un
reciente estudio del META GROUP sobre los proyectos de Data Warehouse
encontr que el 19% de los que contestaron estn por encima del nivel de los 50
Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de
1997. En algunas industrias, tales como ventas al por menor (retail), estos
nmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta con
una base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendo en
MVS sobre IBM SP2. La necesidad paralela de motores computacionales
mejorados puede ahora alcanzarse de forma ms costo - efectiva con tecnologa
de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining
utilizan tcnicas que han existido por lo menos desde hace 10 aos, pero que slo
han sido implementadas recientemente como herramientas maduras, confiables,
entendibles que consistentemente son ms performantes que mtodos
estadsticos clsicos.
En la evolucin desde los datos de negocios a informacin de negocios, cada
nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinmicos es
crtico para las aplicaciones de navegacin de datos (drill through applications), y
la habilidad para almacenar grandes bases de datos es crtica para Data Mining.
Los componentes esenciales de la tecnologa de Data Mining han estado bajo
desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia
artificial y aprendizaje de mquinas. Hoy, la madurez de estas tcnicas, junto con
los motores de bases de datos relacionales de alta performance, hicieron que
estas tecnologas fueran prcticas para los entornos de data warehouse actuales.

5. PRINCIPALES CARACTERISTICAS Y OBJETIVOS

Explorar los datos se encuentran en las profundidades de las bases de datos,
como los almacenes de datos, que algunas veces contienen informacin
almacenada durante varios aos.
En algunos casos, los datos se consolidan en un almacn de datos y en
mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.
El entorno de la minera de datos suele tener una arquitectura cliente servidor.
Las herramientas de la minera de datos ayudan a extraer el mineral de la
informacin enterrado en archivos corporativos o en registros pblicos, archivados
El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programacin, facultado por barrenadoras de datos y otras poderosas
herramientas indagatorias para efectuar preguntas adhoc y obtener rpidamente
respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e
inesperados.
Las herramientas de la minera de datos se combinan fcilmente y pueden
analizarse y procesarse rpidamente.
Debido a la gran cantidad de datos, algunas veces resulta necesario usar
procesamiento en paralelo para la minera de datos.
La minera de datos produce cinco tipos de informacin:
Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronsticos.
Los mineros de datos usan varias herramientas y tcnicas.
La minera de datos es un proceso que invierte la dinmica del mtodo cientfico
en el siguiente sentido:
En el mtodo cientfico, primero se formula la hiptesis y luego se disea el
experimento para coleccionar los datos que confirmen o refuten la hiptesis.
Si esto se hace con la formalidad adecuada (cuidando cules son las variables
controladas y cules experimentales), se obtiene un nuevo conocimiento.
En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan
hiptesis. Se busca que los datos describan o indiquen por qu son como son.
Luego entonces, se valida esa hiptesis inspirada por los datos en los datos
mismos, ser numricamente significativa, pero experimentalmente invlida. De
ah que la minera de datos debe presentar un enfoque exploratorio, y no
confirmador. Usar la minera de datos para confirmar las hiptesis formuladas
puede ser peligroso, pues se est haciendo una inferencia poco vlida.
La minera de datos es una tecnologa compuesta por etapas que integra varias
reas y que no se debe confundir con un gran software. Durante el desarrollo de
un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales de
minera de datos muy poderosas que contienen un sinfn de utileras que facilitan
el desarrollo de un proyecto. Sin embargo, casi siempre acaban
complementndose con otra herramienta.

6. ALCANCE DE DATA MINING

El nombre de Data Mining deriva de las similitudes entre buscar valiosa
informacin de negocios en grandes bases de datos - por ej.: encontrar
informacin de la venta de un producto entre grandes montos de Gigabytes
almacenados y minar una montaa para encontrar una veta de metales valiosos.
Ambos procesos requieren examinar una inmensa cantidad de material, o
investigar inteligentemente hasta encontrar exactamente donde residen los
valores. Dadas bases de datos de suficiente tamao y calidad, la tecnologa de
Data Mining puede generar nuevas oportunidades de negocios al proveer estas
capacidades:
Prediccin automatizada de tendencias y comportamientos. Data Mining
automatiza el proceso de encontrar informacin predecible en grandes bases de
datos. Preguntas que tradicionalmente requeran un intenso anlisis manual,
ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico
ejemplo de problema predecible es el marketing apuntado a objetivos (targeted
marketing). Data Mining usa datos en mailing promocionales anteriores para
identificar posibles objetivos para maximizar los resultados de la inversin en
futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas
financieros futuros y otras formas de incumplimiento, e identificar segmentos de
poblacin que probablemente respondan similarmente a eventos dados.
Descubrimiento automatizado de modelos previamente desconocidos. Las
herramientas de Data Mining barren las bases de datos e identifican modelos
previamente escondidos en un slo paso. Otros problemas de descubrimiento de
modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e
identificar datos anormales que pueden representar errores de tipeado en la carga
de datos.
Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en
las plataformas de hardware y software existentes y puede ser implementada en
sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos
productos sean desarrollados. Cuando las herramientas de Data Mining son
implementadas en sistemas de procesamiento paralelo de alta performance,
pueden analizar bases de datos masivas en minutos. Procesamiento ms rpido
significa que los usuarios pueden automticamente experimentar con ms
modelos para entender datos complejos. Alta velocidad hace que sea prctico
para los usuarios analizar inmensas cantidades de datos. Grandes bases de
datos, a su vez, producen mejores predicciones.

7. FASES DE UN PROYECTO DE MINERIA DE DATOS Y APLICACIONES
DE USO

7.1 FASES DE UN PROYECTO DE MINERIA DE DATOS

Los pasos a seguir para la realizacin de un proyecto de minera de datos son
siempre los mismos, independientemente de la tcnica especfica de extraccin de
conocimiento usada.

El proceso de minera de datos pasa por las siguientes fases:
Filtrado de datos.
Seleccin de Variables.
Extraccin de Conocimiento.
Interpretacin y Evaluacin.
7.1.1 FILTRADO DE DATOS
El formato de los datos contenidos en la fuente de datos (base de datos, Data
Warehouse...) nunca es el idneo, y la mayora de las veces no es posible ni
siquiera utilizar ningn algoritmo de minera sobre los datos en bruto. Mediante el
pre procesado, se filtran los datos (de forma que se eliminan valores incorrectos,
no vlidos, desconocidos... segn las necesidades y el algoritmo a usar), se
obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta
del proceso), o se reducen el nmero de valores posibles (mediante redondeo,
clustering,...).

7.1.2 SELECCIN DE VARIABLES
An despus de haber sido pre procesados, en la mayora de los casos se tiene
una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao
de los datos eligiendo las variables ms influyentes en el problema, sin apenas
sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera.
Los mtodos para la seleccin de caractersticas son bsicamente dos:
Aquellos basados en la eleccin de los mejores atributos del problema,
Y aquellos que buscan variables independientes mediante tests de sensibilidad,
algoritmos de distancia o heursticos.

7.1.3 ALGORITMOS DE EXTRACCIN DE CONOCIMIENTO
Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento,
que representa patrones de comportamiento observados en los valores de las
variables del problema o relaciones de asociacin entre dichas variables.
Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos,
aunque generalmente cada tcnica obliga a un pre procesado diferente de los
datos.

7.1.4 INTERPRETACIN Y EVALUACIN
Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que
las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso
de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben
comparar los modelos en busca de aquel que se ajuste mejor al problema. Si
ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno
de los pasos anteriores para generar nuevos modelos.

7.2 APLICACIONES DE USO
Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el
mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los
Estados Unidos, el data mining se ha ido incorporando a la vida de empresas,
gobiernos, universidades, hospitales y diversas organizaciones que estn
interesadas en explorar sus bases de datos.

7.2.1 En el Gobierno:
El FBI analizar las bases de datos comerciales para detectar terroristas.

7.2.2 En la Empresa
Deteccin de fraudes en las tarjetas de crdito.
Descubriendo el porqu de la desercin de clientes de una compaa operadora
de telefona mvil.
Hbitos de compra en supermercados.
Prediciendo el tamao de las audiencias televisivas.

7.2.3 En la Universidad
Conociendo si los recin titulados de una universidad llevan a cabo actividades
profesionales relacionadas con sus estudios.

7.2.4 En Investigaciones Espaciales

7.2.5 En los Clubes Deportivos
CONCLUSIN

Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a
velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos
y utilizarlos no ha ido a la par. Por este motivo, el data mining se presenta como
una tecnologa de apoyo para explorar, analizar, comprender y aplicar el
conocimiento obtenido usando grandes volmenes de datos. Descubrir nuevos
caminos que nos ayuden en la identificacin de interesantes estructuras en los
datos es una de las tareas fundamentales en el data mining.
En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo
de los clientes para poder explorar nuevos horizontes. Saber que un vehculo
deportivo corre un riesgo de accidente casi igual al de un vehculo normal cuando
su dueo tiene un segundo vehculo en casa ayuda a crear nuevas estrategias
comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de
un futuro cliente, basndose en los datos histricos de clientes que presentaron el
mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible.
Las herramientas comerciales de data mining que existen actualmente en el
mercado son variadas y excelentes. Las hay orientadas al estudio del web o al
anlisis de documentos o de clientes de supermercado, mientras que otras son de
uso ms general. Su correcta eleccin depende de la necesidad de la empresa y
de los objetivos a corto y largo plazo que pretenda alcanzar. La decisin de
seleccionar una solucin de data mining no es una tarea simple.
Es necesario consultar a expertos en el rea con vista a seleccionar la ms
adecuada para el problema de la empresa.
Como se ha visto a lo largo del este artculo, son muchas las reas, tcnicas,
estrategias, tipos de bases de datos y personas que intervienen en un proceso de
data mining. Los negocios requieren que las soluciones tengan una integracin
transparente en un ambiente operativo. Esto nos lleva a la necesidad de
establecer estndares para hacer un ambiente interoperable, eficiente y efectivo.
Se exponen algunas iniciativas para estos estndares, incluyendo aspectos en:
Modelos: para representar datos estadsticos y de data Mining.
Atributos: para representar la limpieza, transformacin y agregacin de atributos
usados como entrada en los modelos.
Interfaces y API: para facilitar la integracin con otros lenguajes o aplicaciones
de software y API.
Configuracin: para representar parmetros internos requeridos para construir y
usar los modelos.
Procesos: para producir, desplegar y usar modelos.
Datos remotos y distribuidos: para analizar y explorar datos remotos y
distribuidos.

En resumen, el data Mining se presenta como una tecnologa emergente, con
varias ventajas: por un lado, resulta un buen punto de encuentro entre los
investigadores y las personas de negocios; por otro, ahorra grandes cantidades de
dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay
duda de que trabajar con esta tecnologa implica cuidar un sinnmero de detalles
debido a que el producto final involucra toma de decisiones.

Anda mungkin juga menyukai