Minería de Datos
Definición y conceptos importantes de la
minería de datos, el proceso de minería,
metodología del análisis por minería,
Clasificación, regresión lineal, asociación,
agrupación y árboles de decisión,
implementado en R.
Carlos Aecio Arias López
carlosa.ariaslopez@gmail.com
Resumen —
Palabras clave: Minerìa de datos / data mining, Lenguaje R, técnicas de minería, procesos de
KDD .
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.
INTRODUCCIÓN
El presente trabajo de investigación se trata de la exploración del concepto de minería de dato (MD) con el lenguaje en R
y el proceso de extracción o descubrimiento de conocimiento en las bases de datos (KDD). Las actuales herramientas de
tratamiento automatizado de la información han llevado aparejado el uso de las técnicas estadísticas en el análisis
multivariante de datos de una forma sencilla. Al crecer la tecnología de información (TI) se ha facilitado sobremanera la
manejabilidad de los algoritmos estadísticos.
Se entiende que la problemática es minería de datos y sus técnicas con los conceptos de eficiencia y adaptabilidad de
las herramientas informáticas para proporcionar soluciones a modelos de abstracción que los usuarios desean reconocer
o investigar a nivel táctico o estratégico.
Una de las características principales de la minería de datos es la extracción y análisis de datos, esta última se refiere a
los patrones, tendencias y desviaciones que se obtiene luego realizar un ciclo de vida analítico que es un proceso
iterativo de hacer descubrimientos en sus datos y aplicar nuevos conocimientos para mejorar continuamente los modelos
predictivos y sus resultados.
El interés de esta investigación es de tipo académico y se centra en la exploración de las bases teóricas de la minería de
datos y uso del lenguaje R, esta última es con finalidad de reconocer y demostrar las técnicas de clasificación, regresión
lineal, asociación, agrupación y árboles de decisión
Esta investigación se llevada a cabo mediante recolección de información en sitios web, publicaciones y documentos
científicos de aportación académica o de carácter informática.
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.
OBJETIVOS
OBJETIVO GENERAL
Elaborar una investigación descriptiva de la minería de datos, afirmando con documentos y
artículos científicos actuales con el fin de que funcione como referencia académica a futuros
estudiantes o personas de interés.
OBJETIVOS ESPECIFICOS
ANTECEDENTES
A. Proceso de minería.
Antes de entrar al proceso debemos de reconocer algunos conceptos, características y proceso de ciclo de vida que
infiere en esta investigación.
Por lo tanto, podemos mencionar que “La minería de datos es parte del proceso de descubrimiento de conocimiento en
bases de datos”. Las metas del KDD (Vallejos, 2006) son:
Procesar automáticamente grandes cantidades de datos crudos.
Identificar los patrones más significativos y relevantes.
Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
En este punto tenemos claro de que se trata KDD y MD, pero no la interacción entre estos dos términos, es decir el ciclo
de vida analítico iterativo con el objetivo de crear una oportunidad de aprovechamiento de tomas de decisiones con la
información de la organización u entidad.
Veamos primero como es el proceso de descubrimiento de conocimiento KDD. Entonces para crea un entorno que
permita lidiar con todos los datos que se están recolectando, con todos los modelos que se están creando, y con todas
las decisiones que necesitan tomarse, ¿todo a una mayor escala? Se requiere plantearse un ciclo de vida analítico
interactivo e iterativo que reúna (SAS, 2016):
Datos, el fundamento de las decisiones.
Descubrimiento, el proceso de identificar nuevos conocimientos en los datos.
Implementación, el proceso de utilizar conocimientos recientemente encontrados para impulsar acciones
mejoradas.
Si lo vemos desde una perspectiva se sugiere tener un enfoque metodológico, en la figura siguiente se representa la
inclusión de estos elementos con aspectos principales para realizar esta perspectiva analítica predictiva como resultado
es un ciclo de vida analítico interactivo e iterativo
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.
La minería de datos ofrece una serie de tecnologías que ayudan a las organizaciones a anticipar resultados
futuros, descubrir nuevas oportunidades y mejorar el desempeño del negocio. Puede aplicarse a una variedad
de problemas de los clientes en todas las industrias – desde la segmentación de clientes y la detección de
fraudes y la calificación de riesgo de crédito, hasta identificar los efectos adversos de un medicamente durante
las pruebas clínicas.
Otro uso importante para la minería de datos y machine-learning es ayudar a detectar los fraudes, lo que es
importante a medida que los defraudadores desarrollan tácticas más sofisticadas. Pueden construirse modelos
para cruzar datos de una amplia variedad de fuentes, correlacionar variables no obvias con características
conocidas para identificar nuevos patrones de actividades fraudulentas.
Debido a su potencial de producir conocimientos predictivos precisos de enormes volúmenes de datos diversos, la
minería de datos ha demostrado ser un componente valioso de muchas iniciativas analíticas. La minería de datos y el
machine learning pueden ayudarle a:
Implementando los conceptos anteriores, ciclo de vida analítico interactivo e iterativo e información de la BD se tiene un
modelo de proceso de KDD.
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.
Diversos autores tienen similar planteamiento, pero en esencia es la misma finalidad tener un modelo predictivo lo mas
cerca posible a la solución esperada por los usuarios finales de toma de decisiones.
solución. Este es un paso crítico dentro del proceso global, que requiere un
buen conocimiento del problema y una buena intuición, y que, con
frecuencia, marca la diferencia entre el éxito o fracaso de la minería de
datos.
5 Elección del tipo de sistema Esto depende de sí el objetivo del proceso de KDD es la clasificación,
para minería de datos. regresión, agrupamiento de conceptos (clustering), detección de
desviaciones, etc
6 Elección del algoritmo de En este paso se realiza la búsqueda de conocimiento con una determinada
minería de datos. representación del mismo. El éxito de la minería de datos depende en gran
parte de la correcta realización de los pasos previos: por parte del usuario.
7 Interpretación del conocimiento La obtención de resultados aceptables dependerá de factores como:
extraído. definición de medidas del interés del conocimiento (de tipo estadístico, en
función de su sencillez, etc.) que permitan filtrarlo de forma automática,
existencia de técnicas de visualización para facilitar la valoración de los
resultados o búsqueda manual de conocimiento útil entre los resultados
obtenidos.
8 Consolidación del conocimiento Es la incorporación al sistema, o simplemente documentándolo y enviándolo
descubierto a la parte interesada. Este paso incluye la revisión y resolución de posibles
inconsistencias con otro conocimiento extraído previamente.
Las técnicas de minería de datos han surgido a partir de sistemas de aprendizaje inductivo en computadoras, siendo la
principal diferencia entre ellos los datos sobre los que se realiza la búsqueda de nuevo conocimiento. En el caso
tradicional de aprendizaje en computadoras (machine learning), se usa un conjunto de datos pequeño y cuidadosamente
seleccionado para entrenar al sistema. Por el contrario, en la minería de datos se parte de una base de datos,
generalmente grande, en la que los datos han sido generados y almacenados para propósitos diferentes del aprendizaje
con los mismos.
Por parte de esta investigación se tomarán en cuenta el lenguaje en R, falta describir las fases de este método de KDD y
luego veremos cómo es la descripción del método de minería de datos.
El término KDD describe el proceso completo de extracción de conocimiento a partir de los datos.
En este contexto, descubrimiento de conocimiento significa la identificación de relaciones y patrones
existenciales en los datos.
Un proceso KDD consiste en la extracción no trivial de conocimiento previamente desconocido y potencialmente
útil a partir de un conjunto de datos.
En el proceso KDD es posible definir al menos 6 estados: Recolección de datos, Selección, Limpieza y
Transformación de datos, Minería de datos, Evaluación y Validación, Interpretación y Difusión, Actualización y
Monitorización.
Mientras que Data Mining, se refiere exclusivamente al estadio de descubrimiento de un proceso general KDD.
2 Selección, Limpieza y Se deben eliminar el mayor número posible de datos erróneos o inconsistentes
Transformación de (limpieza) e irrelevantes (criba). Métodos estadísticos casi exclusivamente.
Datos
Actividad:
Histogramas (detección de datos anómalos).
Selección de datos (muestreo, ya sea verticalmente, eliminando atributos u
horizontalmente, eliminando tuplas).
Redefinición de atributos (agrupación o separación).
Patrones a descubrir:
Una vez recolectados los datos de interés, un explorador puede decidir qué
tipos de patrón quiere descubrir.
El tipo de conocimiento que se desea extraer va a marcar claramente la
técnica de minería de datos a utilizar.
criterios de evaluación:
Comprobación de la precisión del modelo, en un banco de ejemplos
independiente del que se ha utilizado para aprender el modelo. Se puede
elegir el mejor modelo.
Se puede realizar una experiencia piloto con ese modelo. Por ejemplo, si el
modelo encontrado se quería utilizar para predecir la respuesta de los
clientes a un nuevo producto, se puede enviar un mailing a un subconjunto
de clientes y evaluar la fiabilidad del modelo
5 Interpretación y Actividad:
Difusión Incorporar el conocimiento descubierto al sistema (normalmente para
mejorarlo) lo cual puede incluir resolver conflictos potenciales con el
conocimiento existente.
El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de
implementación o interpretación:
El modelo puede requerir implementación (por ejemplo: Tiempo real
detección de tarjetas fraudulentas).
El modelo es descriptivo y requiere interpretación (por ejemplo: Una
caracterización de zonas geográficas según la distribución de los productos
vendidos).
El modelo puede tener muchos usuarios y necesita difusión: el modelo
puede requerir ser expresado de una manera comprensible para ser
distribuido en la organización (por ejemplo: Las cervezas y los productos
congelados se compran frecuentemente en conjunto y ponerlos en estantes
distantes).
6 Actualización y Actividad:
Monitorización El conocimiento se obtiene para realizar acciones, ya sea incorporándolo
dentro de un sistema de desempeño o simplemente para almacenarlo y
reportarlo a las personas interesadas.
C. Clasificación.
MARCO TEORICO
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.
RESULTADOS
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.
CONCLUSIONES
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.
REFERENCIAS BIBLIOGRÁFICAS
UES. Arias, De la Cruz, Figueroa, Palma, Sáenz. Minería de datos en R.
ANEXOS