Anda di halaman 1dari 3

Introduccin a la Minera de Datos

Con aplicaciones en R

lugar

Centro de Capacitacin
La Moneda,
Av. Arequipa 4545
Miraores
www.cclamoneda.com

contacto
+51 (1) 282 9524
+51 (1) 302 6694
+51 9 9038 8434
+51 9 9346 2975
info@perustat.com
http://www.perustat.com
fb://perustat

fundamentacin
Durante las ltimas dcadas se ha producido un desarrollo explosivo en las tecnologas de
base de datos y la cantidad de datos que es recolectada. Esto ha creado una oportunidad
sin precedentes para la Minera de Datos mediante el proceso de descubrimiento, ya sea
supervisado o no, de informacin interesante y til a partir de repositorios de datos disponibles.
La Minera de Datos est relacionada con el anlisis, mayormente estadstico, de grandes
conjuntos de datos con la nalidad de proporcionar ideas, patrones, modelos descriptivos
y predictivos que permitan extraer y generar conocimiento para las organizaciones. Algunas
de las tareas ms comunes son la clasicacin, agrupamiento, descubrimiento de reglas de
asociacin y patrones de respuestas, deteccin de anomalas, etc.
Dentro de los distintos programas estadsticos disponibles, el R proporciona una poderosa
plataforma open source para la aplicacin de la Minera de Datos, aunque por lo general el
manejo de cdigos y la programacin es un reto para los analistas de datos que quieren utilizar
esta herramienta. La libreria Rattle (R Analytical Tool To Learn Easily) adiciona una interfaz grca de usuario especcamente diseada para facilitar la aplicacin de la principales tcnicas
de Minera de Datos a los usuarios que no estn acostumbrados al entorno de trabajo de este
programa.

logros de aprendizaje
Al nalizar este curso, el participante conocer los fundamentos de Minera de datos, aplicar
las principales tcnicas, as como analizar e interpretar los resultados obtenidos a travs del
programa estadstico R y la librera Rattle.
De manera especca el participante estar en capacidad de:
Comprender el Proceso de Descubrimiento de Conocimiento en base de datos.
Aplicar e interpretar adecuadamente las principales tcnicas de Minera de datos.
Comprender el desarrollo de los algoritmos de las principales tcnicas de Minera de
datos
Usar el programa estadstico R, a travs de las interfaz grca Rattle para el anlisis e
interpretacin de las diferentes tcnicas de Minera de Datos.

contenidos
UNIDAD 1: INTRODUCCIN
Sesin 1
Conceptos Bsicos
Breve historia de la Estadstica y Minera de Datos. Conceptos bsicos.
Denicin. Relacin con otras disciplinas.
Taxonoma de las tcnicas de Minera de Datos: Tipos de modelos. Tipos
de aprendizaje. Tcnicas no supervisadas y supervisadas. Aplicaciones.
Fases de la Minera de Datos. Descubrimiento de Conocimiento en Bases
de datos (KDD).
CRISP-DM: Estructura Bsica. Fases.
Herramientas de Minera de Datos. Instalacin de R y de la librera Rattle.
Primeros pasos con Rattle. Manejo de Datos.

UNIDAD 2: ANALTICA DESCRIPTIVA


Sesin 2
Visualizacin y Transformacin de Datos
Resumen de datos.
Grcas de distribuciones.
Grcas Interactivas.
Transformacin.
Imputacin.
Reduccin de la Dimensionalidad: Anlisis de Componentes Principales.
Sesin 3

Tcnicas de Segmentacin
Anlisis de Conglomerados (Cluster): Denicin. Requerimientos. Medicin de la similaridad y distancias. Principales algoritmos.
Conglomerados Jerrquicos
Conglomerados no Jerrquicos: K-Medias. EWK (Entropy Weighted KMeans)

UNIDAD 3: ANALTICA PREDICTIVA


Sesin 4
Regresin Binaria
Modelamiento predictivo: Conceptos bsicos. Prediccin numrica vs.
clasicacin. Precisin del modelo e interpretacin. Balance entre la varianza y sesgo de un modelo predictivo.
Modelos de Clasicacin lineal y no lineal. Prediccin y matrices de confusin.
Clasicacin binaria: Estimacin del modelo de regresin logstica binaria:
Interpretacin de los coecientes. Validacin del modelo.
Modelo Probit.
Sesin 5

rboles de Clasicacin
rboles de Decisin: Representacin. Partes de un rbol de Decisin.
Induccin y aprendizaje. Medidas de Seleccin de Atributos. Principales
Algoritmos.
rboles de Clasicacin y Regresin (CART). Construccin y poda del
rbol.
rboles por inferencia condicional.

Sesin 6

Evaluacin y Despliegue de un Modelo


Evaluacin: Matriz de Confusin. Curvas de Riesgo. Curvas ROC.
Scoring.
Predictive Model Markup Language (PMML): Exportacin de modelos para su implementacin.

metodologa
La metodologa del curso se basa en la aplicacin prctica de los conceptos tericos. Cada
seccin del curso est motivada por un conjunto de datos en particular, de tal forma que el
participante gane experiencia trabajando con una amplia variedad de fuentes de datos similares a los que usa en la realidad. Los contenidos del curso estn estructurados en 6 sesiones
con un total de 24 horas acadmicas.

materiales
Material preparado por el equipo de capacitacin con los contenidos del curso el cul ser
entregado a los participantes en medios fsicos y digitales (CD).

instructores
Enver G. Tarazona Vargas
Enver Tarazona es Director Acadmico y co-fundador de Perustat Analytics. Trabaj como
experto de la Direccin de Calidad, Procesos y Lealtad de Telefnica Mviles S.A. Cuenta
con ms de 6 aos de experiencia como docente en las principales universidades del pas,
desempendose actualmente en la Universidad Peruana de Ciencias Aplicadas (UPC), la
Universidad del Pacco (UP) y la maestra de Estadstica Aplicada en la Universidad Nacional Agraria La Molina (UNALM). Tiene adems experiencia como capacitador para diversas
empresas en programas estadsticos como R, SAS, SPSS, entre otros.
Enver es Ingeniero Estadstico e Informtico de la UNALM y Magster en Estadstica por la Ponticia Universidad Catlica del Per (PUCP). Tiene tambi estudios culminados de maestra en
Educacin en la Universidad Peruana Cayetano Heredia (UPCH) . Su rea de investigacin se
centra en el mbito de la Teora de Respuesta al tem (TRI) bajo inferencia Bayesiana aplicada
al Marketing y la medicin educativa.
Jos A. Caycho Huaman
Jos Caycho trabaja como Analista Senior de Investigacin de Marcados en la Direccin de
Marketing de Supermercados Peruanos S.A. perteneciente al Grupo InRetail. Cuenta con ms
de 3 aos de experiencia en el rubro de Retail, Conocimiento del Consumidor y de Investigacin de Mercados. Es tambin docente en la Divisin de Estudios Profesionales para Ejecutivos
(EPE) de la Universidad Peruana de Ciencias Aplicadas (UPC)
Jos es Bachiller Estadstico e Informtico de la Universidad Nacional Agraria La Molina (UNALM),
Especialista en Gestin de la Calidad y Productividad Total y candidato a Magister en Estadstica Aplicada por la UNALM.

referencias
Clarke, B., Fokoue, E. y Zhang, H. (2009). Principles and Theory for Data Mining and Machine
Learning. Springer Verlag.
Gareth, J., Witten, D., Hastie, T. y Tibshirani, R. (2013). An Introduction to Statistical Learning:
with Applications in R. Springer Verlag.
Kuhn, M. y Johnson, K. (2013). Applied Predictive Modeling. Springer Verlag.
Larose, D.T. (2006). Data Mining Methods and Models. Wiley Interscience.
Ledolter, J. (2013). Data Mining and Business Analytics with R. John Wiley & Sons.
Nisbet, R., Elder IV, J. y Miner, G. (2009). Handbook of Statistical Analysis and Data Mining
Applications. Academic Press.
Ohri, A. (2012). R for Business Analytics. Academic Press. Springer Verlag.
Putler, D. y Krider, R. E. (2012). Customer and Business Analytics: Applied Data Mining for
Business Decision Making Using R. Chapman and Hall/CRC.
Williams, G. (2011). Data Mining with Rattle and R: The Art of Excavating Data for Knowledge
Discovery. Springer Verlag.
Wu J. y Coggeshall, S. (2012). Foundations of Predictive Anaytics. Chapman and Hall/CRC.

Anda mungkin juga menyukai