Anda di halaman 1dari 2

MDULO 7: TCNICAS ESTADSTICAS DE DATA MINING CON R

PRESENTACIN Y OBJETIVOS
En este mdulo se han reunido una serie de tcnicas procedentes de distintos campos como el anlisis
multivariante, el aprendizaje estadstico, la inteligencia artificial y tcnicas de machine learning.
La mayora de las tcnicas presentadas son tcnicas predictivas, cuyo objetivo principal es desarrollar
un modelo matemtico que permita obtener predicciones en una variable de inters en observaciones
no incluidas en la construccin del modelo. Se han seleccionado las tcnicas predictivas ms
importantes y cuyo uso est ms extendido: regresin lineal y logstica, mtodos penalizados (LASSO),
mtodos basados en rboles (CART), support vector machines (SVM), redes neuronales, random forest,
etc.
El mdulo incluye los aspectos ms importantes para la construccin de modelos predictivos: preprocesamiento y descripcin bsica de los datos, optimizacin de los parmetros involucrados en
cada una de las tcnicas, evaluacin de la capacidad predictiva de los modelos mediante tcnicas de
remuestreo (validacin cruzada y bootstrapping), seleccin de variables que van a formar parte del
modelo, comportamiento de cada tcnica en problemas de alta dimensin, etc.

INSCRIPCIN Y DATOS PRCTICOS


MDULO
Docentes
Fechas del Curso
Inscripciones
Lugar de
celebracin

N Plazas
Precio
Crditos
Requisitos previos

Observaciones

Estadstica Aplicada con R

Tcnicas Estadsticas de Data Mining con R


Jess Herranz Valera (Bioestadstico IMDEA Alimentacin)
jesus.herranz@imdea.org
14, 15, 16 y 17 de diciembre de 2015. Horario: 9:00 18:00
Hasta el 13/12/2015 en
http://matriculas.fuam.es/matriculauam/Convocatorias.action
Instituto IMDEA Alimentacin
Ctra. Cantoblanco, n8
Campus UAM Madrid
http://www.alimentacion.imdea.org
16 plazas. Mnimo de 10 asistentes para impartirse el curso
420
3 ECTS
Para el mximo aprovechamiento del mdulo, son necesarios conocimientos de
R y de Estadstica, incluido modelos de regresin (en caso de duda contacten con
los profesores del mdulo)
Se entregar un manual encuadernado con todas las diapositivas del curso (540
aprox.) y todos los scripts y ficheros de datos
Es imprescindible que los participantes traigan su propio ordenador porttil,
y que se haya instalado el software R previamente

Pgina 17

MDULO 7: TCNICAS ESTADSTICAS DE DATA MINING CON R

DESCRIPCIN DETALLADA
El mdulo est dividido en 21 sesiones, con una duracin variable de entre 1 y 2 horas, dependiendo de
la importancia del tema.
En cada sesin se explican los conceptos estadsticos tericos ilustrados desde un punto de vista
prctico con ejemplos realizados con R, explicando los paquetes y funcionalidades ms importantes del
software para cada tcnica. Finalmente, se proponen ejercicios a los alumnos para que puedan practicar
los conocimientos adquiridos.

1. Introduccin. Data Mining. Aprendizaje Supervisado y No Supervisado. Modelos Predictivos.


Clasificacin y Regresin
2. Nociones de R. Funciones y programacin. Tratamiento de datos
3. Anlisis descriptivo. Pre-procesamiento de datos
4. Anlisis de Componentes Principales (PCA)
5. Anlisis Clster. Mtodos Jerrquicos. K-means
6. Anlisis Discriminante Lineal (LDA). Clasificador Nave Bayes
7. Regresin Logstica
8. Medidas de Evaluacin de Modelos. Medidas de capacidad predictiva. Curvas ROC
9. Tcnicas de Evaluacin de Modelos. Validacin cruzada. Muestras Bootstrap
10. Regresin Lineal. Mtodos de Regresin por pasos
11. Regresin sobre Componentes Principales. Mnimos Cuadrados Parciales (PLS)
12. Mtodos de Regresin Penalizados. Ridge Regression. LASSO
13. Mtodos basados en Vecindad y Ncleos. k-NN
14. Redes Neuronales (NN)
15. Support Vector Machines (SVM)
16. rboles de Regresin y Clasificacin (CART)
17. Multiclasificadores. Bagging. Boosting
18. Random Forest (RF)
19. Seleccin de Variables. Filter. Wrapper. Recursive Feature Elimination
20. Caso prctico: Comparacin de Modelos Predictivos
21. Caso prctico: Evaluacin de la Significacin Estadstica de un Clasificador mediante Test de
Permutaciones

Estadstica Aplicada con R

Pgina 18