Anda di halaman 1dari 6

SYLLABUS ACADEMICO

MAGISTER EN DATA SCIENCE


MDS 2018

ASIGNATURA : Fundamentos Estadísticos para Ciencia de Datos


NOMBRE PROFESOR : Eduardo Rodríguez
EMAIL : eduardo.rodriguez.f@edu.uai.cl

1. INTRODUCCIÓN

Este curso permite al alumno dominar principios, técnicas y metodologías


asociadas al razonamiento probabilístico y al análisis estadístico de datos. Tras
conocer el análisis exploratorio de datos y la Teoría de Probabilidad, se estudian los
principales métodos y conceptos para la estimación y la formulación de hipótesis.
Medidas de asociación. Correlación y Causalidad. Finalmente se introducen
elementos de estadística bayesiana en el análisis de datos.

2. OBJETIVOS DE LA ASIGNATURA

Al finalizar el curso el alumno estará en la capacidad de:

 Describir y caracterizar un conjunto de datos.


 Identificar el proceso del cálculo de una probabilidad en eventos.
 Conocer algunos modelos probabilísticos.
 Calcular estadísticos usando simulación Monte Carlo.
 Estimar características de una población.
 Conocer algoritmos de estimación de parámetros.
 Inferir a partir de una muestra o dos muestras resultados para una
población o dos poblaciones.
 Utilizar los softwares R y Python.

3. METODOLOGIA

El curso es teórico-práctico y consiste en sesiones en que se exponen los contenidos y


luego se llevan a la práctica con ejercicios en clases y tareas. El alumno aprende
haciendo, practicando y ejercitando. Para sacar el mayor provecho al curso, el
alumno debe invertir varias horas de autoestudio y trabajo en grupo.

EST506
4. EVALUACION

La evaluación consistirá en tareas y pruebas (take home).

La nota final se calcula como: 0,4  PromedioTareas + 0,6  PromedioPruebas

La nota mínima de aprobación del curso es 4,0 (cuatro y cero décimas).

En caso de reprobar (nota final inferior a 4,0), el alumno tendrá derecho a una
instancia de examen recuperativo a fecha a estipular por la Coordinación
Académica y profesor, optando a la calificación mínima de aprobación del curso.

Si el alumno, después de realizar el examen recuperativo, reprueba, tendrá que


matricularse en el curso en una segunda oportunidad cuando éste se dicte
nuevamente.

INASISTENCIA A EVALUACIONES

En caso que el alumno no pueda asistir a una evaluación, deberá justificar


con certificado médico o laboral para acceder a una segunda y última instancia
de evaluación optando a la nota máxima de aprobación.

Si la ausencia se produce el día del examen (o evaluación final), y ésta no es


justificada o es rechazada, el alumno tendrá derecho a rendir una prueba de
recuperación, que se realizará el mismo día del examen (o evaluación final) de
repetición, pero optando a la nota máxima de examen de un 4,0. (cuatro coma
cero décimas).

Si el alumno nuevamente está ausente en el examen (o evaluación final) de


repetición, éste quedará pendiente hasta la próxima ocasión en que la asignatura
se dicte.

5. BIBLIOGRAFIA

 Barber, D. (2012). Bayesian Reasoning and Machine Learning. Cambridge


University Press.
 Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
 Bruce, P. and Bruce, A. (2017). Practical Statistics for Data Scientists: 50 Essential
Concepts. O’Reilly.
 Downey, A. B. (2014). Think Stats: Exploratory Data Analysis. 2nd Edition. O’Reilly
Media.
 Downey, A. B. (2013). Think Bayes: Bayesian Statistics in Python. O’Reilly Media.

EST506
 Efron, B. and Hastie, T. (2016). Computer Age Statistical Inference: Algorithms,
Evidence, and Data Science. Cambridge University Press.
 Giudici, P. (2003). Applied Data Mining: Statistical Methods for Business and
Industry. Wiley.
 Kloke, J. and McKean, J. W. (2014). Nonparametric Statistical Methods Using R.
Chapman & Hall/CRC.
 Myatt, G. J. and Johnson, W. P. (2014). Making Sense of Data I. A Practical
Guide to Exploratory Data Analysis and Data Mining. Second Edition. Wiley.
 Pearson, R. K. (2018). Exploratory Data Analysis using R. Chapman & Hall/CRC.
 Rogers, S. and Girolami, M. (2012). A First Course in Machine Learning.
Chapman & Hall/CRC.
 Soon, T. T. (2004). Fundamentals of Probability and Statistics for Engineers. Wiley.
 Ugarte, M. D., Militino, A. F. and Arnholt, A. T. (2008). Probability and Statistics
with R. Chapman & Hall/CRC.
 Wasserman, L. (2003). All of Statistics. Springer.

6. CURRICULUM RESUMIDO DEL PROFESOR

Doctor en Estadística, Pontificia Universidad Católica de Chile , Master en Big Data


& Data Science, MBIT España y Licenciado en Matemática de la Universidad de
Concepción. Jefe Data Science de la gerencia de Inteligencia de Clientes Banco
Santander-Chile, área en la que se desarrollan las estrategias comerciales y sus
implementaciones en la plataforma Big-Data. Especialista en la explotación de
diferentes estructuras de datos y técnicas de Machine Learning. Ha sido
miembro el grupo de Expertos de Analytics para el Grupo Santander Global,
premiado como el mejor proyecto Big Data para el grupo Santander.
Académico por más de 15 años de las principales Universidad Chilenas.

7. PROGRAMA

SESION 1: SÁBADO 10-11-18 NOVIEMBRE 15:00 – 19:30 hrs

Tema: Análisis Exploratorio de Datos

Contenidos:
 El papel de la incertidumbre en el análisis de datos y la toma de decisiones.
 Población, muestra y variable aleatoria. Parámetro y estadístico.
 Tipos de muestreo.
 Tipos de variables y sus representaciones gráficas.
 Estadísticos: centralización, dispersión, posición, forma.

EST506
 Tablas de contingencia.
 Medidas de cuantificación del efecto: OR, Riesgo relativo, correlación.
 Causalidad. Diseño de experimentos. Correlación vs Causalidad.
Correlaciones espurias.
 Datos faltantes. Imputación.

SESIÓN 2: VIERNES 23-11-18 NOVIEMBRE 16:00 – 20:30 hrs

TEMA: Cálculo de Probabilidades

Contenidos:

 Cuantificación de la incertidumbre vía probabilidad.


 Experimento. Experimento Determinista vs Aleatorio.
 Espacio muestral y eventos. Eventos equiprobables.
 Probabilidades: definiciones (clásica, frecuentista, subjetiva), axiomas y
propiedades.
 Probabilidad condicional. Probabilidad Total.
 Teorema de Bayes. Sensibilidad y Especificidad. Índices Predictivos.

SESIÓN 3: SÁBADO 24-11-18 NOVIEMBRE 9:00 – 13:30 hrs

TEMA: Variables Aleatorias

Contenidos:

 Variables aleatorias discretas y continuas.


 Función de probabilidad y función de distribución acumulada: caso
discreto.
 Función de densidad y función de distribución acumulada: caso continuo.
 Valor esperado y varianza. Percentiles.
 Generación de números pseudo-aleatorios.
 Método de Monte Carlo.
 Divergencia de Kullback-Leibler. Entropía e Información. Información
Mutua.

EST506
SESIÓN 4: SÁBADO 24-11-18 NOVIEMBRE 15:00 – 19:30 hrs

TEMA: Modelos de Probabilidad y Estimación de Parámetros

Contenidos:

 Modelos discretos: Bernoulli, Binomial, Poisson, Multinomial,


Hipergeométrico.
 Modelos continuos: Uniforme, Exponencial, Beta, Gama, Normal.
 Distribuciones Muestrales bajo Normalidad. Teorema Central del Límite.
 Modelo Estadístico. Familia Exponencial.
 Estimador Puntual. Propiedades.
 Métodos de Estimación: Métodos de los momentos, Máxima verosimilitud.
 Aplicaciones.

SESIÓN 5: VIERNES 07-12-18 DICIEMBRE 16:00 – 20:30 hrs

TEMA: Modelos de Probabilidad y Estimación de Parámetros (cont.)

Contenidos:

 Algoritmos para estimar parámetros: algoritmo EM, Newton-Raphson, Fisher-


Scoring.
 Información de Fisher. Distribución asintótica de un estimador.
 Estimación por intervalos. Métodos para obtener intervalos.
 Método bootstrap para estimación por intervalos.
 Aplicaciones.

TEMA: Contrastes de Hipótesis

Contenidos:
 Pruebas de hipótesis: Error Tipo I y Tipo II. Potencia y Significancia de una
prueba. Valor-p.
 Tipos de asociación de variables.
 Asociación entre dos variables categóricas: Test chi-cuadrado. Odds Ratio.
Riesgo Relativo.

EST506
SESIÓN 6: VIERNES 14-12-18 DICIEMBRE 16:00 – 20:30 hrs

TEMA: Contrastes de Hipótesis (cont.)

Contenidos:

 Asociación entre una variable categórica y una numérica, para muestras


independientes. Test t Student y test Mann-Whitney. Test A/B.
 Asociación entre una variable categórica y una numérica, para muestras
pareadas. Test t Student pareado y test Wilcoxon.
 Asociación entre una variable categórica de más de dos niveles y una
variable numérica. Test de ANOVA, Kruskal Wallis, Comparaciones múltiples.
 Asociación entre una variable categórica de más de dos niveles y una
variable numérica, caso pareado. Test de Anova para medidas repetidas,
Friedman.
 Asociación de dos variables numéricas. Correlación de Pearson y
Spearman.

SESIÓN 7: SÁBADO 15-12-18 DICIEMBRE 9:00 – 13:30 hrs

TEMA: Contrastes de Hipótesis (cont.)

Contenidos:

 Test de Kolmogorov-Smirnov.
 Contraste de hipótesis en muestras grandes.

TEMA: Estadística Bayesiana

Contenidos:

 Introducción. Estadística clásica vs Estadística Bayesiana.


 Formulación de un modelo Bayesiano.
 ¿Cómo definir una distribución a priori?
 Priori conjugada.
 Estimación puntual. Estimador MAP.
 Intervalos de credibilidad para algunos parámetros importantes.
 Distribución predictiva.

EST506

Anda mungkin juga menyukai