Anda di halaman 1dari 106

ESTADÍSTICAS AVANZADAS

FACILITADOR:
Alejandro Navarrete
POWER BI
I) ESTADÍSTICA BÁSICA
I) ESTADÍSTICA BÁSICA
1. CONCEPTOS BÁSICOS
2. DISTRIBUCIÓN DE FRECUENCIA
3. REPRESENTACIÓN GRÁFICA DE LA INFORMACIÓN
4. MEDIDAS DE TENDENCIA CENTRAL
5. ESTADÍGRAFOS DE DISPERSIÓN POWER BI
6. ESTADÍGRAFOS DE POSICIÓN
II) ESTADÍSTICA AVANZADA
1. INFERENCIA ESTADÍSTICA
2. TEST DE HIPÓTESIS
3. TEST DE DIFERENCIA DE MEDIAS
4. TEST DE DIFERENCIA DE PROPORCIONES
III) ANÁLISIS DE VARIANZA (ANOVA)
POWER BI
1. CONCEPTOS BÁSICOS
CONCEPTOS BÁSICOS

• Estadística: Su fin es recopilar, clasificar, tabular y graficar 
datos para su posterior estudio
• Muestra: Subconjunto representativo del universo
• Amplitud de la muestra: Número de elementos de la muestra
• Variable:
 Cualitativa
 Cuantitativa  Discreta
 Continua
POWER BI
2. DISTRIBUCIÓN DE FRECUENCIA
DISTRIBUCIÓN DE FRECUENCIA

• Cuando se tiene una gran cantidad de datos es conveniente 
agruparlos en una tabla para visualizar y obtener una mejor 
información de ellos
 Ejemplo: Las siguientes son las edades de un grupo de niños de un 
jardín infantil: 4‐4‐1‐1‐2‐3‐1‐5‐4‐4‐4‐5‐1‐1‐2‐4‐3‐3‐2‐2‐3‐4‐4‐5‐1‐2‐
3‐5‐5‐1‐1‐3‐4‐5‐1‐3‐2‐2‐3‐2‐3‐5‐2‐4‐5‐2‐2‐2‐3‐3

• Estos datos los ordenaremos en una tabla de distribución de 
frecuencia 
DISTRIBUCIÓN DE FRECUENCIA

• Frecuencia o frecuencia absoluta: es el número de veces que 
aparece dicho valor en el conjunto 

Edades Frecuencia (f)


1  9
2 12
3 11
4 10
5 8
DISTRIBUCIÓN DE FRECUENCIA

• Ordenando los datos en esta tabla, es fácil responder 
preguntas como: 
 ¿Cuántos niños hay de 4 años?   (R: 10) 
 ¿Cuál es la edad que más hay?   (R: 2)
• A estos datos también les podemos calcular la frecuencia 
acumulada y porcentual
DISTRIBUCIÓN DE FRECUENCIA

Frecuencia
Frecuencia
Edades Frecuencia Acumulada
Porcentual (f%)
(fac)
1 9 9 18%
2 12 21 24%
3 11 32 22%
4 10 42 20%
5 8 50 16%
DISTRIBUCIÓN DE FRECUENCIA

• Frecuencia acumulada hasta un valor, es el número de 
observaciones cuyo valor es menor o igual al considerado
• Frecuencia porcentual es el porcentaje de observaciones que 
toma dicho valor
• Con esta información responde: 
 ¿Cuántos niños hay menores que 4 años? (R: 32) 
 ¿Cuántos niños hay en total? (R: 50)
 ¿Qué porcentaje de niños tienen 5 años? (R: 16%) 
DISTRIBUCIÓN DE FRECUENCIA

• Cuando las observaciones incluye una gran cantidad de 
valores, conviene agruparlos en intervalos
 Ejemplo: Puntajes en intervalos obtenidos en un ensayo de P.S.U. de 
matemáticas en un curso de 30 alumnos

Marca de clase es el  Puntaje Marca de clase f fac F%


representante del intervalo,  [500 – 550] 525 3 3 10%
corresponde al punto medio  [550 – 600] 575 4 7 13,3%
del intervalo  [600 – 650] 625 6 13 20%
[650 – 700] 675 5 18 13,6%
[700 – 750] 725 9 27 30%
[750 – 800] 755 3 30 10%
POWER BI
3. REPRESENTACIÓN GRÁFICA DE LA INFORMACIÓN
REPRESENTACIÓN GRÁFICA

a) Histograma o gráfico de barras: En este tipo de gráfico la 
variable va en el eje x, y la frecuencia en el eje y. Las alturas 
de las barras indican la frecuencia de la variable en estudio

Frecuencia Frecuencia

edad puntaje
Edades de niños de un jardín infantil  Puntajes obtenidos por un grupo de alumnos en la PSU 
REPRESENTACIÓN GRÁFICA

b) Polígono de frecuencia: Es un gráfico de línea que se obtiene 
al unir los puntos de los datos versus su frecuencia. Si los 
datos son agrupados se toma su marca de clase, como en el 
segundo ejemplo 
Frecuencia Frecuencia

edad puntaje

Edades de niños de un jardín infantil  Puntajes obtenidos por un grupo de alumnos en la PSU 
REPRESENTACIÓN GRÁFICA

c) Gráfico circular: En este gráfico se reparte los 360° del 
en forma proporcional a la frecuencia 
 Ejemplo: Una nueva pasta de dientes fue probada por 300 
personas, las que opinaron que la encontraron  muy buena, 
buena, regular o mala los resultados están expresados en el 
siguiente grafico
¿Cuántas personas la encontraron 
regular? (R: 60) 

¿Cuántas personas la encontraron buena 
o muy buena? (R: 210) 
REPRESENTACIÓN GRÁFICA

d) Pictograma: Estos gráficos están formados por figuras, donde 
cada figura representa una frecuencia dada en cada caso
 Ejemplo: el gráfico muestra la cantidad de mediaguas construidas 
por “Un techo para Chile” el invierno pasado en las regiones VI, VII 
, VIII y IX

= 25 mediaguas

¿Cuántas mediaguas se 
construyeron en la VII región? (R: 
regiones 75)            
POWER BI
4. MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL

• Los siguientes datos corresponden al número de helados 
que se tomaron un grupo de 30 alumnos en un paseo: 3‐1‐
0‐3‐2‐2‐0‐4‐1‐4‐2‐2‐1‐3‐4‐3‐4‐2‐3‐3‐0‐1‐4‐1‐2‐2‐3‐3‐4‐4 

Nº Helados Frecuencia F acumulada


0 3 3
1 5 8
2 7 15
3 8 23
4 7 30
MEDIDAS DE TENDENCIA CENTRAL

a) Media (o promedio aritmético): Se calcula sumando todos 
los valores de la muestra y dividiendo por el número total 
de observaciones 

Sin tabla:

Con tabla:
MEDIDAS DE TENDENCIA CENTRAL

b) Mediana: Es el término que equidista de los extremos en 
una distribución ordenada 
Sin tabla: Se ordenan los datos y el que queda al medio es la mediana, si son 
dos es el promedio aritmético entre esos dos

0‐0‐0‐1‐1‐1‐1‐1‐2‐2‐2‐2‐2‐2‐     2‐3     ‐3‐3‐3‐3‐3‐3‐3‐4‐4‐4‐4‐4‐4‐4        mediana 
= 2,5 

Con tabla: En la frecuencia acumulada se ve que datos corresponden a la 
ubicación 15 y 16, en este caso son el 2 y el 3, luego la mediana será ́ el 
promedio entre ellos = 2,5 
MEDIDAS DE TENDENCIA CENTRAL

c) Moda: Es el valor que más se repite, no es necesariamente 
un valor, si tiene 2 es bimodal, 3 es trimodal, etc.  Si todos 
los datos tienen la misma frecuencia, entonces no tiene 
moda
Sin tabla: es el que más se repite, en este caso la moda es 3

Con tabla: es el valor que tiene mayor frecuencia absoluta. Moda = 3
VIDEO #1

Medidas de Tendencia Central con 
Excel
(WissenSync)
POWER BI
5. ESTADÍGRAFOS DE DISPERSIÓN
ESTADÍGRAFOS DE DISPERSIÓN

• Miden que tanto se dispersan los datos alrededor de su 
media, estos son rango, varianza, desviación estándar
 Ejemplo: Si tomamos 3 pequeños conjuntos de datos. En los tres 
grupos su media es 5, pero los datos de los diferentes grupos 
tienen una dispersión diferente

Grupo 1 Grupo 2 Grupo 3


0 ; 5 ; 10 4 ; 5 ; 6 5 ; 5 ; 5
ESTADÍGRAFOS DE DISPERSIÓN

a) Rango: Es la diferencia entre la observación más alta y la 
más baja
En el ejemplo:  
 Rango grupo 1 = (10 – 0) = 10 
 Rango grupo 2 = (6 – 4) = 2
 Rango grupo 3 = (5 – 5) = 0
ESTADÍGRAFOS DE DISPERSIÓN

b) Varianza: Es el promedio de las diferencias de cada dato 
con respecto a la media elevadas al cuadrado
En el ejemplo: 

Grupo 1=

Grupo 2=

Grupo 3=
ESTADÍGRAFOS DE DISPERSIÓN

c) Desviación estándar: Es la raíz cuadrada de la varianza
En el ejemplo: 

Grupo 1=

Grupo 2=

Grupo 3=
POWER BI
6. ESTADÍGRAFOS DE POSICIÓN
ESTADÍGRAFOS DE POSICIÓN

• Cuantiles: Dividen los datos ya ordenados en grupos iguales, 
estos pueden ser: cuartiles, quintiles, deciles y percentiles
 Cuartiles: Son medidas de localización que dividen la distribución 
en 4 partes. El primer cuartil es el valor de la variable que deja 
bajo él al 25% de los datos, el segundo cuartil el 50% y el tercer 
cuartil el 75%
ESTADÍGRAFOS DE POSICIÓN

 Deciles: Son medidas de localización que dividen la distribución 
en 10 partes iguales

 Percentiles: Son medidas de localización que dividen la 
distribución en 100 partes iguales. Por ejemplo si una variable se 
encuentra en el percen l 86, significa que supera al 86% de los 
datos, ó el 86% está bajo él
CASOS APLICADOS

• Cree intervalos para Monto Facturado, de $20.000 de 
ancho, hasta $200.000, y clasifique en qué intervalo está 
cada cliente. Todos los clientes que tengan una facturación 
mayor a $200.000, agrúpelos
• ¿Cuántos clientes están en cada intervalo de Monto 
Facturado?
• ¿Qué porcentaje de clientes tiene una facturación entre 
$140.000 y $180.000?
CASOS APLICADOS

• ¿Qué porcentaje de clientes tienen una facturación menor o 
igual a $200.000?
• Realice una representación gráfica de la información que 
posee
• Indique la Moda, Mediana y Media de los Montos 
Facturados
CASOS APLICADOS

• ¿Qué podría decir de la dispersión de los datos?
• Si quisiéramos contactar al 10% de clientes con mayor 
facturación para premiarlos por preferir el uso de CMR, 
¿Cómo seleccionaría estos datos? 
• Y si ahora queremos el 25% de clientes con menor 
facturación para ofrecerles una campaña que incentive las 
compras, ¿Qué haría?
POWER BI
II) ESTADÍSTICA AVANZADA
POWER BI
1. INFERENCIA ESTADÍSTICA
PRODUCTIVIDAD EN CALL CENTER

• QuickCall es un Call Center cuyo objetivo estratégico es 


entrever un servicio de primera clase mediante una rápida 
respuesta y una tasa alta de solución de problemas 
• QuickCall está preocupado porque han notad que en 
algunas semanas los tiempos de llamados incrementan 
considerablemente
• En una reunión reciente con el con la primera línea de 
ejecutivos, el Jefe de Operaciones describe:
PRODUCTIVIDAD EN CALL CENTER

“Tenemos un serio problema con el servicio al cliente desde 
nuestros colaboradores. Notamos que durante la primera 
semana después de que cada operador tiene sus vacaciones, 
el tiempo que ellos toman para entregar el servicio es mucho 
más alto, casi como si ellos aún continuaran de vacaciones! Mi 
impresión es que durante esta semana la duración de los 
llamados aumenta entre un 10% y un 30%. Debemos hacer 
algo para que ellos retomen el ritmo de trabajo, lo más rápido 
posible”
PRODUCTIVIDAD EN CALL CENTER

• Objetivo: corroborar empíricamente lo propuesto por el 
Jefe de Operaciones
• Datos: se ha recolectado data desde la unidad de control de 
calidad y los podemos ver en la base adjunta
INFERENCIA ESTADÍSTICA

• Conceptos básicos:
 Vamos a querer entender alguna característica 𝑋 que describe 
diferentes observaciones en una muestra
 Algunas propiedades de X pueden ser interesantes de estudiar, por 
ejemplo el promedio la población o en algún sub‐grupo
 Por ejemplo:
o 𝑋: duración de una llamada
o Nos gustaría estudiar el promedio de 𝑋  
para Tomás en 30 semanas versus alguna 
otra en particular
INFERENCIA ESTADÍSTICA

• Conceptos básicos:
 Si tenemos numerosas observaciones (𝑛 en total) para una 
característica X, tendremos que escribir 𝑋 , 𝑋 , 𝑋 , …, 𝑋
1
Promedio: 𝑋
𝑛
𝑋

Estadístico: se define como una formula calculada a partir de una variable en 
estudio que entrega un valor aproximado a la realidad

Para que nos podría servir el promedio de una muestra?

Estimador: es una función que nos ayuda a estimar una característica que se da en 
una muestra, para toda la población
INFERENCIA ESTADÍSTICA

• Buen estimador para la media:

1
𝑋 𝑋
𝑛

• Buen estimador para la varianza:
1
𝑆 𝑋 𝑋
𝑛 1
POWER BI
2. TEST DE HIPÓTESIS
TEST DE HIPÓTESIS

• Conceptos Generales:
 Como habíamos dicho 𝑋 denota la duración de las llamadas 
atendidas por un agente
 Debido a que estas se mueven de manera aleatoria, llamaremos a 
X variable aleatoria y asumiremos que su distribución es Normal 
con media 𝜇 y varianza 𝜎 o también se puede escribir:

𝑋~𝑁 𝜇 , 𝜎
TEST DE HIPÓTESIS

• Conceptos Generales:
 Ahora vamos a testear la hipótesis del Jefe de Operaciones. 
Vamos a decir que las llamadas duran 20% más la semana post 
vacaciones de cada agente 
 Formulamos el Test de Hipótesis de la siguiente manera:

𝐻 :𝜇 𝜇 (por ejemplo 4 minutos)


𝐻 :𝜇 𝜇 (por ejemplo 4.4 minutos)
TEST DE HIPÓTESIS

• Conceptos Generales:
 Errores Tipo I y Tipo II: Antes de ver cómo poder realizar este test 
de hipótesis, vamos a describir los posibles errores que podemos 
cometer al concluir

Realidad

𝐻 𝐻
Decisión

𝐻 OK Error Tipo II
𝐻 Error Tipo I OK
TEST DE HIPÓTESIS

• Estructura del Test:

¿Cómo podemos realizar nuestra conclusión?
Como todo lo que estamos realizando es sobre una muestra y 
no sobre una población, es imposible obtener un resultado 
que sea 100% efectivo
TEST DE HIPÓTESIS

• Estructura del Test:

Definimos un Nivel de Confianza 

Tenemos 3 formas para poder concluir si rechazar o 
no la Hipótesis Nula y debemos elegir al menos una
TEST DE HIPÓTESIS

• Estructura del Test:
 Intervalos de Confianza: Dado un nivel de confianza de 100% ‐ 𝛼
para 𝜇, el intervalo se escribe así:

Rechazamos la Hipótesis Nula si 𝜇 cae 
fuera del intervalo de confianza

¿Qué son             y        ? 
TEST DE HIPÓTESIS

• Estructura del Test:
 Comparación de Estadísticos: Para cada test de hipótesis, 
podemos construir un Estadístico (es decir, una función) que 
puede compararse con el comportamiento de la realidad y 
concluir.

Formalmente, se puede escribir:
Rechazamos la Hipótesis Nula si 𝜇 cae 
fuera del intervalo de confianza
TEST DE HIPÓTESIS

• Estructura del Test:

Si caemos en la zona de aceptación, entonces Aceptamos la 
Hipótesis Nula, pero sino debemos Rechazar

Estas zonas, depende exclusivamente del tipo de Test de Hipótesis que 
estemos construyendo
TEST DE HIPÓTESIS

• Estructura del Test:
 P‐Valor: 
Llamamos c al valor límite que para estar en nuestra zona de 
aceptación
Llamamos t al valor límite que toma nuestro Estadístico
Definimos el p‐valor así:

Entonces, dado el nivel de confianza 100% ‐ 𝛼:
• Rechazamos Hipótesis Nula si p valor 𝛼
• Aceptamos Hipótesis Nula si p valor 𝛼
POWER BI
3. TEST DE DIFERENCIA DE MEDIAS
TEST DE DIFERENCIA DE MEDIAS

Francisca tiene duración de llamadas más cortas y con mejor tasa 
de falla, en relación a Tomás.

¿Es esta diferencia cierta? 
¿Podemos concluir que Francisca es más productiva que Tomás?
TEST DE DIFERENCIA DE MEDIAS

• Vamos a considerar dos poblaciones que siguen una 
distribución normal, es decir:

• Ahora nuestro Test de Hipótesis queda:
TEST DE DIFERENCIA DE MEDIAS

• Donde el Estadístico que usaremos será:

, con: 
TEST DE DIFERENCIA DE MEDIAS

• Como siempre vamos a estar trabajando con una gran 
cantidad de datos, podemos asumir que nuestro 
estadístico se distribuye como una Normal con media 0 y 
varianza 1, es decir:

Ahora, dado lo que hemos aprendido, testee si realmente 
(estadísticamente) Francisca tiene un mejor rendimiento que Tomás en 
duración de llamadas. Utilice un Nivel de Confianza del 95%
POWER BI
4. TEST DE DIFERENCIA DE PROPORCIONES
TEST DIF. DE PROPORCIONES

¿Qué podemos decir de las tasas de fallas de 
Francisca y Tomás?
• Esta pregunta puede ser formulada como un Test de 
Diferencia de Proporciones entre dos poblaciones. Donde 
es la tasa de fallo de la población 
• Se define el test de la siguiente forma
TEST DIF. DE PROPORCIONES

• Al igual que antes, tenemos una fórmula conocida para el 
Estadístico:

, con: 
TEST DIF. DE PROPORCIONES

• Dado un Nivel de Confianza de 100% ‐   y asumiendo 
nuevamente que nuestro estadístico distribuye como una 
Normal Estándar, podemos escribir el intervalo de 
confianza así:
TEST DIF. DE PROPORCIONES

• Ojo, que como ahora estamos evaluando una diferencia, 
tenemos que ver si esta diferencia de proporciones 
pertenece o no al intervalo. Sabemos que si ambas 
proporciones son iguales, la diferencia será cero, por 
ende, debemos ver si el cero está dentro o no del 
intervalo para concluir
• Si el cero está en el intervalo, entonces aceptamos Hipótesis Nula
• Si el cero no está en el intervalo, entonces rechazamos Hipótesis Nula

¿Francisca es más efectiva que Tomás? 
POWER BI
III) ANÁLISIS DE VARIANZA (ANOVA)
EFECTO DE UNA PROMOCIÓN

• GoodFood, una fábrica de envases de productos de comida, 
está lanzando un producto nuevo. Ahora nosotros estamos 
a cargo de evaluar si los distintos precios y gastos en 
publicidad son buenos para este nuevo producto
• Una práctica común para analizar este tipo de problemas es 
realizar un Estudio de Mercado: realizar un experimento 
sobre el lanzamiento del producto para evaluar la venta 
dados distintos precios y distintos niveles de publicidad
EFECTO DE UNA PROMOCIÓN

• La compañía tiene 3 niveles de precios (bajo, medio y alto) y 
dos niveles de publicidad

¿Tiene el precio algún efecto en la venta?
¿Tiene la publicidad algún efecto en la venta?
POWER BI
1. CONCEPTOS BÁSICOS
DEFINICIÓN

• Esta herramienta nos permite comparar medias de distintos 
grupos, mediante el estudio de sus varianzas
• Vamos a tener  observaciones por grupo y un total de 
grupos distintos 
• Definiremos: 

𝑌 : la j−ésima observación del i−ésimo grupo

• Ahora, descompondremos la varianza calculando una 
serie de sumas que seguirán siempre la misma receta
RECETA A SEGUIR

• ¡Paso a paso, todos los cálculos que debemos hacer!

1 Promedio General

2 Promedio para cada Grupo

3 “Varianza Total”
RECETA A SEGUIR

• ¡Paso a paso, todos los cálculos que debemos hacer!

4 “Varianza dentro de un 
Grupo”

5 “Varianza entre Grupo”

Ya estamos casi listos…
¿Cómo podemos concluir acerca del efecto de una variable en los 
resultados del comportamiento de una muestra?
CONCLUSIÓN

• Mediante test de hipótesis
𝐻 : 𝐸𝑙 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑠 𝑐𝑒𝑟𝑜 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠
𝐻 : 𝐸𝑙 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑜 𝑑𝑒 𝑐𝑒𝑟𝑜 𝑒𝑛 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑔𝑟𝑢𝑝𝑜

Como bien aprendimos en el capítulo anterior, el próximo paso es 
calcular el estadístico correspondiente:

Este estadístico sigue una distribución de F‐Fisher con 𝐼 1 y 𝐽 1
grados de libertad
CONCLUSIÓN

¿Cómo podemos concluir?

Si nuestro estadístico es más grande que el valor real de la 
distribución bajo el mismo Nivel de Confianza y los mismos 
grados de libertad, entonces rechazamos Hipótesis Nula
CONCLUSIÓN

¿Qué significa rechazar Hipótesis Nula?

Significa que la variable en estudio, sí tiene un efecto en el 
comportamiento de la población al Nivel de confianza escogido

¿Tiene efecto el precio en las ventas del producto 
que está lanzando GoodFood?
POWER BI
IV) MODELOS DE REGRESIÓN LINEAL
POWER BI
1. JUSTIFICACIÓN
MODELOS PREDICTIVOS

• Prediciendo el Precio de una botella de Bordeaux
Burdeos es una región vinícola de Francia conocida mundialmente por 
la calidad y categoría de sus vinos. Por esto, es que una parte 
importante de su producción, los vinos cumbres, se venden como 
contratos de futuro o venta en primeur
Debido a la combinación de longevidad, producción bastante amplia, y 
una reputación establecida, los vinos de Burdeos tienen precios muy 
altos. Se dice que entre más antiguos, mejor es el sabor del vino
MODELOS PREDICTIVOS

Todo esto, supone un gran desafío para el área comercial de la 
compañía, pues deben saber cuál es el mejor precio a vender sus 
productos. ¿Cuánto debería costar una botella de Bordeaux dentro de 
20 años?
Precio vs Antigüedad
1.2000
Precio Botella

1.0000

0.8000

0.6000

0.4000

0.2000

0.0000
0 5 10 15 20 25 30 35

Años de Antigüedad
MODELOS PREDICTIVOS

• ¿Porqué necesitamos modelos?
Decisiones Difíciles:
 Personas tomando decisiones
 Mucha data y de distintas fuentes
 Los datos son dispersos
 Heterogeneidad
MODELOS PREDICTIVOS

• ¿Porqué necesitamos modelos?
Tomamos Mejores Decisiones:
 Mejorar la consistencia de las decisiones
 Explorar más escenarios / opciones
 Evaluar el aspecto relativo de las variables (información disponible)
 Facilitar los procesos de decisión grupales
 Se actualizan los modelos mentales subjetivos
JUSTIFICACIÓN

• ¿Porqué necesitamos modelos?
POWER BI
2. REGRESIÓN LINEAL
CONCEPTOS BÁSICOS

• ¿Qué es una Regresión Lineal?
Es cuando podemos escribir una variable mediante la 
relación lineal de otra, la cual está correlacionada con la 
primera

𝑌 𝛼 𝛽·𝑋 𝜀
𝑌 𝛽 𝛽 ·𝑋 𝛽 ·𝑋 ⋯ 𝛽 ·𝑋 𝜀
CONCEPTOS BÁSICOS

• ¿Qué partes componen una Regresión?
 Variable Independiente: Información que ayuda a predecir 
 Variable Dependiente: Variable que queremos predecir
 Error: en cuánto falla la predicción
 Coeficientes: “peso” que posee cada V.I. en la predicción
CÁLCULO

• ¿Cómo resolvemos la Regresión?

Queremos el mínimo error 
posible. Como podemos fallar 
en 𝜀 hacia arriba o hacia abajo:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝜀
CÁLCULO

• ¿Cuánto costará un Bordeaux de 32, 33 o 34 años?
 Resuelva la Regresión Lineal que prediga el precio en base a la 
antigüedad del vino Bordeaux
 ¿Es un buen predictor? ¿Qué podría hacer para mejorar la 
predicción?
INFERENCIA Y ANÁLISIS

• ¿En qué debemos fijarnos al resolver una Regresión?
 Significancia Global:

Para todo k
Para algún k

 Significancia Individual:
INFERENCIA Y ANÁLISIS

• ¿En qué debemos fijarnos al resolver una Regresión?
 Coeficientes:
Para cada 𝛽 debemos estudiar el signo y magnitud
Los distintos 𝛽’s miden la magnitud de correlación de la variable independiente 
que acompañan, con la variable dependiente que predicen 

Principal consideración a tener en cuenta
Correlación no implica Causalidad

 R‐cuadrado y R‐cuadrado ajustado:


INFERENCIA Y ANÁLISIS

• Si tenemos dos modelos: ¿Cómo elegimos uno?
 Primero debemos saber que entre más información entrego al 
modelo, éste sólo tiene posibilidad de mejorar
 Es decir, al menos va a quedar igual que si no entregara esa 
información

+ Información + Complejidad - Interpretabilidad


INFERENCIA Y ANÁLISIS

• Si tenemos dos modelos: ¿Cómo elegimos uno?

Existen diversas métricas:

 Test de Significancia Global

 Calidad de Precaución
VIDEO #2

Regresión Lineal con Excel
(WissenSync)
POWER BI
V) MODELOS DE REGRESIÓN LOGÍSTICA
CASO E‐CAR

• e‐Car Segment es una empresa financiera, para la cual una 
persona natural puede postular de manera online para 
optar por un crédito automotriz, para comprar autos 
nuevos o usados
• Los pasos de gestión son los siguientes:
 Cliente requiere un crédito para poder cubrir una porción o la 
totalidad del valor de un automóvil
 Basado en el Score FICO, el requerimiento del crédito es 
evaluado y se toma la decisión de entregarlo o rechazarlo
CASO E‐CAR

 Si el crédito es aprobado, e‐Car ofrece una tasa de interés, que 
sería equivalente al CAE de Chile
 El consumidor debe decidir si acepta o no la tasa entregada por 
el e‐Car

¿Cuál será la “tasa óptima” que debería ofrecer e‐Car a 
cada consumidor?
MODELO DE REGRESIÓN LOGÍSTICA

¿Sirve un modelo Lineal?
MODELO DE REGRESIÓN LOGÍSTICA

¡Necesitamos un Modelo que se mueva entre 0 y 1!
MODELO DE REGRESIÓN LOGÍSTICA

• Forma funcional:
¿Cómo nos aseguramos que el Modelo se comporte “bien”?

Vamos a tomar como base, nuestro modelo de Regresión Lineal ya 
conocido, pero nos vamos a asegurar de que éste se mueva entre 
0 y 1 para que prediga lo mejor posible. Pero… ¿Cómo hacemos 
esto?

La respuesta es: aplicando una transformación funcional que nos 
ayude
MODELO DE REGRESIÓN LOGÍSTICA

• Forma funcional:

𝑌 𝛽 𝛽 ·𝑋 𝛽 ·𝑋 ⋯ 𝛽 ·𝑋 𝜀
Modelo de Regresión Lineal, pero ahora 𝑌  se mueve entre 0 y 1

· · ⋯ ·
· · ⋯ ·
MODELO DE REGRESIÓN LOGÍSTICA

• Cálculo o estimación:
Ahora… ¿Cómo calculamos la Regresión Logística?

Al igual que para todo lo que hemos realizado, existe un gran 
número de paquetes estadísticos para estimar un Logit de manera 
rápida y simple
A modo de ejemplo, nosotros lo realizaremos a “mano” para 
entender cuáles son los cálculos que se deben realizar
MODELO DE REGRESIÓN LOGÍSTICA

• Cálculo o estimación:
¿Cuál es la lógica de lo que debemos hacer?

Al igual que en la regresión lineal escogíamos los mejores 𝛽’s que 
describían la mejor línea que pasaba por los puntos, acá 
encontraremos los mejores 𝛽’s que disminuyan el error de acertar 
en la predicción

¿Aceptará el cliente la tasa propuesta por e‐Car?
MODELO DE REGRESIÓN LOGÍSTICA

• Cálculo o estimación:
¿Es buena la predicción?
Una vez estimado el Logit, debemos evaluar si la estimación 
realizada es buena o mala
Como el modelo nos entrega una probabilidad individual de 
aceptar el crédito, debemos definir una línea de corte para hacer la 
decisión. Un ejemplo sería:
MODELO DE REGRESIÓN LOGÍSTICA

• Cálculo o estimación:
¿Es un buen Modelo?
Volvemos a plantear un Test de Hipótesis:

Calculamos el estadístico y concluimos como ya sabemos hacerlo 

~𝒳 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑞
POWER BI
VI) EVALUACIÓN FINAL
ASISTENCIA

POWER BI
EVALUACIÓN RELATOR

POWER BI
ESTADÍSTICAS AVANZADAS

FACILITADOR:
Alejandro Navarrete

Anda mungkin juga menyukai