Estadistica

ESTADÍSTICAS AVANZADAS
FACILITADOR:
Alejandro Navarrete
POWER BI
I) ESTADÍSTICA BÁSICA
I) ESTADÍSTICA BÁSICA
1. CONCEPTOS BÁSICOS
2. DISTRIBUCIÓN DE FRECUENCIA
3. REPRESENTACIÓN GRÁFICA DE LA INFORMACIÓN
4. MEDIDAS DE TENDENCIA CENTRAL
5. ESTADÍGRAFOS DE DISPERSIÓN POWER BI
6. ESTADÍGRAFOS DE POSICIÓN
II) ESTADÍSTICA AVANZADA
1. INFERENCIA ESTADÍSTICA
2. TEST DE HIPÓTESIS
3. TEST DE DIFERENCIA DE MEDIAS
4. TEST DE DIFERENCIA DE PROPORCIONES
III) ANÁLISIS DE VARIANZA (ANOVA)
POWER BI
CONCEPTOS BÁSICOS
• Estadística: Su fin es recopilar, clasificar, tabular y graficar
datos para su posterior estudio
• Muestra: Subconjunto representativo del universo
• Amplitud de la muestra: Número de elementos de la muestra
• Variable:
 Cualitativa
 Cuantitativa  Discreta
 Continua
POWER BI
2. DISTRIBUCIÓN DE FRECUENCIA
DISTRIBUCIÓN DE FRECUENCIA
• Cuando se tiene una gran cantidad de datos es conveniente
agruparlos en una tabla para visualizar y obtener una mejor
información de ellos
 Ejemplo: Las siguientes son las edades de un grupo de niños de un
jardín infantil: 4‐4‐1‐1‐2‐3‐1‐5‐4‐4‐4‐5‐1‐1‐2‐4‐3‐3‐2‐2‐3‐4‐4‐5‐1‐2‐
3‐5‐5‐1‐1‐3‐4‐5‐1‐3‐2‐2‐3‐2‐3‐5‐2‐4‐5‐2‐2‐2‐3‐3
• Estos datos los ordenaremos en una tabla de distribución de
frecuencia
• Frecuencia o frecuencia absoluta: es el número de veces que
aparece dicho valor en el conjunto
Edades Frecuencia (f)

1 9
2 12
3 11
4 10
5 8
• Ordenando los datos en esta tabla, es fácil responder
preguntas como:
 ¿Cuántos niños hay de 4 años? (R: 10)
 ¿Cuál es la edad que más hay? (R: 2)
• A estos datos también les podemos calcular la frecuencia
acumulada y porcentual
Frecuencia
Frecuencia
Edades Frecuencia Acumulada
Porcentual (f%)
(fac)
1 9 9 18%
2 12 21 24%
3 11 32 22%
4 10 42 20%
5 8 50 16%
• Frecuencia acumulada hasta un valor, es el número de
observaciones cuyo valor es menor o igual al considerado
• Frecuencia porcentual es el porcentaje de observaciones que
toma dicho valor
• Con esta información responde:
 ¿Cuántos niños hay menores que 4 años? (R: 32)
 ¿Cuántos niños hay en total? (R: 50)
 ¿Qué porcentaje de niños tienen 5 años? (R: 16%)
• Cuando las observaciones incluye una gran cantidad de
valores, conviene agruparlos en intervalos
 Ejemplo: Puntajes en intervalos obtenidos en un ensayo de P.S.U. de
matemáticas en un curso de 30 alumnos
Marca de clase es el Puntaje Marca de clase f fac F%

representante del intervalo, [500 – 550] 525 3 3 10%
corresponde al punto medio [550 – 600] 575 4 7 13,3%
del intervalo [600 – 650] 625 6 13 20%
[650 – 700] 675 5 18 13,6%
[700 – 750] 725 9 27 30%
[750 – 800] 755 3 30 10%
POWER BI
3. REPRESENTACIÓN GRÁFICA DE LA INFORMACIÓN
REPRESENTACIÓN GRÁFICA
a) Histograma o gráfico de barras: En este tipo de gráfico la
variable va en el eje x, y la frecuencia en el eje y. Las alturas
de las barras indican la frecuencia de la variable en estudio
Frecuencia Frecuencia
edad puntaje
Edades de niños de un jardín infantil Puntajes obtenidos por un grupo de alumnos en la PSU
b) Polígono de frecuencia: Es un gráfico de línea que se obtiene
al unir los puntos de los datos versus su frecuencia. Si los
datos son agrupados se toma su marca de clase, como en el
segundo ejemplo
Frecuencia Frecuencia
edad puntaje
Edades de niños de un jardín infantil Puntajes obtenidos por un grupo de alumnos en la PSU
c) Gráfico circular: En este gráfico se reparte los 360° del
en forma proporcional a la frecuencia
 Ejemplo: Una nueva pasta de dientes fue probada por 300
personas, las que opinaron que la encontraron muy buena,
buena, regular o mala los resultados están expresados en el
siguiente grafico
¿Cuántas personas la encontraron
regular? (R: 60)
¿Cuántas personas la encontraron buena
o muy buena? (R: 210)
d) Pictograma: Estos gráficos están formados por figuras, donde
cada figura representa una frecuencia dada en cada caso
 Ejemplo: el gráfico muestra la cantidad de mediaguas construidas
por “Un techo para Chile” el invierno pasado en las regiones VI, VII
, VIII y IX
= 25 mediaguas
¿Cuántas mediaguas se
construyeron en la VII región? (R:
regiones 75)
POWER BI
4. MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL
• Los siguientes datos corresponden al número de helados
que se tomaron un grupo de 30 alumnos en un paseo: 3‐1‐
0‐3‐2‐2‐0‐4‐1‐4‐2‐2‐1‐3‐4‐3‐4‐2‐3‐3‐0‐1‐4‐1‐2‐2‐3‐3‐4‐4
Nº Helados Frecuencia F acumulada

0 3 3
1 5 8
2 7 15
3 8 23
4 7 30
a) Media (o promedio aritmético): Se calcula sumando todos
los valores de la muestra y dividiendo por el número total
de observaciones
Sin tabla:
Con tabla:
b) Mediana: Es el término que equidista de los extremos en
una distribución ordenada
Sin tabla: Se ordenan los datos y el que queda al medio es la mediana, si son
dos es el promedio aritmético entre esos dos
0‐0‐0‐1‐1‐1‐1‐1‐2‐2‐2‐2‐2‐2‐ 2‐3 ‐3‐3‐3‐3‐3‐3‐3‐4‐4‐4‐4‐4‐4‐4 mediana
= 2,5
Con tabla: En la frecuencia acumulada se ve que datos corresponden a la
ubicación 15 y 16, en este caso son el 2 y el 3, luego la mediana será ́ el
promedio entre ellos = 2,5
c) Moda: Es el valor que más se repite, no es necesariamente
un valor, si tiene 2 es bimodal, 3 es trimodal, etc. Si todos
los datos tienen la misma frecuencia, entonces no tiene
moda
Sin tabla: es el que más se repite, en este caso la moda es 3
Con tabla: es el valor que tiene mayor frecuencia absoluta. Moda = 3
VIDEO #1
Medidas de Tendencia Central con
Excel
(WissenSync)
POWER BI
5. ESTADÍGRAFOS DE DISPERSIÓN
ESTADÍGRAFOS DE DISPERSIÓN
• Miden que tanto se dispersan los datos alrededor de su
media, estos son rango, varianza, desviación estándar
 Ejemplo: Si tomamos 3 pequeños conjuntos de datos. En los tres
grupos su media es 5, pero los datos de los diferentes grupos
tienen una dispersión diferente
Grupo 1 Grupo 2 Grupo 3

0 ; 5 ; 10 4 ; 5 ; 6 5 ; 5 ; 5
a) Rango: Es la diferencia entre la observación más alta y la
más baja
En el ejemplo:
 Rango grupo 1 = (10 – 0) = 10
 Rango grupo 2 = (6 – 4) = 2
 Rango grupo 3 = (5 – 5) = 0
b) Varianza: Es el promedio de las diferencias de cada dato
con respecto a la media elevadas al cuadrado
En el ejemplo:
Grupo 1=
Grupo 2=
Grupo 3=
c) Desviación estándar: Es la raíz cuadrada de la varianza
En el ejemplo:
Grupo 1=
Grupo 2=
Grupo 3=
POWER BI
6. ESTADÍGRAFOS DE POSICIÓN
ESTADÍGRAFOS DE POSICIÓN
• Cuantiles: Dividen los datos ya ordenados en grupos iguales,
estos pueden ser: cuartiles, quintiles, deciles y percentiles
 Cuartiles: Son medidas de localización que dividen la distribución
en 4 partes. El primer cuartil es el valor de la variable que deja
bajo él al 25% de los datos, el segundo cuartil el 50% y el tercer
cuartil el 75%
ESTADÍGRAFOS DE POSICIÓN
 Deciles: Son medidas de localización que dividen la distribución
en 10 partes iguales
 Percentiles: Son medidas de localización que dividen la
distribución en 100 partes iguales. Por ejemplo si una variable se
encuentra en el percen l 86, signiﬁca que supera al 86% de los
datos, ó el 86% está bajo él
CASOS APLICADOS
• Cree intervalos para Monto Facturado, de $20.000 de
ancho, hasta $200.000, y clasifique en qué intervalo está
cada cliente. Todos los clientes que tengan una facturación
mayor a $200.000, agrúpelos
• ¿Cuántos clientes están en cada intervalo de Monto
Facturado?
• ¿Qué porcentaje de clientes tiene una facturación entre
$140.000 y $180.000?
CASOS APLICADOS
• ¿Qué porcentaje de clientes tienen una facturación menor o
igual a $200.000?
• Realice una representación gráfica de la información que
posee
• Indique la Moda, Mediana y Media de los Montos
Facturados
CASOS APLICADOS
• ¿Qué podría decir de la dispersión de los datos?
• Si quisiéramos contactar al 10% de clientes con mayor
facturación para premiarlos por preferir el uso de CMR,
¿Cómo seleccionaría estos datos?
• Y si ahora queremos el 25% de clientes con menor
facturación para ofrecerles una campaña que incentive las
compras, ¿Qué haría?
POWER BI
II) ESTADÍSTICA AVANZADA
POWER BI
1. INFERENCIA ESTADÍSTICA
PRODUCTIVIDAD EN CALL CENTER
• QuickCall es un Call Center cuyo objetivo estratégico es

entrever un servicio de primera clase mediante una rápida
respuesta y una tasa alta de solución de problemas
• QuickCall está preocupado porque han notad que en
algunas semanas los tiempos de llamados incrementan
considerablemente
• En una reunión reciente con el con la primera línea de
ejecutivos, el Jefe de Operaciones describe:
“Tenemos un serio problema con el servicio al cliente desde
nuestros colaboradores. Notamos que durante la primera
semana después de que cada operador tiene sus vacaciones,
el tiempo que ellos toman para entregar el servicio es mucho
más alto, casi como si ellos aún continuaran de vacaciones! Mi
impresión es que durante esta semana la duración de los
llamados aumenta entre un 10% y un 30%. Debemos hacer
algo para que ellos retomen el ritmo de trabajo, lo más rápido
posible”
• Objetivo: corroborar empíricamente lo propuesto por el
Jefe de Operaciones
• Datos: se ha recolectado data desde la unidad de control de
calidad y los podemos ver en la base adjunta
INFERENCIA ESTADÍSTICA
• Conceptos básicos:
 Vamos a querer entender alguna característica 𝑋 que describe
diferentes observaciones en una muestra
 Algunas propiedades de X pueden ser interesantes de estudiar, por
ejemplo el promedio la población o en algún sub‐grupo
 Por ejemplo:
o 𝑋: duración de una llamada
o Nos gustaría estudiar el promedio de 𝑋
para Tomás en 30 semanas versus alguna
otra en particular
• Conceptos básicos:
 Si tenemos numerosas observaciones (𝑛 en total) para una
característica X, tendremos que escribir 𝑋 , 𝑋 , 𝑋 , …, 𝑋
1
Promedio: 𝑋
𝑛
𝑋
Estadístico: se define como una formula calculada a partir de una variable en
estudio que entrega un valor aproximado a la realidad
Para que nos podría servir el promedio de una muestra?
Estimador: es una función que nos ayuda a estimar una característica que se da en
una muestra, para toda la población
• Buen estimador para la media:
1
𝑋 𝑋
𝑛
• Buen estimador para la varianza:
1
𝑆 𝑋 𝑋
𝑛 1
POWER BI
2. TEST DE HIPÓTESIS
TEST DE HIPÓTESIS
• Conceptos Generales:
 Como habíamos dicho 𝑋 denota la duración de las llamadas
atendidas por un agente
 Debido a que estas se mueven de manera aleatoria, llamaremos a
X variable aleatoria y asumiremos que su distribución es Normal
con media 𝜇 y varianza 𝜎 o también se puede escribir:
𝑋~𝑁 𝜇 , 𝜎
TEST DE HIPÓTESIS
 Ahora vamos a testear la hipótesis del Jefe de Operaciones.
Vamos a decir que las llamadas duran 20% más la semana post
vacaciones de cada agente
 Formulamos el Test de Hipótesis de la siguiente manera:
𝐻 :𝜇 𝜇 (por ejemplo 4 minutos)

𝐻 :𝜇 𝜇 (por ejemplo 4.4 minutos)
TEST DE HIPÓTESIS
 Errores Tipo I y Tipo II: Antes de ver cómo poder realizar este test
de hipótesis, vamos a describir los posibles errores que podemos
cometer al concluir
Realidad
𝐻 𝐻
Decisión
𝐻 OK Error Tipo II
𝐻 Error Tipo I OK
TEST DE HIPÓTESIS
• Estructura del Test:
¿Cómo podemos realizar nuestra conclusión?
Como todo lo que estamos realizando es sobre una muestra y
no sobre una población, es imposible obtener un resultado
que sea 100% efectivo
TEST DE HIPÓTESIS
Definimos un Nivel de Confianza
Tenemos 3 formas para poder concluir si rechazar o
no la Hipótesis Nula y debemos elegir al menos una
TEST DE HIPÓTESIS
 Intervalos de Confianza: Dado un nivel de confianza de 100% ‐ 𝛼
para 𝜇, el intervalo se escribe así:
Rechazamos la Hipótesis Nula si 𝜇 cae
fuera del intervalo de confianza
¿Qué son y ?
TEST DE HIPÓTESIS
 Comparación de Estadísticos: Para cada test de hipótesis,
podemos construir un Estadístico (es decir, una función) que
puede compararse con el comportamiento de la realidad y
concluir.
Formalmente, se puede escribir:
Rechazamos la Hipótesis Nula si 𝜇 cae
fuera del intervalo de confianza
TEST DE HIPÓTESIS
Si caemos en la zona de aceptación, entonces Aceptamos la
Hipótesis Nula, pero sino debemos Rechazar
Estas zonas, depende exclusivamente del tipo de Test de Hipótesis que
estemos construyendo
TEST DE HIPÓTESIS
 P‐Valor:
Llamamos c al valor límite que para estar en nuestra zona de
aceptación
Llamamos t al valor límite que toma nuestro Estadístico
Definimos el p‐valor así:
Entonces, dado el nivel de confianza 100% ‐ 𝛼:
• Rechazamos Hipótesis Nula si p valor 𝛼
• Aceptamos Hipótesis Nula si p valor 𝛼
POWER BI
3. TEST DE DIFERENCIA DE MEDIAS
TEST DE DIFERENCIA DE MEDIAS
Francisca tiene duración de llamadas más cortas y con mejor tasa
de falla, en relación a Tomás.
¿Es esta diferencia cierta?
¿Podemos concluir que Francisca es más productiva que Tomás?
• Vamos a considerar dos poblaciones que siguen una
distribución normal, es decir:
• Ahora nuestro Test de Hipótesis queda:
• Donde el Estadístico que usaremos será:
, con:
• Como siempre vamos a estar trabajando con una gran
cantidad de datos, podemos asumir que nuestro
estadístico se distribuye como una Normal con media 0 y
varianza 1, es decir:
Ahora, dado lo que hemos aprendido, testee si realmente
(estadísticamente) Francisca tiene un mejor rendimiento que Tomás en
duración de llamadas. Utilice un Nivel de Confianza del 95%
POWER BI
4. TEST DE DIFERENCIA DE PROPORCIONES
TEST DIF. DE PROPORCIONES
¿Qué podemos decir de las tasas de fallas de
Francisca y Tomás?
• Esta pregunta puede ser formulada como un Test de
Diferencia de Proporciones entre dos poblaciones. Donde
es la tasa de fallo de la población
• Se define el test de la siguiente forma
• Al igual que antes, tenemos una fórmula conocida para el
Estadístico:
, con:
• Dado un Nivel de Confianza de 100% ‐ y asumiendo
nuevamente que nuestro estadístico distribuye como una
Normal Estándar, podemos escribir el intervalo de
confianza así:
• Ojo, que como ahora estamos evaluando una diferencia,
tenemos que ver si esta diferencia de proporciones
pertenece o no al intervalo. Sabemos que si ambas
proporciones son iguales, la diferencia será cero, por
ende, debemos ver si el cero está dentro o no del
intervalo para concluir
• Si el cero está en el intervalo, entonces aceptamos Hipótesis Nula
• Si el cero no está en el intervalo, entonces rechazamos Hipótesis Nula
¿Francisca es más efectiva que Tomás?
POWER BI
III) ANÁLISIS DE VARIANZA (ANOVA)
EFECTO DE UNA PROMOCIÓN
• GoodFood, una fábrica de envases de productos de comida,
está lanzando un producto nuevo. Ahora nosotros estamos
a cargo de evaluar si los distintos precios y gastos en
publicidad son buenos para este nuevo producto
• Una práctica común para analizar este tipo de problemas es
realizar un Estudio de Mercado: realizar un experimento
sobre el lanzamiento del producto para evaluar la venta
dados distintos precios y distintos niveles de publicidad
EFECTO DE UNA PROMOCIÓN
• La compañía tiene 3 niveles de precios (bajo, medio y alto) y
dos niveles de publicidad
¿Tiene el precio algún efecto en la venta?
¿Tiene la publicidad algún efecto en la venta?
POWER BI
DEFINICIÓN
• Esta herramienta nos permite comparar medias de distintos
grupos, mediante el estudio de sus varianzas
• Vamos a tener observaciones por grupo y un total de
grupos distintos
• Definiremos:
𝑌 : la j−ésima observación del i−ésimo grupo
• Ahora, descompondremos la varianza calculando una
serie de sumas que seguirán siempre la misma receta
RECETA A SEGUIR
• ¡Paso a paso, todos los cálculos que debemos hacer!
1 Promedio General
2 Promedio para cada Grupo
3 “Varianza Total”
RECETA A SEGUIR
• ¡Paso a paso, todos los cálculos que debemos hacer!
4 “Varianza dentro de un
Grupo”
5 “Varianza entre Grupo”
Ya estamos casi listos…
¿Cómo podemos concluir acerca del efecto de una variable en los
resultados del comportamiento de una muestra?
CONCLUSIÓN
• Mediante test de hipótesis
𝐻 : 𝐸𝑙 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑠 𝑐𝑒𝑟𝑜 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠
𝐻 : 𝐸𝑙 𝑒𝑓𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑜 𝑑𝑒 𝑐𝑒𝑟𝑜 𝑒𝑛 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑔𝑟𝑢𝑝𝑜
Como bien aprendimos en el capítulo anterior, el próximo paso es
calcular el estadístico correspondiente:
Este estadístico sigue una distribución de F‐Fisher con 𝐼 1 y 𝐽 1
grados de libertad
CONCLUSIÓN
¿Cómo podemos concluir?
Si nuestro estadístico es más grande que el valor real de la
distribución bajo el mismo Nivel de Confianza y los mismos
grados de libertad, entonces rechazamos Hipótesis Nula
CONCLUSIÓN
¿Qué significa rechazar Hipótesis Nula?
Significa que la variable en estudio, sí tiene un efecto en el
comportamiento de la población al Nivel de confianza escogido
¿Tiene efecto el precio en las ventas del producto
que está lanzando GoodFood?
POWER BI
IV) MODELOS DE REGRESIÓN LINEAL
POWER BI
1. JUSTIFICACIÓN
MODELOS PREDICTIVOS
• Prediciendo el Precio de una botella de Bordeaux
Burdeos es una región vinícola de Francia conocida mundialmente por
la calidad y categoría de sus vinos. Por esto, es que una parte
importante de su producción, los vinos cumbres, se venden como
contratos de futuro o venta en primeur
Debido a la combinación de longevidad, producción bastante amplia, y
una reputación establecida, los vinos de Burdeos tienen precios muy
altos. Se dice que entre más antiguos, mejor es el sabor del vino
MODELOS PREDICTIVOS
Todo esto, supone un gran desafío para el área comercial de la
compañía, pues deben saber cuál es el mejor precio a vender sus
productos. ¿Cuánto debería costar una botella de Bordeaux dentro de
20 años?
Precio vs Antigüedad
1.2000
Precio Botella
1.0000
0.8000
0.6000
0.4000
0.2000
0.0000
0 5 10 15 20 25 30 35
Años de Antigüedad
MODELOS PREDICTIVOS
• ¿Porqué necesitamos modelos?
Decisiones Difíciles:
 Personas tomando decisiones
 Mucha data y de distintas fuentes
 Los datos son dispersos
 Heterogeneidad
MODELOS PREDICTIVOS
Tomamos Mejores Decisiones:
 Mejorar la consistencia de las decisiones
 Explorar más escenarios / opciones
 Evaluar el aspecto relativo de las variables (información disponible)
 Facilitar los procesos de decisión grupales
 Se actualizan los modelos mentales subjetivos
JUSTIFICACIÓN
POWER BI
2. REGRESIÓN LINEAL
CONCEPTOS BÁSICOS
• ¿Qué es una Regresión Lineal?
Es cuando podemos escribir una variable mediante la
relación lineal de otra, la cual está correlacionada con la
primera
𝑌 𝛼 𝛽·𝑋 𝜀
𝑌 𝛽 𝛽 ·𝑋 𝛽 ·𝑋 ⋯ 𝛽 ·𝑋 𝜀
CONCEPTOS BÁSICOS
• ¿Qué partes componen una Regresión?
 Variable Independiente: Información que ayuda a predecir
 Variable Dependiente: Variable que queremos predecir
 Error: en cuánto falla la predicción
 Coeficientes: “peso” que posee cada V.I. en la predicción
CÁLCULO
• ¿Cómo resolvemos la Regresión?
Queremos el mínimo error
posible. Como podemos fallar
en 𝜀 hacia arriba o hacia abajo:
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝜀
CÁLCULO
• ¿Cuánto costará un Bordeaux de 32, 33 o 34 años?
 Resuelva la Regresión Lineal que prediga el precio en base a la
antigüedad del vino Bordeaux
 ¿Es un buen predictor? ¿Qué podría hacer para mejorar la
predicción?
INFERENCIA Y ANÁLISIS
• ¿En qué debemos fijarnos al resolver una Regresión?
 Significancia Global:
Para todo k
Para algún k
 Significancia Individual:
• ¿En qué debemos fijarnos al resolver una Regresión?
 Coeficientes:
Para cada 𝛽 debemos estudiar el signo y magnitud
Los distintos 𝛽’s miden la magnitud de correlación de la variable independiente
que acompañan, con la variable dependiente que predicen
Principal consideración a tener en cuenta
Correlación no implica Causalidad
 R‐cuadrado y R‐cuadrado ajustado:

• Si tenemos dos modelos: ¿Cómo elegimos uno?
 Primero debemos saber que entre más información entrego al
modelo, éste sólo tiene posibilidad de mejorar
 Es decir, al menos va a quedar igual que si no entregara esa
información
+ Información + Complejidad - Interpretabilidad

• Si tenemos dos modelos: ¿Cómo elegimos uno?
Existen diversas métricas:
 Test de Significancia Global
 Calidad de Precaución
VIDEO #2
Regresión Lineal con Excel
(WissenSync)
POWER BI
V) MODELOS DE REGRESIÓN LOGÍSTICA
CASO E‐CAR
• e‐Car Segment es una empresa financiera, para la cual una
persona natural puede postular de manera online para
optar por un crédito automotriz, para comprar autos
nuevos o usados
• Los pasos de gestión son los siguientes:
 Cliente requiere un crédito para poder cubrir una porción o la
totalidad del valor de un automóvil
 Basado en el Score FICO, el requerimiento del crédito es
evaluado y se toma la decisión de entregarlo o rechazarlo
CASO E‐CAR
 Si el crédito es aprobado, e‐Car ofrece una tasa de interés, que
sería equivalente al CAE de Chile
 El consumidor debe decidir si acepta o no la tasa entregada por
el e‐Car
¿Cuál será la “tasa óptima” que debería ofrecer e‐Car a
cada consumidor?
MODELO DE REGRESIÓN LOGÍSTICA
¿Sirve un modelo Lineal?
¡Necesitamos un Modelo que se mueva entre 0 y 1!
• Forma funcional:
¿Cómo nos aseguramos que el Modelo se comporte “bien”?
Vamos a tomar como base, nuestro modelo de Regresión Lineal ya
conocido, pero nos vamos a asegurar de que éste se mueva entre
0 y 1 para que prediga lo mejor posible. Pero… ¿Cómo hacemos
esto?
La respuesta es: aplicando una transformación funcional que nos
ayude
• Forma funcional:
𝑌 𝛽 𝛽 ·𝑋 𝛽 ·𝑋 ⋯ 𝛽 ·𝑋 𝜀
Modelo de Regresión Lineal, pero ahora 𝑌 se mueve entre 0 y 1
· · ⋯ ·
· · ⋯ ·
• Cálculo o estimación:
Ahora… ¿Cómo calculamos la Regresión Logística?
Al igual que para todo lo que hemos realizado, existe un gran
número de paquetes estadísticos para estimar un Logit de manera
rápida y simple
A modo de ejemplo, nosotros lo realizaremos a “mano” para
entender cuáles son los cálculos que se deben realizar
¿Cuál es la lógica de lo que debemos hacer?
Al igual que en la regresión lineal escogíamos los mejores 𝛽’s que
describían la mejor línea que pasaba por los puntos, acá
encontraremos los mejores 𝛽’s que disminuyan el error de acertar
en la predicción
¿Aceptará el cliente la tasa propuesta por e‐Car?
¿Es buena la predicción?
Una vez estimado el Logit, debemos evaluar si la estimación
realizada es buena o mala
Como el modelo nos entrega una probabilidad individual de
aceptar el crédito, debemos definir una línea de corte para hacer la
decisión. Un ejemplo sería:
¿Es un buen Modelo?
Volvemos a plantear un Test de Hipótesis:
Calculamos el estadístico y concluimos como ya sabemos hacerlo
~𝒳 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑞
POWER BI
VI) EVALUACIÓN FINAL
ASISTENCIA
POWER BI
EVALUACIÓN RELATOR
POWER BI
ESTADÍSTICAS AVANZADAS
FACILITADOR:
Alejandro Navarrete

Estadistica

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Estadistica

Diunggah oleh

Hak Cipta:

Format Tersedia

ESTADÍSTICAS AVANZADAS

Edades Frecuencia (f)

Marca de clase es el Puntaje Marca de clase f fac F%

Nº Helados Frecuencia F acumulada

Grupo 1 Grupo 2 Grupo 3

• QuickCall es un Call Center cuyo objetivo estratégico es

𝐻 :𝜇 𝜇 (por ejemplo 4 minutos)

 R‐cuadrado y R‐cuadrado ajustado:

+ Información + Complejidad - Interpretabilidad

Existen diversas métricas:

 Test de Significancia Global

Anda mungkin juga menyukai