Parte 1
Estadística Aplicada 2. Tema 2. Análisis de Regresión 1 Estadística Aplicada 2. Tema 2. Análisis de Regresión 2
Estadística Aplicada 2. Tema 2. Análisis de Regresión 3 Estadística Aplicada 2. Tema 2. Análisis de Regresión 4
• Se muestran los diagramas reportados por • Se puede apreciar claramente la relación lineal
Excel y Minitab. entre variable dependiente e independiente,
graficando una recta aproximada de relación.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 7 Estadística Aplicada 2. Tema 2. Análisis de Regresión 8
E (Y | x ) = µY |x = β 0 + β1 ⋅ x σ = V (β 0 + β1 ⋅ x * + ε )= V (β 0 + β1 ⋅ x * )+ V (ε ) = 0 + σ 2 = σ 2
2
Y |x*
• Dónde:
• Ante la presencia de aleatoriedad, sólo el valor E(Y|x*)=µY|x*: Valor esperado de Y cuando x=x*
esperado de y es una función lineal de x, y en V(Y|x*)=µY|x*:Varianza de Y cuando x=x*
realidad el modelo incluirá un término de error.
y = β 0 + β1 ⋅ x + ε Por tanto: “El valor medio de Y es una función lineal de x,
• Con: ε : N (0, σ ) 2 y la recta de regresión de la función es la línea que une los
valores medios de Y”.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 9 Estadística Aplicada 2. Tema 2. Análisis de Regresión 10
Recta de Regresión
y=65-1,2x Por tanto:
0 − (−1,2)
P (Y1 − Y2 > 0 ) = P Z > = P (Z > 0,11) = 0, 4562
11, 314
Estadística Aplicada 2. Tema 2. Análisis de Regresión 13 Estadística Aplicada 2. Tema 2. Análisis de Regresión 14
b1 = β̂ =
∑ (x − x )(y − y ) = n∑ x y − ∑ x ⋅ ∑ y
∀i i i ∀i i i ∀i i ∀i i Sxx = ∑ i=1 (xi − x ) = ∑ i=1 xi2 −
n 2
(∑ x ) n n n
i=1 i
∑ (x − x ) n∑ x − (∑ x )
(y − y ) = ∑ y − (∑ y ) n
1 2 2
2
Syy = ∑ i=1
∀i i i i n 2 n 2 n
∀i ∀i
i i=1 i i=1 i
∑ y − β̂ ∑ x = ∑ y − β̂ ∑ x = y − β̂ x
= β̂ = Sxy = ∑ i=1 (x − x )(y − y ) = ∑ x y − (∑ x )(∑ y ) n
∀i i 1 ∀i i ∀i i ∀i i n n n n
b0 0 1 1 i i
n n n i=1 i i i=1 i i=1 i
Estadística Aplicada 2. Tema 2. Análisis de Regresión 25 Estadística Aplicada 2. Tema 2. Análisis de Regresión 26
Ejemplo 4 Ejemplo 4
• Se resuelven los cálculos indicados: • Con lo cual, se obtiene:
n∑ ∀i xi yi − ∑ ∀i xi ⋅ ∑ ∀i yi 9 ⋅ 902,25 − 24,0 ⋅ 312,5
β̂1 = = = 10,602564
(∑ x ) 9 ⋅ 70,50 − (24,0 )
2 2
n∑ ∀i xi − 2
∀i i
β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
=
312,5 − 10,602564 ⋅ 24,00
= 6, 448718
n 9
• Y la ecuación estimada es:
y = 6, 448718 + 10,602564x ≈ 6, 45 + 10,6x
Estadística Aplicada 2. Tema 2. Análisis de Regresión 27 Estadística Aplicada 2. Tema 2. Análisis de Regresión 28
Ejemplo 5 Ejemplo 5
• De los datos del ejemplo 3 (Esfuerzo aplicado • La ecuación de la recta de regresión estimada
respecto al tiempo hasta fractura) se verifica es:
que n=10 y: y = 66, 42 − 0,901x
∑ ∀i
xi = 200 ∑ ∀i
xi = 5412,5
2
Estadística Aplicada 2. Tema 2. Análisis de Regresión 33 Estadística Aplicada 2. Tema 2. Análisis de Regresión 34
y = −12,84 + 36,18 ⋅ x σ̂ =
SSE
= 92,19
Estadística Aplicada 2. Tema 2. Análisis de Regresión 35
n−2
Estadística Aplicada 2. Tema 2. Análisis de Regresión 36
Ejemplo 7 Ejemplo 7. Datos
• En un artículo se describe un estudio para investigar
cómo la propagación de una onda de esfuerzo
ultrasónico que pasa por una sustancia depende de n = 14
las propiedades de la sustancia. −2183,80
β̂1 = = −0,0147109
148448
• Los datos asocian la resistencia a la fractura (x, β̂1 = 3,6209072
como porcentaje de la resistencia máxima a la
tracción) y la atenuación (y, en neper/cm, la
disminución de la amplitud de la onda de esfuerzo).
• Calcule la recta de regresión y estime la desviación
estándar de las predicciones.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 37 Estadística Aplicada 2. Tema 2. Análisis de Regresión 38
∀i i n
Estadística Aplicada 2. Tema 2. Análisis de Regresión 43 Estadística Aplicada 2. Tema 2. Análisis de Regresión 44
(∑ y )
Constante 3,62091 0,09949 36,39 0,000
2
SST = ∑ ∀i yi 2 − ∀i i n = 103,54 − 37,6 2 14 = 2,5571 Resistencia -0,014711 0,001436 -10,24 0,000
S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9% S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%
Análisis de varianza Análisis de varianza
Fuente GL SC MC F P Fuente GL SC MC F P
Regresión 1 2,2947 2,2947 104,92 0,000 Regresión 1 2,2947 2,2947 104,92 0,000
Error residual 12 0,2625 0,0219 Error residual 12 0,2625 0,0219
Total 13 2,5571 Total 13 2,5571
Estadística Aplicada 2. Tema 2. Análisis de Regresión 47 Estadística Aplicada 2. Tema 2. Análisis de Regresión 48
Resultados por Minitab Resultados por Minitab
La ecuación de regresión es La ecuación de regresión es
Atenuación = 3,62 - 0,0147 Resistencia r2 Atenuación = 3,62 - 0,0147 Resistencia
S
Predictor Coef SE Coef T P Predictor Coef SE Coef T P
Constante 3,62091 0,09949 36,39 0,000 Constante 3,62091 0,09949 36,39 0,000
Resistencia -0,014711 0,001436 -10,24 0,000 Resistencia -0,014711 0,001436 -10,24 0,000
S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9% S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%
Análisis de varianza Análisis de varianza
Fuente GL SC MC F P Fuente GL SC MC F P SSR
Regresión 1 2,2947 2,2947 104,92 0,000 Regresión 1 2,2947 2,2947 104,92 0,000
Error residual 12 0,2625 0,0219
Total 13 2,5571
Error residual 12 0,2625 0,0219
Total 13 2,5571
SSE
SST
Estadística Aplicada 2. Tema 2. Análisis de Regresión 49 Estadística Aplicada 2. Tema 2. Análisis de Regresión 50
aumenta un 1%.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 57 Estadística Aplicada 2. Tema 2. Análisis de Regresión 58
∑ ∀i
yi = 69,03; ∑ ∀i yi 2 = 442,1903;∑ ∀i xi yi = 1890,2
n∑ x − (∑ x )
2
3768,84
2
∀i i ∀i i
β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
= 2,224940
n
Estadística Aplicada 2. Tema 2. Análisis de Regresión 59 Estadística Aplicada 2. Tema 2. Análisis de Regresión 60
Ejemplo 10. Cálculo de cuadrados Ejemplo 10. Intervalo de confianza
Suma de cuadrados y r2
(∑ y ) • A partir de los cálculos anteriores, podemos
2
SST = ∑ ∀i y − 2
i ∀i i n = 8,995673
determinar la desviación estándar:
SSE = ∑ ∀i yi2 − β̂ 0 ∑ ∀i yi − β̂1 ∑ ∀i xi yi = 1,067358 s 2 = SSE / (n − 2 ) = 0,119595 ⇒ s = 0,119595 ; 0, 3444
r 2 = 1− SSE SST = 0,881 s
sβ̂ = = 0,0186
(∑ x )
2
∑
1
• Tanto r2 como la gráfica de dispersión apoyan
∀i
x −2
i ∀i i n
la teoría de que el modelo de relación entre • Y el intervalo de confianza queda definido:
ambas variables es lineal y que los parámetros ICβ̂ = 0,152 ± 2,262 ⋅ 0,0186 = (0,110;0,194)
estimados son de calidad. 1
Estadística Aplicada 2. Tema 2. Análisis de Regresión 63 Estadística Aplicada 2. Tema 2. Análisis de Regresión 64
útil. ∑ ∀i xi2 − ∑ ∀i xi
Estadística Aplicada 2. Tema 2. Análisis de Regresión 67 Estadística Aplicada 2. Tema 2. Análisis de Regresión 68
∑ ∀i xi2 − ∑ ∀i xi
• En una transparencia posterior se mostrará un
gráfico del efecto observado de esta variación.
• Y el intervalo corresponde a:
n (x * − x )
2
1
β̂ 0 + β̂1 x * ± tα /2;n−2 σ̂ 2 +
n
(∑ x )
2
n∑ ∀i xi2 −
Estadística Aplicada 2. Tema 2. Análisis de Regresión
∀i i 69 Estadística Aplicada 2. Tema 2. Análisis de Regresión 70
7 (1.200 − 8750 7 )
2
1
• Obtener un intervalo de confianza del 99% 23,15 +
7 7 ⋅11.112.500 − 8.750 2
= 9,17761251
para el verdadero promedio de temperatura de El valor crítico es, t es: t0,005;5=4,032 por lo que:
la campana cuando la velocidad es 1200
ICµ = −361, 428571+ 0,5914 ⋅1200 ± 9,17761⋅ 4, 032
m/min
Estadística Aplicada 2. Tema 2. Análisis de Regresión 71
Y |x*
Estadística Aplicada 2. Tema 2. Análisis de Regresión 72
IC para un valor pronosticado (IP) IC para un valor pronosticado (IP)
• Cuando x=x*, el estimador corresponde a: • De nuevo estandarizamos la distribución de
error:
Yˆ0 = β̂ 0 + β̂1 x * Sigue una
• El error de pronóstico es, por tanto, Yˆ − Yˆ0 Yˆ − Yˆ0
T= distribución t con n-
( ) 2 grados de libertad
2
• La distribución del error de predicción cumple 1 n x *
− x
σ̂ 1+ +
2
una ley normal con los siguientes parámetros: n n
( )
2
∑ ∀i xi2 − ∑ ∀i xi
(
E Yˆ − Yˆ0 = 0 )
• Y el intervalo de confianza queda definido por:
n (x * − x )
2
( 1
V Yˆ − Yˆ0 = σ 1+ +
2
) n (x * − x )
2
n n
( ) 2 1
2
∑ ∀i xi2 − ∑ ∀i xi Y0 ± tα /2;n−2 σ̂ 1+ +
ˆ
n n
( )
2
∑ ∀i xi2 − ∑ ∀i xi
Estadística Aplicada 2. Tema 2. Análisis de Regresión 73 Estadística Aplicada 2. Tema 2. Análisis de Regresión 74
Ejemplo 13 Ejemplo 13
• Cálculos iniciales: • Otros cálculos:
n = 13; ∑ ∀i xi = 6124; ∑ ∀i yi = 4, 73; ∑ ∀i x = 3017310; s = SSE / (n − 2 ) = 0,131 x = 471,07
2
i
n∑ x − (∑ x )
2 1
+ =
2
∀i i ∀i i 2,201⋅ 0,130 1+
13 13⋅ 3017310 − 6124
β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
= −0, 31073367 (0,108;0, 702)
n
Este tipo de cálculo es preferible realizarlo en MINITAB. A
continuación se muestra el mismo cálculo
Estadística Aplicada 2. Tema 2. Análisis de Regresión 77 Estadística Aplicada 2. Tema 2. Análisis de Regresión 78
Ejemplo 13. Minitab
La ecuación de regresión es y = - 0,311 + 0,00143 x
Análisis de varianza
Regresión por el origen
Fuente GL SC MC F P
Regresión 1 0,27157 0,27157 16,07 0,002
Error residual 11 0,18594 0,01690
Total 12 0,45751
Valores pronosticados para nuevas observaciones
EE de
Nueva obs Ajuste ajuste IC de 95% IP de 95%
1 0,4053 0,0375 (0,3227; 0,4878) (0,1074; 0,7031)
Estadística Aplicada 2. Tema 2. Análisis de Regresión 79 Estadística Aplicada 2. Tema 2. Análisis de Regresión 80
fabrican 0 unidades). n −1 n −1
• La ecuación de regresión sería: y = β̂1 x + ε con n-1 grados de libertad
• y el estimador por mínimos cuadrados: • Igual que en el modelo general, la hipótesis de
β̂1 =
∑ ∀i
yi xi normalidad permite probar hipótesis y generar
Estadística Aplicada 2. Tema 2. Análisis de Regresión 83 Estadística Aplicada 2. Tema 2. Análisis de Regresión 84
Errores comunes Errores comunes
• Un modelo de regresión lineal sin intercepto • El siguiente modelo parece más adecuado para
puede llevar a malas interpretaciones, describir el comportamiento en el intervalo
sobretodo cuando los datos están alejados del 100≤oF≤200:
origen.
El ajuste podría ser deficiente
en otras escalas de
El ajuste entre el rendimiento temperatura pero el error
del proceso y la temperatura parece menor en el intervalo
podría comportarse tal como de interés:
se muestra en el gráfico:
Estadística Aplicada 2. Tema 2. Análisis de Regresión 85 Estadística Aplicada 2. Tema 2. Análisis de Regresión 86
Estadística Aplicada 2. Tema 2. Análisis de Regresión 87 Estadística Aplicada 2. Tema 2. Análisis de Regresión 88
Estadística Aplicada 2. Tema 2. Análisis de Regresión 91 Estadística Aplicada 2. Tema 2. Análisis de Regresión 92
Tema 2. Parte 4b ∑ (x − x ) ∑ (y − y ) − (∑ x ) n∑ y − (∑ y )
2 2 2 2
∀i i ∀i i n∑ ∀i x
2
i ∀i i ∀i
2
i ∀i i
• Propiedades:
• Independiente de las unidades de medición
• No depende de qué variable es dependiente o independiente
Coeficiente de Correlación • El rango de valores está comprendido entre -1 y 1
• Si r=1 los pares pertenecen a una recta con pendiente positiva
Si r=-1 los pares pertenecen a una recta con pendiente negativa
• El cuadrado de r es el coeficiente de determinación del modelo de
regresión ajustado.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 93 Estadística Aplicada 2. Tema 2. Análisis de Regresión 94
Estadística Aplicada 2. Tema 2. Análisis de Regresión 95 Estadística Aplicada 2. Tema 2. Análisis de Regresión 96
Forma Matricial
• El principio de mínimos cuadrados establece la
Tema 2. Parte 4c minimización de SST respecto a las variables
del modelo.
• En caso de tratar de obtener una recta de
regresión y=β0+β1x, tenemos que estimar dos
Forma matricial de la parámetros por lo que necesitamos dos
regresión lineal ecuaciones:
∂SSE ∂SSE
=0 =0
∂β 0 ∂β1
SSE = ∑ ∀i yi − (β 0 + β1 xi )
2
Estadística Aplicada 2. Tema 2. Análisis de Regresión 97 Estadística Aplicada 2. Tema 2. Análisis de Regresión 98
β̂1 =
∑ ∀i
xi yi
∑ ∀i
xi2
Estadística Aplicada 2. Tema 2. Análisis de Regresión 101 Estadística Aplicada 2. Tema 2. Análisis de Regresión 102
Ejemplo, regresión lineal Ejemplo, regresión cuadrática
• En este caso, la forma matricial es: • El modelo se generaliza y sirve para
y1 1 x1 ε1 regresiones más complejas. Por ejemplo un
β0
ε2 modelo cuadrático por el origen se representa
y =
y2
X =
x2
ε =
1
β=
... ... ... β1 ...
como:
yn 1 xn εn
2fx2c y = β1 x + β 2 x 2 + ε
2fx1c
β̂ = (X ' X ) X ' y
−1
• Las matrices correspondientes serían:
y1 x1 x12 ε1
• La primera columna de X corresponde a la x22 β1 ε2
y =
y2
ε =
x2
X= β=
información de la primera fila de β (β0) ... ... ... β 2 ...
yn xn xn2
εn
• Tras operar la parte derecha de la ecuación
tenemos un vector con 2 filas y 1 columna.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 103 Estadística Aplicada 2. Tema 2. Análisis de Regresión 104
Estadística Aplicada 2. Tema 2. Análisis de Regresión 105 Estadística Aplicada 2. Tema 2. Análisis de Regresión 106
• Gráfico de dispersión :
Estadística Aplicada 2. Tema 2. Análisis de Regresión 109 Estadística Aplicada 2. Tema 2. Análisis de Regresión 110
Estadística Aplicada 2. Tema 2. Análisis de Regresión 113 Estadística Aplicada 2. Tema 2. Análisis de Regresión 114
Pronóstico respecto valores observados Gráfico de probabilidad para ei*
Autocorrelación Autocorrelación
• Si bien los cuatro primeros gráficos muestran
las características deseadas, el último gráfico
muestra un patrón en los datos que se
denomina autocorrelación.
• La autocorrelación aparece cuando los errores
no son independientes.
• Nota: Minitab también ofrece un histograma
de frecuencia de residuos para identificar
normalidad
Versión MINITAB: Residuos / orden:
Estadística Aplicada 2. Tema 2. Análisis de Regresión 117 Estadística Aplicada 2. Tema 2. Análisis de Regresión 118
Estadística Aplicada 2. Tema 2. Análisis de Regresión 119 Estadística Aplicada 2. Tema 2. Análisis de Regresión 120
Detección de la autocorrelación Prueba de Durbin-Watson
• Una secuencia +-++-+-+-- tendría 7 cambios • El estadístico propuesto por Durbin y Watson
de signo. permite detectar procesos autoregresivos de
• Si casi no hay cambios de signo (mucho menos primer orden (aquellos que se comportan
de la mitad de las observaciones), la según):
εt:Término de error del modelo
autocorrelación es probable que sea positiva. ε t = ρε t−1 + at at: Error aleatorio
ρ: Parámetro de autocorrelación (0<ρ<1)
• Si hay muchos cambios de signo (muchos más
de la mitad de las observaciones), la • Así, un modelo lineal con error autoregresivo
autocorrelación es probable que sea negativa. de primer orden sería:
• Si el número de cambios es aproximadamente
yt = β 0 + β1 xt + ρε t −1 + at
la mitad, probablemente no haya
autocorrelación.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 121 Estadística Aplicada 2. Tema 2. Análisis de Regresión 122
d= t=2 t−1
dónde et = yt − ŷt – Si d>dU, no rechazar H0.
∑ e
n 2
t=1 t
– Si dL≤d≤dU, la prueba no es concluyente.
• El estadístico en caso de autocorrelación
negativa (Ha: ρ<0) es: 4 − d
Estadística Aplicada 2. Tema 2. Análisis de Regresión 123 Estadística Aplicada 2. Tema 2. Análisis de Regresión 124
Estadística Aplicada 2. Tema 2. Análisis de Regresión 127 Estadística Aplicada 2. Tema 2. Análisis de Regresión 128
Estadística Aplicada 2. Tema 2. Análisis de Regresión 129 Estadística Aplicada 2. Tema 2. Análisis de Regresión 130
Regresión polinomial
• La ecuación del modelo lineal de k-ésimo
Tema 2. Parte 6 grado es:
Y = β 0 + β1 x + β 2 x 2 + ...+ β k x k + ε Con: ε : N (0, σ 2 )
• Las estimaciones de mínimos cuadrados se
Regresión Polinomial obtienen de aplicar k+1 derivadas parciales,
igualarlas a 0 y resolver el sistema de
ecuaciones resultante.
• Hay que tener presente que un modelo con más
variables siempre ofrecerá un mejor ajuste, por
lo que debe estudiarse la aportación de las
Estadística Aplicada 2. Tema 2. Análisis de Regresión 131
nuevas variables.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 132
R2 ajustado Ejemplo 16
• Para medir la utilidad de usar un modelo más • En un estudio, se analizó la fecha x de cosecha
preciso (mayor explicación) pero más difícil de (número de días después de la floración) y la
estimar (mayor número de predictores) es producción y (kg/ha.) de arroz en cáscara, para
conveniente ajustar R2. un grano cultivado en la India.
n −1 SSE (n − 1)R 2 − k
R 2 ajustado = 1− ⋅ =
n − (k + 1) SST n − (k + 1)
• ¿Qué modelo recomendaría para explicar la
producción de arroz en cáscara, como una
función de la cosecha?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 133 Estadística Aplicada 2. Tema 2. Análisis de Regresión 134
Cúbica
Estadística Aplicada 2. Tema 2. Análisis de Regresión 135 Estadística Aplicada 2. Tema 2. Análisis de Regresión 136
∑ (y − ŷ )
2 sβ̂ La estimación de la desviación es difícil de calcular
i
σ̂ = s = = MSE
2 2 ∀i i i por lo que se opta por usar siempre la proporcionada
n − (k + 1)
Cambio en el número
por un paquete estadístico.
de grados de libertad
• El intervalo del 100(1-α)% para βi es:
SST = ∑ ∀i (yi − yi )
2
β̂i ± tα /2;n−(k+1)sβ̂
i
SSE
R = 1−
2 • Y la prueba de H0 βi=βi0 se basa en:
SST
β̂i − βi 0
T=
Estadística Aplicada 2. Tema 2. Análisis de Regresión 137 Estadística Aplicada 2. Tema 2. Análisis de Regresión
sβ̂ 138
i
Regresión múltiple Estimación de parámetros
• Se intenta relacionar una variable dependiente • Las estimaciones de mínimos cuadrados de los
con dos o más variables dependientes. La parámetros β0,β1,…,βk se obtienen a través de
ecuación general será: la función de desviaciones cuadradas
Y = β 0 + β1 x1 + β 2 x2 + ...+ β k xk + ε Con: ε : N (0, σ 2 ) observaciones respecto a la función teórica, y
• Al igual que en el caso lineal: resolviendo el sistema de ecuaciones
µY |x ,...,x = β 0 + β1 x1 + β 2 x2 + ... + β k xk + ε resultantes de derivar parcialmente la función
* *
1 k
respecto a cada parámetro (véase también
• Nótese que la regresión polinomial es un caso forma matricial de la regresión lineal).
particular de la regresión lineal múltiple, lo • El cálculo es relativamente complejo, lo que
que muestra la amplitud del concepto “lineal” lleva a su resolución práctica por ordenador.
en regresión.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 139 Estadística Aplicada 2. Tema 2. Análisis de Regresión 140
Ejemplo 17 Ejemplo 17
• En un artículo se describe un experimento Datos de partida:
realizado para evaluar el impacto de la fuerza
(gm) x1, potencia (mW) x2, temperatura (oC) x3
y tiempo (ms) x4 en la resistencia cortante de la
unión de bola (gm), y.
– Estime el modelo correspondiente.
– Estime la resistencia cortante de la unión de bola
cuando la fuerza es de 35 gm, la potencia de 75
mW, la temperatura de 200oC y el tiempo de 20
ms.
– ¿Cuál es el significado de β̂
β22. ?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 141 Estadística Aplicada 2. Tema 2. Análisis de Regresión 142
Ejemplo 17 Ejemplo 17
• La regresión es:
y = −37, 4767 + 0,2117 β1 + 0, 4983β 2 + 0,1297 β 3 + 0,2583β 4
• La estimación puntual sería:
y = −37, 4767 + 0,2117 ⋅ 35 + 0, 4983⋅ 75
+0,1297 ⋅ 200 + 0,2583⋅ 20 = 38, 41
Estadística Aplicada 2. Tema 2. Análisis de Regresión 143 Estadística Aplicada 2. Tema 2. Análisis de Regresión 144
Coeficientes de determinación Prueba de validez (utilidad)
• Las fórmulas son idénticas a las del caso • La hipótesis nula considera que ninguna
polinomial (más bien la causalidad es la variable explicativa añade información.
contraria): • H0: β1=β2=…=βk=0; Ha: al menos una βi≠0.
SSE = ∑ ∀i (yi − ŷi )
2
• La prueba permite determinar si, al menos, una
∑ (y − ŷ )
2
de las variables explicativas afecta a la
σ̂ = s = = MSE
2 2 ∀i i i
variable de respuesta
n − (k + 1)
Estadístico de prueba: f = MSR
SST = ∑ ∀i (yi − yi )
2
MSE
SSE
R 2 = 1− Región de rechazo: f ≥ Fα ,k,n−(k+1)
SST
Estadística Aplicada 2. Tema 2. Análisis de Regresión 145 Estadística Aplicada 2. Tema 2. Análisis de Regresión 146
• El modelo es útil tal como indican los datos • Y la prueba de H0 βi=βi0 se basa en:
• En ningún momento se ha descartado la opción β̂i − βi 0
que un modelo con menos variables T=
sβ̂
explicativa pudiera ser mejor. i
Estadística Aplicada 2. Tema 2. Análisis de Regresión 147 Estadística Aplicada 2. Tema 2. Análisis de Regresión 148
Estadística Aplicada 2. Tema 2. Análisis de Regresión 149 Estadística Aplicada 2. Tema 2. Análisis de Regresión 150
Prueba para grupos de variables Ejemplo 20
• En los datos siguientes, la variable dependiente y es
• Considere un conjunto de variables predictoras el valor nominal de planchado permanente, una
x1,x2,…,xl,xl+1…,xk. medida cuantitativa de resistencia a las arrugas. Las
• Si quiere verificar si las últimas k-l variables cuatro variables independientes son: x1:
pueden ser eliminadas, se puede desarrollar la concentración de formaldehído, x2: proporción de
siguiente prueba: catalizador, x3: temperatura de curado y x4: tiempo
H0: βl+1=βl+2=…=βk=0; Ha: Al menos una ≠ 0 de curado.
• Determinamos SSEk y SSEl: Variaciones no • Considere un modelo con 14 predictores:
explicada por el modelo completo y el modelo x1,..x4,x5=x12,..,x8=x42,x9=x1x2,x10=x1x3,..,x14=x3x4.
reducido. (SSEl − SSEk ) (k − l ) (predictores de primer y segundo orden)
Estadístico de Prueba: f =
SSEk n − (k + 1)
• ¿Se justifica la introducción de los predictores de
Región de rechazo: f ≥ Fα ,k−l,n−(k+1)
Estadística Aplicada 2. Tema 2. Análisis de Regresión 151 segundo orden?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 152
Estadística Aplicada 2. Tema 2. Análisis de Regresión 153 Estadística Aplicada 2. Tema 2. Análisis de Regresión 154
Estadística Aplicada 2. Tema 2. Análisis de Regresión 157 Estadística Aplicada 2. Tema 2. Análisis de Regresión 158
Estadística Aplicada 2. Tema 2. Análisis de Regresión 161 Estadística Aplicada 2. Tema 2. Análisis de Regresión 162
Descripción gráfica Generalización
• Las dos rectas de regresión se ven en la figura • Se puede generalizar este método para tener en
siguiente: cuenta factores cualitativos a cualquier
• Ambas rectas tienen la cantidad de categorías. Pongamos por ejemplo
misma pendiente
Herramienta B 3 tipos de herramienta:
• La varianza de los errores
es idéntica x2 x3 Descripción
• El parámetro β2
0 0 Herramienta tipo A
representa las diferencias
entre los dos tipos de 0 1 Herramienta tipo B
Herramienta A herramienta. 1 0 Herramienta tipo C
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε
Estadística Aplicada 2. Tema 2. Análisis de Regresión 163 Estadística Aplicada 2. Tema 2. Análisis de Regresión 164
• Para probar si las dos rectas tienen la misma • El nuevo modelo de regresión que relaciona la
pendiente pero diferente ordenada vida útil con la velocidad del corte, tipo de
herramienta y lubricante sería:
H0: β3=0; Ha: β3≠0
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε
Estadística Aplicada 2. Tema 2. Análisis de Regresión 167 Estadística Aplicada 2. Tema 2. Análisis de Regresión 168
Características del modelo Interacciones más complejas
• En el modelo anterior: • Se pueden modelar el efecto de diversas
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε interacciones. Por ejemplo teniendo en cuenta
• La pendiente (β1) asocia la vida útil con la efectos cruzados el modelo sería:
velocidad de corte y no depende ni del tipo de y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + β 4 x1 x2 + β 5 x1 x3 + β 6 x2 x3 + ε
herramienta, ni del tipo de lubricante de corte.
Herramienta Viscosidad Regresión
• La ordenada al origen sí depende de esos A (x2=0) Baja (x3=0) y=β0+β1x1
factores y consiste en una componente aditiva: A (x2=0) Intermedia (x3=1) y=(β0+β3)+(β1+β5)x1
– El efecto de la herramienta corresponde a β2
– El efecto del aceite corresponde a β3 B (x2=1) Baja (x3=0) y=(β0+β2)+(β1+β4)x1
Estadística Aplicada 2. Tema 2. Análisis de Regresión 181 Estadística Aplicada 2. Tema 2. Análisis de Regresión 182
Estadística Aplicada 2. Tema 2. Análisis de Regresión 183 Estadística Aplicada 2. Tema 2. Análisis de Regresión 184
Estadística Aplicada 2. Tema 2. Análisis de Regresión 185 Estadística Aplicada 2. Tema 2. Análisis de Regresión 186
Concepto Definición
• Con frecuencia dos o más variables predictoras • Se entiende por colinearidad a la presencia de
empleadas en el modelo para predecir la dos o más variables explicativas con una fuerte
variable Y contribuyen con información correlación lineal.
redundante, es decir están correlacionadas
entre sí. • La colinearidad conlleva complicaciones para
• Véase por ejemplo la información asociada al estimar parámetros que dificultan la
nivel educativo y al nivel laboral del ejemplo credibilidad del modelo desarrollado.
anterior.
• Cuando ello ocurre decimos que hay presencia
de colinearidad en el modelo.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 187 Estadística Aplicada 2. Tema 2. Análisis de Regresión 188
Estadística Aplicada 2. Tema 2. Análisis de Regresión 195 Estadística Aplicada 2. Tema 2. Análisis de Regresión 196
Selección de variables
• Si disponemos de k variables predictoras,
Tema 2. Parte 9 ¿Cuál es el mejor modelo para explicar el
comportamiento de la variable dependiente y?
• Conceptos:
– Parsimonia. Seleccionar la máxima cantidad de
Métodos para la selección de variabilidad con el menor número de variables.
variables independientes – Maximizar R2 ajustado. Equivalente a minimizar
MSEk (nunca max. R2)
– Minimizar Ck
– Minimizar PRESS
– Maximizar R2 pronosticada
Estadística Aplicada 2. Tema 2. Análisis de Regresión 197 Estadística Aplicada 2. Tema 2. Análisis de Regresión 198
Error esperado y normalizado Ejemplo 23
• Se define el error esperado y normalizado de la
• En un artículo, se describe un análisis de los datos
estimación como:
Γk =
E (∑ ∀i
Yˆi − E (Yi )
2
)= E (SSE ) + 2 (k + 1)− n
k
tomados de una revista de automóviles. La
variable dependiente y fue el rendimiento de
σ σ2 2 combustible y los predictores fueron x1: forma del
• Un subconjunto de variables es atractivo si Γk motor (1=recto, 0=V), x2: número de cilindros; x3:
es pequeño. Desafortunadamente, se tipo de transmisión (1=manual, 0=automática);
desconocen los los valores de E(SSEk) y σ2. x4: número de velocidades de la transmisión; x5:
Ésta última puede estimarse (s2=MSEk) y la tamaño del motor; x6: caballos de potencia; x7:
otra puede aproximarse, por lo que se define: número de gargantas del carburador; x8: relación
SSE de transmisión final; x9: peso y x10: tiempo para
Ck = 2 + 2 (k + 1) − n Cuyo valor es deseable que
s sea pequeño (y cercano a k+1) recorrer un cuarto de milla.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 199 Estadística Aplicada 2. Tema 2. Análisis de Regresión 200
Ejemplo 23 Ejemplo 23
• Mejores combinaciones: • Evolución gráfica:
Ejemplo 24
la respuesta es Resistencia
• Retomando el ejemplo 17, se analizan la F P T T
selección de variables mediante MINITAB. u o e i
e t m e
Opción: Regresión / Mejores subconjuntos Rk2 adj Ck SCEk
Rk2 r e p m
R-cuad. Cp de z n e p
Vars R-cuad. (ajustado) Mallows S a c r o
1 57,7 56,2 11,0 5,9289 X
1 10,8 7,7 51,9 8,6045 X
2 68,5 66,2 3,5 5,2070 X X
2 59,4 56,4 11,5 5,9136 X X
3 70,2 66,8 4,0 5,1590 X X X
3 69,7 66,2 4,5 5,2078 X X X
4 71,4 66,8 5,0 5,1580 X X X X
Estadística Aplicada 2. Tema 2. Análisis de Regresión 203 Estadística Aplicada 2. Tema 2. Análisis de Regresión 204
Regresión por pasos Regresión por pasos Minitab
• El método anterior se hace impracticable
cuando el número de predictores crece (por
ejemplo cuando se usan modelos de segundo
orden).
• Entre los métodos de selección posibles se
acostumbra a utilizar una técnica heurística
denominada “paso a paso” que
selecciona/elimina predictores uno a uno.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 205 Estadística Aplicada 2. Tema 2. Análisis de Regresión 206
Regresión no lineal
• Una función que relaciona y con x es
Tema 2. Parte 10 intrínsicamente lineal si por medio de una
transformación de y y/o x se puede expresar
como y’=β0+β1x’ donde y’ y x’ son las
variables transformadas.
Regresión no lineal
Estadística Aplicada 2. Tema 2. Análisis de Regresión 209 Estadística Aplicada 2. Tema 2. Análisis de Regresión 210
Exponencial Potencia
Estadística Aplicada 2. Tema 2. Análisis de Regresión 211 Estadística Aplicada 2. Tema 2. Análisis de Regresión 212
Logarítmica Recíproca
Estadística Aplicada 2. Tema 2. Análisis de Regresión 213 Estadística Aplicada 2. Tema 2. Análisis de Regresión 214
n∑ (x ) − (∑ x )
' 2 '
2 relativamente constante cada vez que el
∀i i ∀i i
número de unidades producidas se duplica.
β̂ 0 =
∑ ∀i
yi' − β̂1 ∑ ∀i xi' • El porcentaje constante es conocido como tasa
n de aprendizaje.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 215 Estadística Aplicada 2. Tema 2. Análisis de Regresión 216
Supuestos de la curva de aprendizaje Modelo
• La cantidad de tiempo requerido para terminar • El modelo de la curva de aprendizaje es el
una tarea o una unidad de producto será menor siguiente:
cada vez que se emprenda la tarea. Yx = Kx n
• La disminución del tiempo (coste) por unidad • Donde:
irá disminuyendo a un ritmo decreciente. – x: número de la unidad a producir
• La reducción de tiempo sigue un patrón – Yx: número de horas-hombre (o coste directo)
previsible. requerido para producir la x-ésima unidad.
– K: número de horas-hombre (o coste directo)
necesario para producir la primera unidad.
– n: ln(b)/ln(2), donde b: tasa de aprendizaje.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 217 Estadística Aplicada 2. Tema 2. Análisis de Regresión 218
Ejemplo 26 Ejemplo 26
• Una compañía produce una variedad de pequeños • Una forma de determinar si el modelo sigue
productos industriales. una curva de aprendizaje es crear variables
• Acaba de terminar la producción 22 lotes del logarítmicas y ver si el diagrama de dispersión
nuevo producto entre las variables logarítmicas muestra una
• Se dispone de un archivo con los tiempos relación lineal
utilizados para cada uno de los 22 lotes
• Los tiempos han tendido a decrecer según se ha
ganado experiencia en la elaboración del producto.
• ¿La reducción de tiempos sigue una curva de
aprendizaje?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 219 Estadística Aplicada 2. Tema 2. Análisis de Regresión 220
Ejemplo 26 Ejemplo 26
• Parece lógico realizar una regresión entre las • Del modelo de curva de aprendizaje
variables logarítmicas. La recta de regresión deducimos:
es: • -0,155=ln(tasa aprendizaje) / ln(2)
Ln(Tiempo)=4,834-0,155 Ln(Lote) • Despejando la tasa de aprendizaje
• Hay un par de formas de interpretar la (multiplicamos por ln(2) y elevando a e)
ecuación: obtenemos que tasa aprendizaje es 0,898,
– El coeficiente -0,155 está asociado a una aproximadamente un 90%.
elasticidad. Esto es, cuando el número de lotes se • Por tanto, cada vez que la producción
incrementa en un 1%, el tiempo se reduce
acumulada se duplica, el tiempo de producción
aproximadamente un 0,155%. La interpretación no
es interesante desde un punto de vista productivo.
disminuye un 10%.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 221 Estadística Aplicada 2. Tema 2. Análisis de Regresión 222
Ejemplo 27 Función de Cobb-Douglas
• Este cálculo puede utilizarse • Función de producción que explica la
para predecir valores futuros. producción total en un año (valor monetario de
• Utilizando la recta de regresión todos los productos) para un sector económico
se obtiene el valor logarítmico (empresa, región, país, etc.) en función del
de tiempo. nivel de trabajo y de capital.
• Para obtener el tiempo es • El nivel de trabajo se mede en horas-hombre
suficiente con elevar e por el (HH) trabajadas, o bien mediante los
valor predecido por la honorarios pagados.
regresión. • El nivel de capital se mide en capacidad de
maquinaria instalada, o el capital total
necesario para realizar la actividad económica.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 223 Estadística Aplicada 2. Tema 2. Análisis de Regresión 224
Ejemplo 27 Ejemplo 27 Qt Lt Kt
179,2 193,5 1.141,0
181,0 182,8 1.241,0
• Se dispone de los datos de producción (Qt) de • Una regresión 183,1 171,7 1.357,0
la minería española para los años del periodo permitirá identificar 184,9 163,4 1.465,0
1969-1984. El valor está expresado en los parámetros α, β de 185,8 143,3 1.562,0
220,8 140,4 1.742,0
unidades monetarias constantes de 1984. la minería en esos
238,8 141,6 1.954,0
• El efecto del trabajo en la producción (Lt) años. 241,7 138,6 2.141,0
viene expresado en millones de horas hombre 242,5 145,4 2.352,0
240,7 128,1 2.399,0
trabajadas. 248,5 126,4 2.557,0
• El stock de capital o riqueza (Kt) en potencia 312,1 149,2 2.680,0
347,3 145,9 2.899,0
instalada en miles de caballos de vapor.
366,2 144,5 3.082,0
424,7 139,7 3.062,0
404,9 131,8 3.052,0
Estadística Aplicada 2. Tema 2. Análisis de Regresión 227 Estadística Aplicada 2. Tema 2. Análisis de Regresión 228
Ejemplo 27 Ejemplo 27
• El modelo no es lineal, pero puede linearizarse
aplicando ln.
lnQ=lnA+αlnL+βlnK.
• La regresión por tanto sería:
lnQ=lnA+αlnL+βlnK+ε.
• Donde:
ε : N (0,σ 2 )
• La regresión resultante es:
Estadística Aplicada 2. Tema 2. Análisis de Regresión 229 Estadística Aplicada 2. Tema 2. Análisis de Regresión 230
Estadística Aplicada 2. Tema 2. Análisis de Regresión 231 Estadística Aplicada 2. Tema 2. Análisis de Regresión 232
Ejemplo 27
• El valor de 0,9402 que acompaña a la variable, es
la estimación de la elasticidad trabajo‐producto,
la cual puede interpretarse de la siguiente forma:
– Si el empleo se incrementa en un 1%, es de esperar
que la producción se incremente en un 0,94%.
• El valor deque acompaña a la variable, es la
estimación de la elasticidad capital‐producto, la
cual puede interpretarse de la siguiente forma:
– Si el capital (potencia instalada) se incrementa en un
1%, es de esperar que la producción se incremente en
aproximadamente un 1,06%.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 233