Anda di halaman 1dari 39

Estadística Aplicada 2. Tema 2.

Parte 1

Tema 2. Regresión Lineal Concepto de Regresión Lineal

Estadística Aplicada 2. Tema 2. Análisis de Regresión 1 Estadística Aplicada 2. Tema 2. Análisis de Regresión 2

Modelo de Regresión Lineal Simple Modelo de Regresión Lineal Simple


• Relación entre una variable dependiente (la • El modelo matemático es el siguiente:
que se pretende explicar) y una variable – y: Variable dependiente
independiente (la que se utiliza para la
y = β 0 + β1 ⋅ x
– x: Variable independiente
explicación). – β0: Intercepto
• Generalmente las observaciones se realizan – β1: Pendiente
para diversos valores de la variable • β1 puede interpretarse como:
independiente.
∆y Cambio de la variable dependiente
• La información de partida se muestra en pares β1 = por cada unidad de cambio de la
(x1,y1),…,(xn,yn) ∆x variable independiente.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 3 Estadística Aplicada 2. Tema 2. Análisis de Regresión 4

Ejemplo 1 Ejemplo 1 (datos)


• Supóngase que se desea estudiar el Hidrocarburo Pureza
• La observación de los
no. Obs. x(%) y(%)
comportamiento de la pureza del oxígeno 1 0,99 90,01
valores parece indicar que
2 1,02 89,05
producido en un proceso de destilación químico, 3 1,15 91,43
cuanto más grande es el
4 1,29 93,74
como una función del porcentaje de 5 1,46 96,73
valor de X más grande es el
6 1,36 94,45
hidrocarburos en un condensador. 7 0,87 87,59
nivel de pureza.
8 1,23 91,77
• Entonces, representaremos la variable 9
10
1,55
1,4
99,42
93,65 • Para verificar si esta relación
dependiente Y como la pureza de Oxígeno 11
12
1,19
1,15
93,54
92,52 puede considerarse como
producido en un proceso de destilación químico, 13
14
0,98
1,01
90,56
89,54 lineal, se aconseja realizar
y la variable independiente X como el porcentaje 15
16
1,11
1,2
89,85
90,39 un diagrama de dispersión.
de hidrocarburos presente en el condensador 17
18
1,26
1,32
93,25
93,41
principal de la unidad de destilación. 19
20
1,43
0,95
94,98
87,33
Estadística Aplicada 2. Tema 2. Análisis de Regresión 5 Estadística Aplicada 2. Tema 2. Análisis de Regresión 6
Ejemplo 1 (diagramas de dispersión) Ejemplo 1 (dispersión + recta regresión)

• Se muestran los diagramas reportados por • Se puede apreciar claramente la relación lineal
Excel y Minitab. entre variable dependiente e independiente,
graficando una recta aproximada de relación.

• En Excel ha sido necesario cambiar el rango de


valores mostrados en la gráfica

Estadística Aplicada 2. Tema 2. Análisis de Regresión 7 Estadística Aplicada 2. Tema 2. Análisis de Regresión 8

Modelo probabilístico lineal Modelo probabilístico lineal


• En muchos problemas, incluyendo el del • Obsérvese que:
ejemplo 1, resulta razonable asumir que: µY |x = E (β 0 + β1 ⋅ x * + ε )= E (β 0 + β1 ⋅ x * )+ E (ε ) = β 0 + β1 ⋅ x *
*

E (Y | x ) = µY |x = β 0 + β1 ⋅ x σ = V (β 0 + β1 ⋅ x * + ε )= V (β 0 + β1 ⋅ x * )+ V (ε ) = 0 + σ 2 = σ 2
2
Y |x*

• Dónde:
• Ante la presencia de aleatoriedad, sólo el valor E(Y|x*)=µY|x*: Valor esperado de Y cuando x=x*
esperado de y es una función lineal de x, y en V(Y|x*)=µY|x*:Varianza de Y cuando x=x*
realidad el modelo incluirá un término de error.
y = β 0 + β1 ⋅ x + ε Por tanto: “El valor medio de Y es una función lineal de x,
• Con: ε : N (0, σ ) 2 y la recta de regresión de la función es la línea que une los
valores medios de Y”.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 9 Estadística Aplicada 2. Tema 2. Análisis de Regresión 10

Ejemplo 2 Ejemplo 2. Solución


• Supongamos que la relación entre esfuerzo a) El modelo indica que el tiempo hasta fallo
aplicado x, y tiempo hasta fallo y está descrito tiene una distribución normal con y=65-1,2x*
por un modelo de regresión cuya recta de y desviación estándar 8.
regresión verdadera es: y=65-1,2x con σ=8. 1. Determinamos valor medio:
a) ¿Cuál es la probabilidad de que el tiempo µY |20 = 65 − 1,2 ⋅ 20 = 41
hasta fallo sea mayor a 50 cuando el esfuerzo x−µ
2. Usando la ley normal estándar Z = :
aplicado es de 20? ¿Y si fuera de 25? σ
 50 − 41  9
b) Sean Y1 y Y2 dos tiempos hasta fallo P (Y > 50 | x = 20 ) = P  Z >  = 1− Φ   = 0,1303
observados de manera independiente, donde  8   8
se aplicó un esfuerzo de x=25 y x=24 kg. Para µY|25=35 y P(Y>50|x=25)=0,0304
¿Cuál es la probabilidad que Y1>Y2?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 11 Estadística Aplicada 2. Tema 2. Análisis de Regresión 12
Representación gráfica de la solución Ejemplo 2. Solución
P(Y>50|x=20)=0,1303
b) Y1-Y2 tiene una distribución normal con:
P(Y>50|x=25)=0,0304 – Valor medio E(Y1-Y2)=β1∆x= -1,2(25-24)= -1,2
– Varianza V(Y1-Y2)=V(Y1)+V(Y2)=σ2+σ2=128; por lo
que la desviación estándar es 11,314

Recta de Regresión
y=65-1,2x Por tanto:

 0 − (−1,2) 
P (Y1 − Y2 > 0 ) = P  Z >  = P (Z > 0,11) = 0, 4562
 11, 314 

Estadística Aplicada 2. Tema 2. Análisis de Regresión 13 Estadística Aplicada 2. Tema 2. Análisis de Regresión 14

Ejemplo 3 Gráfico de Dispersión


• Un artículo científico reporta la relación entre
esfuerzo aplicado el Kg/mm2 (variable
independiente) y el tiempo hasta la fractura en
horas, de un tipo de acero inoxidable (variable
dependiente).
i 1 2 3 4 5 6 7 8 9 10
Kg/mm2 2,5 5 10 15 17,5 20 25 30 35 40
hrs. 63 58 55 61 62 37 38 45 46 19

a) Realice un gráfico de dispersión de los datos


b) ¿Qué podemos observar en la gráfica?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 15 Estadística Aplicada 2. Tema 2. Análisis de Regresión 16

Gráfico de Dispersión con Recta Ejemplo 3. Conclusiones


• Los datos y los gráficos parecen apoyar la
hipótesis que un aumento de esfuerzo reduce
las horas antes de fractura.
• El gráfico también muestra que hay
observaciones muy influyentes en el cálculo de
la recta de regresión (en este caso, la última
observación, ya que su eliminación modifica la
recta de regresión a y=63,037-0,6369x).
– Este tipo de comportamiento puede ser
problemático y por tanto se tratará, junto a otros,
posteriormente.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 17 Estadística Aplicada 2. Tema 2. Análisis de Regresión 18
Estimador por Mínimos Cuadrados
• El estimador utilizado para determinar los
Tema 2. Parte 2 parámetros β0 y β1 consiste en intentar
minimizar las desviaciones entre los puntos y
la recta.
• Estas desviaciones se elevan al cuadrado para:
Residuos y el método de los
– Transformar todas las desviaciones en positivas
mínimos cuadrados – Penalizar más desviaciones importantes que
múltiples desviaciones pequeñas.
• El método se debe a Gauss (o Legendre) que lo
diseñó para describir órbitas celestes.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 19 Estadística Aplicada 2. Tema 2. Análisis de Regresión 20

Funcionamiento mínimos cuadrados Recta de regresión estimada


• La desviación entre un punto (xi,yi) y la recta • Los valores ββ̂00 y β̂β11 obtenidos minimizando la
de tendencia es: función son estimadores puntuales de β0 y β1,
punto − recta = yi − (b0 + b1 x1 ) que son los parámetros verdaderos de la recta
• Si elevamos las desviaciones al cuadrado y las de regresión.
sumamos: • La recta de regresión estimada o recta de
f (b0 ,b1 ) = ∑ i=1  yi − (b0 + b1 xi )
n 2
mínimos cuadrados es:
• El objetivo será encontrar los valores b0 y b1 y = β̂ 0 + β̂1 x
que minimicen la función anterior. • Obviamente, la obtención de los estimadores
no implica que el modelo sea el correcto
(primero debe analizarse la recta de dispersión)
Estadística Aplicada 2. Tema 2. Análisis de Regresión 21 Estadística Aplicada 2. Tema 2. Análisis de Regresión 22

Determinación de los parámetros Nomenclatura


• Aplicando derivadas parciales e igualando a 0 • Dependiendo de la fuente y la lengua de origen
se obtienen los siguientes estadísticos: del material, nos encontramos antes diversas
nomenclaturas para indicar el mismo concepto:

b1 = β̂ =
∑ (x − x )(y − y ) = n∑ x y − ∑ x ⋅ ∑ y
∀i i i ∀i i i ∀i i ∀i i Sxx = ∑ i=1 (xi − x ) = ∑ i=1 xi2 −
n 2
(∑ x ) n n n
i=1 i

∑ (x − x ) n∑ x − (∑ x )
(y − y ) = ∑ y − (∑ y ) n
1 2 2
2
Syy = ∑ i=1
∀i i i i n 2 n 2 n
∀i ∀i
i i=1 i i=1 i

∑ y − β̂ ∑ x = ∑ y − β̂ ∑ x = y − β̂ x
= β̂ = Sxy = ∑ i=1 (x − x )(y − y ) = ∑ x y − (∑ x )(∑ y ) n
∀i i 1 ∀i i ∀i i ∀i i n n n n
b0 0 1 1 i i
n n n i=1 i i i=1 i i=1 i

• Para evitar posibles errores de redondeo es • Entonces:


conveniente precalcular todos los sumatorios. β̂1 = Sxy Sxx β̂ 0 = y − β̂1 x
Estadística Aplicada 2. Tema 2. Análisis de Regresión 23 Estadística Aplicada 2. Tema 2. Análisis de Regresión 24
Ejemplo 4 Ejemplo 4
• El grabado con plasma es esencial para la • Determine una función de relación entre la
transferencia de figuras de líneas finas en los variable dependiente e independiente
actuales procesos de fabricación de • Inicialmente haremos un gráfico de dispersión
semiconductores.
• Las observaciones son x, flujo de cloro en el Sí que parece que existe
SCCM en una boquilla del mecanismo de una relación lineal entre
grabado, y la rapidez de grabado y. ambas variables.
Se procede al cálculo de
x 1,5 1,5 2 2,5 2,5 3 3,5 3,5 4 los parámetros de
y 23 24,5 25 30 33,5 40 40,5 47 49 regresión.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 25 Estadística Aplicada 2. Tema 2. Análisis de Regresión 26

Ejemplo 4 Ejemplo 4
• Se resuelven los cálculos indicados: • Con lo cual, se obtiene:
n∑ ∀i xi yi − ∑ ∀i xi ⋅ ∑ ∀i yi 9 ⋅ 902,25 − 24,0 ⋅ 312,5
β̂1 = = = 10,602564
(∑ x ) 9 ⋅ 70,50 − (24,0 )
2 2
n∑ ∀i xi − 2
∀i i

β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
=
312,5 − 10,602564 ⋅ 24,00
= 6, 448718
n 9
• Y la ecuación estimada es:
y = 6, 448718 + 10,602564x ≈ 6, 45 + 10,6x

Estadística Aplicada 2. Tema 2. Análisis de Regresión 27 Estadística Aplicada 2. Tema 2. Análisis de Regresión 28

Ejemplo 5 Ejemplo 5
• De los datos del ejemplo 3 (Esfuerzo aplicado • La ecuación de la recta de regresión estimada
respecto al tiempo hasta fractura) se verifica es:
que n=10 y: y = 66, 42 − 0,901x
∑ ∀i
xi = 200 ∑ ∀i
xi = 5412,5
2

• Así, el esfuerzo esperado hasta ruptura cuando


∑ ∀i
xi yi = 8407,5 se aplica un esfuerzo de x=22,5 kg/mm2, se
∑ ∀i
yi = 484 ∑ ∀i
yi 2 = 25238 estima en:
• Por tanto, los estimadores de mínimos
y = 66, 42 − 0,901⋅ 22,5 = 46,1
cuadrados ofrecen las siguientes estimaciones:
10 ⋅ 8407,5 − 200 ⋅ 484
• Por tanto:
β̂1 = = −0,900885
10 ⋅ 5412,5 − 200 2 µ̂Y |x =22,5 = 46,1
*

484 − (−0,900885 )200


β̂ 0 = = 66, 417699
Estadística Aplicada 2. Tema 2. Análisis de Regresión 10 29 Estadística Aplicada 2. Tema 2. Análisis de Regresión 30
Suma de errores cuadrados (SSE) Cálculo de SSE
SSE = ∑ ∀i (yi − ŷi ) = ∑ ∀i  yi − β̂ 0 + β̂1 xi ( )
2 2
• Para estimar la varianza del modelo de
 
regresión lineal se utilizan las sumas de los • Alternativamente:
errores cuadrados (Squared Sum of Errors).
SSE = ∑ ∀i yi2 − β̂ 0 ∑ ∀i yi − β̂1 ∑ ∀i xi yi
• La nomenclatura de error es un tanto engañosa, • A partir de SSE se obtiene el estimador de la
por lo que en muchas ocasiones se prefiere varianza:
utilizar el término de residuos (entendiendo
∑ (y − ŷ )
2
SSE
σ̂ = s = = ∀i i i
por residuo la parte que no explica la regresión 2 2

lineal). n−2 n−2


• Esta suma de errores se define como el • Citar que se han perdido dos grados de libertad
cuadrado de las diferencias entre el valor al estimar dos parámetros en la regresión.
observado y el aportado por la regresión.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 31 Estadística Aplicada 2. Tema 2. Análisis de Regresión 32

Ejemplo 6 Ejemplo 6 Gráfico de Dispersión


• Una investigación de la relación entre el flujo
de tránsito x (miles de automóviles por 24 hrs),
y el contenido de plomo y de la corteza de los
árboles cerca de la autopista (µg/g de peso en
seco), arrojó los siguientes datos.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 33 Estadística Aplicada 2. Tema 2. Análisis de Regresión 34

Ejemplo 6. Regresión Ejemplo 6. Errores

SSE = 3654,69 + ...+ 3623,08 = 76493,98

y = −12,84 + 36,18 ⋅ x σ̂ =
SSE
= 92,19
Estadística Aplicada 2. Tema 2. Análisis de Regresión 35
n−2
Estadística Aplicada 2. Tema 2. Análisis de Regresión 36
Ejemplo 7 Ejemplo 7. Datos
• En un artículo se describe un estudio para investigar
cómo la propagación de una onda de esfuerzo
ultrasónico que pasa por una sustancia depende de n = 14
las propiedades de la sustancia. −2183,80
β̂1 = = −0,0147109
148448
• Los datos asocian la resistencia a la fractura (x, β̂1 = 3,6209072
como porcentaje de la resistencia máxima a la
tracción) y la atenuación (y, en neper/cm, la
disminución de la amplitud de la onda de esfuerzo).
• Calcule la recta de regresión y estime la desviación
estándar de las predicciones.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 37 Estadística Aplicada 2. Tema 2. Análisis de Regresión 38

Ejemplo 7. Gráfico de Dispersión Ejemplo 7. Cálculo SSE


• Partiendo de la segunda fórmula de cálculo del
SSE:
SSE = ∑ ∀i yi2 − β̂ 0 ∑ ∀i yi − β̂1 ∑ ∀i xi yi =
103,54 − 3,6209072 ⋅ 37,6 − (−0,0147109 )⋅ 2234, 3 =
0,2624532
• Así que:

s 2 = 0,2624532 14 − 2 = 0,0218711 y s = 0,1479

• Como siempre cuidado con redondeos


SSE = 103,54 − 3,621⋅ 37,6 − (−0,015 )2234, 3 = 0,905
Estadística Aplicada 2. Tema 2. Análisis de Regresión 39 Estadística Aplicada 2. Tema 2. Análisis de Regresión 40

Coeficiente de determinación Coeficientes de determinación


• Medida que permitirá identificar qué parte de • Por definición debe cumplirse que: SSE < SST
la variación total de la variable de respuesta • Por tanto:
puede ser explicada por el modelo de • SSE/SST es la proporción de la variación total
regresión. de la variable de respuesta que NO puede ser
• Primero determinamos la suma total de explicada por el modelo.
cuadrados que identifica la variación total de la • 1-SSE/SST es la proporción de la variación
variable de respuesta: total de la variable de respuesta que queda
SST = ∑ ∀i (yi − y ) = ∑ ∀i yi 2 − (∑ y )
2 2
i n explicada por el modelo.
∀i
• Por último, se define el coeficiente de
determinación como: r 2 = 1− SSE
Estadística Aplicada 2. Tema 2. Análisis de Regresión 41 Estadística Aplicada 2. Tema 2. Análisis de Regresión
SST 42
Coeficientes de determinación Nomenclatura
• Un valor de r2 pequeño hace necesaria la • Dependiendo de la fuente y la lengua de origen
búsqueda de otros modelos explicativos. del material, nos encontramos antes diversas
• Otra forma de obtener r2 es: nomenclaturas para indicar el mismo concepto:
SSE SST − SSE SSR SSR=SCR (Suma del cuadrado de regresión)
r 2 = 1− = =
(
SSR = ∑ ∀i ŷi − ŷi )
2
SST SST SST
• Donde SSR es la Suma de Cuadrados de SSE=SCE (Suma de cuadrados de error)
SSE = ∑ ∀i (yi − ŷi ) = ∑ ∀i  yi − β̂ 0 + β̂1 xi  ( )
2 2
Regresión y representa la variación explicada
 
por el modelo de regresión. SST=STC (Suma total de cuadrados)
SSR = SST − SSE SST = Syy = ∑ ∀i (yi − y ) = ∑ ∀i yi 2 − (∑ y )
2 2

∀i i n
Estadística Aplicada 2. Tema 2. Análisis de Regresión 43 Estadística Aplicada 2. Tema 2. Análisis de Regresión 44

Ejemplo 8 Resultados por Minitab


La ecuación de regresión es
• En el ejemplo 7 se calculó que SSE era igual a
Atenuación = 3,62 - 0,0147 Resistencia
0,2624532. Estime la calidad del ajuste por
parte del modelo seleccionado. Predictor Coef SE Coef T P

(∑ y )
Constante 3,62091 0,09949 36,39 0,000
2
SST = ∑ ∀i yi 2 − ∀i i n = 103,54 − 37,6 2 14 = 2,5571 Resistencia -0,014711 0,001436 -10,24 0,000

S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%


• Por tanto: Análisis de varianza
SSE 0,2624532
r 2 = 1− = = 0,897
Fuente GL SC MC F P
Regresión 1 2,2947 2,2947 104,92 0,000
SST 2,5571
Error residual 12 0,2625 0,0219
Total 13 2,5571
• El modelo explica un 89,7% de la variación de
la variable.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 45 Estadística Aplicada 2. Tema 2. Análisis de Regresión 46

Resultados por Minitab Resultados por Minitab


La ecuación de regresión es 0 β La ecuación de regresión es 1 β
Atenuación = 3,62 - 0,0147 Resistencia Atenuación = 3,62 - 0,0147 Resistencia

Predictor Coef SE Coef T P Predictor Coef SE Coef T P


Constante 3,62091 0,09949 36,39 0,000 Constante 3,62091 0,09949 36,39 0,000
Resistencia -0,014711 0,001436 -10,24 0,000 Resistencia -0,014711 0,001436 -10,24 0,000

S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9% S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%
Análisis de varianza Análisis de varianza
Fuente GL SC MC F P Fuente GL SC MC F P
Regresión 1 2,2947 2,2947 104,92 0,000 Regresión 1 2,2947 2,2947 104,92 0,000
Error residual 12 0,2625 0,0219 Error residual 12 0,2625 0,0219
Total 13 2,5571 Total 13 2,5571

Estadística Aplicada 2. Tema 2. Análisis de Regresión 47 Estadística Aplicada 2. Tema 2. Análisis de Regresión 48
Resultados por Minitab Resultados por Minitab
La ecuación de regresión es La ecuación de regresión es
Atenuación = 3,62 - 0,0147 Resistencia r2 Atenuación = 3,62 - 0,0147 Resistencia
S
Predictor Coef SE Coef T P Predictor Coef SE Coef T P
Constante 3,62091 0,09949 36,39 0,000 Constante 3,62091 0,09949 36,39 0,000
Resistencia -0,014711 0,001436 -10,24 0,000 Resistencia -0,014711 0,001436 -10,24 0,000

S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9% S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%
Análisis de varianza Análisis de varianza
Fuente GL SC MC F P Fuente GL SC MC F P SSR
Regresión 1 2,2947 2,2947 104,92 0,000 Regresión 1 2,2947 2,2947 104,92 0,000
Error residual 12 0,2625 0,0219
Total 13 2,5571
Error residual 12 0,2625 0,0219
Total 13 2,5571
SSE
SST
Estadística Aplicada 2. Tema 2. Análisis de Regresión 49 Estadística Aplicada 2. Tema 2. Análisis de Regresión 50

Resultados por Minitab Tabla ANOVA


La ecuación de regresión es
• El estadístico f permite determinar si la
Atenuación = 3,62 - 0,0147 Resistencia
regresión es significativa o no.
Predictor Coef SE Coef T P
Constante 3,62091 ANOVA
0,0994936,39 0,000
Resistencia -0,014711 0,001436 -10,24 0,000

S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%


Análisis de varianza • Es una prueba de cola superior, cuya región de
Fuente GL SC MC F P
Regresión 1 2,2947 2,2947 104,92 0,000
rechazo es de la forma:
Es un test estadístico denominado prueba F
f ≥ Fα ,1,n−2
Error residual 12 0,2625 0,0219
que se rige por la distribución F de Fisher
Total 13 2,5571
para comparar dos poblaciones de medias
diferentes y misma desviación estándar.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 51 Estadística Aplicada 2. Tema 2. Análisis de Regresión 52

Test F para análisis de regresión Ejemplo 9


• Las poblaciones comparadas son las estimadas • A continuación se muestra la tabla ANOVA de
por el tratamiento (la recta de regresión) y el un análisis de regresión.
error.

• Se desea verificar si la regresión es


significativa con α=0,05. (Excel: función
E (MSE ) = σ 2 DISTR.F.INV()) F0,05;1;9 = 5,12 66,63 ≥ 5,12
• Se rechaza H0, las diferencias son
significativas.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 53 Estadística Aplicada 2. Tema 2. Análisis de Regresión 54
Inferencias sobre β1
• La varianza de β̂β11 queda definida por la
Tema 2. Parte 3 siguiente fórmula (no se demostrará).
V β̂1 = σ β̂2 = ()σ2
(∑ x )
2
1
∑ ∀i
xi2 − ∀i i n
Inferencias sobre parámetros • La varianza de la estimación puede usarse
del modelo como estimación de la varianza del parámetro.
• El estimador es una función lineal de V.A.
normales e independientes, véase el concepto
de residuos, por lo que el estimador (ββ̂1)
1
también tiene una distribución normal.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 55 Estadística Aplicada 2. Tema 2. Análisis de Regresión 56

Inferencias sobre β1 Ejemplo 10


• Estandarizando la distribución del estimador: • Se han utilizado agentes de enlace de Silano en
β̂1 − β1 β̂1 − β1 Distribución T con n-2 grados la industrial del caucho para mejorar la
T= = de libertad operación de rellenos compuestos de caucho.
S Sxx Sβ̂
1
Excel: DISTR.T.INV(α/2;n-2) Los datos siguientes representan y: coeficiente
Donde : a la tensión (en MPa) y x: contenido de caucho
Sxx = ∑ ∀i (xi − x ) = ∑ ∀i xi 2 − (∑ x )
2
2
n del enlace (%).
∀i i
• Estimar el modelo de regresión y encontrar un
• Intervalo de confianza para β1: intervalo de confianza del 95% para el
verdadero cambio esperado en el coeficiente a
β̂1 ± tα /2,n−2 Sβ̂ la tensión cuando el contenido de caucho
1

aumenta un 1%.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 57 Estadística Aplicada 2. Tema 2. Análisis de Regresión 58

Ejemplo 10.Datos y Gráfico Ejemplo 10. Parámetros


Cálculos Iniciales
n = 11;∑ ∀i xi = 292,9; ∑ ∀i xi 2 = 8141, 75;

∑ ∀i
yi = 69,03; ∑ ∀i yi 2 = 442,1903;∑ ∀i xi yi = 1890,2

(∑ x )(∑ y )= 573, 313 = 0,152119


Parámetros de regresión
n∑ ∀i xi yi −
β̂1 = ∀i i ∀i i

n∑ x − (∑ x )
2
3768,84
2
∀i i ∀i i

β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
= 2,224940
n

Estadística Aplicada 2. Tema 2. Análisis de Regresión 59 Estadística Aplicada 2. Tema 2. Análisis de Regresión 60
Ejemplo 10. Cálculo de cuadrados Ejemplo 10. Intervalo de confianza
Suma de cuadrados y r2
(∑ y ) • A partir de los cálculos anteriores, podemos
2
SST = ∑ ∀i y − 2
i ∀i i n = 8,995673
determinar la desviación estándar:
SSE = ∑ ∀i yi2 − β̂ 0 ∑ ∀i yi − β̂1 ∑ ∀i xi yi = 1,067358 s 2 = SSE / (n − 2 ) = 0,119595 ⇒ s = 0,119595 ; 0, 3444
r 2 = 1− SSE SST = 0,881 s
sβ̂ = = 0,0186
(∑ x )
2

1
• Tanto r2 como la gráfica de dispersión apoyan
∀i
x −2
i ∀i i n
la teoría de que el modelo de relación entre • Y el intervalo de confianza queda definido:
ambas variables es lineal y que los parámetros ICβ̂ = 0,152 ± 2,262 ⋅ 0,0186 = (0,110;0,194)
estimados son de calidad. 1

• Por tanto, tenemos un alto grado de confianza


• Consultamos valor t-student con α=0,05 y 9 gl.
que el verdadero valor de β1 esté entre 0,110 y
tα /2;n−2 = t 0,025;9 = 2,262
0,194.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 61 Estadística Aplicada 2. Tema 2. Análisis de Regresión 62

Prueba de hipótesis sobre β1 Ejemplo 11.


• H0: β1=β10 Estadístico: t = β̂1 − β10 • La limpieza del aluminio fundido metálico o
sβ̂ en aleación antes de hacer una pieza fundida
1

• Si β1,0=0, la prueba se conoce como la prueba está determinado por el contenido de


de significancia de la regresión o de utilidad hidrógeno e inclusiones de metal. En un
del modelo. estudio se relacionó x, fracción de volumen de
óxidos/inclusiones, con y, (%) de alargamiento
de las barras de prueba.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 63 Estadística Aplicada 2. Tema 2. Análisis de Regresión 64

Ejemplo 11. Gráfico de dispersión Ejemplo 11. Resultados


La ecuación de regresión es
y = 1,07 - 0,649 x 1 β̂1 t β̂ s
Predictor Coef SE Coef T P
Constante 1,06930 0,04966 21,53 0,000
x -0,64884 0,05840 -11,11 0,000
S = 0,104907 R-cuad. = 87,3% R-cuad.(ajustado) = 86,6%
Análisis de varianza
Fuente GL SC MC F P
Regresión 1 1,3583 1,3583 123,42 0,000
Error residual 18 0,1981 0,0110
Total 19 1,5564

• Nota: Se ha eliminado una parte de los resultados


asociados a medidas anómalas.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 65 Estadística Aplicada 2. Tema 2. Análisis de Regresión 66
Ejemplo 11. Resultados Inferencia respecto a respuesta media
• Obtenemos valor t mediante la calculadora de • Disponemos de un estimador insesgado de la
Minitab respuesta Y cuando el predictor es x*.
Yˆ = β̂ 0 + β̂1 x *
• Además sabemos que se comporta según una
ley normal (es un estimador asistóticamente
• Comprobamos H0 (β1=0). Se rechaza si: normal) con parámetros:
t ≥ tα /2;n−2 ∨ t ≤ 0 − tα /2;n−2
ˆ( )
E Y | x * = µYˆ |x = β̂ 0 + β̂1 x * *

t = −11,11; t 0,05;18 =1, 73406; t = 2,10092 


( )  Donde σ2 puede
2
*

() 1 n x x
V Yˆ = σ  + 2  reemplazarse por su
• H0 es rechazada y aceptamos que el modelo es n n
( )  estimador
2

útil.  ∑ ∀i xi2 − ∑ ∀i xi 
Estadística Aplicada 2. Tema 2. Análisis de Regresión 67 Estadística Aplicada 2. Tema 2. Análisis de Regresión 68

IC de la respuesta media Nota


• Se puede construir un intervalo de confianza • Al contrario que otros intervalos de confianza
para la respuesta basándose en la distribución vistos en Estadística Aplicada 1 o Estadística
normal estandarizada: Aplicada 2, el intervalo para la respuesta
Yˆ − (β 0 + β1 x * ) Sigue una media de Y depende del valor de x*, y éste
T= distribución t con crece se distancia del valor medio de x de la
 n (x * − x )  n-2 grados de
2
2 1  libertad muestra.
σ +
n n
( ) 
2

 ∑ ∀i xi2 − ∑ ∀i xi 
• En una transparencia posterior se mostrará un
gráfico del efecto observado de esta variación.
• Y el intervalo corresponde a:
 n (x * − x ) 
2
1
β̂ 0 + β̂1 x * ± tα /2;n−2 σ̂ 2  + 
n
(∑ x ) 
2
n∑ ∀i xi2 −
Estadística Aplicada 2. Tema 2. Análisis de Regresión
 ∀i i  69 Estadística Aplicada 2. Tema 2. Análisis de Regresión 70

Ejemplo 12. Ejemplo 12.


• Partiendo de los datos:
• Se utiliza una máquina para la fabricación de
toallas de papel de alta calidad. Se recolectaron
los siguientes datos acerca de la velocidad x de
la máquina (en m/min) y la temperatura y de la
campana secadora (oC).
n (x * − x )
2
1
Sβ̂ =s + =
0 + β̂1x
(∑ x )
* 2
n n
∑ ∀i
x −
2
i ∀i i

7 (1.200 − 8750 7 )
2
1
• Obtener un intervalo de confianza del 99% 23,15 +
7 7 ⋅11.112.500 − 8.750 2
= 9,17761251

para el verdadero promedio de temperatura de El valor crítico es, t es: t0,005;5=4,032 por lo que:
la campana cuando la velocidad es 1200
ICµ = −361, 428571+ 0,5914 ⋅1200 ± 9,17761⋅ 4, 032
m/min
Estadística Aplicada 2. Tema 2. Análisis de Regresión 71
Y |x*
Estadística Aplicada 2. Tema 2. Análisis de Regresión 72
IC para un valor pronosticado (IP) IC para un valor pronosticado (IP)
• Cuando x=x*, el estimador corresponde a: • De nuevo estandarizamos la distribución de
error:
Yˆ0 = β̂ 0 + β̂1 x * Sigue una
• El error de pronóstico es, por tanto, Yˆ − Yˆ0 Yˆ − Yˆ0
T= distribución t con n-

( )  2 grados de libertad
2
• La distribución del error de predicción cumple 1 n x *
− x
σ̂ 1+ +
2 
una ley normal con los siguientes parámetros:  n n
( ) 
2
∑ ∀i xi2 − ∑ ∀i xi
(
E Yˆ − Yˆ0 = 0 )  
• Y el intervalo de confianza queda definido por:
 n (x * − x ) 
2

(  1
V Yˆ − Yˆ0 = σ 1+ +
2
)   n (x * − x )
2 
 n n
( )  2 1 
2
∑ ∀i xi2 − ∑ ∀i xi Y0 ± tα /2;n−2 σ̂ 1+ +
ˆ
   n n
( ) 
2

 ∑ ∀i xi2 − ∑ ∀i xi 
Estadística Aplicada 2. Tema 2. Análisis de Regresión 73 Estadística Aplicada 2. Tema 2. Análisis de Regresión 74

Representación de intervalos Ejemplo 13


• Cuadrados: Observaciones • Un artículo reporta la determinación de
• Azul: Recta Regresión contenido de plata en cristales de galena en un
• Rojo: Intervalo de Confianza sistema hidrotérmico cerrado sobre un
intervalo de temperatura. Los datos son: x,
• Lila: Intervalo de Predicción temperatura de cristalización; y: Ag2S en mol
%.

• Obtenga un IP del 95% para el % en mol


cuando la temperatura de cristalización es de
Estadística Aplicada 2. Tema 2. Análisis de Regresión 75
500oC.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 76

Ejemplo 13 Ejemplo 13
• Cálculos iniciales: • Otros cálculos:
n = 13; ∑ ∀i xi = 6124; ∑ ∀i yi = 4, 73; ∑ ∀i x = 3017310; s = SSE / (n − 2 ) = 0,131 x = 471,07
2
i

∑ ∀i yi2 = 2,1785; ∑ ∀i xi yi = 2417,84 • El intervalo de confianza es el siguiente:


• Recta de regresión:
IP = −0, 311+ 0,00143⋅ 500 ±
(∑ x )(∑ y )= 0,001432
n∑ ∀i xi yi −
β̂1 = 13(500 − 471,07 )
∀i i ∀i i

n∑ x − (∑ x )
2 1
+ =
2
∀i i ∀i i 2,201⋅ 0,130 1+
13 13⋅ 3017310 − 6124
β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
= −0, 31073367 (0,108;0, 702)
n
Este tipo de cálculo es preferible realizarlo en MINITAB. A
continuación se muestra el mismo cálculo
Estadística Aplicada 2. Tema 2. Análisis de Regresión 77 Estadística Aplicada 2. Tema 2. Análisis de Regresión 78
Ejemplo 13. Minitab
La ecuación de regresión es y = - 0,311 + 0,00143 x

Predictor Coef SE Coef T P Tema 2. Parte 4a


Constante -0,3107 0,1721 -1,81 0,098
x 0,0014320 0,0003573 4,01 0,002

S = 0,130012 R-cuad. = 59,4% R-cuad.(ajustado) = 55,7%

Análisis de varianza
Regresión por el origen
Fuente GL SC MC F P
Regresión 1 0,27157 0,27157 16,07 0,002
Error residual 11 0,18594 0,01690
Total 12 0,45751
Valores pronosticados para nuevas observaciones
EE de
Nueva obs Ajuste ajuste IC de 95% IP de 95%
1 0,4053 0,0375 (0,3227; 0,4878) (0,1074; 0,7031)

Estadística Aplicada 2. Tema 2. Análisis de Regresión 79 Estadística Aplicada 2. Tema 2. Análisis de Regresión 80

Regresión por el origen Regresión por el origen


• En ocasiones una recta que pase por el origen
• El citado estimador es insesgado para β1 y el
parece la forma correcta de modelizar una
modelo de regresión es.
regresión.
ŷ = β̂1 x
• Un ejemplo sería el número de unidades
elaboradas en una fábrica dependiendo de las • El estimador de σ2 es:
∑ (y − ŷ ) = ∑ yi2 −β̂1 ∑ ∀i xi yi
2
horas/hombre contratadas (con 0 horas se σ 2
= MSE = ∀i i i ∀i

fabrican 0 unidades). n −1 n −1
• La ecuación de regresión sería: y = β̂1 x + ε con n-1 grados de libertad
• y el estimador por mínimos cuadrados: • Igual que en el modelo general, la hipótesis de
β̂1 =
∑ ∀i
yi xi normalidad permite probar hipótesis y generar

Estadística Aplicada 2. Tema 2. Análisis de Regresión


∑ ∀i
xi 2
81
intervalos de confianza.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 82

Intervalos de confianza Tabla ANOVA


• Intervalo de confianza para β1: • Dispuesta de la misma forma que en el caso
MSE MSE general.
β̂1 − tα /2,n−1 ≤ β ≤ β̂ + t
∑ ∀i xi2 1 1 α /2,n−1 ∑ ∀i xi2 • Únicamente pueden apreciarse cambios en el
• Intervalo de confianza para la respuesta media: número de grados de libertad de cada fuente de
variación.
xo2 xo2
µ̂Y |x − tα /2;n−1 ≤ µY |x0 ≤ µ̂Y |x0 + tα /2;n−1
0
∑ ∀i
xi2 ∑ ∀i
xi2
• Intervalo de confianza para un pronóstico:
 x02   x02 
Yˆ0 − tα /2,n−1 MSE ⋅  1+ 2
≤ Y0 ≤ Yˆ0 + tα /2,n−1 MSE ⋅  1+ 2
 ∑ ∀i xi   ∑ ∀i xi 

Estadística Aplicada 2. Tema 2. Análisis de Regresión 83 Estadística Aplicada 2. Tema 2. Análisis de Regresión 84
Errores comunes Errores comunes
• Un modelo de regresión lineal sin intercepto • El siguiente modelo parece más adecuado para
puede llevar a malas interpretaciones, describir el comportamiento en el intervalo
sobretodo cuando los datos están alejados del 100≤oF≤200:
origen.
El ajuste podría ser deficiente
en otras escalas de
El ajuste entre el rendimiento temperatura pero el error
del proceso y la temperatura parece menor en el intervalo
podría comportarse tal como de interés:
se muestra en el gráfico:

Estadística Aplicada 2. Tema 2. Análisis de Regresión 85 Estadística Aplicada 2. Tema 2. Análisis de Regresión 86

Errores comunes Comparación de modelos


• En realidad es frecuente que el • El cálculo del coeficiente de determinación r2
comportamiento no sea lineal o que varíe para modelos sin intercepto no se aconseja
según el intervalo de datos estudiado. como método para escoger entre modelos
alternativos (p.ej. comparar modelo con y sin
Este ajuste (que podría ser intercepto).
cuadrático o no lineal) parece • Se aconseja comparar según MSE=s2 y
describir mejor la relación verificar si se rechaza la hipótesis nula del
esperada:
modelo.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 87 Estadística Aplicada 2. Tema 2. Análisis de Regresión 88

Ejemplo 14 Ejemplo 14. Gráfico de Dispersión


• El tiempo necesario para que un trabajador • Parece lógico optar por un modelo en que la
reponga de producto una vitrina en una tienda , recta pase por el origen.
variable y, y las cajas que deben reponer,
variable x, se muestra en la tabla siguiente:

• Determine si es mejor un modelo con o sin


intercepto para describir el tiempo que requiere
el trabajador.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 89 Estadística Aplicada 2. Tema 2. Análisis de Regresión 90
Ejemplo 14. Regresión con Intercepto Ejemplo 14. Regresión sin Intercepto
• La regresión nos provee del siguiente modelo: • El modelo sin ordenada es:
ŷ = −0,094 + 0, 407x ŷ = 0, 403x
• El estadístico t para probar H0 es -0,65 (valor p • En este caso MSE es 0,09 y el estadístico para
0,525) por lo que no se rechaza H0. Además, comprobar la hipótesis β1=0 es 91,13 (p valor
un modelo sin intercepto podría producir un 0,000) por lo que se descarta la hipótesis nula.
ajuste más realista. • Por tanto, parece que esta recta de regresión
• También se puede obtener que: explica mejor la relación que la anterior.
– s2=0,09 (error residual del modelo)
– r2=99,5%

Estadística Aplicada 2. Tema 2. Análisis de Regresión 91 Estadística Aplicada 2. Tema 2. Análisis de Regresión 92

Coeficiente de Correlación Muestral


r=
∑ (x − x )(y − y )
∀i i i
=
(∑ x )(∑ y )
n∑ ∀i xi yi − ∀i i ∀i i

Tema 2. Parte 4b ∑ (x − x ) ∑ (y − y ) − (∑ x ) n∑ y − (∑ y )
2 2 2 2
∀i i ∀i i n∑ ∀i x
2
i ∀i i ∀i
2
i ∀i i

• Propiedades:
• Independiente de las unidades de medición
• No depende de qué variable es dependiente o independiente
Coeficiente de Correlación • El rango de valores está comprendido entre -1 y 1
• Si r=1 los pares pertenecen a una recta con pendiente positiva
Si r=-1 los pares pertenecen a una recta con pendiente negativa
• El cuadrado de r es el coeficiente de determinación del modelo de
regresión ajustado.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 93 Estadística Aplicada 2. Tema 2. Análisis de Regresión 94

Inferencias sobre correlación Regiones de rechazo


• r es un estimador puntual del coeficiente de
correlación entre dos poblaciones ρ.
• Bajo el supuesto que los pares en estudio
proceden de una distribución Normal
Bivariada, se puede realizar una prueba sobre
la hipótesis H0: ρ=0. El estadístico es:
r n−2 Cuando H0 es verdadera, el
T= estadístico sigue una distribución t • Nota: Cuando se desea comprobar si ρ=ρ0
1− r 2 con n-2 grados de libertad debe aplicarse una transformación en las
observaciones.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 95 Estadística Aplicada 2. Tema 2. Análisis de Regresión 96
Forma Matricial
• El principio de mínimos cuadrados establece la
Tema 2. Parte 4c minimización de SST respecto a las variables
del modelo.
• En caso de tratar de obtener una recta de
regresión y=β0+β1x, tenemos que estimar dos
Forma matricial de la parámetros por lo que necesitamos dos
regresión lineal ecuaciones:
∂SSE ∂SSE
=0 =0
∂β 0 ∂β1
SSE = ∑ ∀i  yi − (β 0 + β1 xi )
2

Estadística Aplicada 2. Tema 2. Análisis de Regresión 97 Estadística Aplicada 2. Tema 2. Análisis de Regresión 98

Forma Matricial Forma matricial


• Al sistema de ecuaciones :
• Si la recta pasa por el origen y=β1x, sólo
∂SSE ∂SSE ∂SSE
tenemos un parámetro y por tanto sólo =0 =0 =0 ...
necesitamos una ecuación. ∂β 0 ∂β1 ∂β 2
∂SSE se le conoce como “ecuaciones normales”
SSE = ∑ ∀i [yi − β1 xi ]
2
=0
∂β1 • A continuación se describe cómo representar el
• En general, por cada parámetro que tengamos sistema utilizando notación matricial para un
que estimar tendremos una ecuación. La problema con k regresores y n observaciones.
y = Xβ + ε
ecuación corresponde a la derivada parcial de  y1   1 x11 x12 ... x1k   β0   ε1 
       
la función de cuadrados respecto al parámetro. y = 
y2 
X = 
1 x21 x22 ... x2 k 
β = 
β1 
ε = 
ε2 
...  ... ... ... ...  ...  ... 
       
 yn   1 xn1 xn2 ... xnk   βk   εn 
   
Estadística Aplicada 2. Tema 2. Análisis de Regresión 99 Estadística Aplicada 2. Tema 2. Análisis de Regresión 100

Mínimos cuadrados en Forma Matricial Ejemplo, regresión por el origen


• El estimador de mínimos cuadrados es aquél • En este caso, la forma matricial es:
que minimiza:  y1   x1   ε1 
     
ε2 
y = 
y2 
X = 
x2 
β = [β1 ] ε = 
L = ∑ ∀i ε i2 = ε ' ε = (y − X β )' (y − X β ) 
... 
 
... 
 
... 

 yn   xn   εn 

  
∀i
xi2
• Tras derivar la función anterior, se obtienen las
β̂ = (X ' X ) X ' y
−1
siguientes ecuaciones (forma matricial): ∑ ∀i
xi yi

X ' X β̂ = X ' y ⇒ β̂ = (X ' X ) X ' y


−1

β̂1 =
∑ ∀i
xi yi
∑ ∀i
xi2

Estadística Aplicada 2. Tema 2. Análisis de Regresión 101 Estadística Aplicada 2. Tema 2. Análisis de Regresión 102
Ejemplo, regresión lineal Ejemplo, regresión cuadrática
• En este caso, la forma matricial es: • El modelo se generaliza y sirve para
 y1   1 x1   ε1  regresiones más complejas. Por ejemplo un
     β0   
ε2  modelo cuadrático por el origen se representa
y = 
y2 
X = 
x2 
ε = 
1
β= 
...  ... ...   β1  ... 
      como:
 yn   1 xn   εn 
  
2fx2c y = β1 x + β 2 x 2 + ε
2fx1c
β̂ = (X ' X ) X ' y
−1
• Las matrices correspondientes serían:
 y1   x1 x12   ε1 
     
• La primera columna de X corresponde a la  x22   β1  ε2 
y = 
y2 
ε = 
x2
X=  β= 
información de la primera fila de β (β0) ...   ... ...   β 2  ... 
   
 yn   xn xn2 
 εn 
   
• Tras operar la parte derecha de la ecuación
tenemos un vector con 2 filas y 1 columna.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 103 Estadística Aplicada 2. Tema 2. Análisis de Regresión 104

Ejemplo, regresión con varias variables


• Si se tuvieran varias variables explicativas (por
ejemplo x y w): Tema 2. Parte 5
y = β 0 + β1 x + β 2 w + ε
• Las matrices correspondientes serían:
 y1   x1 w1   ε1 
Validación del modelo de
   1   β0   
y = 
y2 
X = 
1 x2 w2  
β =  β1

ε = 
ε2  regresión lineal

...  1 ... ... 
 β  ... 
     
 yn   1 xn wn   2   εn 
  

Estadística Aplicada 2. Tema 2. Análisis de Regresión 105 Estadística Aplicada 2. Tema 2. Análisis de Regresión 106

Residuos Residuos estandarizados


• Para poder validar las hipótesis en las que se • Al estar normalmente distribuidos podemos
ha fundamentado la regresión lineal, debemos transformarlos a una normal estándar.
estudiar sus residuos. yi − ŷi
ei* =
• Los residuos están dados por: 1

(xi − x )
( )
s 1−
ei = yi − β̂ 0 − β̂1 xi n ∑ (xi − x )2
∀i
• Y se deberían distribuir según una ley normal • Un residuo estandarizado de 1,5 indica que es
con los siguientes parámetros: 1,5 desviaciones estándar más grande de lo
E (Yi − Yˆi )= E (Yi )− E (β̂ 0 − β̂1 xi )= β 0 − β1 xi − (β 0 − β1 xi ) = 0 que esperaría.
 1 (xi − x ) 
( )
V Yi − Yˆi = σ 2  1− − 
 n ∑ (xi − x )2 
∀i
Estadística Aplicada 2. Tema 2. Análisis de Regresión 107 Estadística Aplicada 2. Tema 2. Análisis de Regresión 108
Ejemplo 15 Ejemplo 15
• Consideremos un ejemplo con las siguientes • Obtención de residuos:
observaciones:

• Gráfico de dispersión :

Estadística Aplicada 2. Tema 2. Análisis de Regresión 109 Estadística Aplicada 2. Tema 2. Análisis de Regresión 110

Ejemplo 15 Gráficas de Diagnóstico


La ecuación de regresión es: y = - 45,6 + 1,71 x
Predictor Coef SE Coef T P
• Aparte de la propia regresión, conviene
Constante -45,55 25,47 -1,79 0,099 estudiar unas gráficas que permitan evaluar la
x 1,71143 0,09969 17,17 0,000
S = 36,7485 R-cuad. = 96,1% R-cuad.(ajustado) = 95,8%
“bondad” del modelo generado. Las
Análisis de varianza principales son:
Fuente GL SC MC F P
Regresión 1 398030 398030 294,74 0,000 1. ei* (o ei) respecto xi
Error residual 12 16205 1350
Total 13 414236
2. ei* (o ei) respecto xŷii.
ei ei* 3. ŷxii respecto yi
EE de Residuo
Obs x y Ajuste ajuste Residuo estándar 4. Un gráfico de probabilidad normal de los
1 100 150,00 125,59 16,72 24,41 0,75
2 125 140,00 168,38 14,77 -28,38 -0,84
residuos estandarizados
5. ei* (o ei) respecto el tiempo (orden)
Estadística Aplicada 2. Tema 2. Análisis de Regresión 111 Estadística Aplicada 2. Tema 2. Análisis de Regresión 112

ei* respecto xi ei* (o ei) respecto pronóstico

MINITAB. Ajustes (sin estandarizar):

Estadística Aplicada 2. Tema 2. Análisis de Regresión 113 Estadística Aplicada 2. Tema 2. Análisis de Regresión 114
Pronóstico respecto valores observados Gráfico de probabilidad para ei*

Versión MINITAB: Probabilidad Normal:


Estadística Aplicada 2. Tema 2. Análisis de Regresión 115 Estadística Aplicada 2. Tema 2. Análisis de Regresión 116

Autocorrelación Autocorrelación
• Si bien los cuatro primeros gráficos muestran
las características deseadas, el último gráfico
muestra un patrón en los datos que se
denomina autocorrelación.
• La autocorrelación aparece cuando los errores
no son independientes.
• Nota: Minitab también ofrece un histograma
de frecuencia de residuos para identificar
normalidad
Versión MINITAB: Residuos / orden:

Estadística Aplicada 2. Tema 2. Análisis de Regresión 117 Estadística Aplicada 2. Tema 2. Análisis de Regresión 118

Autocorrelación Residuo con autocorrelación negativa


• Existen dos tipos de autocorrelación: • Ejemplo tipico de autocorrelación:
– Positiva: Cuando a un residuo estandarizado
positivo, le acostumbra a seguir uno negativo y
cuando a uno negativo le acostumbra a seguir otro
negativo.
Un caso extremo sería: +++++-----
– Negativa: Cuando a un residuo estandarizado
negativo, le acostumbra a seguir uno positivo y
viceversa. • Puede verse semejanza con:
Un caso extremo sería: +-+-+-+-+-

Estadística Aplicada 2. Tema 2. Análisis de Regresión 119 Estadística Aplicada 2. Tema 2. Análisis de Regresión 120
Detección de la autocorrelación Prueba de Durbin-Watson
• Una secuencia +-++-+-+-- tendría 7 cambios • El estadístico propuesto por Durbin y Watson
de signo. permite detectar procesos autoregresivos de
• Si casi no hay cambios de signo (mucho menos primer orden (aquellos que se comportan
de la mitad de las observaciones), la según):
εt:Término de error del modelo
autocorrelación es probable que sea positiva. ε t = ρε t−1 + at at: Error aleatorio
ρ: Parámetro de autocorrelación (0<ρ<1)
• Si hay muchos cambios de signo (muchos más
de la mitad de las observaciones), la • Así, un modelo lineal con error autoregresivo
autocorrelación es probable que sea negativa. de primer orden sería:
• Si el número de cambios es aproximadamente
yt = β 0 + β1 xt + ρε t −1 + at
la mitad, probablemente no haya
autocorrelación.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 121 Estadística Aplicada 2. Tema 2. Análisis de Regresión 122

Prueba de Durbin-Watson Prueba de Durbin-Watson


• En series de tiempo, la regresión acostumbra a • El estadístico d debe estar entre dos cotas, dL y
ser positiva, por ello la hipótesis nula suele ser: dU, tales que si d sale de los límites se puede
• H0: ρ= 0; Ha: ρ>0. llegar a una conclusión acerca de la hipótesis
• El estadístico de prueba es: nula.
• Las reglas son las siguientes:
∑ (e − e ) – Si d<dL, rechazar H0.
n 2

d= t=2 t−1
dónde et = yt − ŷt – Si d>dU, no rechazar H0.
∑ e
n 2
t=1 t
– Si dL≤d≤dU, la prueba no es concluyente.
• El estadístico en caso de autocorrelación
negativa (Ha: ρ<0) es: 4 − d
Estadística Aplicada 2. Tema 2. Análisis de Regresión 123 Estadística Aplicada 2. Tema 2. Análisis de Regresión 124

Durbin-Watson Soluciones a gráficas anómalas


• Gráficamente, la distribución es: • Las gráficas anteriores acostumbran a mostrar
el siguiente tipo de anomalías:
– Relaciones no lineales
– Varianza que depende de x.
– Presencia de valores atípicos.
– El término de error no cumple una distribución
normal.
– Existe autocorrelación
– Omisión de variables independientes
• Los valores de dL y dU deben consultarse en
tablas.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 125 Estadística Aplicada 2. Tema 2. Análisis de Regresión 126
Relación no lineal Varianza dependiente
• El siguiente gráfico muestra que la relación • El siguiente gráfico muestra la dependencia
entre predictor y respuesta debiera entre el predictor y la respuesta.
considerarse como cuadrática. • Puede estudiarse una transformación de la
variable predictora.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 127 Estadística Aplicada 2. Tema 2. Análisis de Regresión 128

Valores atípicos Omisión de variables


• Conocidos como “outlaiers” deben analizarse • Si los errores muestran una dependencia a una
las causas, eliminarse si son causa de variable no considerada, puede afirmarse que
anomalías o integrarse en el modelo si se incluir la variable en el modelo mejorará la
deben a algún tipo de fenómeno explicable calidad de la regresión

Estadística Aplicada 2. Tema 2. Análisis de Regresión 129 Estadística Aplicada 2. Tema 2. Análisis de Regresión 130

Regresión polinomial
• La ecuación del modelo lineal de k-ésimo
Tema 2. Parte 6 grado es:
Y = β 0 + β1 x + β 2 x 2 + ...+ β k x k + ε Con: ε : N (0, σ 2 )
• Las estimaciones de mínimos cuadrados se
Regresión Polinomial obtienen de aplicar k+1 derivadas parciales,
igualarlas a 0 y resolver el sistema de
ecuaciones resultante.
• Hay que tener presente que un modelo con más
variables siempre ofrecerá un mejor ajuste, por
lo que debe estudiarse la aportación de las
Estadística Aplicada 2. Tema 2. Análisis de Regresión 131
nuevas variables.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 132
R2 ajustado Ejemplo 16
• Para medir la utilidad de usar un modelo más • En un estudio, se analizó la fecha x de cosecha
preciso (mayor explicación) pero más difícil de (número de días después de la floración) y la
estimar (mayor número de predictores) es producción y (kg/ha.) de arroz en cáscara, para
conveniente ajustar R2. un grano cultivado en la India.
n −1 SSE (n − 1)R 2 − k
R 2 ajustado = 1− ⋅ =
n − (k + 1) SST n − (k + 1)
• ¿Qué modelo recomendaría para explicar la
producción de arroz en cáscara, como una
función de la cosecha?

Estadística Aplicada 2. Tema 2. Análisis de Regresión 133 Estadística Aplicada 2. Tema 2. Análisis de Regresión 134

Diagrama de Dispersión Comparación de modelos


• Conviene siempre representar los datos • Utilizando Excel:
mediante un diagrama de dispersión.
Lineal Cuadrática
• No se aprecia una relación lineal, sí una
posible relación cuadrática

Cúbica

Estadística Aplicada 2. Tema 2. Análisis de Regresión 135 Estadística Aplicada 2. Tema 2. Análisis de Regresión 136

Coeficiente de Determinación Intervalos de confianza e Hipótesis


• Aparecen ajustes en el cálculo de R2. • Cada estimador de parámetro βi tiene una
distribución normal. Por tanto:
SSE = ∑ ∀i (yi − ŷi )
2
β̂i − βi Sigue una distribución t con n-(k+1) grados de
T= libertad.

∑ (y − ŷ )
2 sβ̂ La estimación de la desviación es difícil de calcular
i

σ̂ = s = = MSE
2 2 ∀i i i por lo que se opta por usar siempre la proporcionada
n − (k + 1)
Cambio en el número
por un paquete estadístico.
de grados de libertad
• El intervalo del 100(1-α)% para βi es:
SST = ∑ ∀i (yi − yi )
2

β̂i ± tα /2;n−(k+1)sβ̂
i
SSE
R = 1−
2 • Y la prueba de H0 βi=βi0 se basa en:
SST
β̂i − βi 0
T=
Estadística Aplicada 2. Tema 2. Análisis de Regresión 137 Estadística Aplicada 2. Tema 2. Análisis de Regresión
sβ̂ 138
i
Regresión múltiple Estimación de parámetros
• Se intenta relacionar una variable dependiente • Las estimaciones de mínimos cuadrados de los
con dos o más variables dependientes. La parámetros β0,β1,…,βk se obtienen a través de
ecuación general será: la función de desviaciones cuadradas
Y = β 0 + β1 x1 + β 2 x2 + ...+ β k xk + ε Con: ε : N (0, σ 2 ) observaciones respecto a la función teórica, y
• Al igual que en el caso lineal: resolviendo el sistema de ecuaciones
µY |x ,...,x = β 0 + β1 x1 + β 2 x2 + ... + β k xk + ε resultantes de derivar parcialmente la función
* *
1 k
respecto a cada parámetro (véase también
• Nótese que la regresión polinomial es un caso forma matricial de la regresión lineal).
particular de la regresión lineal múltiple, lo • El cálculo es relativamente complejo, lo que
que muestra la amplitud del concepto “lineal” lleva a su resolución práctica por ordenador.
en regresión.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 139 Estadística Aplicada 2. Tema 2. Análisis de Regresión 140

Ejemplo 17 Ejemplo 17
• En un artículo se describe un experimento Datos de partida:
realizado para evaluar el impacto de la fuerza
(gm) x1, potencia (mW) x2, temperatura (oC) x3
y tiempo (ms) x4 en la resistencia cortante de la
unión de bola (gm), y.
– Estime el modelo correspondiente.
– Estime la resistencia cortante de la unión de bola
cuando la fuerza es de 35 gm, la potencia de 75
mW, la temperatura de 200oC y el tiempo de 20
ms.
– ¿Cuál es el significado de β̂
β22. ?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 141 Estadística Aplicada 2. Tema 2. Análisis de Regresión 142

Ejemplo 17 Ejemplo 17
• La regresión es:
y = −37, 4767 + 0,2117 β1 + 0, 4983β 2 + 0,1297 β 3 + 0,2583β 4
• La estimación puntual sería:
y = −37, 4767 + 0,2117 ⋅ 35 + 0, 4983⋅ 75
+0,1297 ⋅ 200 + 0,2583⋅ 20 = 38, 41

• Significado de β̂β22: Si dejamos constante el


resto de los elementos, el cambio esperado en
la resistencia cortante por cada (mW) de
potencia es de 0,4983 gm.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 143 Estadística Aplicada 2. Tema 2. Análisis de Regresión 144
Coeficientes de determinación Prueba de validez (utilidad)
• Las fórmulas son idénticas a las del caso • La hipótesis nula considera que ninguna
polinomial (más bien la causalidad es la variable explicativa añade información.
contraria): • H0: β1=β2=…=βk=0; Ha: al menos una βi≠0.
SSE = ∑ ∀i (yi − ŷi )
2
• La prueba permite determinar si, al menos, una
∑ (y − ŷ )
2
de las variables explicativas afecta a la
σ̂ = s = = MSE
2 2 ∀i i i
variable de respuesta
n − (k + 1)
Estadístico de prueba: f = MSR
SST = ∑ ∀i (yi − yi )
2
MSE
SSE
R 2 = 1− Región de rechazo: f ≥ Fα ,k,n−(k+1)
SST
Estadística Aplicada 2. Tema 2. Análisis de Regresión 145 Estadística Aplicada 2. Tema 2. Análisis de Regresión 146

Ejemplo 18 Intervalos de confianza para βi


• ¿Es útil el modelo del ejercicio 17? • Tal como en el caso polinomial:
β̂i − βi Sigue una distribución t con n-(k+1) grados de
T= libertad.
sβ̂ La estimación de la desviación es difícil de calcular
i
por lo que se opta por usar siempre la proporcionada
por un paquete estadístico.
• El intervalo del 100(1-α)% para βi es:
β̂i ± tα /2;n−(k+1)sβ̂
i

• El modelo es útil tal como indican los datos • Y la prueba de H0 βi=βi0 se basa en:
• En ningún momento se ha descartado la opción β̂i − βi 0
que un modelo con menos variables T=
sβ̂
explicativa pudiera ser mejor. i
Estadística Aplicada 2. Tema 2. Análisis de Regresión 147 Estadística Aplicada 2. Tema 2. Análisis de Regresión 148

Prueba de efecto Ejemplo 19


• Si deseamos comprobar si una variable • En los datos del ejemplo 17, ¿son
predictora tiene efecto en la variable respuesta, significativas todas las variables del modelo?
la prueba de hipótesis es la siguiente:
• H0 βi=β0; Ha βi≠β0
β̂i
T=
sβ̂
i
• La región de rechazo es:
t 0 > tα /2,n−(k+1)

Estadística Aplicada 2. Tema 2. Análisis de Regresión 149 Estadística Aplicada 2. Tema 2. Análisis de Regresión 150
Prueba para grupos de variables Ejemplo 20
• En los datos siguientes, la variable dependiente y es
• Considere un conjunto de variables predictoras el valor nominal de planchado permanente, una
x1,x2,…,xl,xl+1…,xk. medida cuantitativa de resistencia a las arrugas. Las
• Si quiere verificar si las últimas k-l variables cuatro variables independientes son: x1:
pueden ser eliminadas, se puede desarrollar la concentración de formaldehído, x2: proporción de
siguiente prueba: catalizador, x3: temperatura de curado y x4: tiempo
H0: βl+1=βl+2=…=βk=0; Ha: Al menos una ≠ 0 de curado.
• Determinamos SSEk y SSEl: Variaciones no • Considere un modelo con 14 predictores:
explicada por el modelo completo y el modelo x1,..x4,x5=x12,..,x8=x42,x9=x1x2,x10=x1x3,..,x14=x3x4.
reducido. (SSEl − SSEk ) (k − l ) (predictores de primer y segundo orden)
Estadístico de Prueba: f =
SSEk  n − (k + 1)
• ¿Se justifica la introducción de los predictores de
Región de rechazo: f ≥ Fα ,k−l,n−(k+1)
Estadística Aplicada 2. Tema 2. Análisis de Regresión 151 segundo orden?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 152

Ejemplo 20. Datos Ejemplo 20. Coeficientes

Estadística Aplicada 2. Tema 2. Análisis de Regresión 153 Estadística Aplicada 2. Tema 2. Análisis de Regresión 154

Ejemplo 20. Hipótesis


• Las hipótesis a probar son:
H 0 : β 5 = β 6 = ... = β14 = 0;H a :Una no es cero Tema 2. Parte 7
• Determinamos el estadístico de prueba:
f=
(SSEl − SSEk ) (k − l ) = (17, 4951− 4, 4782 ) 10 = 4, 36
SSEk  n − (k + 1) 4, 4782 15
Modelos con variables
• Y el valor de la prueba es: ficticias
( )
valor p = P Fk−l,n−(k+1) ≥ 4, 36 = P (F10,15 ≥ 4, 36 )= 0,005355

• Concluimos que el modelo adecuado debe


incluir al menos un predictor de segundo
orden.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 155 Estadística Aplicada 2. Tema 2. Análisis de Regresión 156
Variables indicadoras o ficticias Clasificación
• En ocasiones es interesante utilizar variables • A estas variables también se les conoce como
cualitativas o categóricas como predictores en variables “dummy” y debe distinguirse entre
una regresión. dos grandes tipos de variable “dummy”:
• En general una variable cualitativa no tiene – Variables que originalmente presentan dos
escala de medida, lo que obliga a asignar un categorías.
conjunto de niveles a la variable que permita – Variables que originalmente presentan más de dos
tener en cuenta su efecto sobre la variable de categorías.
respuesta. • A continuación se muestra cómo proceder para
• Esta escala se obtiene mediante la introducción en la construcción de modelos con variables
de variables indicadoras o ficticias ficticias a través de varios ejemplos.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 157 Estadística Aplicada 2. Tema 2. Análisis de Regresión 158

Casos Aplicaciones de variables ficticias


• Las variables ficticias permiten plantear las
• Caso con dos categorías: La variable “género”
siguientes situaciones:
tiene dos categorías “masculino” y “femenino”. En
– Dos o más categorías muestran la misma pendiente
este caso se procede creando una única variable
pero diferentes ordenadas en el origen.
ficticia que adopta el valor de 1 para los hombres y
– Dos o más categorías muestran distintas pendientes y
de 0 para las mujeres. ordenadas.
• Caso con varias categorías: En una serie de datos – Introducción en la regresión del efecto de una variable
trimestrales, se debe identificar el trimestre (de los cuantitativa.
cuatro) de los que proviene el dato. En tal caso – Agrupación de variables cuantitativas a través de
podríamos crear cuatro variables dummy para variables indicadoras
codificar el trimestre al que pertoca el dato, pero • A continuación se desarrolla la teoría de cada uno
realmente sólo son necesarias tres variables. de estos casos.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 159 Estadística Aplicada 2. Tema 2. Análisis de Regresión 160

Igual Pendiente, Distintas Ordenadas Modelo


• Se desea relacionar la vida útil (y) de una pieza • Suponiendo que es adecuado un modelo de
de utillaje de un torno, con la velocidad de primer orden, tenemos:
operación de éste (x1) y la clase de utillaje que y = β 0 + β1 x1 + β 2 x2 + ε
se usa (x2), que tiene dos niveles A y B. Por • Este tipo de modelo modifica el origen en el
tanto, x2 es una variable cualitativa de dos eje porque:
niveles:
– Si x2=0, entonces el modelo se reduce a:
– x2=0, si el utillaje es de tipo A.
y = β 0 + β1 x1 + β 2 (0 ) + ε = β 0 + β1 x1 + ε
– x2=1, si el utillaje es de tipo B.
– Si x2=1, entonces el modelo se reduce a:
y = β 0 + β1 x1 + β 2 (1) + ε = (β 0 + β 2 )+ β1 x1 + ε

Estadística Aplicada 2. Tema 2. Análisis de Regresión 161 Estadística Aplicada 2. Tema 2. Análisis de Regresión 162
Descripción gráfica Generalización
• Las dos rectas de regresión se ven en la figura • Se puede generalizar este método para tener en
siguiente: cuenta factores cualitativos a cualquier
• Ambas rectas tienen la cantidad de categorías. Pongamos por ejemplo
misma pendiente
Herramienta B 3 tipos de herramienta:
• La varianza de los errores
es idéntica x2 x3 Descripción
• El parámetro β2
0 0 Herramienta tipo A
representa las diferencias
entre los dos tipos de 0 1 Herramienta tipo B
Herramienta A herramienta. 1 0 Herramienta tipo C

y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε
Estadística Aplicada 2. Tema 2. Análisis de Regresión 163 Estadística Aplicada 2. Tema 2. Análisis de Regresión 164

Distintas Pendientes y Ordenadas Descripción gráfica


• Es posible modelar este tipo de situaciones • Las dos rectas de regresión se ven en la figura
usando una única ecuación de regresión. El siguiente • β2 y β3 representan las
diferencias respecto a un
modelo es: nivel básico (marcado por la
Herramienta B
y = β 0 + β1 x1 + β 2 x2 + β 3 x1 x2 + ε herramienta A) que introduce
la nueva herramienta.
• Se ha agregado en la ecuación un producto • La ventaja que introduce este
cruzado entre la variable explicativa x1 y la tipo de modelo respecto a
variable ficticia x2 Herramienta A dos regresiones
independientes es que si
• Los modelos reducidos son: realmente las mejoras son
y = β 0 + β1 x1 + ε si x2 = 0 lineales, el modelo cuenta
con más información para
y = (β 0 + β 2 )+ (β1 + β 3 )x1 + ε si x2 = 1 identificar los cambios.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 165 Estadística Aplicada 2. Tema 2. Análisis de Regresión 166

Pruebas de hipótesis Incorporación de variables cualitativas


• Otra ventaja de las variables indicadoras es • Supóngase que en el ejemplo del torno
poder realizar pruebas de hipótesis del modelo utilizado hasta el momento se considera un
conjunto usando la suma de cuadrados. nuevo aspecto cualitativo, asociado al tipo de
• Para probar si la variable ficticia aporta lubricante que se usa (x3).
información: – x3=0, si se usa aceite de baja viscosidad
H0: β2=β3=0; Ha: β2≠0 y/o β3≠0 – x3=1, si se usa aceite de viscosidad intermedia

• Para probar si las dos rectas tienen la misma • El nuevo modelo de regresión que relaciona la
pendiente pero diferente ordenada vida útil con la velocidad del corte, tipo de
herramienta y lubricante sería:
H0: β3=0; Ha: β3≠0
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε
Estadística Aplicada 2. Tema 2. Análisis de Regresión 167 Estadística Aplicada 2. Tema 2. Análisis de Regresión 168
Características del modelo Interacciones más complejas
• En el modelo anterior: • Se pueden modelar el efecto de diversas
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε interacciones. Por ejemplo teniendo en cuenta
• La pendiente (β1) asocia la vida útil con la efectos cruzados el modelo sería:
velocidad de corte y no depende ni del tipo de y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + β 4 x1 x2 + β 5 x1 x3 + β 6 x2 x3 + ε
herramienta, ni del tipo de lubricante de corte.
Herramienta Viscosidad Regresión
• La ordenada al origen sí depende de esos A (x2=0) Baja (x3=0) y=β0+β1x1
factores y consiste en una componente aditiva: A (x2=0) Intermedia (x3=1) y=(β0+β3)+(β1+β5)x1
– El efecto de la herramienta corresponde a β2
– El efecto del aceite corresponde a β3 B (x2=1) Baja (x3=0) y=(β0+β2)+(β1+β4)x1

B (x2=1) Intermedia (x3=1) y=(β0+β2+β3)+(β1+β4+β5+β6)x1


Estadística Aplicada 2. Tema 2. Análisis de Regresión 169 Estadística Aplicada 2. Tema 2. Análisis de Regresión 170

Modelo a evitar Implicaciones del modelo anterior


• Existe una tendencia (que debe evitarse) a • El modelo implica que:
crear modelos siguiendo la pauta que se E (y | x1;sin acondicionamiento ) = β 0 + β1 x1 + β 2
describe.
E (y | x1;ven tan as ) = β 0 + β1 x1 + 2 β 2
• Disponemos de una variable con un código
asignado: E (y | x1;bomba ) = β 0 + β1 x1 + 3β 2 ¡¡¡El método está
El modelo intenta explicar
E (y | x1;central ) = β 0 + β1 x1 + 4 β 2
imponiendo una
Tipo de acondicionamiento x2 el coste de electricidad (y)
métrica a un modelo
Sin acondicionamiento 1 respecto al tamaño (x1) y
cualitativo!!!
Ventanas 2 tipo de acondicionamiento • Además:
(x2).
Bomba térmica 3 E (y | x1;central )− E (y | x1;bomba ) = E (y | x1;bomba )− E (y | x1;ven tan as )
El ajuste sería:
Acondicionamiento central 4 = E (y | x1;ven tan as )− E (y | x1;sin acondicionamiento ) = β 2
y = β 0 + β1 x1 + β 2 x2 + ε
Estadística Aplicada 2. Tema 2. Análisis de Regresión 171 Estadística Aplicada 2. Tema 2. Análisis de Regresión 172

Agrupación de regresores cuantitativos Ventajas e inconvenientes


• En ocasiones, puede se interesante sustituir un • La agrupación representa diversas ventajas e
regresor cuantitativo por un conjunto de inconvenientes:
variables regresoras. Ventajas:
• Esta práctica es interesante cuando: – Puede eliminar la necesidad de considerar
– No se puede conocer con exactitud el valor del hipótesis acerca de la relación entre la variable
regresor respuesta y la variable regresora
– Existen motivos para considerar que la respuesta Inconvenientes:
en la variable independiente es igual para rangos – Requiere más parámetros
de valores parejos.
– Aumenta la complejidad del modelo.
• Un ejemplo sería la relación entre consumo – Reduce los grados de libertad.
eléctrico y los ingresos familiares.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 173 Estadística Aplicada 2. Tema 2. Análisis de Regresión 174
Ejemplo 21 Ejemplo 21. Descripción Datos
• Se desea analizar si existe una posible • Disponemos de la siguiente información:
discriminación por género en un banco. – Nivel Educativo: Variable categórica con 5 niveles (1: educación
secundaria, 5: tiene un postgrado)
– Grado de Empleo: Variable categórica con 6 niveles (6 es el más
alto)
– Año de contratación
– Año de nacimiento
– Género: Asociaremos mujer con 1 y varón con 0
– Experiencia: Número de años de experiencia anteriores a
contratación
– PC Empleo: Variable categórica si usa ordenador en el lugar de
• ¿Podemos afirmar o contradecir el hecho con trabajo
los datos disponibles? – Salario: Sueldo anual en miles de dólares.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 175 Estadística Aplicada 2. Tema 2. Análisis de Regresión 176

Procedimiento de resolución Resumen resultado


• Para intentar contestar a la pregunta anterior
empezaremos creando modelos con más y más Poco
variables explicativas preguntando en cada representativo
caso si la variable explicativa Género influye
en el salario obtenido según la recta que
explique la variable Salario.
• El primer modelo usa únicamente la variable
género, por lo que el modelo es:
• salario=β0+β1×género 45,505-8,295×género
• Parece un efecto significativo
Estadística Aplicada 2. Tema 2. Análisis de Regresión 177 Estadística Aplicada 2. Tema 2. Análisis de Regresión 178

Modelo incluyendo experiencia laboral Modelo incluyendo experiencia laboral


• Incluiremos en el análisis los años de • Si se muestran las rectas de tendencia de
experiencia dentro (x2, medido como 95-año hombres y mujeres:
contratación) y fuera del banco (x3, medido y|Mujer=27,412+0,988×x2+0,131×x3.
como años previos). y|Hombre=35,492+0,988×x2+0,131×x3.
• El modelo resultante es: • El modelo sigue teniendo un factor explicativo
• y=35,492-8,08x1+0,988x2+0,131x3. bajo (R2=49,2%)
• Sigue mostrando discriminación por sexo (la
regresión muestra que una fémina debe pasar
algo más de ocho años en la empresa para
recibir el mismo salario que un hombre).
Estadística Aplicada 2. Tema 2. Análisis de Regresión 179 Estadística Aplicada 2. Tema 2. Análisis de Regresión 180
Modelo con nivel educativo Modelo con nivel educativo
• Creamos cinco variables facticias, una para
cada nivel educativo desde el 2 al 6 (tener 0 en
todas las variables indicativas muestra que
formas parte del nivel 1).
• La recta de regresión es:
y=26,6123-
4,501×género+1,033×exp.interna+0,362×exp.e
xterna+0,16×edu_2
+4,764×edu_3+7,32×edu_4+11,77×edu_5

Estadística Aplicada 2. Tema 2. Análisis de Regresión 181 Estadística Aplicada 2. Tema 2. Análisis de Regresión 182

Modelo con grado de empleo Tabla de resultados


• El modelo aún no incluye el grado de empleo. • Puede verse que el género no resulta
Es probable que la diferencia responda a la significativo (al menos al 95%, p-valor=0,08)
categoría laboral donde trabajan las mujeres
(en tal caso se podría decir que existe
discriminación en cuanto a contratación de
trabajadores femeninas pero no en cuanto a su
retribución salarial).
• Para ello añadimos cinco variables que
estudien el trabajo realizado.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 183 Estadística Aplicada 2. Tema 2. Análisis de Regresión 184

Explicación de los resultados


• Nos falta por incluir factores que podrían
resultar importantes (edad y uso de PC). Tema 2. Parte 8
• Aunque la diferencia salarial parece existir,
ésta no es suficientemente significativa como
para poder considerar que existe una
discriminación por género.
Multicolinearidad
• Los datos utilizados muestran un fenómeno
conocido como multicolinearidad, que se
estudia seguidamente en la asignatura.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 185 Estadística Aplicada 2. Tema 2. Análisis de Regresión 186
Concepto Definición
• Con frecuencia dos o más variables predictoras • Se entiende por colinearidad a la presencia de
empleadas en el modelo para predecir la dos o más variables explicativas con una fuerte
variable Y contribuyen con información correlación lineal.
redundante, es decir están correlacionadas
entre sí. • La colinearidad conlleva complicaciones para
• Véase por ejemplo la información asociada al estimar parámetros que dificultan la
nivel educativo y al nivel laboral del ejemplo credibilidad del modelo desarrollado.
anterior.
• Cuando ello ocurre decimos que hay presencia
de colinearidad en el modelo.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 187 Estadística Aplicada 2. Tema 2. Análisis de Regresión 188

Representación gráfica Cómo detectar multicolinearidad


• La superposición representa la correlación. • Correlaciones significativas entre pares de
Variación Total Explicada por x1 variables. Detectable mediante gráficas de
Explicada por ambas dispersión o tablas de correlaciones.
• Pruebas t no significativas para los parámetros
Explicada por x2
β individuales cuando la prueba F de validez
del modelo es significativa. Detectable
analizando resultados tabla ANOVA.
• Signos opuestos (a los esperados) en los
parámetros estimados: Si la correlación entre
variable explicativa y respuesta es positiva β
no puede ser negativo.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 189 Estadística Aplicada 2. Tema 2. Análisis de Regresión 190

Grado de multicolinearidad Valor de inflacción de la varianza


• Es posible demostrar que:
• Dada la expresión anterior de la varianza de
()
 1   1  los estimadores de los parámetros del modelo,
V β̂ j = σ 2  2
⇒ sβ̂2 = s 2  2
 1− R j  j
 1− R j  es posible afirmar que la varianza del
• donde Rj2 es el coeficiente de determinación estimador de βj está inflada por una cantidad
múltiple resultante de la regresión de xj como (1-Rj2)-1. Esto nos lleva a la siguiente
función de las otras k-1 variables regresoras. definición:
VIF (β j )=
1
• Puede entenderse que Rj2 es una medida de 2
, j = 1,2,..., k
1− R j
correlación entre xj y las otras variables • Y a la siguiente escala:
regresoras. – VIF<5: Sin problemas de multicolinearidad
• Mientras mayor sea la correlación más – 5<VIF<10: Posibles problemas
multicolinearidad
Estadística Aplicada 2. Tema 2. Análisis de Regresión 191
– 10<VIF: Hay problema de colinearidad
Estadística Aplicada 2. Tema 2. Análisis de Regresión 192
VIF en Minitab Ejemplo 22
• Minitab permite reportar estos factores • La comisión federal de comercio de Estados
directamente sin necesidad de realizar cálculos Unidos clasifica anualmente las variedades de
adicionales: cigarrillos nacionales según el contenido de
• Para ello, en las opciones de regresión: alquitrán, nicotina y monóxido de carbono.
• A continuación se muestran los datos para 25
marcas de cigarrillos y se pretende modelar el
contenido de monóxido de carbono (y), en
función del contenido de alquitrán (x1), el
contenido de nicotina (x2) y el peso (x3) a
través de una regresión múltiple. ¿Hay indicios
de multicolinearidad?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 193 Estadística Aplicada 2. Tema 2. Análisis de Regresión 194

Ejemplo 22. Datos Solución


• Parece suficiente con uno de los dos valores
para estimar el monóxido:

Predictor Coef SE Coef T P VIF


Constante 3,202 3,462 0,93 0,365
Alquitrán (mg) 0,9626 0,2422 3,97 0,001 21,631
Nicotina (mg) -2,632 3,901 -0,67 0,507 21,900
Peso (g) -0,130 3,885 -0,03 0,974 1,334

Estadística Aplicada 2. Tema 2. Análisis de Regresión 195 Estadística Aplicada 2. Tema 2. Análisis de Regresión 196

Selección de variables
• Si disponemos de k variables predictoras,
Tema 2. Parte 9 ¿Cuál es el mejor modelo para explicar el
comportamiento de la variable dependiente y?
• Conceptos:
– Parsimonia. Seleccionar la máxima cantidad de
Métodos para la selección de variabilidad con el menor número de variables.
variables independientes – Maximizar R2 ajustado. Equivalente a minimizar
MSEk (nunca max. R2)
– Minimizar Ck
– Minimizar PRESS
– Maximizar R2 pronosticada
Estadística Aplicada 2. Tema 2. Análisis de Regresión 197 Estadística Aplicada 2. Tema 2. Análisis de Regresión 198
Error esperado y normalizado Ejemplo 23
• Se define el error esperado y normalizado de la
• En un artículo, se describe un análisis de los datos
estimación como:

Γk =
E (∑ ∀i
Yˆi − E (Yi )
 
2
)= E (SSE ) + 2 (k + 1)− n
k
tomados de una revista de automóviles. La
variable dependiente y fue el rendimiento de
σ σ2 2 combustible y los predictores fueron x1: forma del
• Un subconjunto de variables es atractivo si Γk motor (1=recto, 0=V), x2: número de cilindros; x3:
es pequeño. Desafortunadamente, se tipo de transmisión (1=manual, 0=automática);
desconocen los los valores de E(SSEk) y σ2. x4: número de velocidades de la transmisión; x5:
Ésta última puede estimarse (s2=MSEk) y la tamaño del motor; x6: caballos de potencia; x7:
otra puede aproximarse, por lo que se define: número de gargantas del carburador; x8: relación
SSE de transmisión final; x9: peso y x10: tiempo para
Ck = 2 + 2 (k + 1) − n Cuyo valor es deseable que
s sea pequeño (y cercano a k+1) recorrer un cuarto de milla.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 199 Estadística Aplicada 2. Tema 2. Análisis de Regresión 200

Ejemplo 23 Ejemplo 23
• Mejores combinaciones: • Evolución gráfica:

Parece justificable usar k=3 (discutible k=4)


Estadística Aplicada 2. Tema 2. Análisis de Regresión 201 Estadística Aplicada 2. Tema 2. Análisis de Regresión 202

Ejemplo 24
la respuesta es Resistencia
• Retomando el ejemplo 17, se analizan la F P T T
selección de variables mediante MINITAB. u o e i
e t m e
Opción: Regresión / Mejores subconjuntos Rk2 adj Ck SCEk
Rk2 r e p m
R-cuad. Cp de z n e p
Vars R-cuad. (ajustado) Mallows S a c r o
1 57,7 56,2 11,0 5,9289 X
1 10,8 7,7 51,9 8,6045 X
2 68,5 66,2 3,5 5,2070 X X
2 59,4 56,4 11,5 5,9136 X X
3 70,2 66,8 4,0 5,1590 X X X
3 69,7 66,2 4,5 5,2078 X X X
4 71,4 66,8 5,0 5,1580 X X X X

Estadística Aplicada 2. Tema 2. Análisis de Regresión 203 Estadística Aplicada 2. Tema 2. Análisis de Regresión 204
Regresión por pasos Regresión por pasos Minitab
• El método anterior se hace impracticable
cuando el número de predictores crece (por
ejemplo cuando se usan modelos de segundo
orden).
• Entre los métodos de selección posibles se
acostumbra a utilizar una técnica heurística
denominada “paso a paso” que
selecciona/elimina predictores uno a uno.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 205 Estadística Aplicada 2. Tema 2. Análisis de Regresión 206

Resultado (alfa=0,1) Resultado (alfa=0,1)


Eliminación hacia atrás. Alfa a retirar: 0,1 Paso 1 2 3
La respuesta es Resistencia en 4 predictores, con N= 30 Tiempo 0,26 0,26
Paso 1 2 3
Valor T 1,23 1,23
Constante -37,48 -30,07 -24,90
Fuerza 0,21 Valor P 0,231 0,231
Valor T 1,01
Valor P 0,324 S 5,16 5,16 5,21
R-cuad. 71,40 70,24 68,52
Potencia 0,498 0,498 0,498
R-cuad.(ajustado) 66,82 66,81 66,19
Valor T 7,10 7,10 7,03
Valor P 0,000 0,000 0,000 Cp de Mallows 5,0 4,0 3,5

Temperatura 0,130 0,130 0,130


Valor T 3,08 3,08 3,05
Valor P 0,005 0,005 0,005
Estadística Aplicada 2. Tema 2. Análisis de Regresión 207 Estadística Aplicada 2. Tema 2. Análisis de Regresión 208

Regresión no lineal
• Una función que relaciona y con x es
Tema 2. Parte 10 intrínsicamente lineal si por medio de una
transformación de y y/o x se puede expresar
como y’=β0+β1x’ donde y’ y x’ son las
variables transformadas.
Regresión no lineal

Estadística Aplicada 2. Tema 2. Análisis de Regresión 209 Estadística Aplicada 2. Tema 2. Análisis de Regresión 210
Exponencial Potencia

Estadística Aplicada 2. Tema 2. Análisis de Regresión 211 Estadística Aplicada 2. Tema 2. Análisis de Regresión 212

Logarítmica Recíproca

Estadística Aplicada 2. Tema 2. Análisis de Regresión 213 Estadística Aplicada 2. Tema 2. Análisis de Regresión 214

Modelos intrínsicamente lineales Curva de aprendizaje


• Un modelo probabilístico que usa una función • La curva de aprendizaje es un modelo
intrínsicamente lineal es intrínsicamente lineal. ampliamente utilizado que relaciona el tiempo
• La recta de regresión será: (coste) unitario de fabricación de un producto
y' = β 0 + β 0 x '+ ε '
con el volumen acumulado de producción
(desde el momento que se empezó a fabricar).
• El modelo puede ser estimado usando mínimos
• Estudios empíricos indican que el tiempo de
(∑ x )(∑ y )
cuadrados: ' '
n∑ ∀i xi yi −
' '
producción tiende a decrecer un porcentaje
β̂1 = ∀i i ∀i i

n∑ (x ) − (∑ x )
' 2 '
2 relativamente constante cada vez que el
∀i i ∀i i
número de unidades producidas se duplica.

β̂ 0 =
∑ ∀i
yi' − β̂1 ∑ ∀i xi' • El porcentaje constante es conocido como tasa
n de aprendizaje.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 215 Estadística Aplicada 2. Tema 2. Análisis de Regresión 216
Supuestos de la curva de aprendizaje Modelo
• La cantidad de tiempo requerido para terminar • El modelo de la curva de aprendizaje es el
una tarea o una unidad de producto será menor siguiente:
cada vez que se emprenda la tarea. Yx = Kx n
• La disminución del tiempo (coste) por unidad • Donde:
irá disminuyendo a un ritmo decreciente. – x: número de la unidad a producir
• La reducción de tiempo sigue un patrón – Yx: número de horas-hombre (o coste directo)
previsible. requerido para producir la x-ésima unidad.
– K: número de horas-hombre (o coste directo)
necesario para producir la primera unidad.
– n: ln(b)/ln(2), donde b: tasa de aprendizaje.

Estadística Aplicada 2. Tema 2. Análisis de Regresión 217 Estadística Aplicada 2. Tema 2. Análisis de Regresión 218

Ejemplo 26 Ejemplo 26
• Una compañía produce una variedad de pequeños • Una forma de determinar si el modelo sigue
productos industriales. una curva de aprendizaje es crear variables
• Acaba de terminar la producción 22 lotes del logarítmicas y ver si el diagrama de dispersión
nuevo producto entre las variables logarítmicas muestra una
• Se dispone de un archivo con los tiempos relación lineal
utilizados para cada uno de los 22 lotes
• Los tiempos han tendido a decrecer según se ha
ganado experiencia en la elaboración del producto.
• ¿La reducción de tiempos sigue una curva de
aprendizaje?
Estadística Aplicada 2. Tema 2. Análisis de Regresión 219 Estadística Aplicada 2. Tema 2. Análisis de Regresión 220

Ejemplo 26 Ejemplo 26
• Parece lógico realizar una regresión entre las • Del modelo de curva de aprendizaje
variables logarítmicas. La recta de regresión deducimos:
es: • -0,155=ln(tasa aprendizaje) / ln(2)
Ln(Tiempo)=4,834-0,155 Ln(Lote) • Despejando la tasa de aprendizaje
• Hay un par de formas de interpretar la (multiplicamos por ln(2) y elevando a e)
ecuación: obtenemos que tasa aprendizaje es 0,898,
– El coeficiente -0,155 está asociado a una aproximadamente un 90%.
elasticidad. Esto es, cuando el número de lotes se • Por tanto, cada vez que la producción
incrementa en un 1%, el tiempo se reduce
acumulada se duplica, el tiempo de producción
aproximadamente un 0,155%. La interpretación no
es interesante desde un punto de vista productivo.
disminuye un 10%.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 221 Estadística Aplicada 2. Tema 2. Análisis de Regresión 222
Ejemplo 27 Función de Cobb-Douglas
• Este cálculo puede utilizarse • Función de producción que explica la
para predecir valores futuros. producción total en un año (valor monetario de
• Utilizando la recta de regresión todos los productos) para un sector económico
se obtiene el valor logarítmico (empresa, región, país, etc.) en función del
de tiempo. nivel de trabajo y de capital.
• Para obtener el tiempo es • El nivel de trabajo se mede en horas-hombre
suficiente con elevar e por el (HH) trabajadas, o bien mediante los
valor predecido por la honorarios pagados.
regresión. • El nivel de capital se mide en capacidad de
maquinaria instalada, o el capital total
necesario para realizar la actividad económica.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 223 Estadística Aplicada 2. Tema 2. Análisis de Regresión 224

Función de Cobb-Douglas Función de Cobb-Douglas


• El modelo es el siguiente: • Si α+β=1, se dice que la función de producción
α
Q = A× L ×K β tiene economías de escala constantes, es decir
• Donde: si L y K aumentan cada uno en un 20%, Q
también aumenta un 20%
– Q: producción total.
– A: factor total de productividad. • Si α+β<1, se dice que la función de producción
– L: nivel de trabajo.
tiene rendimientos de escala decrecientes. El
output crece en proporción menor al input.
– K: nivel de capital.
– α: elasticidad trabajo-producto. • Si α+β>1, se dice que la función de producción
– β: elasticidad capital-producto. tiene rendimientos de escala crecientes. El
output crece en proporción mayor al input.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 225 Estadística Aplicada 2. Tema 2. Análisis de Regresión 226

Ejemplo 27 Ejemplo 27 Qt Lt Kt
179,2 193,5 1.141,0
181,0 182,8 1.241,0
• Se dispone de los datos de producción (Qt) de • Una regresión 183,1 171,7 1.357,0
la minería española para los años del periodo permitirá identificar 184,9 163,4 1.465,0
1969-1984. El valor está expresado en los parámetros α, β de 185,8 143,3 1.562,0
220,8 140,4 1.742,0
unidades monetarias constantes de 1984. la minería en esos
238,8 141,6 1.954,0
• El efecto del trabajo en la producción (Lt) años. 241,7 138,6 2.141,0
viene expresado en millones de horas hombre 242,5 145,4 2.352,0
240,7 128,1 2.399,0
trabajadas. 248,5 126,4 2.557,0
• El stock de capital o riqueza (Kt) en potencia 312,1 149,2 2.680,0
347,3 145,9 2.899,0
instalada en miles de caballos de vapor.
366,2 144,5 3.082,0
424,7 139,7 3.062,0
404,9 131,8 3.052,0
Estadística Aplicada 2. Tema 2. Análisis de Regresión 227 Estadística Aplicada 2. Tema 2. Análisis de Regresión 228
Ejemplo 27 Ejemplo 27
• El modelo no es lineal, pero puede linearizarse
aplicando ln.
lnQ=lnA+αlnL+βlnK.
• La regresión por tanto sería:
lnQ=lnA+αlnL+βlnK+ε.
• Donde:
ε : N (0,σ 2 )
• La regresión resultante es:

Estadística Aplicada 2. Tema 2. Análisis de Regresión 229 Estadística Aplicada 2. Tema 2. Análisis de Regresión 230

Ejemplo 27 Ejemplo 27 (Resultados Minitab)


La ecuación de regresión es ln(Qt)= -7,29+0,94 ln(Lt)+1,06 ln(Kt)
ln Q=-7,287+0,9402 ln L+1,0637 ln K
Predictor Coef SE Coef T P
Q=0,00068 L0,9402K1,0637 Constante
ln(Lt)
-7,287
0,9402
2,297
0,3144
-3,17
2,99
0,007
0,010
ln(Kt) 1,0637 0,1119 9,51 0,000

S = 0,0938086 R-cuad. = 91,4% R-cuad.(ajustado) = 90,1%


• Nótese que R2 es muy alto (91,4%) lo que
demuestra que el modelo de Cobb-Douglas Análisis de varianza

expresa correctamente la interrelación. Fuente GL SC MC F P


Regresión 2 1,21358 0,60679 68,95 0,000
• Además el modelo se muestra como válido Error residual
Total
13
15
0,11440
1,32798
0,00880

(valor F alto y p-valor cercano a cero) y todas


los coeficientes son significativos. Estadístico de Durbin-Watson = 0,738679

Estadística Aplicada 2. Tema 2. Análisis de Regresión 231 Estadística Aplicada 2. Tema 2. Análisis de Regresión 232

Ejemplo 27
• El valor de 0,9402 que acompaña a la variable, es
la estimación de la elasticidad trabajo‐producto,
la cual puede interpretarse de la siguiente forma:
– Si el empleo se incrementa en un 1%, es de esperar
que la producción se incremente en un 0,94%.
• El valor deque acompaña a la variable, es la
estimación de la elasticidad capital‐producto, la
cual puede interpretarse de la siguiente forma:
– Si el capital (potencia instalada) se incrementa en un
1%, es de esperar que la producción se incremente en
aproximadamente un 1,06%.
Estadística Aplicada 2. Tema 2. Análisis de Regresión 233

Anda mungkin juga menyukai