Cap02 - Analisis de Regresion

Estadística Aplicada 2. Tema 2.
Parte 1
Tema 2. Regresión Lineal Concepto de Regresión Lineal
Estadística Aplicada 2. Tema 2. Análisis de Regresión 1 Estadística Aplicada 2. Tema 2. Análisis de Regresión 2
Modelo de Regresión Lineal Simple Modelo de Regresión Lineal Simple

• Relación entre una variable dependiente (la • El modelo matemático es el siguiente:
que se pretende explicar) y una variable – y: Variable dependiente
independiente (la que se utiliza para la
y = β 0 + β1 ⋅ x
– x: Variable independiente
explicación). – β0: Intercepto
• Generalmente las observaciones se realizan – β1: Pendiente
para diversos valores de la variable • β1 puede interpretarse como:
independiente.
∆y Cambio de la variable dependiente
• La información de partida se muestra en pares β1 = por cada unidad de cambio de la
(x1,y1),…,(xn,yn) ∆x variable independiente.
Ejemplo 1 Ejemplo 1 (datos)

• Supóngase que se desea estudiar el Hidrocarburo Pureza
• La observación de los
no. Obs. x(%) y(%)
comportamiento de la pureza del oxígeno 1 0,99 90,01
valores parece indicar que
2 1,02 89,05
producido en un proceso de destilación químico, 3 1,15 91,43
cuanto más grande es el
4 1,29 93,74
como una función del porcentaje de 5 1,46 96,73
valor de X más grande es el
6 1,36 94,45
hidrocarburos en un condensador. 7 0,87 87,59
nivel de pureza.
8 1,23 91,77
• Entonces, representaremos la variable 9
10
1,55
1,4
99,42
93,65 • Para verificar si esta relación
dependiente Y como la pureza de Oxígeno 11
12
1,19
1,15
93,54
92,52 puede considerarse como
producido en un proceso de destilación químico, 13
14
0,98
1,01
90,56
89,54 lineal, se aconseja realizar
y la variable independiente X como el porcentaje 15
16
1,11
1,2
89,85
90,39 un diagrama de dispersión.
de hidrocarburos presente en el condensador 17
18
1,26
1,32
93,25
93,41
principal de la unidad de destilación. 19
20
1,43
0,95
94,98
87,33
Ejemplo 1 (diagramas de dispersión) Ejemplo 1 (dispersión + recta regresión)
• Se muestran los diagramas reportados por • Se puede apreciar claramente la relación lineal
Excel y Minitab. entre variable dependiente e independiente,
graficando una recta aproximada de relación.
• En Excel ha sido necesario cambiar el rango de

valores mostrados en la gráfica
Modelo probabilístico lineal Modelo probabilístico lineal

• En muchos problemas, incluyendo el del • Obsérvese que:
ejemplo 1, resulta razonable asumir que: µY |x = E (β 0 + β1 ⋅ x * + ε )= E (β 0 + β1 ⋅ x * )+ E (ε ) = β 0 + β1 ⋅ x *
*
E (Y | x ) = µY |x = β 0 + β1 ⋅ x σ = V (β 0 + β1 ⋅ x * + ε )= V (β 0 + β1 ⋅ x * )+ V (ε ) = 0 + σ 2 = σ 2
2
Y |x*
• Dónde:
• Ante la presencia de aleatoriedad, sólo el valor E(Y|x*)=µY|x*: Valor esperado de Y cuando x=x*
esperado de y es una función lineal de x, y en V(Y|x*)=µY|x*:Varianza de Y cuando x=x*
realidad el modelo incluirá un término de error.
y = β 0 + β1 ⋅ x + ε Por tanto: “El valor medio de Y es una función lineal de x,
• Con: ε : N (0, σ ) 2 y la recta de regresión de la función es la línea que une los
valores medios de Y”.
Ejemplo 2 Ejemplo 2. Solución

• Supongamos que la relación entre esfuerzo a) El modelo indica que el tiempo hasta fallo
aplicado x, y tiempo hasta fallo y está descrito tiene una distribución normal con y=65-1,2x*
por un modelo de regresión cuya recta de y desviación estándar 8.
regresión verdadera es: y=65-1,2x con σ=8. 1. Determinamos valor medio:
a) ¿Cuál es la probabilidad de que el tiempo µY |20 = 65 − 1,2 ⋅ 20 = 41
hasta fallo sea mayor a 50 cuando el esfuerzo x−µ
2. Usando la ley normal estándar Z = :
aplicado es de 20? ¿Y si fuera de 25? σ
 50 − 41  9
b) Sean Y1 y Y2 dos tiempos hasta fallo P (Y > 50 | x = 20 ) = P  Z >  = 1− Φ   = 0,1303
observados de manera independiente, donde  8   8
se aplicó un esfuerzo de x=25 y x=24 kg. Para µY|25=35 y P(Y>50|x=25)=0,0304
¿Cuál es la probabilidad que Y1>Y2?
Representación gráfica de la solución Ejemplo 2. Solución
P(Y>50|x=20)=0,1303
b) Y1-Y2 tiene una distribución normal con:
P(Y>50|x=25)=0,0304 – Valor medio E(Y1-Y2)=β1∆x= -1,2(25-24)= -1,2
– Varianza V(Y1-Y2)=V(Y1)+V(Y2)=σ2+σ2=128; por lo
que la desviación estándar es 11,314
Recta de Regresión
y=65-1,2x Por tanto:
 0 − (−1,2) 
P (Y1 − Y2 > 0 ) = P  Z >  = P (Z > 0,11) = 0, 4562
 11, 314 
Ejemplo 3 Gráfico de Dispersión

• Un artículo científico reporta la relación entre
esfuerzo aplicado el Kg/mm2 (variable
independiente) y el tiempo hasta la fractura en
horas, de un tipo de acero inoxidable (variable
dependiente).
i 1 2 3 4 5 6 7 8 9 10
Kg/mm2 2,5 5 10 15 17,5 20 25 30 35 40
hrs. 63 58 55 61 62 37 38 45 46 19
a) Realice un gráfico de dispersión de los datos

b) ¿Qué podemos observar en la gráfica?
Gráfico de Dispersión con Recta Ejemplo 3. Conclusiones

• Los datos y los gráficos parecen apoyar la
hipótesis que un aumento de esfuerzo reduce
las horas antes de fractura.
• El gráfico también muestra que hay
observaciones muy influyentes en el cálculo de
la recta de regresión (en este caso, la última
observación, ya que su eliminación modifica la
recta de regresión a y=63,037-0,6369x).
– Este tipo de comportamiento puede ser
problemático y por tanto se tratará, junto a otros,
posteriormente.
Estimador por Mínimos Cuadrados
• El estimador utilizado para determinar los
Tema 2. Parte 2 parámetros β0 y β1 consiste en intentar
minimizar las desviaciones entre los puntos y
la recta.
• Estas desviaciones se elevan al cuadrado para:
Residuos y el método de los
– Transformar todas las desviaciones en positivas
mínimos cuadrados – Penalizar más desviaciones importantes que
múltiples desviaciones pequeñas.
• El método se debe a Gauss (o Legendre) que lo
diseñó para describir órbitas celestes.
Funcionamiento mínimos cuadrados Recta de regresión estimada

• La desviación entre un punto (xi,yi) y la recta • Los valores ββ̂00 y β̂β11 obtenidos minimizando la
de tendencia es: función son estimadores puntuales de β0 y β1,
punto − recta = yi − (b0 + b1 x1 ) que son los parámetros verdaderos de la recta
• Si elevamos las desviaciones al cuadrado y las de regresión.
sumamos: • La recta de regresión estimada o recta de
f (b0 ,b1 ) = ∑ i=1  yi − (b0 + b1 xi )
n 2
mínimos cuadrados es:
• El objetivo será encontrar los valores b0 y b1 y = β̂ 0 + β̂1 x
que minimicen la función anterior. • Obviamente, la obtención de los estimadores
no implica que el modelo sea el correcto
(primero debe analizarse la recta de dispersión)
Determinación de los parámetros Nomenclatura

• Aplicando derivadas parciales e igualando a 0 • Dependiendo de la fuente y la lengua de origen
se obtienen los siguientes estadísticos: del material, nos encontramos antes diversas
nomenclaturas para indicar el mismo concepto:
b1 = β̂ =
∑ (x − x )(y − y ) = n∑ x y − ∑ x ⋅ ∑ y
∀i i i ∀i i i ∀i i ∀i i Sxx = ∑ i=1 (xi − x ) = ∑ i=1 xi2 −
n 2
(∑ x ) n n n
i=1 i
∑ (x − x ) n∑ x − (∑ x )
(y − y ) = ∑ y − (∑ y ) n
1 2 2
2
Syy = ∑ i=1
∀i i i i n 2 n 2 n
∀i ∀i
i i=1 i i=1 i
∑ y − β̂ ∑ x = ∑ y − β̂ ∑ x = y − β̂ x
= β̂ = Sxy = ∑ i=1 (x − x )(y − y ) = ∑ x y − (∑ x )(∑ y ) n
∀i i 1 ∀i i ∀i i ∀i i n n n n
b0 0 1 1 i i
n n n i=1 i i i=1 i i=1 i
• Para evitar posibles errores de redondeo es • Entonces:

conveniente precalcular todos los sumatorios. β̂1 = Sxy Sxx β̂ 0 = y − β̂1 x
Ejemplo 4 Ejemplo 4
• El grabado con plasma es esencial para la • Determine una función de relación entre la
transferencia de figuras de líneas finas en los variable dependiente e independiente
actuales procesos de fabricación de • Inicialmente haremos un gráfico de dispersión
semiconductores.
• Las observaciones son x, flujo de cloro en el Sí que parece que existe
SCCM en una boquilla del mecanismo de una relación lineal entre
grabado, y la rapidez de grabado y. ambas variables.
Se procede al cálculo de
x 1,5 1,5 2 2,5 2,5 3 3,5 3,5 4 los parámetros de
y 23 24,5 25 30 33,5 40 40,5 47 49 regresión.
Ejemplo 4 Ejemplo 4
• Se resuelven los cálculos indicados: • Con lo cual, se obtiene:
n∑ ∀i xi yi − ∑ ∀i xi ⋅ ∑ ∀i yi 9 ⋅ 902,25 − 24,0 ⋅ 312,5
β̂1 = = = 10,602564
(∑ x ) 9 ⋅ 70,50 − (24,0 )
2 2
n∑ ∀i xi − 2
∀i i
β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
=
312,5 − 10,602564 ⋅ 24,00
= 6, 448718
n 9
• Y la ecuación estimada es:
y = 6, 448718 + 10,602564x ≈ 6, 45 + 10,6x
Ejemplo 5 Ejemplo 5
• De los datos del ejemplo 3 (Esfuerzo aplicado • La ecuación de la recta de regresión estimada
respecto al tiempo hasta fractura) se verifica es:
que n=10 y: y = 66, 42 − 0,901x
∑ ∀i
xi = 200 ∑ ∀i
xi = 5412,5
2
• Así, el esfuerzo esperado hasta ruptura cuando

∑ ∀i
xi yi = 8407,5 se aplica un esfuerzo de x=22,5 kg/mm2, se
∑ ∀i
yi = 484 ∑ ∀i
yi 2 = 25238 estima en:
• Por tanto, los estimadores de mínimos
y = 66, 42 − 0,901⋅ 22,5 = 46,1
cuadrados ofrecen las siguientes estimaciones:
10 ⋅ 8407,5 − 200 ⋅ 484
• Por tanto:
β̂1 = = −0,900885
10 ⋅ 5412,5 − 200 2 µ̂Y |x =22,5 = 46,1
*
484 − (−0,900885 )200

β̂ 0 = = 66, 417699
Estadística Aplicada 2. Tema 2. Análisis de Regresión 10 29 Estadística Aplicada 2. Tema 2. Análisis de Regresión 30
Suma de errores cuadrados (SSE) Cálculo de SSE
SSE = ∑ ∀i (yi − ŷi ) = ∑ ∀i  yi − β̂ 0 + β̂1 xi ( )
2 2
• Para estimar la varianza del modelo de
 
regresión lineal se utilizan las sumas de los • Alternativamente:
errores cuadrados (Squared Sum of Errors).
SSE = ∑ ∀i yi2 − β̂ 0 ∑ ∀i yi − β̂1 ∑ ∀i xi yi
• La nomenclatura de error es un tanto engañosa, • A partir de SSE se obtiene el estimador de la
por lo que en muchas ocasiones se prefiere varianza:
utilizar el término de residuos (entendiendo
∑ (y − ŷ )
2
SSE
σ̂ = s = = ∀i i i
por residuo la parte que no explica la regresión 2 2
lineal). n−2 n−2

• Esta suma de errores se define como el • Citar que se han perdido dos grados de libertad
cuadrado de las diferencias entre el valor al estimar dos parámetros en la regresión.
observado y el aportado por la regresión.
Ejemplo 6 Ejemplo 6 Gráfico de Dispersión

• Una investigación de la relación entre el flujo
de tránsito x (miles de automóviles por 24 hrs),
y el contenido de plomo y de la corteza de los
árboles cerca de la autopista (µg/g de peso en
seco), arrojó los siguientes datos.
Ejemplo 6. Regresión Ejemplo 6. Errores
SSE = 3654,69 + ...+ 3623,08 = 76493,98
y = −12,84 + 36,18 ⋅ x σ̂ =
SSE
= 92,19
Estadística Aplicada 2. Tema 2. Análisis de Regresión 35
n−2
Ejemplo 7 Ejemplo 7. Datos
• En un artículo se describe un estudio para investigar
cómo la propagación de una onda de esfuerzo
ultrasónico que pasa por una sustancia depende de n = 14
las propiedades de la sustancia. −2183,80
β̂1 = = −0,0147109
148448
• Los datos asocian la resistencia a la fractura (x, β̂1 = 3,6209072
como porcentaje de la resistencia máxima a la
tracción) y la atenuación (y, en neper/cm, la
disminución de la amplitud de la onda de esfuerzo).
• Calcule la recta de regresión y estime la desviación
estándar de las predicciones.
Ejemplo 7. Gráfico de Dispersión Ejemplo 7. Cálculo SSE

• Partiendo de la segunda fórmula de cálculo del
SSE:
SSE = ∑ ∀i yi2 − β̂ 0 ∑ ∀i yi − β̂1 ∑ ∀i xi yi =
103,54 − 3,6209072 ⋅ 37,6 − (−0,0147109 )⋅ 2234, 3 =
0,2624532
• Así que:
s 2 = 0,2624532 14 − 2 = 0,0218711 y s = 0,1479
• Como siempre cuidado con redondeos

SSE = 103,54 − 3,621⋅ 37,6 − (−0,015 )2234, 3 = 0,905
Coeficiente de determinación Coeficientes de determinación

• Medida que permitirá identificar qué parte de • Por definición debe cumplirse que: SSE < SST
la variación total de la variable de respuesta • Por tanto:
puede ser explicada por el modelo de • SSE/SST es la proporción de la variación total
regresión. de la variable de respuesta que NO puede ser
• Primero determinamos la suma total de explicada por el modelo.
cuadrados que identifica la variación total de la • 1-SSE/SST es la proporción de la variación
variable de respuesta: total de la variable de respuesta que queda
SST = ∑ ∀i (yi − y ) = ∑ ∀i yi 2 − (∑ y )
2 2
i n explicada por el modelo.
∀i
• Por último, se define el coeficiente de
determinación como: r 2 = 1− SSE
Estadística Aplicada 2. Tema 2. Análisis de Regresión 41 Estadística Aplicada 2. Tema 2. Análisis de Regresión
SST 42
Coeficientes de determinación Nomenclatura
• Un valor de r2 pequeño hace necesaria la • Dependiendo de la fuente y la lengua de origen
búsqueda de otros modelos explicativos. del material, nos encontramos antes diversas
• Otra forma de obtener r2 es: nomenclaturas para indicar el mismo concepto:
SSE SST − SSE SSR SSR=SCR (Suma del cuadrado de regresión)
r 2 = 1− = =
(
SSR = ∑ ∀i ŷi − ŷi )
2
SST SST SST
• Donde SSR es la Suma de Cuadrados de SSE=SCE (Suma de cuadrados de error)
SSE = ∑ ∀i (yi − ŷi ) = ∑ ∀i  yi − β̂ 0 + β̂1 xi  ( )
2 2
Regresión y representa la variación explicada
 
por el modelo de regresión. SST=STC (Suma total de cuadrados)
SSR = SST − SSE SST = Syy = ∑ ∀i (yi − y ) = ∑ ∀i yi 2 − (∑ y )
2 2
∀i i n
Ejemplo 8 Resultados por Minitab

La ecuación de regresión es
• En el ejemplo 7 se calculó que SSE era igual a
Atenuación = 3,62 - 0,0147 Resistencia
0,2624532. Estime la calidad del ajuste por
parte del modelo seleccionado. Predictor Coef SE Coef T P
(∑ y )
Constante 3,62091 0,09949 36,39 0,000
2
SST = ∑ ∀i yi 2 − ∀i i n = 103,54 − 37,6 2 14 = 2,5571 Resistencia -0,014711 0,001436 -10,24 0,000
S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%

• Por tanto: Análisis de varianza
SSE 0,2624532
r 2 = 1− = = 0,897
Fuente GL SC MC F P
Regresión 1 2,2947 2,2947 104,92 0,000
SST 2,5571
Error residual 12 0,2625 0,0219
Total 13 2,5571
• El modelo explica un 89,7% de la variación de
la variable.
Resultados por Minitab Resultados por Minitab

La ecuación de regresión es 0 β La ecuación de regresión es 1 β
Atenuación = 3,62 - 0,0147 Resistencia Atenuación = 3,62 - 0,0147 Resistencia
Predictor Coef SE Coef T P Predictor Coef SE Coef T P

Constante 3,62091 0,09949 36,39 0,000 Constante 3,62091 0,09949 36,39 0,000
Resistencia -0,014711 0,001436 -10,24 0,000 Resistencia -0,014711 0,001436 -10,24 0,000
S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9% S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%
Análisis de varianza Análisis de varianza
Fuente GL SC MC F P Fuente GL SC MC F P
Regresión 1 2,2947 2,2947 104,92 0,000 Regresión 1 2,2947 2,2947 104,92 0,000
Error residual 12 0,2625 0,0219 Error residual 12 0,2625 0,0219
Total 13 2,5571 Total 13 2,5571
Resultados por Minitab Resultados por Minitab
La ecuación de regresión es La ecuación de regresión es
Atenuación = 3,62 - 0,0147 Resistencia r2 Atenuación = 3,62 - 0,0147 Resistencia
S
Predictor Coef SE Coef T P Predictor Coef SE Coef T P
Constante 3,62091 0,09949 36,39 0,000 Constante 3,62091 0,09949 36,39 0,000
Resistencia -0,014711 0,001436 -10,24 0,000 Resistencia -0,014711 0,001436 -10,24 0,000
S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9% S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%
Análisis de varianza Análisis de varianza
Fuente GL SC MC F P Fuente GL SC MC F P SSR
Regresión 1 2,2947 2,2947 104,92 0,000 Regresión 1 2,2947 2,2947 104,92 0,000
Total 13 2,5571
Total 13 2,5571
SSE
SST
Resultados por Minitab Tabla ANOVA

• El estadístico f permite determinar si la
Atenuación = 3,62 - 0,0147 Resistencia
regresión es significativa o no.
Predictor Coef SE Coef T P
Constante 3,62091 ANOVA
0,0994936,39 0,000
Resistencia -0,014711 0,001436 -10,24 0,000

Análisis de varianza • Es una prueba de cola superior, cuya región de
Fuente GL SC MC F P
Regresión 1 2,2947 2,2947 104,92 0,000
rechazo es de la forma:
Es un test estadístico denominado prueba F
f ≥ Fα ,1,n−2
que se rige por la distribución F de Fisher
Total 13 2,5571
para comparar dos poblaciones de medias
diferentes y misma desviación estándar.
Test F para análisis de regresión Ejemplo 9

• Las poblaciones comparadas son las estimadas • A continuación se muestra la tabla ANOVA de
por el tratamiento (la recta de regresión) y el un análisis de regresión.
error.
• Se desea verificar si la regresión es

significativa con α=0,05. (Excel: función
E (MSE ) = σ 2 DISTR.F.INV()) F0,05;1;9 = 5,12 66,63 ≥ 5,12
• Se rechaza H0, las diferencias son
significativas.
Inferencias sobre β1
• La varianza de β̂β11 queda definida por la
Tema 2. Parte 3 siguiente fórmula (no se demostrará).
V β̂1 = σ β̂2 = ()σ2
(∑ x )
2
1
∑ ∀i
xi2 − ∀i i n
Inferencias sobre parámetros • La varianza de la estimación puede usarse
del modelo como estimación de la varianza del parámetro.
• El estimador es una función lineal de V.A.
normales e independientes, véase el concepto
de residuos, por lo que el estimador (ββ̂1)
1
también tiene una distribución normal.
Inferencias sobre β1 Ejemplo 10

• Estandarizando la distribución del estimador: • Se han utilizado agentes de enlace de Silano en
β̂1 − β1 β̂1 − β1 Distribución T con n-2 grados la industrial del caucho para mejorar la
T= = de libertad operación de rellenos compuestos de caucho.
S Sxx Sβ̂
1
Excel: DISTR.T.INV(α/2;n-2) Los datos siguientes representan y: coeficiente
Donde : a la tensión (en MPa) y x: contenido de caucho
Sxx = ∑ ∀i (xi − x ) = ∑ ∀i xi 2 − (∑ x )
2
2
n del enlace (%).
∀i i
• Estimar el modelo de regresión y encontrar un
• Intervalo de confianza para β1: intervalo de confianza del 95% para el
verdadero cambio esperado en el coeficiente a
β̂1 ± tα /2,n−2 Sβ̂ la tensión cuando el contenido de caucho
1
aumenta un 1%.
Ejemplo 10.Datos y Gráfico Ejemplo 10. Parámetros

Cálculos Iniciales
n = 11;∑ ∀i xi = 292,9; ∑ ∀i xi 2 = 8141, 75;
∑ ∀i
yi = 69,03; ∑ ∀i yi 2 = 442,1903;∑ ∀i xi yi = 1890,2
(∑ x )(∑ y )= 573, 313 = 0,152119

Parámetros de regresión
n∑ ∀i xi yi −
β̂1 = ∀i i ∀i i
n∑ x − (∑ x )
2
3768,84
2
∀i i ∀i i
β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
= 2,224940
n
Ejemplo 10. Cálculo de cuadrados Ejemplo 10. Intervalo de confianza
Suma de cuadrados y r2
(∑ y ) • A partir de los cálculos anteriores, podemos
2
SST = ∑ ∀i y − 2
i ∀i i n = 8,995673
determinar la desviación estándar:
SSE = ∑ ∀i yi2 − β̂ 0 ∑ ∀i yi − β̂1 ∑ ∀i xi yi = 1,067358 s 2 = SSE / (n − 2 ) = 0,119595 ⇒ s = 0,119595 ; 0, 3444
r 2 = 1− SSE SST = 0,881 s
sβ̂ = = 0,0186
(∑ x )
2
∑
1
• Tanto r2 como la gráfica de dispersión apoyan
∀i
x −2
i ∀i i n
la teoría de que el modelo de relación entre • Y el intervalo de confianza queda definido:
ambas variables es lineal y que los parámetros ICβ̂ = 0,152 ± 2,262 ⋅ 0,0186 = (0,110;0,194)
estimados son de calidad. 1
• Por tanto, tenemos un alto grado de confianza

• Consultamos valor t-student con α=0,05 y 9 gl.
que el verdadero valor de β1 esté entre 0,110 y
tα /2;n−2 = t 0,025;9 = 2,262
0,194.
Prueba de hipótesis sobre β1 Ejemplo 11.

• H0: β1=β10 Estadístico: t = β̂1 − β10 • La limpieza del aluminio fundido metálico o
sβ̂ en aleación antes de hacer una pieza fundida
1
• Si β1,0=0, la prueba se conoce como la prueba está determinado por el contenido de

de significancia de la regresión o de utilidad hidrógeno e inclusiones de metal. En un
del modelo. estudio se relacionó x, fracción de volumen de
óxidos/inclusiones, con y, (%) de alargamiento
de las barras de prueba.
Ejemplo 11. Gráfico de dispersión Ejemplo 11. Resultados

y = 1,07 - 0,649 x 1 β̂1 t β̂ s
Constante 1,06930 0,04966 21,53 0,000
x -0,64884 0,05840 -11,11 0,000
Análisis de varianza
Fuente GL SC MC F P
Regresión 1 1,3583 1,3583 123,42 0,000
Total 19 1,5564
• Nota: Se ha eliminado una parte de los resultados

asociados a medidas anómalas.
Ejemplo 11. Resultados Inferencia respecto a respuesta media
• Obtenemos valor t mediante la calculadora de • Disponemos de un estimador insesgado de la
Minitab respuesta Y cuando el predictor es x*.
Yˆ = β̂ 0 + β̂1 x *
• Además sabemos que se comporta según una
ley normal (es un estimador asistóticamente
• Comprobamos H0 (β1=0). Se rechaza si: normal) con parámetros:
t ≥ tα /2;n−2 ∨ t ≤ 0 − tα /2;n−2
ˆ( )
E Y | x * = µYˆ |x = β̂ 0 + β̂1 x * *
t = −11,11; t 0,05;18 =1, 73406; t = 2,10092 

( )  Donde σ2 puede
2
*
−
() 1 n x x
V Yˆ = σ  + 2  reemplazarse por su
• H0 es rechazada y aceptamos que el modelo es n n
( )  estimador
2
útil.  ∑ ∀i xi2 − ∑ ∀i xi 
IC de la respuesta media Nota

• Se puede construir un intervalo de confianza • Al contrario que otros intervalos de confianza
para la respuesta basándose en la distribución vistos en Estadística Aplicada 1 o Estadística
normal estandarizada: Aplicada 2, el intervalo para la respuesta
Yˆ − (β 0 + β1 x * ) Sigue una media de Y depende del valor de x*, y éste
T= distribución t con crece se distancia del valor medio de x de la
 n (x * − x )  n-2 grados de
2
2 1  libertad muestra.
σ +
n n
( ) 
2
 ∑ ∀i xi2 − ∑ ∀i xi 
• En una transparencia posterior se mostrará un
gráfico del efecto observado de esta variación.
• Y el intervalo corresponde a:
 n (x * − x ) 
2
1
β̂ 0 + β̂1 x * ± tα /2;n−2 σ̂ 2  + 
n
(∑ x ) 
2
n∑ ∀i xi2 −
Estadística Aplicada 2. Tema 2. Análisis de Regresión
 ∀i i  69 Estadística Aplicada 2. Tema 2. Análisis de Regresión 70
Ejemplo 12. Ejemplo 12.

• Partiendo de los datos:
• Se utiliza una máquina para la fabricación de
toallas de papel de alta calidad. Se recolectaron
los siguientes datos acerca de la velocidad x de
la máquina (en m/min) y la temperatura y de la
campana secadora (oC).
n (x * − x )
2
1
Sβ̂ =s + =
0 + β̂1x
(∑ x )
* 2
n n
∑ ∀i
x −
2
i ∀i i
7 (1.200 − 8750 7 )
2
1
• Obtener un intervalo de confianza del 99% 23,15 +
7 7 ⋅11.112.500 − 8.750 2
= 9,17761251
para el verdadero promedio de temperatura de El valor crítico es, t es: t0,005;5=4,032 por lo que:
la campana cuando la velocidad es 1200
ICµ = −361, 428571+ 0,5914 ⋅1200 ± 9,17761⋅ 4, 032
m/min
Y |x*
IC para un valor pronosticado (IP) IC para un valor pronosticado (IP)
• Cuando x=x*, el estimador corresponde a: • De nuevo estandarizamos la distribución de
error:
Yˆ0 = β̂ 0 + β̂1 x * Sigue una
• El error de pronóstico es, por tanto, Yˆ − Yˆ0 Yˆ − Yˆ0
T= distribución t con n-

( )  2 grados de libertad
2
• La distribución del error de predicción cumple 1 n x *
− x
σ̂ 1+ +
2 
una ley normal con los siguientes parámetros:  n n
( ) 
2
∑ ∀i xi2 − ∑ ∀i xi
(
E Yˆ − Yˆ0 = 0 )  
• Y el intervalo de confianza queda definido por:
 n (x * − x ) 
2
(  1
V Yˆ − Yˆ0 = σ 1+ +
2
)   n (x * − x )
2 
 n n
( )  2 1 
2
∑ ∀i xi2 − ∑ ∀i xi Y0 ± tα /2;n−2 σ̂ 1+ +
ˆ
   n n
( ) 
2
 ∑ ∀i xi2 − ∑ ∀i xi 
Representación de intervalos Ejemplo 13

• Cuadrados: Observaciones • Un artículo reporta la determinación de
• Azul: Recta Regresión contenido de plata en cristales de galena en un
• Rojo: Intervalo de Confianza sistema hidrotérmico cerrado sobre un
intervalo de temperatura. Los datos son: x,
• Lila: Intervalo de Predicción temperatura de cristalización; y: Ag2S en mol
%.
• Obtenga un IP del 95% para el % en mol

cuando la temperatura de cristalización es de
500oC.
Ejemplo 13 Ejemplo 13
• Cálculos iniciales: • Otros cálculos:
n = 13; ∑ ∀i xi = 6124; ∑ ∀i yi = 4, 73; ∑ ∀i x = 3017310; s = SSE / (n − 2 ) = 0,131 x = 471,07
2
i
∑ ∀i yi2 = 2,1785; ∑ ∀i xi yi = 2417,84 • El intervalo de confianza es el siguiente:

• Recta de regresión:
IP = −0, 311+ 0,00143⋅ 500 ±
(∑ x )(∑ y )= 0,001432
n∑ ∀i xi yi −
β̂1 = 13(500 − 471,07 )
∀i i ∀i i
n∑ x − (∑ x )
2 1
+ =
2
∀i i ∀i i 2,201⋅ 0,130 1+
13 13⋅ 3017310 − 6124
β̂ 0 =
∑ ∀i
yi − β̂1 ∑ ∀i xi
= −0, 31073367 (0,108;0, 702)
n
Este tipo de cálculo es preferible realizarlo en MINITAB. A
continuación se muestra el mismo cálculo
Ejemplo 13. Minitab
La ecuación de regresión es y = - 0,311 + 0,00143 x
Predictor Coef SE Coef T P Tema 2. Parte 4a

Constante -0,3107 0,1721 -1,81 0,098
x 0,0014320 0,0003573 4,01 0,002
Análisis de varianza
Regresión por el origen
Fuente GL SC MC F P
Regresión 1 0,27157 0,27157 16,07 0,002
Error residual 11 0,18594 0,01690
Total 12 0,45751
Valores pronosticados para nuevas observaciones
EE de
Nueva obs Ajuste ajuste IC de 95% IP de 95%
1 0,4053 0,0375 (0,3227; 0,4878) (0,1074; 0,7031)
Regresión por el origen Regresión por el origen

• En ocasiones una recta que pase por el origen
• El citado estimador es insesgado para β1 y el
parece la forma correcta de modelizar una
modelo de regresión es.
regresión.
ŷ = β̂1 x
• Un ejemplo sería el número de unidades
elaboradas en una fábrica dependiendo de las • El estimador de σ2 es:
∑ (y − ŷ ) = ∑ yi2 −β̂1 ∑ ∀i xi yi
2
horas/hombre contratadas (con 0 horas se σ 2
= MSE = ∀i i i ∀i
fabrican 0 unidades). n −1 n −1
• La ecuación de regresión sería: y = β̂1 x + ε con n-1 grados de libertad
• y el estimador por mínimos cuadrados: • Igual que en el modelo general, la hipótesis de
β̂1 =
∑ ∀i
yi xi normalidad permite probar hipótesis y generar
Estadística Aplicada 2. Tema 2. Análisis de Regresión

∑ ∀i
xi 2
81
intervalos de confianza.
Intervalos de confianza Tabla ANOVA

• Intervalo de confianza para β1: • Dispuesta de la misma forma que en el caso
MSE MSE general.
β̂1 − tα /2,n−1 ≤ β ≤ β̂ + t
∑ ∀i xi2 1 1 α /2,n−1 ∑ ∀i xi2 • Únicamente pueden apreciarse cambios en el
• Intervalo de confianza para la respuesta media: número de grados de libertad de cada fuente de
variación.
xo2 xo2
µ̂Y |x − tα /2;n−1 ≤ µY |x0 ≤ µ̂Y |x0 + tα /2;n−1
0
∑ ∀i
xi2 ∑ ∀i
xi2
• Intervalo de confianza para un pronóstico:
 x02   x02 
Yˆ0 − tα /2,n−1 MSE ⋅  1+ 2
≤ Y0 ≤ Yˆ0 + tα /2,n−1 MSE ⋅  1+ 2
 ∑ ∀i xi   ∑ ∀i xi 
Errores comunes Errores comunes
• Un modelo de regresión lineal sin intercepto • El siguiente modelo parece más adecuado para
puede llevar a malas interpretaciones, describir el comportamiento en el intervalo
sobretodo cuando los datos están alejados del 100≤oF≤200:
origen.
El ajuste podría ser deficiente
en otras escalas de
El ajuste entre el rendimiento temperatura pero el error
del proceso y la temperatura parece menor en el intervalo
podría comportarse tal como de interés:
se muestra en el gráfico:
Errores comunes Comparación de modelos

• En realidad es frecuente que el • El cálculo del coeficiente de determinación r2
comportamiento no sea lineal o que varíe para modelos sin intercepto no se aconseja
según el intervalo de datos estudiado. como método para escoger entre modelos
alternativos (p.ej. comparar modelo con y sin
Este ajuste (que podría ser intercepto).
cuadrático o no lineal) parece • Se aconseja comparar según MSE=s2 y
describir mejor la relación verificar si se rechaza la hipótesis nula del
esperada:
modelo.
Ejemplo 14 Ejemplo 14. Gráfico de Dispersión

• El tiempo necesario para que un trabajador • Parece lógico optar por un modelo en que la
reponga de producto una vitrina en una tienda , recta pase por el origen.
variable y, y las cajas que deben reponer,
variable x, se muestra en la tabla siguiente:
• Determine si es mejor un modelo con o sin

intercepto para describir el tiempo que requiere
el trabajador.
Ejemplo 14. Regresión con Intercepto Ejemplo 14. Regresión sin Intercepto
• La regresión nos provee del siguiente modelo: • El modelo sin ordenada es:
ŷ = −0,094 + 0, 407x ŷ = 0, 403x
• El estadístico t para probar H0 es -0,65 (valor p • En este caso MSE es 0,09 y el estadístico para
0,525) por lo que no se rechaza H0. Además, comprobar la hipótesis β1=0 es 91,13 (p valor
un modelo sin intercepto podría producir un 0,000) por lo que se descarta la hipótesis nula.
ajuste más realista. • Por tanto, parece que esta recta de regresión
• También se puede obtener que: explica mejor la relación que la anterior.
– s2=0,09 (error residual del modelo)
– r2=99,5%
Coeficiente de Correlación Muestral

r=
∑ (x − x )(y − y )
∀i i i
=
(∑ x )(∑ y )
n∑ ∀i xi yi − ∀i i ∀i i
Tema 2. Parte 4b ∑ (x − x ) ∑ (y − y ) − (∑ x ) n∑ y − (∑ y )
2 2 2 2
∀i i ∀i i n∑ ∀i x
2
i ∀i i ∀i
2
i ∀i i
• Propiedades:
• Independiente de las unidades de medición
• No depende de qué variable es dependiente o independiente
Coeficiente de Correlación • El rango de valores está comprendido entre -1 y 1
• Si r=1 los pares pertenecen a una recta con pendiente positiva
Si r=-1 los pares pertenecen a una recta con pendiente negativa
• El cuadrado de r es el coeficiente de determinación del modelo de
regresión ajustado.
Inferencias sobre correlación Regiones de rechazo

• r es un estimador puntual del coeficiente de
correlación entre dos poblaciones ρ.
• Bajo el supuesto que los pares en estudio
proceden de una distribución Normal
Bivariada, se puede realizar una prueba sobre
la hipótesis H0: ρ=0. El estadístico es:
r n−2 Cuando H0 es verdadera, el
T= estadístico sigue una distribución t • Nota: Cuando se desea comprobar si ρ=ρ0
1− r 2 con n-2 grados de libertad debe aplicarse una transformación en las
observaciones.
Forma Matricial
• El principio de mínimos cuadrados establece la
Tema 2. Parte 4c minimización de SST respecto a las variables
del modelo.
• En caso de tratar de obtener una recta de
regresión y=β0+β1x, tenemos que estimar dos
Forma matricial de la parámetros por lo que necesitamos dos
regresión lineal ecuaciones:
∂SSE ∂SSE
=0 =0
∂β 0 ∂β1
SSE = ∑ ∀i  yi − (β 0 + β1 xi )
2
Forma Matricial Forma matricial

• Al sistema de ecuaciones :
• Si la recta pasa por el origen y=β1x, sólo
∂SSE ∂SSE ∂SSE
tenemos un parámetro y por tanto sólo =0 =0 =0 ...
necesitamos una ecuación. ∂β 0 ∂β1 ∂β 2
∂SSE se le conoce como “ecuaciones normales”
SSE = ∑ ∀i [yi − β1 xi ]
2
=0
∂β1 • A continuación se describe cómo representar el
• En general, por cada parámetro que tengamos sistema utilizando notación matricial para un
que estimar tendremos una ecuación. La problema con k regresores y n observaciones.
y = Xβ + ε
ecuación corresponde a la derivada parcial de  y1   1 x11 x12 ... x1k   β0   ε1 
       
la función de cuadrados respecto al parámetro. y = 
y2 
X = 
1 x21 x22 ... x2 k 
β = 
β1 
ε = 
ε2 
...  ... ... ... ...  ...  ... 
       
 yn   1 xn1 xn2 ... xnk   βk   εn 
   
Mínimos cuadrados en Forma Matricial Ejemplo, regresión por el origen

• El estimador de mínimos cuadrados es aquél • En este caso, la forma matricial es:
que minimiza:  y1   x1   ε1 
     
ε2 
y = 
y2 
X = 
x2 
β = [β1 ] ε = 
L = ∑ ∀i ε i2 = ε ' ε = (y − X β )' (y − X β ) 
... 
 
... 
 
... 

 yn   xn   εn 
∑
  
∀i
xi2
• Tras derivar la función anterior, se obtienen las
β̂ = (X ' X ) X ' y
−1
siguientes ecuaciones (forma matricial): ∑ ∀i
xi yi
X ' X β̂ = X ' y ⇒ β̂ = (X ' X ) X ' y

−1
β̂1 =
∑ ∀i
xi yi
∑ ∀i
xi2
Ejemplo, regresión lineal Ejemplo, regresión cuadrática
• En este caso, la forma matricial es: • El modelo se generaliza y sirve para
 y1   1 x1   ε1  regresiones más complejas. Por ejemplo un
     β0   
ε2  modelo cuadrático por el origen se representa
y = 
y2 
X = 
x2 
ε = 
1
β= 
...  ... ...   β1  ... 
      como:
 yn   1 xn   εn 
  
2fx2c y = β1 x + β 2 x 2 + ε
2fx1c
β̂ = (X ' X ) X ' y
−1
• Las matrices correspondientes serían:
 y1   x1 x12   ε1 
     
• La primera columna de X corresponde a la  x22   β1  ε2 
y = 
y2 
ε = 
x2
X=  β= 
información de la primera fila de β (β0) ...   ... ...   β 2  ... 
   
 yn   xn xn2 
 εn 
   
• Tras operar la parte derecha de la ecuación
tenemos un vector con 2 filas y 1 columna.
Ejemplo, regresión con varias variables

• Si se tuvieran varias variables explicativas (por
ejemplo x y w): Tema 2. Parte 5
y = β 0 + β1 x + β 2 w + ε
• Las matrices correspondientes serían:
 y1   x1 w1   ε1 
Validación del modelo de
   1   β0   
y = 
y2 
X = 
1 x2 w2  
β =  β1

ε = 
ε2  regresión lineal

...  1 ... ... 
 β  ... 
     
 yn   1 xn wn   2   εn 
  
Residuos Residuos estandarizados

• Para poder validar las hipótesis en las que se • Al estar normalmente distribuidos podemos
ha fundamentado la regresión lineal, debemos transformarlos a una normal estándar.
estudiar sus residuos. yi − ŷi
ei* =
• Los residuos están dados por: 1
−
(xi − x )
( )
s 1−
ei = yi − β̂ 0 − β̂1 xi n ∑ (xi − x )2
∀i
• Y se deberían distribuir según una ley normal • Un residuo estandarizado de 1,5 indica que es
con los siguientes parámetros: 1,5 desviaciones estándar más grande de lo
E (Yi − Yî )= E (Yi )− E (β̂ 0 − β̂1 xi )= β 0 − β1 xi − (β 0 − β1 xi ) = 0 que esperaría.
 1 (xi − x ) 
( )
V Yi − Yî = σ 2  1− − 
 n ∑ (xi − x )2 
∀i
• Consideremos un ejemplo con las siguientes • Obtención de residuos:
observaciones:
• Gráfico de dispersión :
Ejemplo 15 Gráficas de Diagnóstico

La ecuación de regresión es: y = - 45,6 + 1,71 x
• Aparte de la propia regresión, conviene
Constante -45,55 25,47 -1,79 0,099 estudiar unas gráficas que permitan evaluar la
x 1,71143 0,09969 17,17 0,000
“bondad” del modelo generado. Las
Análisis de varianza principales son:
Fuente GL SC MC F P
Regresión 1 398030 398030 294,74 0,000 1. ei* (o ei) respecto xi
Error residual 12 16205 1350
Total 13 414236
2. ei* (o ei) respecto xŷii.
ei ei* 3. ŷxii respecto yi
EE de Residuo
Obs x y Ajuste ajuste Residuo estándar 4. Un gráfico de probabilidad normal de los
1 100 150,00 125,59 16,72 24,41 0,75
2 125 140,00 168,38 14,77 -28,38 -0,84
residuos estandarizados
5. ei* (o ei) respecto el tiempo (orden)
ei* respecto xi ei* (o ei) respecto pronóstico
MINITAB. Ajustes (sin estandarizar):
Pronóstico respecto valores observados Gráfico de probabilidad para ei*
Versión MINITAB: Probabilidad Normal:

Autocorrelación Autocorrelación
• Si bien los cuatro primeros gráficos muestran
las características deseadas, el último gráfico
muestra un patrón en los datos que se
denomina autocorrelación.
• La autocorrelación aparece cuando los errores
no son independientes.
• Nota: Minitab también ofrece un histograma
de frecuencia de residuos para identificar
normalidad
Versión MINITAB: Residuos / orden:
Autocorrelación Residuo con autocorrelación negativa

• Existen dos tipos de autocorrelación: • Ejemplo tipico de autocorrelación:
– Positiva: Cuando a un residuo estandarizado
positivo, le acostumbra a seguir uno negativo y
cuando a uno negativo le acostumbra a seguir otro
negativo.
Un caso extremo sería: +++++-----
– Negativa: Cuando a un residuo estandarizado
negativo, le acostumbra a seguir uno positivo y
viceversa. • Puede verse semejanza con:
Un caso extremo sería: +-+-+-+-+-
Detección de la autocorrelación Prueba de Durbin-Watson
• Una secuencia +-++-+-+-- tendría 7 cambios • El estadístico propuesto por Durbin y Watson
de signo. permite detectar procesos autoregresivos de
• Si casi no hay cambios de signo (mucho menos primer orden (aquellos que se comportan
de la mitad de las observaciones), la según):
εt:Término de error del modelo
autocorrelación es probable que sea positiva. ε t = ρε t−1 + at at: Error aleatorio
ρ: Parámetro de autocorrelación (0<ρ<1)
• Si hay muchos cambios de signo (muchos más
de la mitad de las observaciones), la • Así, un modelo lineal con error autoregresivo
autocorrelación es probable que sea negativa. de primer orden sería:
• Si el número de cambios es aproximadamente
yt = β 0 + β1 xt + ρε t −1 + at
la mitad, probablemente no haya
autocorrelación.
Prueba de Durbin-Watson Prueba de Durbin-Watson

• En series de tiempo, la regresión acostumbra a • El estadístico d debe estar entre dos cotas, dL y
ser positiva, por ello la hipótesis nula suele ser: dU, tales que si d sale de los límites se puede
• H0: ρ= 0; Ha: ρ>0. llegar a una conclusión acerca de la hipótesis
• El estadístico de prueba es: nula.
• Las reglas son las siguientes:
∑ (e − e ) – Si d<dL, rechazar H0.
n 2
d= t=2 t−1
dónde et = yt − ŷt – Si d>dU, no rechazar H0.
∑ e
n 2
t=1 t
– Si dL≤d≤dU, la prueba no es concluyente.
• El estadístico en caso de autocorrelación
negativa (Ha: ρ<0) es: 4 − d
Durbin-Watson Soluciones a gráficas anómalas

• Gráficamente, la distribución es: • Las gráficas anteriores acostumbran a mostrar
el siguiente tipo de anomalías:
– Relaciones no lineales
– Varianza que depende de x.
– Presencia de valores atípicos.
– El término de error no cumple una distribución
normal.
– Existe autocorrelación
– Omisión de variables independientes
• Los valores de dL y dU deben consultarse en
tablas.
Relación no lineal Varianza dependiente
• El siguiente gráfico muestra que la relación • El siguiente gráfico muestra la dependencia
entre predictor y respuesta debiera entre el predictor y la respuesta.
considerarse como cuadrática. • Puede estudiarse una transformación de la
variable predictora.
Valores atípicos Omisión de variables

• Conocidos como “outlaiers” deben analizarse • Si los errores muestran una dependencia a una
las causas, eliminarse si son causa de variable no considerada, puede afirmarse que
anomalías o integrarse en el modelo si se incluir la variable en el modelo mejorará la
deben a algún tipo de fenómeno explicable calidad de la regresión
Regresión polinomial
• La ecuación del modelo lineal de k-ésimo
Tema 2. Parte 6 grado es:
Y = β 0 + β1 x + β 2 x 2 + ...+ β k x k + ε Con: ε : N (0, σ 2 )
• Las estimaciones de mínimos cuadrados se
Regresión Polinomial obtienen de aplicar k+1 derivadas parciales,
igualarlas a 0 y resolver el sistema de
ecuaciones resultante.
• Hay que tener presente que un modelo con más
variables siempre ofrecerá un mejor ajuste, por
lo que debe estudiarse la aportación de las
nuevas variables.
R2 ajustado Ejemplo 16
• Para medir la utilidad de usar un modelo más • En un estudio, se analizó la fecha x de cosecha
preciso (mayor explicación) pero más difícil de (número de días después de la floración) y la
estimar (mayor número de predictores) es producción y (kg/ha.) de arroz en cáscara, para
conveniente ajustar R2. un grano cultivado en la India.
n −1 SSE (n − 1)R 2 − k
R 2 ajustado = 1− ⋅ =
n − (k + 1) SST n − (k + 1)
• ¿Qué modelo recomendaría para explicar la
producción de arroz en cáscara, como una
función de la cosecha?
Diagrama de Dispersión Comparación de modelos

• Conviene siempre representar los datos • Utilizando Excel:
mediante un diagrama de dispersión.
Lineal Cuadrática
• No se aprecia una relación lineal, sí una
posible relación cuadrática
Cúbica
Coeficiente de Determinación Intervalos de confianza e Hipótesis

• Aparecen ajustes en el cálculo de R2. • Cada estimador de parámetro βi tiene una
distribución normal. Por tanto:
SSE = ∑ ∀i (yi − ŷi )
2
β̂i − βi Sigue una distribución t con n-(k+1) grados de
T= libertad.
∑ (y − ŷ )
2 sβ̂ La estimación de la desviación es difícil de calcular
i
σ̂ = s = = MSE
2 2 ∀i i i por lo que se opta por usar siempre la proporcionada
n − (k + 1)
Cambio en el número
por un paquete estadístico.
de grados de libertad
• El intervalo del 100(1-α)% para βi es:
SST = ∑ ∀i (yi − yi )
2
β̂i ± tα /2;n−(k+1)sβ̂
i
SSE
R = 1−
2 • Y la prueba de H0 βi=βi0 se basa en:
SST
β̂i − βi 0
T=
Estadística Aplicada 2. Tema 2. Análisis de Regresión 137 Estadística Aplicada 2. Tema 2. Análisis de Regresión
sβ̂ 138
i
Regresión múltiple Estimación de parámetros
• Se intenta relacionar una variable dependiente • Las estimaciones de mínimos cuadrados de los
con dos o más variables dependientes. La parámetros β0,β1,…,βk se obtienen a través de
ecuación general será: la función de desviaciones cuadradas
Y = β 0 + β1 x1 + β 2 x2 + ...+ β k xk + ε Con: ε : N (0, σ 2 ) observaciones respecto a la función teórica, y
• Al igual que en el caso lineal: resolviendo el sistema de ecuaciones
µY |x ,...,x = β 0 + β1 x1 + β 2 x2 + ... + β k xk + ε resultantes de derivar parcialmente la función
* *
1 k
respecto a cada parámetro (véase también
• Nótese que la regresión polinomial es un caso forma matricial de la regresión lineal).
particular de la regresión lineal múltiple, lo • El cálculo es relativamente complejo, lo que
que muestra la amplitud del concepto “lineal” lleva a su resolución práctica por ordenador.
en regresión.
• En un artículo se describe un experimento Datos de partida:
realizado para evaluar el impacto de la fuerza
(gm) x1, potencia (mW) x2, temperatura (oC) x3
y tiempo (ms) x4 en la resistencia cortante de la
unión de bola (gm), y.
– Estime el modelo correspondiente.
– Estime la resistencia cortante de la unión de bola
cuando la fuerza es de 35 gm, la potencia de 75
mW, la temperatura de 200oC y el tiempo de 20
ms.
– ¿Cuál es el significado de β̂
β22. ?
• La regresión es:
y = −37, 4767 + 0,2117 β1 + 0, 4983β 2 + 0,1297 β 3 + 0,2583β 4
• La estimación puntual sería:
y = −37, 4767 + 0,2117 ⋅ 35 + 0, 4983⋅ 75
+0,1297 ⋅ 200 + 0,2583⋅ 20 = 38, 41
• Significado de β̂β22: Si dejamos constante el

resto de los elementos, el cambio esperado en
la resistencia cortante por cada (mW) de
potencia es de 0,4983 gm.
Coeficientes de determinación Prueba de validez (utilidad)
• Las fórmulas son idénticas a las del caso • La hipótesis nula considera que ninguna
polinomial (más bien la causalidad es la variable explicativa añade información.
contraria): • H0: β1=β2=…=βk=0; Ha: al menos una βi≠0.
SSE = ∑ ∀i (yi − ŷi )
2
• La prueba permite determinar si, al menos, una
∑ (y − ŷ )
2
de las variables explicativas afecta a la
σ̂ = s = = MSE
2 2 ∀i i i
variable de respuesta
n − (k + 1)
Estadístico de prueba: f = MSR
SST = ∑ ∀i (yi − yi )
2
MSE
SSE
R 2 = 1− Región de rechazo: f ≥ Fα ,k,n−(k+1)
SST
Ejemplo 18 Intervalos de confianza para βi

• ¿Es útil el modelo del ejercicio 17? • Tal como en el caso polinomial:
β̂i − βi Sigue una distribución t con n-(k+1) grados de
T= libertad.
sβ̂ La estimación de la desviación es difícil de calcular
i
por lo que se opta por usar siempre la proporcionada
por un paquete estadístico.
• El intervalo del 100(1-α)% para βi es:
β̂i ± tα /2;n−(k+1)sβ̂
i
• El modelo es útil tal como indican los datos • Y la prueba de H0 βi=βi0 se basa en:
• En ningún momento se ha descartado la opción β̂i − βi 0
que un modelo con menos variables T=
sβ̂
explicativa pudiera ser mejor. i
Prueba de efecto Ejemplo 19

• Si deseamos comprobar si una variable • En los datos del ejemplo 17, ¿son
predictora tiene efecto en la variable respuesta, significativas todas las variables del modelo?
la prueba de hipótesis es la siguiente:
• H0 βi=β0; Ha βi≠β0
β̂i
T=
sβ̂
i
• La región de rechazo es:
t 0 > tα /2,n−(k+1)
Prueba para grupos de variables Ejemplo 20
• En los datos siguientes, la variable dependiente y es
• Considere un conjunto de variables predictoras el valor nominal de planchado permanente, una
x1,x2,…,xl,xl+1…,xk. medida cuantitativa de resistencia a las arrugas. Las
• Si quiere verificar si las últimas k-l variables cuatro variables independientes son: x1:
pueden ser eliminadas, se puede desarrollar la concentración de formaldehído, x2: proporción de
siguiente prueba: catalizador, x3: temperatura de curado y x4: tiempo
H0: βl+1=βl+2=…=βk=0; Ha: Al menos una ≠ 0 de curado.
• Determinamos SSEk y SSEl: Variaciones no • Considere un modelo con 14 predictores:
explicada por el modelo completo y el modelo x1,..x4,x5=x12,..,x8=x42,x9=x1x2,x10=x1x3,..,x14=x3x4.
reducido. (SSEl − SSEk ) (k − l ) (predictores de primer y segundo orden)
Estadístico de Prueba: f =
SSEk  n − (k + 1)
• ¿Se justifica la introducción de los predictores de
Región de rechazo: f ≥ Fα ,k−l,n−(k+1)
Estadística Aplicada 2. Tema 2. Análisis de Regresión 151 segundo orden?
Ejemplo 20. Datos Ejemplo 20. Coeficientes
Ejemplo 20. Hipótesis

• Las hipótesis a probar son:
H 0 : β 5 = β 6 = ... = β14 = 0;H a :Una no es cero Tema 2. Parte 7
• Determinamos el estadístico de prueba:
f=
(SSEl − SSEk ) (k − l ) = (17, 4951− 4, 4782 ) 10 = 4, 36
SSEk  n − (k + 1) 4, 4782 15
Modelos con variables
• Y el valor de la prueba es: ficticias
( )
valor p = P Fk−l,n−(k+1) ≥ 4, 36 = P (F10,15 ≥ 4, 36 )= 0,005355
• Concluimos que el modelo adecuado debe

incluir al menos un predictor de segundo
orden.
Variables indicadoras o ficticias Clasificación
• En ocasiones es interesante utilizar variables • A estas variables también se les conoce como
cualitativas o categóricas como predictores en variables “dummy” y debe distinguirse entre
una regresión. dos grandes tipos de variable “dummy”:
• En general una variable cualitativa no tiene – Variables que originalmente presentan dos
escala de medida, lo que obliga a asignar un categorías.
conjunto de niveles a la variable que permita – Variables que originalmente presentan más de dos
tener en cuenta su efecto sobre la variable de categorías.
respuesta. • A continuación se muestra cómo proceder para
• Esta escala se obtiene mediante la introducción en la construcción de modelos con variables
de variables indicadoras o ficticias ficticias a través de varios ejemplos.
Casos Aplicaciones de variables ficticias

• Las variables ficticias permiten plantear las
• Caso con dos categorías: La variable “género”
siguientes situaciones:
tiene dos categorías “masculino” y “femenino”. En
– Dos o más categorías muestran la misma pendiente
este caso se procede creando una única variable
pero diferentes ordenadas en el origen.
ficticia que adopta el valor de 1 para los hombres y
– Dos o más categorías muestran distintas pendientes y
de 0 para las mujeres. ordenadas.
• Caso con varias categorías: En una serie de datos – Introducción en la regresión del efecto de una variable
trimestrales, se debe identificar el trimestre (de los cuantitativa.
cuatro) de los que proviene el dato. En tal caso – Agrupación de variables cuantitativas a través de
podríamos crear cuatro variables dummy para variables indicadoras
codificar el trimestre al que pertoca el dato, pero • A continuación se desarrolla la teoría de cada uno
realmente sólo son necesarias tres variables. de estos casos.
Igual Pendiente, Distintas Ordenadas Modelo

• Se desea relacionar la vida útil (y) de una pieza • Suponiendo que es adecuado un modelo de
de utillaje de un torno, con la velocidad de primer orden, tenemos:
operación de éste (x1) y la clase de utillaje que y = β 0 + β1 x1 + β 2 x2 + ε
se usa (x2), que tiene dos niveles A y B. Por • Este tipo de modelo modifica el origen en el
tanto, x2 es una variable cualitativa de dos eje porque:
niveles:
– Si x2=0, entonces el modelo se reduce a:
– x2=0, si el utillaje es de tipo A.
y = β 0 + β1 x1 + β 2 (0 ) + ε = β 0 + β1 x1 + ε
– x2=1, si el utillaje es de tipo B.
– Si x2=1, entonces el modelo se reduce a:
y = β 0 + β1 x1 + β 2 (1) + ε = (β 0 + β 2 )+ β1 x1 + ε
Descripción gráfica Generalización
• Las dos rectas de regresión se ven en la figura • Se puede generalizar este método para tener en
siguiente: cuenta factores cualitativos a cualquier
• Ambas rectas tienen la cantidad de categorías. Pongamos por ejemplo
misma pendiente
Herramienta B 3 tipos de herramienta:
• La varianza de los errores
es idéntica x2 x3 Descripción
• El parámetro β2
0 0 Herramienta tipo A
representa las diferencias
entre los dos tipos de 0 1 Herramienta tipo B
Herramienta A herramienta. 1 0 Herramienta tipo C
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε
Distintas Pendientes y Ordenadas Descripción gráfica

• Es posible modelar este tipo de situaciones • Las dos rectas de regresión se ven en la figura
usando una única ecuación de regresión. El siguiente • β2 y β3 representan las
diferencias respecto a un
modelo es: nivel básico (marcado por la
Herramienta B
y = β 0 + β1 x1 + β 2 x2 + β 3 x1 x2 + ε herramienta A) que introduce
la nueva herramienta.
• Se ha agregado en la ecuación un producto • La ventaja que introduce este
cruzado entre la variable explicativa x1 y la tipo de modelo respecto a
variable ficticia x2 Herramienta A dos regresiones
independientes es que si
• Los modelos reducidos son: realmente las mejoras son
y = β 0 + β1 x1 + ε si x2 = 0 lineales, el modelo cuenta
con más información para
y = (β 0 + β 2 )+ (β1 + β 3 )x1 + ε si x2 = 1 identificar los cambios.
Pruebas de hipótesis Incorporación de variables cualitativas

• Otra ventaja de las variables indicadoras es • Supóngase que en el ejemplo del torno
poder realizar pruebas de hipótesis del modelo utilizado hasta el momento se considera un
conjunto usando la suma de cuadrados. nuevo aspecto cualitativo, asociado al tipo de
• Para probar si la variable ficticia aporta lubricante que se usa (x3).
información: – x3=0, si se usa aceite de baja viscosidad
H0: β2=β3=0; Ha: β2≠0 y/o β3≠0 – x3=1, si se usa aceite de viscosidad intermedia
• Para probar si las dos rectas tienen la misma • El nuevo modelo de regresión que relaciona la
pendiente pero diferente ordenada vida útil con la velocidad del corte, tipo de
herramienta y lubricante sería:
H0: β3=0; Ha: β3≠0
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε
Características del modelo Interacciones más complejas
• En el modelo anterior: • Se pueden modelar el efecto de diversas
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε interacciones. Por ejemplo teniendo en cuenta
• La pendiente (β1) asocia la vida útil con la efectos cruzados el modelo sería:
velocidad de corte y no depende ni del tipo de y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + β 4 x1 x2 + β 5 x1 x3 + β 6 x2 x3 + ε
herramienta, ni del tipo de lubricante de corte.
Herramienta Viscosidad Regresión
• La ordenada al origen sí depende de esos A (x2=0) Baja (x3=0) y=β0+β1x1
factores y consiste en una componente aditiva: A (x2=0) Intermedia (x3=1) y=(β0+β3)+(β1+β5)x1
– El efecto de la herramienta corresponde a β2
– El efecto del aceite corresponde a β3 B (x2=1) Baja (x3=0) y=(β0+β2)+(β1+β4)x1
B (x2=1) Intermedia (x3=1) y=(β0+β2+β3)+(β1+β4+β5+β6)x1

Modelo a evitar Implicaciones del modelo anterior

• Existe una tendencia (que debe evitarse) a • El modelo implica que:
crear modelos siguiendo la pauta que se E (y | x1;sin acondicionamiento ) = β 0 + β1 x1 + β 2
describe.
E (y | x1;ven tan as ) = β 0 + β1 x1 + 2 β 2
• Disponemos de una variable con un código
asignado: E (y | x1;bomba ) = β 0 + β1 x1 + 3β 2 ¡¡¡El método está
El modelo intenta explicar
E (y | x1;central ) = β 0 + β1 x1 + 4 β 2
imponiendo una
Tipo de acondicionamiento x2 el coste de electricidad (y)
métrica a un modelo
Sin acondicionamiento 1 respecto al tamaño (x1) y
cualitativo!!!
Ventanas 2 tipo de acondicionamiento • Además:
(x2).
Bomba térmica 3 E (y | x1;central )− E (y | x1;bomba ) = E (y | x1;bomba )− E (y | x1;ven tan as )
El ajuste sería:
Acondicionamiento central 4 = E (y | x1;ven tan as )− E (y | x1;sin acondicionamiento ) = β 2
y = β 0 + β1 x1 + β 2 x2 + ε
Agrupación de regresores cuantitativos Ventajas e inconvenientes

• En ocasiones, puede se interesante sustituir un • La agrupación representa diversas ventajas e
regresor cuantitativo por un conjunto de inconvenientes:
variables regresoras. Ventajas:
• Esta práctica es interesante cuando: – Puede eliminar la necesidad de considerar
– No se puede conocer con exactitud el valor del hipótesis acerca de la relación entre la variable
regresor respuesta y la variable regresora
– Existen motivos para considerar que la respuesta Inconvenientes:
en la variable independiente es igual para rangos – Requiere más parámetros
de valores parejos.
– Aumenta la complejidad del modelo.
• Un ejemplo sería la relación entre consumo – Reduce los grados de libertad.
eléctrico y los ingresos familiares.
Ejemplo 21 Ejemplo 21. Descripción Datos
• Se desea analizar si existe una posible • Disponemos de la siguiente información:
discriminación por género en un banco. – Nivel Educativo: Variable categórica con 5 niveles (1: educación
secundaria, 5: tiene un postgrado)
– Grado de Empleo: Variable categórica con 6 niveles (6 es el más
alto)
– Año de contratación
– Año de nacimiento
– Género: Asociaremos mujer con 1 y varón con 0
– Experiencia: Número de años de experiencia anteriores a
contratación
– PC Empleo: Variable categórica si usa ordenador en el lugar de
• ¿Podemos afirmar o contradecir el hecho con trabajo
los datos disponibles? – Salario: Sueldo anual en miles de dólares.
Procedimiento de resolución Resumen resultado

• Para intentar contestar a la pregunta anterior
empezaremos creando modelos con más y más Poco
variables explicativas preguntando en cada representativo
caso si la variable explicativa Género influye
en el salario obtenido según la recta que
explique la variable Salario.
• El primer modelo usa únicamente la variable
género, por lo que el modelo es:
• salario=β0+β1×género 45,505-8,295×género
• Parece un efecto significativo
Modelo incluyendo experiencia laboral Modelo incluyendo experiencia laboral

• Incluiremos en el análisis los años de • Si se muestran las rectas de tendencia de
experiencia dentro (x2, medido como 95-año hombres y mujeres:
contratación) y fuera del banco (x3, medido y|Mujer=27,412+0,988×x2+0,131×x3.
como años previos). y|Hombre=35,492+0,988×x2+0,131×x3.
• El modelo resultante es: • El modelo sigue teniendo un factor explicativo
• y=35,492-8,08x1+0,988x2+0,131x3. bajo (R2=49,2%)
• Sigue mostrando discriminación por sexo (la
regresión muestra que una fémina debe pasar
algo más de ocho años en la empresa para
recibir el mismo salario que un hombre).
Modelo con nivel educativo Modelo con nivel educativo
• Creamos cinco variables facticias, una para
cada nivel educativo desde el 2 al 6 (tener 0 en
todas las variables indicativas muestra que
formas parte del nivel 1).
• La recta de regresión es:
y=26,6123-
4,501×género+1,033×exp.interna+0,362×exp.e
xterna+0,16×edu_2
+4,764×edu_3+7,32×edu_4+11,77×edu_5
Modelo con grado de empleo Tabla de resultados

• El modelo aún no incluye el grado de empleo. • Puede verse que el género no resulta
Es probable que la diferencia responda a la significativo (al menos al 95%, p-valor=0,08)
categoría laboral donde trabajan las mujeres
(en tal caso se podría decir que existe
discriminación en cuanto a contratación de
trabajadores femeninas pero no en cuanto a su
retribución salarial).
• Para ello añadimos cinco variables que
estudien el trabajo realizado.
Explicación de los resultados

• Nos falta por incluir factores que podrían
resultar importantes (edad y uso de PC). Tema 2. Parte 8
• Aunque la diferencia salarial parece existir,
ésta no es suficientemente significativa como
para poder considerar que existe una
discriminación por género.
Multicolinearidad
• Los datos utilizados muestran un fenómeno
conocido como multicolinearidad, que se
estudia seguidamente en la asignatura.
Concepto Definición
• Con frecuencia dos o más variables predictoras • Se entiende por colinearidad a la presencia de
empleadas en el modelo para predecir la dos o más variables explicativas con una fuerte
variable Y contribuyen con información correlación lineal.
redundante, es decir están correlacionadas
entre sí. • La colinearidad conlleva complicaciones para
• Véase por ejemplo la información asociada al estimar parámetros que dificultan la
nivel educativo y al nivel laboral del ejemplo credibilidad del modelo desarrollado.
anterior.
• Cuando ello ocurre decimos que hay presencia
de colinearidad en el modelo.
Representación gráfica Cómo detectar multicolinearidad

• La superposición representa la correlación. • Correlaciones significativas entre pares de
Variación Total Explicada por x1 variables. Detectable mediante gráficas de
Explicada por ambas dispersión o tablas de correlaciones.
• Pruebas t no significativas para los parámetros
Explicada por x2
β individuales cuando la prueba F de validez
del modelo es significativa. Detectable
analizando resultados tabla ANOVA.
• Signos opuestos (a los esperados) en los
parámetros estimados: Si la correlación entre
variable explicativa y respuesta es positiva β
no puede ser negativo.
Grado de multicolinearidad Valor de inflacción de la varianza

• Es posible demostrar que:
• Dada la expresión anterior de la varianza de
()
 1   1  los estimadores de los parámetros del modelo,
V β̂ j = σ 2  2
⇒ sβ̂2 = s 2  2
 1− R j  j
 1− R j  es posible afirmar que la varianza del
• donde Rj2 es el coeficiente de determinación estimador de βj está inflada por una cantidad
múltiple resultante de la regresión de xj como (1-Rj2)-1. Esto nos lleva a la siguiente
función de las otras k-1 variables regresoras. definición:
VIF (β j )=
1
• Puede entenderse que Rj2 es una medida de 2
, j = 1,2,..., k
1− R j
correlación entre xj y las otras variables • Y a la siguiente escala:
regresoras. – VIF<5: Sin problemas de multicolinearidad
• Mientras mayor sea la correlación más – 5<VIF<10: Posibles problemas
multicolinearidad
– 10<VIF: Hay problema de colinearidad
VIF en Minitab Ejemplo 22
• Minitab permite reportar estos factores • La comisión federal de comercio de Estados
directamente sin necesidad de realizar cálculos Unidos clasifica anualmente las variedades de
adicionales: cigarrillos nacionales según el contenido de
• Para ello, en las opciones de regresión: alquitrán, nicotina y monóxido de carbono.
• A continuación se muestran los datos para 25
marcas de cigarrillos y se pretende modelar el
contenido de monóxido de carbono (y), en
función del contenido de alquitrán (x1), el
contenido de nicotina (x2) y el peso (x3) a
través de una regresión múltiple. ¿Hay indicios
de multicolinearidad?
Ejemplo 22. Datos Solución

• Parece suficiente con uno de los dos valores
para estimar el monóxido:
Predictor Coef SE Coef T P VIF

Constante 3,202 3,462 0,93 0,365
Alquitrán (mg) 0,9626 0,2422 3,97 0,001 21,631
Nicotina (mg) -2,632 3,901 -0,67 0,507 21,900
Peso (g) -0,130 3,885 -0,03 0,974 1,334
Selección de variables
• Si disponemos de k variables predictoras,
Tema 2. Parte 9 ¿Cuál es el mejor modelo para explicar el
comportamiento de la variable dependiente y?
• Conceptos:
– Parsimonia. Seleccionar la máxima cantidad de
Métodos para la selección de variabilidad con el menor número de variables.
variables independientes – Maximizar R2 ajustado. Equivalente a minimizar
MSEk (nunca max. R2)
– Minimizar Ck
– Minimizar PRESS
– Maximizar R2 pronosticada
Error esperado y normalizado Ejemplo 23
• Se define el error esperado y normalizado de la
• En un artículo, se describe un análisis de los datos
estimación como:
Γk =
E (∑ ∀i
Yî − E (Yi )
 
2
)= E (SSE ) + 2 (k + 1)− n
k
tomados de una revista de automóviles. La
variable dependiente y fue el rendimiento de
σ σ2 2 combustible y los predictores fueron x1: forma del
• Un subconjunto de variables es atractivo si Γk motor (1=recto, 0=V), x2: número de cilindros; x3:
es pequeño. Desafortunadamente, se tipo de transmisión (1=manual, 0=automática);
desconocen los los valores de E(SSEk) y σ2. x4: número de velocidades de la transmisión; x5:
Ésta última puede estimarse (s2=MSEk) y la tamaño del motor; x6: caballos de potencia; x7:
otra puede aproximarse, por lo que se define: número de gargantas del carburador; x8: relación
SSE de transmisión final; x9: peso y x10: tiempo para
Ck = 2 + 2 (k + 1) − n Cuyo valor es deseable que
s sea pequeño (y cercano a k+1) recorrer un cuarto de milla.
• Mejores combinaciones: • Evolución gráfica:
Parece justificable usar k=3 (discutible k=4)

Ejemplo 24
la respuesta es Resistencia
• Retomando el ejemplo 17, se analizan la F P T T
selección de variables mediante MINITAB. u o e i
e t m e
Opción: Regresión / Mejores subconjuntos Rk2 adj Ck SCEk
Rk2 r e p m
R-cuad. Cp de z n e p
Vars R-cuad. (ajustado) Mallows S a c r o
1 57,7 56,2 11,0 5,9289 X
1 10,8 7,7 51,9 8,6045 X
2 68,5 66,2 3,5 5,2070 X X
2 59,4 56,4 11,5 5,9136 X X
3 70,2 66,8 4,0 5,1590 X X X
3 69,7 66,2 4,5 5,2078 X X X
4 71,4 66,8 5,0 5,1580 X X X X
Regresión por pasos Regresión por pasos Minitab
• El método anterior se hace impracticable
cuando el número de predictores crece (por
ejemplo cuando se usan modelos de segundo
orden).
• Entre los métodos de selección posibles se
acostumbra a utilizar una técnica heurística
denominada “paso a paso” que
selecciona/elimina predictores uno a uno.
Resultado (alfa=0,1) Resultado (alfa=0,1)

Eliminación hacia atrás. Alfa a retirar: 0,1 Paso 1 2 3
La respuesta es Resistencia en 4 predictores, con N= 30 Tiempo 0,26 0,26
Paso 1 2 3
Valor T 1,23 1,23
Constante -37,48 -30,07 -24,90
Fuerza 0,21 Valor P 0,231 0,231
Valor T 1,01
Valor P 0,324 S 5,16 5,16 5,21
R-cuad. 71,40 70,24 68,52
Potencia 0,498 0,498 0,498
R-cuad.(ajustado) 66,82 66,81 66,19
Valor T 7,10 7,10 7,03
Valor P 0,000 0,000 0,000 Cp de Mallows 5,0 4,0 3,5
Temperatura 0,130 0,130 0,130

Valor T 3,08 3,08 3,05
Valor P 0,005 0,005 0,005
Regresión no lineal
• Una función que relaciona y con x es
Tema 2. Parte 10 intrínsicamente lineal si por medio de una
transformación de y y/o x se puede expresar
como y’=β0+β1x’ donde y’ y x’ son las
variables transformadas.
Regresión no lineal
Exponencial Potencia
Logarítmica Recíproca
Modelos intrínsicamente lineales Curva de aprendizaje

• Un modelo probabilístico que usa una función • La curva de aprendizaje es un modelo
intrínsicamente lineal es intrínsicamente lineal. ampliamente utilizado que relaciona el tiempo
• La recta de regresión será: (coste) unitario de fabricación de un producto
y' = β 0 + β 0 x '+ ε '
con el volumen acumulado de producción
(desde el momento que se empezó a fabricar).
• El modelo puede ser estimado usando mínimos
• Estudios empíricos indican que el tiempo de
(∑ x )(∑ y )
cuadrados: ' '
n∑ ∀i xi yi −
' '
producción tiende a decrecer un porcentaje
β̂1 = ∀i i ∀i i
n∑ (x ) − (∑ x )
' 2 '
2 relativamente constante cada vez que el
∀i i ∀i i
número de unidades producidas se duplica.
β̂ 0 =
∑ ∀i
yi' − β̂1 ∑ ∀i xi' • El porcentaje constante es conocido como tasa
n de aprendizaje.
Supuestos de la curva de aprendizaje Modelo
• La cantidad de tiempo requerido para terminar • El modelo de la curva de aprendizaje es el
una tarea o una unidad de producto será menor siguiente:
cada vez que se emprenda la tarea. Yx = Kx n
• La disminución del tiempo (coste) por unidad • Donde:
irá disminuyendo a un ritmo decreciente. – x: número de la unidad a producir
• La reducción de tiempo sigue un patrón – Yx: número de horas-hombre (o coste directo)
previsible. requerido para producir la x-ésima unidad.
– K: número de horas-hombre (o coste directo)
necesario para producir la primera unidad.
– n: ln(b)/ln(2), donde b: tasa de aprendizaje.
• Una compañía produce una variedad de pequeños • Una forma de determinar si el modelo sigue
productos industriales. una curva de aprendizaje es crear variables
• Acaba de terminar la producción 22 lotes del logarítmicas y ver si el diagrama de dispersión
nuevo producto entre las variables logarítmicas muestra una
• Se dispone de un archivo con los tiempos relación lineal
utilizados para cada uno de los 22 lotes
• Los tiempos han tendido a decrecer según se ha
ganado experiencia en la elaboración del producto.
• ¿La reducción de tiempos sigue una curva de
aprendizaje?
• Parece lógico realizar una regresión entre las • Del modelo de curva de aprendizaje
variables logarítmicas. La recta de regresión deducimos:
es: • -0,155=ln(tasa aprendizaje) / ln(2)
Ln(Tiempo)=4,834-0,155 Ln(Lote) • Despejando la tasa de aprendizaje
• Hay un par de formas de interpretar la (multiplicamos por ln(2) y elevando a e)
ecuación: obtenemos que tasa aprendizaje es 0,898,
– El coeficiente -0,155 está asociado a una aproximadamente un 90%.
elasticidad. Esto es, cuando el número de lotes se • Por tanto, cada vez que la producción
incrementa en un 1%, el tiempo se reduce
acumulada se duplica, el tiempo de producción
aproximadamente un 0,155%. La interpretación no
es interesante desde un punto de vista productivo.
disminuye un 10%.
Ejemplo 27 Función de Cobb-Douglas
• Este cálculo puede utilizarse • Función de producción que explica la
para predecir valores futuros. producción total en un año (valor monetario de
• Utilizando la recta de regresión todos los productos) para un sector económico
se obtiene el valor logarítmico (empresa, región, país, etc.) en función del
de tiempo. nivel de trabajo y de capital.
• Para obtener el tiempo es • El nivel de trabajo se mede en horas-hombre
suficiente con elevar e por el (HH) trabajadas, o bien mediante los
valor predecido por la honorarios pagados.
regresión. • El nivel de capital se mide en capacidad de
maquinaria instalada, o el capital total
necesario para realizar la actividad económica.
Función de Cobb-Douglas Función de Cobb-Douglas

• El modelo es el siguiente: • Si α+β=1, se dice que la función de producción
α
Q = A× L ×K β tiene economías de escala constantes, es decir
• Donde: si L y K aumentan cada uno en un 20%, Q
también aumenta un 20%
– Q: producción total.
– A: factor total de productividad. • Si α+β<1, se dice que la función de producción
– L: nivel de trabajo.
tiene rendimientos de escala decrecientes. El
output crece en proporción menor al input.
– K: nivel de capital.
– α: elasticidad trabajo-producto. • Si α+β>1, se dice que la función de producción
– β: elasticidad capital-producto. tiene rendimientos de escala crecientes. El
output crece en proporción mayor al input.
Ejemplo 27 Ejemplo 27 Qt Lt Kt
179,2 193,5 1.141,0
181,0 182,8 1.241,0
• Se dispone de los datos de producción (Qt) de • Una regresión 183,1 171,7 1.357,0
la minería española para los años del periodo permitirá identificar 184,9 163,4 1.465,0
1969-1984. El valor está expresado en los parámetros α, β de 185,8 143,3 1.562,0
220,8 140,4 1.742,0
unidades monetarias constantes de 1984. la minería en esos
238,8 141,6 1.954,0
• El efecto del trabajo en la producción (Lt) años. 241,7 138,6 2.141,0
viene expresado en millones de horas hombre 242,5 145,4 2.352,0
240,7 128,1 2.399,0
trabajadas. 248,5 126,4 2.557,0
• El stock de capital o riqueza (Kt) en potencia 312,1 149,2 2.680,0
347,3 145,9 2.899,0
instalada en miles de caballos de vapor.
366,2 144,5 3.082,0
424,7 139,7 3.062,0
404,9 131,8 3.052,0
• El modelo no es lineal, pero puede linearizarse
aplicando ln.
lnQ=lnA+αlnL+βlnK.
• La regresión por tanto sería:
lnQ=lnA+αlnL+βlnK+ε.
• Donde:
ε : N (0,σ 2 )
• La regresión resultante es:
Ejemplo 27 Ejemplo 27 (Resultados Minitab)

La ecuación de regresión es ln(Qt)= -7,29+0,94 ln(Lt)+1,06 ln(Kt)
ln Q=-7,287+0,9402 ln L+1,0637 ln K
Q=0,00068 L0,9402K1,0637 Constante
ln(Lt)
-7,287
0,9402
2,297
0,3144
-3,17
2,99
0,007
0,010
ln(Kt) 1,0637 0,1119 9,51 0,000

• Nótese que R2 es muy alto (91,4%) lo que
demuestra que el modelo de Cobb-Douglas Análisis de varianza
expresa correctamente la interrelación. Fuente GL SC MC F P

Regresión 2 1,21358 0,60679 68,95 0,000
• Además el modelo se muestra como válido Error residual
Total
13
15
0,11440
1,32798
0,00880
(valor F alto y p-valor cercano a cero) y todas

los coeficientes son significativos. Estadístico de Durbin-Watson = 0,738679
Ejemplo 27
• El valor de 0,9402 que acompaña a la variable, es
la estimación de la elasticidad trabajo‐producto,
la cual puede interpretarse de la siguiente forma:
– Si el empleo se incrementa en un 1%, es de esperar
que la producción se incremente en un 0,94%.
• El valor deque acompaña a la variable, es la
estimación de la elasticidad capital‐producto, la
cual puede interpretarse de la siguiente forma:
– Si el capital (potencia instalada) se incrementa en un
1%, es de esperar que la producción se incremente en
aproximadamente un 1,06%.

Cap02 - Analisis de Regresion

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Cap02 - Analisis de Regresion

Diunggah oleh

Hak Cipta:

Format Tersedia

Estadística Aplicada 2. Tema 2.

Tema 2. Regresión Lineal Concepto de Regresión Lineal

Modelo de Regresión Lineal Simple Modelo de Regresión Lineal Simple

Ejemplo 1 Ejemplo 1 (datos)

• En Excel ha sido necesario cambiar el rango de

Modelo probabilístico lineal Modelo probabilístico lineal

Ejemplo 2 Ejemplo 2. Solución

Ejemplo 3 Gráfico de Dispersión

a) Realice un gráfico de dispersión de los datos

Gráfico de Dispersión con Recta Ejemplo 3. Conclusiones

Funcionamiento mínimos cuadrados Recta de regresión estimada

Determinación de los parámetros Nomenclatura

• Para evitar posibles errores de redondeo es • Entonces:

• Así, el esfuerzo esperado hasta ruptura cuando

484 − (−0,900885 )200

lineal). n−2 n−2

Ejemplo 6 Ejemplo 6 Gráfico de Dispersión

Ejemplo 6. Regresión Ejemplo 6. Errores

SSE = 3654,69 + ...+ 3623,08 = 76493,98

Ejemplo 7. Gráfico de Dispersión Ejemplo 7. Cálculo SSE

s 2 = 0,2624532 14 − 2 = 0,0218711 y s = 0,1479

• Como siempre cuidado con redondeos

Coeficiente de determinación Coeficientes de determinación

Ejemplo 8 Resultados por Minitab

S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%

Resultados por Minitab Resultados por Minitab

Predictor Coef SE Coef T P Predictor Coef SE Coef T P

Resultados por Minitab Tabla ANOVA

S = 0,147890 R-cuad. = 89,7% R-cuad.(ajustado) = 88,9%

Test F para análisis de regresión Ejemplo 9

• Se desea verificar si la regresión es

Inferencias sobre β1 Ejemplo 10

Ejemplo 10.Datos y Gráfico Ejemplo 10. Parámetros

(∑ x )(∑ y )= 573, 313 = 0,152119

• Por tanto, tenemos un alto grado de confianza

Prueba de hipótesis sobre β1 Ejemplo 11.

• Si β1,0=0, la prueba se conoce como la prueba está determinado por el contenido de

Ejemplo 11. Gráfico de dispersión Ejemplo 11. Resultados

• Nota: Se ha eliminado una parte de los resultados

t = −11,11; t 0,05;18 =1, 73406; t = 2,10092 

IC de la respuesta media Nota

Ejemplo 12. Ejemplo 12.

Representación de intervalos Ejemplo 13

• Obtenga un IP del 95% para el % en mol

∑ ∀i yi2 = 2,1785; ∑ ∀i xi yi = 2417,84 • El intervalo de confianza es el siguiente:

Predictor Coef SE Coef T P Tema 2. Parte 4a

S = 0,130012 R-cuad. = 59,4% R-cuad.(ajustado) = 55,7%

Regresión por el origen Regresión por el origen

Estadística Aplicada 2. Tema 2. Análisis de Regresión

Intervalos de confianza Tabla ANOVA

Errores comunes Comparación de modelos

Ejemplo 14 Ejemplo 14. Gráfico de Dispersión

• Determine si es mejor un modelo con o sin

Coeficiente de Correlación Muestral

Inferencias sobre correlación Regiones de rechazo

Forma Matricial Forma matricial

Mínimos cuadrados en Forma Matricial Ejemplo, regresión por el origen

X ' X β̂ = X ' y ⇒ β̂ = (X ' X ) X ' y

Ejemplo, regresión con varias variables

Residuos Residuos estandarizados

Ejemplo 15 Gráficas de Diagnóstico

ei* respecto xi ei* (o ei) respecto pronóstico