LINEAL
SIMPLE
Práctica No. I
Aplicar, desarrollar y analizar las técnicas de
regresión lineal simple para hacer predicciones
de sucesos futuros en el ramo empresarial.
MANUAL DE PRÁCTICAS PARA LA MATERIA ESTADÍSTICA II
Práctica No. I
Objetivo:
Aplicar, desarrollar y analizar las técnicas de regresión lineal simple para hacer
predicciones de sucesos futuros en el ramo empresarial.
Introducción:
La regresión es una técnica estadística que se utiliza para resolver problemas comunes
en el ramo empresarial, la cual consiste en un método matemático que modela la
relación lineal entre dos variables, una llamada variable dependiente, la cual suponemos
se ve afectada por los cambios producidos por una variable independiente, y un término
aleatorio (comúnmente llamado error).
A menudo, se intenta determinar la relación que existe entre un par de variables, por
ejemplo: ¿Existe una relación entre el promedio obtenido por un alumno a nivel
preparatoria y el promedio obtenido a nivel profesional? , ¿Las ventas se ven afectadas
por los gastos de publicidad? Etc.
En muchas situaciones, los valores de las variables no se determinan simultáneamente
en el tiempo; más bien, se ajusta una de las variables a un determinado valor, y éste por
su parte, afecta el valor de la segunda variable. Por ejemplo, el presupuesto dedicado a
mercadotecnia se suele decidir antes de que estén determinadas las cifras de ventas, y la
cantidad de catalizador empleado en un experimento se suele establecer antes de que se
pueda determinar el resultado del mismo. La variable cuyo valor se determina con
anterioridad recibe el nombre de variable de entrada, variable predictora o variable
independiente, mientras que a la otra se le conoce como variable de salida, variable
respuesta o dependiente.
Las observaciones las clasificamos en dos tipos de datos, x, y donde x es la variable
independiente y y la variable dependiente.
El tipo de relación más sencilla entre este par de variables es la relación que se establece
mediante una línea recta, o relación
y = β 0 + β1 x lineal, en la forma:
Sin embargo, este modelo supone que (una vez que los parámetros β 0 y β1 estén
determinados) es posible predecir exactamente la respuesta a cualquier valor de la
variable de entrada. En la práctica, tal precisión casi nunca es alcanzable, de modo que
lo máximo que se puede esperar es que la anterior ecuación sea válida sujeta a un error
aleatorio.
Consideremos un par de variables, una de las cuales será denominada variable de
entrada y la otra, variable de respuesta. Supongamos que para un valor dado, x, de la
variable de entrada, la variable de respuesta, Y, se puede expresar en la forma:
y = β 0 + β1 x + ei
β1 > 0 β1 < 0 β1 = 0
• Cuando β1 >0, implica que a medida que aumenta x, aumenta y de ahí que la
pendiente sea positiva.
• Cuando β1 <0, implica que a medida que aumenta x , disminuye y, de ahí que la
pendiente sea positiva
Ejemplo:
Se pidió a los alumnos de un curso de estadística II llenaran un formulario con los
siguientes datos.
70 74 80 78
87 90 83 84
85 76 90 86
75 77 90 92
95
90
Calif Estad y
85
80
75
70
70 75 80 85 90 95 100
Calif Prob x
Interpretando el diagrama podemos suponer que existe una relación entre la calificación
obtenida en la asignatura Probabilidad y la calificación de la asignatura Estadística I de
tal forma que a mayor precio calificación en la asignatura Probabilidad la calificación
de la asignatura Estadística I aumenta, es decir la relación es fuerte positiva, y el modelo
lineal es el apropiado para esta colección de datos.
i = 1.....n para estimar los parámetros β 0 y β1 del modelo de regresión lineal simple
de entrada xi .
Donde:
ei ≡ yi − ( βˆ0 + βˆ1x ) = y − yˆ i i
∑ ei = ∑ ( yi − βˆ0 + βˆ1 )
n n
2 2
i =1 i =1
Fórmulas Conceptuales
n _ _
∧ ∑ xy − n x y
β1 = i =1
n _2
∑x −nx
2
i
i =1
∧ _ ∧ _
β 0 = y − β1 x
Donde
n n
_ ∑ xi _ ∑Y i
x= i =1
y y= i =1
n n
Sea:
n _ n
S xy = ∑ ( xi − x)( yi − y ) = ∑ xi yi −
∑ x∑ y
i= i =1 n
n
n _ 2 n
(∑ xi ) 2
S xx = ∑ ( xi − x) = ∑ xi2 − i =1
i= i =1 n
n
n n
( ∑ yi ) 2
S yy = ∑ ( yi − y ) 2 = ∑ yi2 − i =1
i =1 i =1 n
Fórmulas simplificadas
Por tanto
∧ S xY
β1 =
S xx
∧ _ ∧ _
β0 = y− β 1 x
Significancia de la regresión
95
yi ŷ
Variabilidad
Calificación obtenida en Estads
Debida al
90 Variabilidad
Total Variabilidad
Debida al
85 modelo
͞y
80
75
70
70 75 80 85 90 95 100
Calificación
Instituto obtenida
Tecnológico en Probab
de Querétaro
Regresión Lineal Simple
M.C. G. Patricia Yscapa Morán
8
MANUAL DE PRÁCTICAS PARA LA MATERIA ESTADÍSTICA II
n n n
∑ ( yi − y ) = ∑ ( yi − y ) 2 + ∑ ( yi − yi ) 2
i =1
2
i =1 i =1
H 0 ; β1 = 0
H1 ; β1 ≠ 0
ANOVA
Fórmulas conceptuales
Fuente df SS MS F
Regresión k n
SS Modelo MS Modelo
∑ ( y
i =1
i − y)2
k MS Error
Error n-k-1 n
SSerror
residual ∑(y
i =1
i − yi ) 2
n − k −1
Total n-1 n
∑(y
i =1
i − y)2
H 0 ; β1 = 0
H1 ; β1 ≠ 0
La hipótesis nula supone que ; β1 = 0 , como β1 es la razón de cambio esto sugiere que
no hay cambio alguno de la variable respuesta debido a la variable predictora.
La hipótesis nula será rechazada si la variabilidad del modelo es mayor a la variabilidad
del error, si esto ocurre, x (variable predictora) le es significativa a y (variable
respuesta) pues lo hace variar cuando ella varia.
ANOVA
Simplificada
Fuente df SS MS F
βˆS xy = βˆ ∑ xi yi − ∑
Regresión k n x∑ y SS Modelo MS Modelo
i =1 n k MS Error
Error n-k-1 SSTotales − SS Modelo SSerror
residual n − k −1
Total n-1 n
n
( ∑ yi ) 2
∑y
i =1
2
i − i =1
n
H 0 ; β1 = 0
H1 ; β1 ≠ 0
ANOVA
Fuente df SS MS F P
Regresión 1 1302.1 1302.1 95.63 0.000
Error 45 626.3 13.6
Instituto Tecnológico de Querétaro
Regresión Lineal Simple
M.C. G. Patricia Yscapa Morán
10
MANUAL DE PRÁCTICAS PARA LA MATERIA ESTADÍSTICA II
residual
Total 47 626.3
Conclusión Interpretación
Como Existe evidencia suficiente para
P vs α decir que la calificación obtenida
0.000 0.02 en probabilidad si predice la
Como P > α se rechaza H 0 ; β1 = 0 calificación que se obtiene en
estadística.
Análisis de Correlación.
SS Modelo
r2 =
SSTotales
En nuestro ejemplo sabemos que:
SS Modelo 1302.1
De ahí que: r = = = 0.675
2
SSTotales 1928.47916
Conclusión Interpretación
r2=0.675 El 67.5% de la variabilidad total se ve explicada por el
r2=67.5% modelo
Conclusión Interpretación
r = 0.822
El 82.2% de las variables (x,y) están relacionadas
r =82.2%
Material y equipo:
Computadora
Excel
Metodología:
1. Abre un libro Excel y llámalo Práctica Regresión Simple, captura la tabla del
ejemplo en una hoja que llames Regresión.
Posiciónate al final de la(s) columnas que contienen la(s) variable(s) y escribe el signo
=, presiona fx selecciona la categoría Estadísticas y selecciona la función PROMEDIO
xy X2
Fórmulas Conceptuales
n _ _
∧ ∑ xy − n x y 338287 − 48(84.229)(83.208)
β1 = i =1
= = 0.694214
n _2 335036 − 48(83.208) 2
∑x −nx
2
i
i =1
∧ _ ∧ _
β 0 = y − β1 x = 84.229 − 0.694214(83.208) = 26.464778
Fórmulas simplificadas
∧
S xY 1875.70833
β1 = = = 0.694214
S xx 2701.91667
∧ _ ∧ _
β 0 = y − β 1 x = 84.22916 − 0.694214 * 83.20833 = 26.46
yˆ i = 26.464 + .6942 x
Interpretación β̂ 0 Interpretación β̂1
De acuerdo a los datos obtenidos la Debido a que β̂1 b tiene un valor positivo,
ordenada al origen corta al eje Y en el la pendiente de la recta es positiva. Por
punto (0, 26.5). cada punto que aumenta la calificación de
probabilidad , la calificación de estadística
aumenta en 0.694
Selecciona la celda y aparecerá un signo más deslízalo hacia abajo y apareceran los
valores ajustados para cada valor de x.
8. Realice la misma operación que en la celda E para encontrar todos los valores y al
final obtén la suma.
2
9. Para encontrar la celda ( y i − y i ) En la celda G2 escriba =(B2-E2)*(B2-E2)
10. Realice la misma operación que en la celda E para encontrar todos los valores y al
final obtén la suma.
12. Realice la misma operación que en la celda F para encontrar todos los valores y al
final obtén la suma.
H 0 ; β1 = 0
H1 ; β1 ≠ 0
ANOVA
Fórmulas conceptuales
Fuente df SS MS F
Regresión 1 1302.090677 1302.090677 1302.090677 1302.0906
= 95.629
=
1 13.6160
Gráfica de distribución
F, df1=1, df2=46
0.7
0.6
0.5
Densidad
0.4
0.3
0.2
0.1
0.04
0.0
0 4.467
X
Conclusión Interpretación
Como Existe evidencia suficiente para decir que
F α=.04, 1, 46 vs F α= , 1, 46 la calificación obtenida en probabilidad si
4.467 < 95.629 predice la calificación que se obtiene en
Se rechaza H0 estadística.
14. Encontremos los valores de ANOVA con las Fórmulas Simplificadas.
H 0 ; β1 = 0
H1 ; β1 ≠ 0
ANOVA
Simplificada
Fuente df SS MS F
Regresión k n
βˆ1 S xy = βˆ1 ∑ x i y i −
∑ x∑ y SS Modelo MS Modelo
i =1 n k MS Error
Total n-1 n
n
(∑ y i ) 2
∑y
i =1
2
i − i =1
15. Para encontrar SS TOTALES, debemos incluir en nuestra hoja de trabajo la columna I
2
yi
En la celda I2 escriba=B2*B2
16. Realice la misma operación que en la celda E para encontrar todos los valores y al
18. Obtén la SS REGRESIÓN = =I57*E64 (observa en donde están posicionados tus valores
de β̂1 y S xy )
H 0 ; β1 = 0
H1 ; β1 ≠ 0
ANOVA
Simplificada
Fuente df SS MS F P
residual =626.336212
Total 47 1928.479167
Gráfica de distribución
F, df1=1, df2=46
1.4
1.2
1.0
Densidad
0.8
0.6
0.4
0.2
8.2578E-13
0.0
0 f= 95.619
Conclusión Interpretación
Enfrentemos Existe evidencia suficiente para decir que
P vs α la calificación obtenida en probabilidad si
8.26E-13 <
0.05 predice la calificación que se obtiene en
Se rechaza H0 estadística.
Conclusión Interpretación
r2=0.675 El 67.5% de la variabilidad total se ve explicada por el
r2=67.5% modelo
Conclusión Interpretación
r = 0.822
El 82.2% de las variables (x,y) están relacionadas
r =82.2%
Busca en los reportes del INEGI un problema en donde tu creas se describa por medio
de un modelo de regresión lineal simple, llena la tabla con los datos
OBS. xi yi
1
2
3
4
5
.
.
.
n
H0;
H1 ;
Conclusión Interpretación
Bibliografía: