PROBABILIDAD Y ESTADSTICA
INTEGRANTES: CDIGOS:
NIVEL: Cuarto A
Riobamba Ecuador
REGRESION LINEAL SIMPLE
1. INTRODUCCIN
El objetivo de este artculo es puntualizar de manera prctica una de las tcnicas estadsticas
comnmente utilizadas en es el anlisis de la relacin o dependencia entre variables: la
regresin lineal simple, la cual es ms conveniente que otros mtodos.
El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la relacin
entre variables. Se adapta a una amplia variedad de situaciones. En la investigacin social,
el anlisis de regresin se utiliza para predecir un amplio rango de fenmenos, desde
medidas econmicas hasta diferentes aspectos del comportamiento humano. En fsica se
utiliza para caracterizar la relacin entre variables o para calibrar medidas. Adems, tiene
mltiples aplicaciones en las diferentes reas cientficas.
Con frecuencia, nos encontramos en Ingeniera con modelos en los que el comportamiento
de una variable, , se puede explicar a travs de una variable ; lo que representamos
mediante:
= ()
Ya que las relaciones del tipo anterior raramente son exactas, sino que ms bien son
aproximaciones en las que se han omitido muchas variables de importancia secundaria,
debemos incluir un trmino de perturbacin aleatoria, , que refleja todos los factores
distintos de -que influyen sobre la variable endgena, pero que ninguno de ellos es
relevante individualmente. Con ello, la relacin quedara de la siguiente forma:
La inclusin del trmino aleatorio de error permite que (, ) quede o por encima de la lnea
de regresin verdadera (cuando > 0) o por debajo (cuando < 0). Los puntos (1 , 1 ),
, ( , ) provenientes de observaciones independientes se dispersarn entonces en torno
a la lnea de regresin verdadera ( = 0 + 1 ), como se ilustra en la figura 1.1.
(x1, y1) Lnea de regresin verdadera
0
1
2
(x2, y2)
x
x1 x2
Figura 1. Puntos correspondientes a observaciones del modelo de regresin lineal simple.
De acuerdo con el modelo, los puntos observados estarn distribuidos en torno a la lnea de
regresin verdadera de una manera aleatoria. Debemos encontrar entonces de entre todas
las rectas la que mejor se ajuste a los datos observados, es decir, buscamos aquellos valores
de 0 y 1 que hagan mnimos los errores de estimacin. La lnea de mejor ajuste es
entonces la que tiene la suma ms pequea posible de desviaciones al cuadrado. De ah
que al mtodo de estimacin se le llame mtodo de mnimos cuadrados.
Es notorio que, si el conjunto de n es grande, entonces el ajuste del modelo no ser bueno.
Es decir que al tener unos residuos pequeos decimos que la seal tiene un buen ajuste.
Otra relacin interesante es la siguiente:
= + +
Cuyo uso da como resultado la aclaracin de la diferencia entre los residuos por la recta
un modelo ajustado = + , y los errores del modelo conceptual por la recta que
refleja el modelo, dada por | = +
Figura 2. Comparacin de con el residuo
2
( )
= = 2
=
=
Ejemplo 1. Los siguientes estadsticos resumidos se obtuvieron con un estudio que utiliz
anlisis de regresin para investigar la relacin entre la deflexin y la temperatura superficial
del pavimento en varios lugares de una carretera estatal. He aqu = temperatura (F) y =
factor de ajuste por deflexin ( 0):
= 15 = 1425 = 10.68
2
= 139037.25 = 987.645 2 = 7.8518
Solucin:
10.68 (0.00736023)(1425)
= = 1.4112
15
= 1.412 0.007360
2.3. Inferencias que conciernen a los coeficientes de regresin
Adems de tan solo estimar la relacin lineal entre y para fines de prediccin, el
experimentador podra estar interesado en hacer ciertas inferencias acerca de pendiente y
la interseccin. Debe estarse dispuesto a hacer la suposicin adicional de que cada i =
1, 2, , tiene distribucin normal, con la finalidad de permitir la prueba de hiptesis y la
construccin de intervalos de confianza sobre y .
s s
b t 2 < < b + t 2
Sxx Sxx
Prueba de hiptesis sobre la pendiente
Donde t 2 es un valor de la distribucin t con n-2 grados de libertad para ambos casos.
Para probar la hiptesis nula H0 de que = 0, contra una alternativa posible, utilizamos de
nuevo la distribucin t con n 2 grados de libertad, con la finalidad de establecer una regin
crtica y despus basar nuestra decisin sobre el valor de
0
=
(33)(41.355) (1104)(1124)
= = .
(33)(41.086) 11042
1124 (0903642)(1104)
= = .
33
En base a lo hallado podemos hallar
( )2 ( )2
= 2 = = 2
(1104)2 (1104)(1124)
= 41.086 = 41.355
33 33
(1124)2
= 41.086
33
= 4152. 18 = 3752.09 = 3713.88
Ahora hallamos 2
3713.88 (0.903643)(3752.09)
2 = = = 10.4299
2 31
Por lo tanto, s:
= 3.2295
Se sabe que 0.025 2.045 para 3 grados de libertad. Asi, un intervalo de confianza de
95% para es:
(2.045)(3.2295) (2.045)(3.2295)
0.903643 < < 0.903643 +
452.18 452.18
. < < .
Adems, para hallar
=1 2 =1 2
< < +
2 2
(2.045)(3.2295)41.086 (2.045)(3.2295)41.086
3.829633 < < 3.829633 +
(33)(4152.18) (33)(4152.18)
. < < .
SSE = (yi yi )2
i=1
SST = (yi yi )2
i=1
Esta ltima representa la variacin en los valores de respuesta que idealmente seran
explicados con el modelo. El valor SSE es la variacin debida al error, o variacin no
explicada. Resulta claro que s SSE = 0 , toda variacin queda explicada. La cantidad que
representa la variacin explicada es SST SSE. R2 es el
Coeficiente de determinacin: =
Cabe recalcar que si el ajuste es perfecto, todos los residuos son cero, y as R2 = 1, pero si
SSE es tan slo un poco menor que SST, R2 0 o deficiente.
2 2
2
2 = 1 =
2 2
Coeficiente de correlacin
La medida de la asociacin lineal entre dos variables X y Y se estima por medio del
coeficiente de correlacin maestral r, donde
= =
Hay otra manera de construir un modelo de regresin lineal. Mediante predecir valores de
respuesta para uno o ms valores de la variable independiente. Este tema se centra en los
errores asociados con la prediccin.
| = (0 ) = ( + 0 ) = + 0
y la varianza:
2
1 (0 )2
0
= 2+0 = 2+(0 ) 2
= [ + ]
1 )2
(0
0 + < |
1 )2
(0
0 + + > |
Ejercicios de repaso
y (BTU) x ( F)
250 27
285 45
320 72
295 58
265 31
298 60
267 34
321 74
2. Las siguientes son las calificaciones de un grupo de 10 estudiantes de la asignatura
de Probabilidad y Estadstica en un examen parcial (x) y en el examen final (y):
x 77 50 71 72 81 94 96 99 67 79
y 82 66 78 34 47 85 99 99 68 45
y x
4300 1760
4650 1652
3200 1485
3150 1390
4950 1820
4010 1665
3810 1550
4500 1700
3008 1270
x y
2 7
15 50
30 100
10 40
20 70
45 50
25 80
V.- BIBLIOGRAFA
Devore, J. L. (2008). Probabilidad y estadstica para ingenieras y ciencias. Cengage Learning
Editores.
Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadstica para
ingeniera y ciencias. Pearson Educacin.
Miller, I., & Freund, J. E. (1963). Probabilidad y estadstica para ingenieros. Reverte.