Anda di halaman 1dari 35

Una de las aplicaciones ms importantes de la estadstica, implica la estimacin del valor medio de una variable de respuesta y o la prediccin de algn

valor futuro de y con base, el conocimiento de un conjunto de variables independientes relacionadas, x1, x2, . . . xk.

Los modelos que se emplean para relacionar una variable dependiente y con las variables independientes x1, x2, . . . xk se denominan modelos de regresin o modelos estadsticos lineales porque expresan el valor medio de y para valores dados de x1, x2, . . . xk como una funcin lineal de un conjunto de parmetros desconocidos.

Los conceptos de anlisis de regresin se presentan empleando un modelo de regresin muy sencillo, uno que relaciona y con una sola variable x. Aprenderemos a ajustar este modelo a un conjunto de datos mediante el mtodo de los mnimos cuadrados.

Examinaremos los diferentes tipos de inferencias que pueden hacerse a partir de un anlisis de regresin.

Un modelo de regresin simple: supuestos


Supongamos que se quiere determinar la magnitud de la compresin que se producir en un tipo de material de 2 pulgadas de espesor cuando se someta a diferentes cantidades de presin.

Un modelo de regresin simple: supuestos Se prueban cinco trozos experimentales del material bajo diferentes presiones. Los valores de x (en unidades de 10 libras por pulgada cuadrada) y las magnitudes de compresin y resultantes (en unidades de 0.1 de pulgada) se presentan en la tabla 1.

ESPCIMEN PRESIN COMPRESIN X Y 1 1 1 2 2 1 3 3 2 4 4 2 5 5 4

TABLA # 1

En la figura 1 se muestra una grfica de los datos, llamada diagrama de dispersin. y


4

Figura 1.

y 4

y 4 3

2
1 0 1 2 3 4 X

y 4 3 2 1

Supongamos que creemos que el valor de y tiende a aumentar de forma conforme x X lineal aumenta

Entonces, podramos escoger un modelo que relacione a y con x trazando una lnea recta a travs de los puntos de la figura.

y 4 3 2 1

Semejante modelo determinstico (uno que no contempla errores de prediccin) podra ser adecuado si todos los puntos de la figura quedaran sobre la lnea ajustada.

La solucin es construir un modelo probabilstico que relacione y con x; uno que contemple la variacin aleatoria de los puntos de datos a los lados de una lnea recta.

Un tipo de modelo probabilstico, el modelo de regresin lineal simple, supone que el valor medio de y para un valor dado de x se grafica como una lnea recta y que los puntos se desvan de esta lnea de medias en una cantidad aleatoria (positiva o negativa) igual a , es decir:

y 0 1 x

y 0 1 x

y 0 1 x

y 0 1 x

y 0 1 x
Valor medio de y para una x dada Error aleatorio

Donde 0 y 1 son parmetros desconocidos de la porcin determinstica del modelo.

y 0 1 x
Valor medio de y para una x dada Error aleatorio

Si suponemos que los puntos se desvan por encima y por debajo de la lneas de medias, siendo algunas desviaciones positivas, otras negativas, y con E() = 0, entonces el valor medio de y es:
x E ( ) x E ( y) E(0 1 x ) 0 1 0 1

x E ( ) x E ( y) E(0 1 x ) 0 1 0 1

x E ( ) x E ( y) E(0 1 x ) 0 1 0 1

x E ( ) x E ( y) E(0 1 x ) 0 1 0 1

Por lo tanto, el valor medio de y para un valor dado de x, representado por el smbolo E(y), se grafica como una lnea y recta con ordenada al origen igual a 0 0 1 pendiente igual a 1

y 4 3

x E ( y) 0 1

2
1

pendiente 1

ordenada al origen 0

0
1 2 3 4 X

Modelo de regresin lineal simple (probabilstico)


y 0 1 x

Donde: y = variable dependiente x = variable independiente + x E(y)= x es el componente E ( y) 00 1 1 determinstico (la ecuacin de una lnea recta) = componente de error aleatorio
= punto en que la lnea corta el eje y 0 0 1 = pendiente de la lnea

Si queremos ajustar un modelo de regresin lineal simple a un conjunto de datos, debemos encontrar estimadores para los parmetros y . desconocidos, 0 1 0 1

Los supuestos, que se resumirn a continuacin, son bsicos para todo anlisis de regresin estadstico.

SUPUESTO 1: La media de la distribucin de probabilidad de es cero. Es decir, la media de los errores a lo largo de una serie infinitamente larga de experimentos es cero para cada valor de la variable independiente x. Este supuesto implica que el valor medio de y, E(y), para un valor dado de x es 0+ E(y)= x E ( y) x 11 0

SUPUESTO 2: La varianza de la distribucin de probabilidad de es constante para todos los valores de la variable independiente x SUPUESTO 3: La distribucin de probabilidad de es normal

SUPUESTO 4: Los errores asociados a cualquier dos observaciones distintas son independientes. Es decir, el error asociado a un valor de y en particular no tiene efecto alguno sobre los errores asociados a otros valores de y

y : ESTIMACIN DE 0 1 0 1 EL METODO DE LOS MNIMOS CUADRADOS

La suma de los cuadrados de las desviaciones se denomina suma de los cuadrados del error y se denota con el smbolo SSE. La lnea recibe el nombre de lnea de mnimos cuadrados, lnea de regresin o ecuacin de mnimos cuadrados.

y 4

0 1 2 3 4 X

y 4

1 0 1 2 3 4 X

y 4

1 0 1 2 3 4 X

El modelo de lnea recta para la respuesta y en trminos de x es: y= 0+1x + + xx La lnea de medias es: E E(y)= ( y) 0 11 y la lnea ajustada, que esperamos encontrar, se representa como: x y 0 1

Formulas para las estimaciones de mnimos cuadrados


Pendiente:
1 SS xy SS xx

y x Ordenada al origen: 0 1

Donde: SS xy ( xi x )( yi y )
i 1 n

SS xx ( xi x )
i 1

Anda mungkin juga menyukai