Anda di halaman 1dari 7

ITSE

REGRESIN LINEAL SIMPLE Y MLTIPLE


REGRESIN LINEAL SIMPLE
El anlisis de regresin se usa con el propsito de prediccin. La meta del anlisis de regresin es
desarrollar un modelo estadstico que se pueda usar para predecir los valores de una variable
dependiente o de respuesta basados en los valores de al menos una variable independiente o
explicativa. Este captulo se centra en un modelo de regresin lineal simple, que usa una variable
numrica independiente para predecir la variable numrica dependiente.
Para establecer una relacin cuantitativa entre y es necesario disponer de cierta informacin
muestral. Esta informacin consiste de un conjunto de pares de observaciones de X y Y, donde cada
uno de estos pares pertenece a una unidad elemental particular de la muestra.
El diagrama de dispersin es una grfica en la que cada punto trazado representa un par de valores
observados por las variables independiente y dependiente. El valor de la variable independiente X, se
traza en relacin con el eje horizontal y el valor de la variable dependiente Y, en relacin con el eje
vertical. La naturaleza de la relacin entre dos variables puede tomar muchas formas, que van desde
algunas funciones matemticas sencillas a otras en extremo complicadas. La relacin ms elemental
consiste en una lnea recta o relacin lineal.
El anlisis de regresin lineal simple se refiere a encontrar la lnea recta que mejor se ajuste a los
datos. El mejor ajuste puede definirse de varias maneras. Quiz la ms sencilla sea encontrar la lnea
recta para la cual las diferencias entre los valores reales y los valores pronosticados a partir de la
recta ajustada de regresin sean tan pequeas como sea posible. Sin embargo, como estas diferencias
son positivas para algunas observaciones y negativas para otras, en trminos matemticos se
minimiza la suma de los cuadrados de las diferencias.
Suponga que las variables X y Y estn relacionadas linealmente y que para cada valor de X, la variable
dependiente, Y, es una variable aleatoria. Es decir, que cada observacin de Y puede ser descrita por
el modelo:

Donde es un error aleatorio con media cero y varianza 2. Tambin suponga que los errores aleatorios
no estn correlacionados. La ecuacin (1.1) es conocida como el modelo de regresin lineal simple. Bajo
el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, E ()=0, se
puede ver que el valor esperado de la variable Y, para cada valor de X, est dado por lnea recta:

En donde 0 1 son los parmetros del modelo y son constantes desconocidas. Por lo tanto, para
tener bien especificada la ecuacin que relaciona las dos variables ser necesario estimar los dos
parmetros, que tienen los siguientes significados:
0: Es el punto en el cual la lnea recta intercepta o cruza el eje y.
1: Es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o disminuye la variable Y
por cada unidad que se incrementa X.
JOS DOLORES MARTNEZ SANTIAGO

Pgina 1

ITSE
Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar 0 y1 es mediante el
mtodo de mnimos cuadrados, el cual consiste en las siguientes ecuaciones:

Donde

Y y son las medias mustrales de las dos variables.

PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE


En cualquier anlisis de regresin no basta hacer los clculos que se explicaron antes, sino que es
necesario evaluar qu tan bien el modelo (la lnea recta) explica la relacin entre X y Y. Una primera
forma de hacer esto es probar una serie hiptesis sobre el modelo. Para ello es necesario suponer
una distribucin de probabilidad para el trmino de error . Es usual suponer normalidad: se
distribuye en forma normal, independiente, con media cero y varianza 2.
Por lo general, la hiptesis de mayor inters plantea que la pendiente es significativamente diferente
de cero. Esto se logra al aprobar la siguiente hiptesis:

El estadstico de prueba es:


Si la hiptesis nula es verdadera l estadstico tiene una distribucin t-Student con n-2 grados de
libertad. Se rechaza H0 si el valor absoluto de este estadstico es mayor que el correspondiente valor
crtico obtenido de tablas, es decir, se rechaza H0 si:

La estimacin de los parmetros del modelo y las pruebas de hiptesis sobre los mismos se
sintetizan en la siguiente tabla:

JOS DOLORES MARTNEZ SANTIAGO

Pgina 2

ITSE

CALIDAD DEL AJUSTE EN REGRESIN LINEAL SIMPLE


En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una relacin significativa entre
X y Y; sin embargo, no hemos visto si tal relacin permite hacer estimaciones con una precisin aceptable. Por
ejemplo, es de inters saber qu tanta de la variabilidad presente en fue explicada por el modelo, adems si se
cumplen los supuestos de los residuos.
Coeficiente de determinacin. Un primer criterio para evaluar la calidad del ajuste es observar la forma en
que el modelo se ajust a los datos. En el caso de la regresin lineal simple esto se distingue al observar si los
puntos tienden a ajustarse razonablemente bien a la lnea recta. Pero otro criterio ms cuantitativo es el que
proporciona el coeficiente de determinacin, el cual est definido por:

Anlisis de varianza para el modelo de regresin simple:

Coeficiente de determinacin ajustado. Este coeficiente se calcula de la siguiente manera:

Dnde:

Coeficiente de correlacin r. Es bien conocido que el coeficiente de correlacin, r, mide la intensidad de la


relacin lineal entre dos variables X y Y. Si se tiene pares de datos de la forma (xi, yi), entonces este coeficiente
se obtiene de la siguiente manera:

Error estndar de estimacin . Una medicin sobre la calidad del ajuste de un modelo lo da el error estndar
de estimacin, que es una estimacin de la desviacin estndar del error . En el caso de la regresin lineal
simple, est dado por:

JOS DOLORES MARTNEZ SANTIAGO

Pgina 3

ITSE

ESTIMACIN Y PREDICCIN POR INTERVALO EN REGRESIN LINEAL


SIMPLE
Una de las aplicaciones ms importantes en un anlisis de regresin es hacer estimaciones de la respuesta
media para un valor dado de X. En el caso particular de la regresin lineal simple, sabemos que un estimador
puntual de la respuesta media lo da la recta de regresin:
Adems de esto, en ocasiones es de inters obtener una estimacin por intervalos para a partir de cualquier
valor de X, para lo cual aplicamos la siguiente ecuacin:

Adems de la estimacin puntual para la pendiente y la ordenada al origen, y , es posible obtener


estimaciones de los intervalos de confianza para estos parmetros. La anchura de estos intervalos de
confianza es una medida de la calidad global de la recta de regresin. Si los trminos del error i, del modelo
de regresin tienen una distribucin normal e independiente, entonces tienen ambos una distribucin igual a
la de una variable aleatoria t con n-2 grados de libertad. Esto lleva a la siguiente definicin de los intervalos de
confianza del 100 (1- ) % para la pendiente y la ordenada al origen.

REGRESIN LINEAL MLTIPLE


En muchas situaciones prcticas existen varias variables independientes que se cree que influyen o estn
relacionadas con una variable de respuesta Y, y por lo tanto ser necesario tomar en cuenta si se quiere
predecir o entender mejor el comportamiento de Y. Por ejemplo, para explicar o predecir el consumo de
electricidad en una casa habitacin tal vez sea necesario considerar el tipo de residencia, el nmero de
personas que la habitan, la temperatura promedio de la zona, etctera.
Sea X1, X2, Xk variables independientes o regresoras, y sea Y una variable de respuesta, entonces el modelo de
regresin lineal mltiple con k variables independientes es el polinomio de primer orden:

Donde los j son los parmetros del modelo que se conocen como coeficientes de regresin y es el error
aleatorio, con media cero, E ()=0 y V ()=2. Si en la ecuacin k=1, estamos en el caso de regresin lineal
simple y el modelo es una lnea recta; si k=2, tal ecuacin representa un plano. En general, la ecuacin
representa un hiperplano en el espacio de k dimensiones generadas por las variables {Xj}.
Para encontrar los coeficientes de regresin mltiple por el mtodo de mnimos cuadrados aplicamos el
siguiente sistema de ecuaciones normales:

JOS DOLORES MARTNEZ SANTIAGO

Pgina 4

ITSE

PRUEBAS DE HIPTESIS EN REGRESIN LINEAL MLTIPLE


Las hiptesis sobre los parmetros del modelo son equivalentes a las realizadas para regresin lineal simple,
pero ahora son ms necesarias porque en regresin mltiple tenemos ms parmetros en el modelo; sin
embargo, por lo general es necesario evaluar su verdadera contribucin a la explicacin de la respuesta.
Tambin requerimos de la suposicin de que los errores se distribuyen en forma normal, independientes, con
media cero y varianza 2.
La hiptesis global ms importante sobre un modelo de regresin mltiple consiste en ver si la regresin es
significativa. Esto se logra probando la siguiente hiptesis:

El estadstico de prueba para la significancia del modelo de regresin lineal mltiple est dado por:

Coeficiente de determinacin:

Coeficiente de correlacin mltiple:

JOS DOLORES MARTNEZ SANTIAGO

Error estndar de estimacin:

Pgina 5

ITSE

INTERVALOS DE CONFIANZA Y PREDICCIN EN REGRESIN MLTIPLE


En los modelos de regresin mltiple con frecuencia es conveniente construir estimaciones de intervalos de
confianza para los coeficientes de regresin (j). Por ejemplo, un estimador por intervalos de cada coeficiente
en lo individual est dado por:

Anlisis de regresin mltiple:

Parmetro
Estimacin Error estndar

Intercepcin

Estadstico

Valor-p
| |)
(

.
.

.
.

.
.

| |)

(
.

| |)

Tambin es posible obtener un intervalo de confianza con respecto a la respuesta media en un punto
particular, digamos
est dado por:

JOS DOLORES MARTNEZ SANTIAGO

Pgina 6

ITSE

REGRESIN NO LINEAL
Si las dos variables X y Y se relacionan segn un modelo de lnea recta, se habla de regresin lineal simple:

Cuando las variables X y Y se relacionan segn una lnea curva, se habla de regresin no lineal o curvilnea.
Aqu se puede distinguir entre regresin parablica, exponencial, potencial etc.
Parbola de Regresin: La expresin general de un polinomio de 2 grado es:

El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Seguiremos
para ello, un razonamiento similar al que hicimos en el caso del modelo de regresin lineal simple, utilizando
el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las
desviaciones con respecto a la curva de regresin sea mnima:

Para encontrar los valores de a, b y c que hacen mnima la expresin anterior, deberemos igualar las derivadas
parciales de D con respecto a dichos parmetros a cero y resolver el sistema resultante. Las ecuaciones que
forman dicho sistema se conocen como ecuaciones normales de Gauss (igual que en el caso de la regresin
lineal simple):

Modelo potencial. Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:

Modelo exponencial. Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:

Modelo logartmico. La curva logartmica Y = a+b logX es tambin una recta, pero en lugar de estar referida a
las variables originales X e Y, est referida a logX y a Y.

JOS DOLORES MARTNEZ SANTIAGO

Pgina 7

Anda mungkin juga menyukai