Anda di halaman 1dari 38

Ao de la Diversificacin Productiva y del Fortalecimiento de la

Educacin

UNIVERSIDAD PARTICULAR DE CHICLAYO


FACULTAD DE MEDICINA - ESCUELA PROFESIONAL DE
MEDICINA HUMANA DEPARTAMENTO ACADMICO DE
CIENCIAS BSICAS ASIGNATURA ESTADISTICA MEDICA

TEMA

Regresin Simple Lineal. Coeficientes de


Correlacin y de Determinacin. Regresin
Lineal Mltiple

DOCENTE:
o Cinthya Santacruz Renteria
CICLO:
o 2015 II
ALUMNOS:
o
o
o
o
o

CUSTODIO CABREJOS, Mara Alejandra


FLORES PAUCAR , Rocio
MENDOZA TINOCO,jenifer(201510081)
TORRES VASQUEZ , Estefanny (
YAMAGUCHI CHAVEZ, Aiko

INTRODUCCIN
Si sabemos que existe una relacin entre una variable
denominada
dependiente
y
otras
denominadas
independientes, puede darse el problema de que la
dependiente asuma mltiples valores para una combinacin
de valores de las independientes.
La dependencia a la que hacemos referencia es relacional
matemtica y no necesariamente de causalidad. As, para
un mismo nmero de unidades producidas, pueden existir
niveles de costo, que varan empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los
estudios de regresin en los cuales se obtiene una nueva
relacin pero de un tipo especial denominado funcin, en la
cual la variable independiente se asocia con un indicador de
tendencia central de la variable dependiente. Cabe recordar
que en trminos generales, una funcin es un tipo de
relacin en la cual para cada valor de la variable
independiente le corresponde uno y slo un valor de la
variable dependiente.

OBJETIVOS
Determinar una funcin matemtica sencilla que
describa el comportamiento de una variable dados los
valores de otra u otras variables

REGRESIN SIMPLE LINEAL, COEFICIENTES


Y DE DETERMINACIN, REGRESIN LINEAL
MLTIPLE

REGRESIN SIMPLE
La Regresin es una tcnica que se pueden utilizar para solucionar
problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar
y cuantificar alguna Relacin Funcional entre dos o ms variables,
donde una variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables
cualquiera en un modelo de Regresin Simple.
"Y es una funcin de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la
variable dependiente y cul es la variable independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin
de slo una variable independiente, razn por la cual se le denomina
tambin Regresin Divariada porque slo hay dos variables, una
dependiente y otra independiente y se representa as:
Y = f (X)
"Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir.
Tambin se le llama REGRESANDO VARIABLE DE RESPUESTA.

La variable Independiente X se le denomina VARIABLE EXPLICATIVA


REGRESOR y se le utiliza para EXPLICAR Y.

ANLISIS ESTADSTICO: REGRESIN LINEAL


SIMPLE
En el estudio de la relacin funcional entre dos variables
poblacionales, una variable X, llamada independiente,
explicativa o de prediccin y una variable Y, llamada
dependiente o variable respuesta, presenta la siguiente
notacin:
Y=a+bX+e
Donde:
A: es el valor de la ordenada donde la lnea de regresin se
intercepta con el eje Y.
B: es el coeficiente de regresin poblacional (pendiente de la
lnea recta)
E: es el error

SUPOSICIONES DE LA REGRESIN LINEAL


1. Los valores de la variable independiente X son fijos,
medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribucin normal de
valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.

5. Todas las medias de las subpoblaciones de Y estn sobre la


recta.
6. Los valores de Y estn normalmente distribuidos y son
estadsticamente independientes.

ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL

Consiste en determinar los valores de "a" y "b " a partir de la


muestra, es decir, encontrar los valores de a y b con los datos
observados de la muestra. El mtodo de estimacin es el de Mnimos
Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin muestra estimada es:

Que se interpreta como:


A: es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
B: es el estimador de b, es el coeficiente de regresin
Est expresado en las mismas unidades de Y por cada unidad de X.
Indica el nmero de unidades en que vara Y cuando se produce un
cambio, en una unidad, en X (pendiente de la recta de regresin).
Un valor negativo de b sera interpretado como la magnitud del
decremento en Y por cada unidad de aumento en X.

ANTECEDENTES DEL PROBLEMA


Los datos de la siguiente tabla representan las estaturas (X, cm) y los
pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada
estatura fijada previamente se observ el peso de una persona
seleccionada de entre el grupo con dicha estatura, resultando:
X

152

15

50

61

Con estos datos vamos a plantear una ecuacin de regresin simple


que nos permita pronosticar los pesos conociendo las tallas.
Utilizaremos a = 0.05, y contrastaremos nuestra hiptesis con la
prueba F

DESARROLLO:

Representacin matemtica y grfica de los datos:


Representacin Matemtica
estatu pes
ra
os

Regresin Lineal

I.C. para I.
C.
la media individual

dat
os x

y
Residu
est. al
L. I. L. S. L. I.

x ^2 y ^2 xy

152

50

231
56.4
04
2500 7600 3
-6.43

155

240 3782 9532 59.0


61.5 25
.3
.5
3
2.47

56.0 61.9 50.0 68.0


9
7
5
2

152

54.5 231 2970 8284 56.4 -1.93

53.0 59.7 47.3 65.5

L. S.

53.0 59.7 47.3 65.5


7
9
0
6

04

.3

155

240 3306 8912 59.0


57.5 25
.3
.5
3
-1.53

56.0 61.9 50.0 68.0


9
7
5
2

157

246 4032 9969 60.7


63.5 49
.3
.5
7
2.73

58.0 63.4 51.8 69.6


5
8
5
8

152

59

231
56.4
04
3481 8968 3
2.57

53.0 59.7 47.3 65.5


7
9
0
6
58.0 63.4 51.8 69.6
5
8
5
8

157

61

246
60.7
49
3721 9577 7
0.23

165

72

272
1188 67.7
25
5184 0
1
4.29

65.1 70.2 58.8 76.5


7
4
5
7

66

262
1069 65.1
44
4356 2
1
0.89

62.6 67.5 56.2 73.9


5
6
7
4

72

316
1281 78.9
84
5184 6
9
-6.99

74.6 83.3 69.4 88.5


5
3
5
2
78.0 88.6 73.3 93.3
1
4
1
4
74.6 83.3 69.4 88.5
5
3
5
2

10

162

178

11

183

84

334
1537 83.3
89
7056 2
2
0.68

12

178

82

316
1459 78.9
84
6724 6
9
3.01

Representacin Grfica

HIPTESIS
HO: No hay relacin entre el variable peso y la variable
estatura.
HA: Hay relacin entre la variable peso y la variable
estatura.
Tabla de anlisis de varianza
Fuente de

Grados de

Variacin

libertad

Debido a

la regresin

error

10

total

11

Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la


hiptesis nula y aceptamos que la variable estatura est relacionada
con la variable peso con un 95% de confianza.

De acuerdo al desarrollo matemtico hemos obtenido los siguientes


clculos:

Lo que nos permite obtener los coeficientes a y b.


Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 (0.8676) (162.167) = -75.446

INTERPRETACIN

La ecuacin de regresin estimada es:


Coeficiente de correlacin: R= 0.9379
Coeficiente de determinacin: R=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos,
en promedio, por cada centmetro de aumento en la estatura de los
hombres adultos.
El valor de a, no tiene interpretacin prctica en el ejemplo, se
interpretara como el valor obtenido, en promedio, para el peso Y,
cuando la estatura es 0.

Utilizando la ecuacin de regresin para estimar o predecir valores de


la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.

Cunto se espera que pese (en promedio) una persona que


mide 1.60 m?
Sustituyendo el valor de inters en la ecuacin:

Se obtiene:

CONCLUSIN
La ecuacin de Regresin Lineal estimada para las variables
estatura y peso muestran, de acuerdo a la prueba F,
relacin.
Esta relacin se ha estimado en un R = 93.7, que indica una
fuerte relacin positiva.
Adems si consideramos el coeficiente de determinacin R
= 87.9 podemos indicar que el 87.9% de las variaciones
que ocurren en el peso se explicaran por las variaciones en
la variable estatura.

COEFICIENTE DE DETERMINACIN, COEFICIENTE DE


CORRELACIN
Una vez ajustada la recta de regresin a la nube de observaciones es
importante disponer de una medida que mida la bondad del ajuste
realizado y que permita decidir si el ajuste lineal es suficiente o se
deben buscar modelos alternativos. Como medida de bondad del
ajuste se utiliza el coeficiente de determinacin, definido como
sigue:

(6.15)
O bien

Como scE < scG, se verifica que 0 < R < 1.


2

El coeficiente de determinacin mide la proporcin de variabilidad


total de la variable dependiente
respecto a su media que es
explicada por el modelo de regresin. Es usual expresar esta medida
en tanto por ciento, multiplicndola por cien.
Por otra parte, teniendo en cuenta que

- =

, se obtiene:

(6.16)
Dadas dos variables aleatorias cualesquiera X e Y , una medida de la
relacin lineal que hay entre ambas variables es el coeficiente de
correlacin definido por

(6.17)

Donde
representa
la
desviacin
tpica
de
la
variable X (anlogamente para
). Un buen estimador de este
parmetro es el coeficiente de correlacin lineal muestral (o
coeficiente de correlacin de Pearson), definido por:

(6.18)

Por tanto, r
. Este coeficiente es una buena medida de la
bondad del ajuste de la recta de regresin. Evidentemente, existe una
estrecha relacin entre r y
aunque estos estimadores proporcionan
diferentes interpretaciones del modelo:
1

* r es una medida de la relacin lineal entre las variables X e Y.


*

mide el cambio producido en la variable Y al realizarse un cambio


de una unidad en la variable X.
1

De las definiciones anteriores se deduce que:

Es importante estudiar si r es significativo (distinto de cero) ya que


ello implica que el modelo de regresin lineal es significativo.
Desafortunadamente la distribucin de r es complicada pero para
tamaos muestrales mayores que 30 su desviacin tpica es
1/
, y puede utilizarse la siguiente regla

En la interpretacin del coeficiente de correlacin se debe tener en


cuenta que:

r = 1 indica una relacin lineal exacta positiva (creciente) o


negativa (decreciente),
r = 0 indica la no existencia de relacin lineal estocstica, pero no
indica independencia de las variables ya que puede existir una
relacin no lineal incluso exacta,
valores intermedios de r (0 < r < 1 -1 < r < 0) indican la
existencia de una relacin lineal estocstica, ms fuerte cuanto ms
prximo a +1 ( -1) sea el valor der.
Para poder interpretar con mayor facilidad el coeficiente de
correlacin muestral se exponen varias nubes de observaciones y el
ajuste lineal obtenido
Existe una dependencia funcional lineal, las observaciones estn
sobre la recta de regresin. r = R2 = 1, recta de regresin: y = x.

Dependencia funcional lineal.

La relacin lineal entre las variables es muy pequea y no parece que


exista otro tipo de relacin entre ellas, la nube de puntos indica que
las variables son casi independientes.
r = 0 192, R = 0 037, recta de regresin: y = 6 317 + 0 086x.
'

'

'

'

Contraste de regresin:
= 0 687 F
p - valor = 0 418. Se
acepta la no influencia de la variable regresora en Y.
R

'

1,18

'

Observaciones casi independientes.


Existe una dependencia funcional entre las observaciones pero no de
tipo lineal, por tanto la correlacin es muy pequea
r = 0 391, R = 0 153, recta de regresin: y = 32 534 - 1 889x.
'

'

'

'

Contraste de regresin:
= 3 252 F
p-valor = 0 088. Se acepta
que no existe relacin lineal con = 0 05. En base a la Figura 6.6. Se
debe de hacer un ajuste del tipo parablico Y = + x + x .
R

'

'

1,18
'

Existe una relacin cuadrt

La nube de datos se ajusta razonablemente a una recta con


pendiente positiva.
r = 0 641, R = 0 410, recta de regresin: y = -3' 963 + -1 749x.
'

'

'

Contraste de regresin:
= 12 522 F
rechaza la no influencia lineal de la variable x.
R

Relacin
lineal.

'

1,18

p - valor = 0 002. Se
'

estocstica

Existe una fuerte dependencia lineal negativa entre las dos variables
y la correlacin es muy alta (prxima a 1).
r = 0 924, R = 0 846, recta de regresin: y = -2 528 - 2 267x
'

'

'

Contraste de regresin:
= 105 193 F
acepta la existencia de una relacin lineal.
R

'

1,18

'

p - valor = 0 000. Se
'

Fuerte relacin estocstica


lineal.

PREDICCIN EN REGRESIN LINEAL SIMPLE

Como se coment anteriormente hay dos objetivos bsicos en el


ajuste de un modelo de regresin:
- Conocer la relacin existente entre la variable respuesta y las
variables regresoras. En el caso de la regresin lineal simple se
estima

la

mejor

recta

de

regresin

que

relaciona

la

variable Y con la variable X y se cuantifica la importancia de


dicha relacin por medio del coeficiente de correlacin, r.
- Utilizar el modelo de regresin ajustado para predecir el
valor de la variable respuesta Y cuando la variable regresora
toma un valor determinado, X = xt.
En esta seccin se estudia este segundo objetivo. Esto es, estimada la
recta de regresin, cmo predecir el valor de Y sabiendo que la
variable regresora toma el valor X = x ? Ante esta pregunta, se
t

deben distinguir dos situaciones diferentes:


Estimar la media de la distribucin condicionada de Y/X = x : E
= m.
t

Se quiere responder a preguntas del tipo: cul es el gasto


medio en material informtico de las empresas que
tienen unos ingresos globales de 300 millones
anuales?.
Predecir el valor de la variable respuesta en un individuo de la
poblacin en estudio del que se sabe que X = xt. Esto es,
predecir un valor de la variable condicionada Y/X=xt

Se quiere responder a preguntas del tipo: La empresa MEGA tiene


unos ingresos anuales de 300 millones, cul ser el gasto en
material informtico de esta empresa?.

Estimacin de las medias condicionadas:


Una vez calculada la recta de regresin de la variable Y respecto a X,

se quiere estimar el parmetro mt = E


. Para ello, como
estimador se utiliza el que proporciona la recta de regresin,
sustituyendo xt por x en la ecuacin de la recta,
(6.1
9)

Este estimador verifica las siguientes propiedades:


1. Es centrado o insesgado, E

= mt .

2. La varianza es:
(6.2
0)

3. donde
(6.2
1)

4. nt se denomina nmero equivalente de observaciones para


estimar mt.
5. Teniendo en cuenta que en una muestra de tamao n, la
varianza de la media muestral es V ar
= 2/n, la interpretacin
de nt es la siguiente:
la informacin que proporciona la muestra, de tamao n,
n
de datos bivariantes
para estimar mt es la
i=
1
misma que proporcionara una muestra de tamao nt de
observaciones
univariantes
de
una
poblacin
con distribucin igual a la de Y/X = xt.

6. De la expresin de nt se deduce que este valor ser mayor


cuanto ms prximo est xt de . Y si xt = se verifica que nt = n.

7. La inversa de n , h = 1/n se denomina valor de influencia de la


observacin x (muy utilizado el nombre en ingls leverage) y se
t

tt

ver ms adelante que es una medida de la influencia de la


observacin
(si este es uno de los datos muestrales) en el
clculo de la recta de regresin.
8. La distribucin del estimador

es normal,

9. En la prctica el estadstico anterior no se puede utilizar para


calcular intervalos de confianza de m porque es desconocido. Por
ello, se sustituye por su estimador
y bajo la hiptesis
de normalidad se obtiene la siguiente distribucin,
t

La distribucin dada en (6 .22) permite calcular intervalos de


confianza de m con un nivel de confianza , de la siguiente forma:
t

Al utilizar el modelo de regresin lineal para estimar una media


condicionada o predecir una observacin debe de tenerse en cuenta
que el mtodo proporciona resultados aceptables dentro del rango de
valores muestrales de la X (interpolar), aqu est garantizado
que 1 < n < n. Si x es un punto muy alejado de (an estando dentro
de la nube de observaciones est muy alejado del centro de la
misma) entonces n 1 y la varianza de
ser muy grande con lo que
se obtienen estimaciones con poca precisin (mucha variabilidad). El
caso opuesto es que x = y, por tanto, n = n, ahora la varianza de
es /n, la menor posible.
t

Por otra parte, si se quiere predecir fuera del rango de valores


muestrales de X (extrapolar), entonces x - puede ser muy grande y,
en consecuencia, n 0, lo que hace que la precisin de la estimacin
de m sea muy pequea por tener el estimador
una varianza muy
grande y, por tanto, obtener resultados con muy poca validez.
t

Prediccin de una observacin


Se quiere predecir el valor de la variable aleatoria Y/X = x teniendo
en cuenta que se ha ajustado una recta de regresin. El problema es
conceptualmente diferente del anterior, ya que en el apartado
t

anterior se estima un parmetro (la media condicionada) y ahora se


quiere predecir el resultado de una variable aleatoria. El predictor que
se utiliza
se obtiene como aquel que minimize el Error Cuadrtico
Medio de Prediccin. Esto es,
se obtiene como el valor que
minimiza la siguiente funcin
t

Al resolver este problema de minimizacin se obtiene como


predictor el resultado de sustituir el valor de x en la recta de
regresin calculada,
t

Por tanto, la prediccin de Y/X = x es la misma que la estimacin


de m pero su varianza aumenta ya que la variabilidad debida a la
muestra
se incrementa con la variabilidad propia de la
variable aleatoria que se quiere predecir
. Ahora la varianza
de la prediccin es
t

Var( t - yt) =
Por la hiptesis de normalidad y razonando como en el apartado
anterior se obtiene

Utilizando esta distribucin se puede calcular un intervalo de


prediccin para yt, con un nivel de confianza , de la siguiente forma

Por ser la var


mucho mayor que la var
, los intervalos de
prediccin de yt son mucho mayores que los intervalos de confianza
de mt.

Anlisis de un caso de un modelo de regresin lineal


simple

En esta seccin se presenta el desarrollo en detalle de un


supuesto prctico del modelo de regresin lineal simple, en
los clculos se utiliza toda la teora expuesta en este captulo.
Ejemplo 6.3.
Se desea estudiar la posible relacin entre los gastos en
material informtico, en mltiplos de cien mil euros, de una
empresa
y sus ingresos globales, en millones de euros.
Para ello se recoge una muestra de datos anuales de gastos e
ingresos de 65 empresas, los datos muestrales son los de la
tabla adjunta. Estudiar la posible existencia de una relacin
lineal entre la variable respuesta gasto en material
informtico y la variable regresora ingreso global.
X:
Ingr
esos
glo
bales

Y
gast
os en
mat
erial
infor
mt.

20

25
13
43
36
30
14
17
7
.
.

50

15
25
28
17
35
29
20
26
14
6

100

200

25
61
46
23
45
28
24
37
.
.

57
46
54
69
62
71
67
36
41
62

300

400

75
107
72
53
53
77
63
74
87
.

500

91
94
100
93
92
90
109
97
111
87

121
113
90
109
118
117
125
121
122
119

la

recta de

Estadsticos bsicos de las variables X e Y


Estimadores
regresin son

de

los

coeficientes

de

Datos y recta ajustada.

Residuos del modelo.


Se calculan las predicciones de
muestrales
y los residuos, a partir
obtiene la varianza residual

las observaciones
de los cuales se

Intervalos de confianza al 95% ( = 0 05) para los tres


parmetros del modelo.
'

Para

Para

Para

Nota: si se hubiese planteado el problema de forma


inversa y se quisiera calcular la recta de regresin del
ingreso
respecto al gasto
, se obtiene,

o despejando, para comparar con la recta de regresin


de Y sobre X,

Se comprueba que las dos rectas de regresin no coinciden


(observar la Figura 6.11.).

Figura 6.11. Grfica de las dos rectas de regresin.


Contrastes individuales (contrastes de la t).
Contraste C H :
1,

= 0 frente a H :
1

0.

Del p-valor prximo a cero1 se concluye que la variable


regresora X influye linealmente en la variable dependiente Y.
Contraste C H :
0,

= 0 frente a H :
1

0.

Tabla ANOVA. Contraste de regresin.


Con los datos del problema se obtiene la siguiente tabla
ANOVA
Tabla ANOVA
Fuentes Variacin

Suma Cuadrados

Gr. libertad

Por la recta

75.602 5

2
e

= 75.602 5

Residual

8.544 7

63

2
R

= 135 6

Global

84.147 1

64

'

'

'

Varianzas

'

'

= 1.314 8
'

El contraste de la F es

se rechaza la no influencia de la recta de regresin. Este


resultado es exactamente el mismo que se obtiene en el
contraste individual de la t relativo a . El motivo es que se
est estudiando un modelo de regresin con una sola
regresora y, por tanto, el estudio de la influencia del modelo
es equivalente al estudio de la influencia de la nica
regresora. El significado de los contrastes individuales de
la t y del contraste conjunto de la F (contraste de regresin)
1

sern diferentes en modelos de regresin con ms de una


variable explicativa.
Contraste de linealidad.
Dado que para cada valor de X se tienen varios valores
de Y se pueden calcular las medias muestrales condicionadas,
lo que permite descomponer la suma de los residuos al
cuadrado y obtener la siguiente tabla ANOVA

Tabla ANOVA
Fuentes Variacin

Suma Cuadrados

Gr. libertad

Por la recta

75.602 5

2
e

scR(1)

314 7

R,1

scR(2)

8.229 9

58

2
R,2

Residual

8.544 7

63

2
R

Global

84.147 1

64

'

'

'

'

'

Varianzas

= 75.602 5
'

= 62 94
'

= 141 89
'

= 135 6
'

= 1.314 8
'

Se calcula el estadstico del contraste de linealidad de la F

Se acepta claramente la hiptesis de que la funcin de


regresin es lineal.
Coeficiente
simple.

de

determinacin

correlacin

lineal

El coeficiente de determinacin es

El modelo de regresin lineal construdo explica el 89 85% de


variabilidad de la variable respuesta.
'

El coeficiente de correlacin lineal muestral es,

Existe una alta correlacin positiva.


Estimacin de la media condicionada.
Se quiere estimar el gasto medio en material informtico de
las empresas cuyos ingresos globales son de 300 y 800
millones anuales, respectivamente. Calcular intervalos de
confianza al 90% para dichas medias condicionadas.
Para las empresas con 300 millones de ingresos se obtiene

Se calcula el nmero de observaciones equivalentes

La varianza del estimador es

El intervalo de confianza es

Para x = 800, se obtiene

Comparando los intervalos de confianza obtenidos se


observa que el relativo a x = 800 tiene una longitud mucho
mayor que en el caso de x = 300. Esto es debido a que el
punto x = 300 est ms cerca de la media muestral x =
233 231 que el segundo punto x = 800.
'

Prediccin.
Predecir el gasto en material informtico de la empresa
MEGA1 y MEGA2 cuyos ingresos globales son de 300 y 800
millones, respectivamente. Calcular intervalos de prediccin
al 90% para dichas predicciones.
Para la empresa MEGA1, con x = 300, la prediccin de
gasto es

Con varianza

El intervalo de prediccin es

Para la empresa MEGA2, con x = 800, se obtiene la


prediccin

El intervalo de prediccin es

En el cuadro adjunto se comparan las longitudes de los


intervalos de confianza obtenidos
Longitud de los I.C. al 90%

x = 300

x = 800

Estimacin de m

5 180

16 770

39 227

42 346

Prediccin de y

'

'

'

'

En la Figura 6.12. Se representa la nube de puntos del


problema estudiado, la recta de regresin estimada, los
intervalos de confianza de las medias condicionadas al 90%
(los ms prximos a la recta) y los intervalos de prediccin al
90%.

Figura 6.12. Recta de regresin

En la Regresin lineal mltiple

1. Modelizamos la relacin entre una variable dependiente y dos o


ms variables independientes mediante una funcin lineal, una
funcin que ser, ahora, no una recta, como suceda con la Regresin
lineal simple, sino un plano (si tenemos dos variables independientes)
o un hiperplano (si tenemos ms de dos variables independientes).
2. En la Regresin lineal mltiple el punto de partida es el mismo que
en la Regresin lineal simple. Se pretende modelizar la relacin entre
unas variables con la finalidad ltima de poder pronosticar una de
ellas: la variable dependiente, a partir del conocimientos de las otras:
las variables independientes. En la Regresin lineal mltiple se
introducen nuevas variables independientes con la finalidad de
reducir la dispersin de la prediccin, con la finalidad de disminuir el
residuo.

3. El modelo matemtico es, ahora:

y=a 1x1+a2x2+
+adxd+b+e
Donde a1, a2,, ad y b son los coeficientes del modelo y donde es el
residuo, que, como en la Regresin lineal simple, supondremos que
sigue una distribucin normal N (0, DE).
4. Aunque la Regresin lineal mltiple es, en buena parte, una
generalizacin

de

la

Regresin

lineal

simple,

tiene

unas

particularidades que conviene precisar.


5. Una de sus peculiaridades es la tendencia a llenar excesivamente
el modelo. Hay la tendencia a ir introduciendo variables, hinchando el
modelo y esto es muy perjudicial. Para que las cosas funcionen lo
mejor

posible

conviene

independientes entre ellas.

trabajar

con

variables

que

sean

6. Observemos que en el punto anterior he usado la nocin de


independencia entre variables para referirme a las variables que se
denominan independientes en el modelo de regresin. Recordemos
que de esas variables tendremos, en el futuro, valores concretos para
un individuo y a partir de ellos trataremos de pronosticar el valor de
una variable dependiente que desconoceremos su valor para ese
individuo.
7. Pueden observarse dos nociones de independencia distintas, pues,
en lo que estamos diciendo ahora. Una cosa es la posicin de las
variables en el modelo de Regresin y otra es el que las variables
sean independientes entre ellas, que significa que la correlacin entre
ellas sea cero.
8. Cuando no se cumple esta relacin de independencia entre las
variables independientes se produce un fenmeno de colinealidad.
Esto es perjudicial para el modelo. El perjuicio representa que las
estimaciones de los parmetros del modelo (los coeficientes), que son
los elementos bsicos para la construccin de los pronsticos de la
variable dependiente, tienen ms Error estndar. Y el Error estndar,
como Desviacin estndar de una prediccin, es uno de los
principales criterios de calidad de una estimacin.

9. Hay distintos mecanismos para comprobar si tenemos un exceso


de colinealidad. El Test de Belsey, Kuh y Welsch (Ver Herbario de
tcnicas) es uno de los ms usados para comprobar si tenemos ese
exceso de linealidad. Ante un exceso de colinealidad conviene hacer
una

revisin

una

nueva

consideracin

de

las

variables

independientes a usar en el modelo de Regresin, eliminando alguna


de ellas o haciendo una Anlisis de componentes principales (Tcnica
multivalente que veremos ms adelante).

10. De hecho, parece lgico, en una Regresin lineal mltiple, pedirle


a las variables independientes que sean independientes entre ellas.
Pensemos que si no lo son, si tienen un cierto grado de dependencia,
es porque de alguna forma comparten aspectos entre ellas, en cierta
forma dicen cosas similares esas variables. Por lo tanto, a la hora de
ser usadas para predecir una variable dependiente se produce un
fenmeno de redundancia: estamos usando varias veces lo mismo
para pronosticar algo. Y esto se paga con ms imprecisin en las
estimaciones.
11. Otra peculiaridad de la Regresin lineal mltiple es la posibilidad
de construir el modelo paso a paso. Es el procedimiento denominado,
en ingls, Stepwise.
12. Al realizar una Regresin lineal mltiple hay, pues, tres
modalidades de estimacin del modelo:
a. Forzando la entrada en el modelo de todas las variables elegidas.
b. Mediante un Stepwise hacia delante. La Regresin entonces se
denomina Forward Stepwise Regresin.
c. Mediante un Stepwise hacia atrs. La Regresin entonces se
denomina Backward Stepwise Regresin.
13. Expliquemos las dos variantes ltimas, puesto que la primera no
precisa ninguna explicacin.

14. El Stepwise hacia delante lo que hace es, pas a paso, ir


introduciendo, en el modelo de Regresin lineal, como dice su
nombre: pas a paso, variables independientes, hasta completar el
mejor modelo posible.

15. En primer lugar crea un modelo con una nica variable


independiente. En realidad, pues, el primer paso es crear una
Regresin lineal simple. Pero lo hace eligiendo entre todas las
variables independientes la que consigue un mejor modelo, si es que
lo consigue. En este primer paso debe existir entre las variables
independientes una variable que tenga una relacin significativa con
la variable dependiente. De lo contrario el procedimiento acabara
aqu y no tendramos modelo matemtico para relacionar esas
variables.
16. En el segundo paso se prueba de introducir, entre las variables
independientes que quedan, cul es la que consigue un modelo
mejor, si es que alguna lo consigue. Se trata de establecer unos
criterios de calidad mnimos. Lo que se denomina un Criterio de
entrada. Si no se alcanzan nos quedamos con una Regresin lineal
simple y se rechazan las otras variables.
17. Si hemos conseguido introducir en el modelo una segunda
variable independiente se valora, probando con todas las variables
independientes que quedan, la posibilidad de introducir una tercera.
De nuevo se aplican unos criterios de entrada que si no se alcanzan
no se introduce ninguna variable ms.
18. Y as se va haciendo hasta alcanzar el mejor modelo. Es
importante tener en cuenta que en cualquiera de estos pasos hay la
posibilidad de extraer una variable que anteriormente se haba
introducido. Y cambiar as la disposicin inicial. Por ejemplo,
supongamos que en los pasos anteriores se haban introducido las
variables x3 y x5 y, al probar una nueva introduccin, al ensayar con,
por ejemplo, x7, el procedimiento observa que consigue mejores
resultados sacando del modelo la variable x 3 que haba sido la
primera que haba introducido, quedando, entonces, el modelo con
x5 y x7.

19. El Stepwise hacia atrs es lo mismo pero ahora partiendo que


hemos empezado forzando la entrada de todas las variables dentro
del modelo y, a continuacin, en el siguiente paso, mirar de sacar una
de las variables independientes: una variable que al sacarla
alteremos la calidad del modelo menos que un valor umbral
establecido, lo que se denomina, ahora, un Criterio de salida. Si es
as, si podemos extraer sin perjudicar por encima de ese valor
preestablecido, reducimos el modelo.
20. Y as, paso a paso, pero en sentido contrario, vamos creando el
mejor modelo posible, la mejor ecuacin posible que relacione una
variable dependiente con varias variables independientes.
21. Los criterios de entrada y de salida, que en muchas ocasiones son
el mismo valor, generalmente vienen dados por el valor de un
estadstico, por el valor de la F de Fisher. Puede verse en el Herbario
de tcnicas, en concreto, la tcnica Contraste de hiptesis de la
pendiente de Regresin que valores de F pequeos implican buena
relacin entre la variable dependiente y la independiente. Y valores
grandes implican mala relacin. Pues el criterio de entrada ser que
el valor de la F est por debajo de cierto valor y el de salida que est
por encima de tambin de cierto valor, que suele ser el mismo. En
otras ocasiones el criterio de entrada o de salida es un determinado
p-valor prefijado asociado al parmetro de la variable que se decide si
entra o no en el modelo.
22. Dados unos datos muestrales de una serie de individuos donde
tengamos de ellos los valores tanto de la variable dependiente como
de todas las variables independientes, cualquiera de los tres
procedimientos estima los coeficientes del modelo y el valor de la
Desviacin estndar del residuo; o sea, de ese elemento que
sumamos a cualquier procedimiento de Regresin.
23. Todos estos coeficientes debe decidirse si son coeficientes
significativos, valores fiables que nos proporcionan una modelo

asentado, estable, que refleja una realidad no slo muestral, sino una
realidad poblacional.

24. Para que todas estas estimaciones y estas significaciones


proporcionadas, mediante p-valores, por tcnicas estadstica, sean
fiables es necesario que se cumplan algunas condiciones que ahora
comentar.
25. No olvidemos que toda la llamada Estadstica paramtrica se
construye

con

procedimientos

cuyas

decisiones

cuyas

construcciones se basan en unas suposiciones, bastante exigentes,


que deben cumplirse.
26. Por otro lado las suposiciones que ahora comentar son
condiciones

compartidas

con

la

Regresin

lineal

simple.

Habitualmente la mayor parte de software estadsticos que realizan


Regresin lineal, tanto la simple como la mltiple, y, en sta ltima,
tanto los dos tipos de Stepwise como la que fuerza la entrada de
todas las variables independientes, sus inferencias se basan en estas
suposiciones.
27. Una de las comprobaciones necesarias a hacer en estos modelos
es que realmente los residuos sigan la distribucin normal N (0, DE).
Suposicin nuclear en la Estadstica paramtrica. Y fundamental para
el buen funcionamiento de la mayor parte mdulos de Regresin
lineal en los distintos software comerciales.
28. Una de las tcnicas para comprobar esta normalidad es el Test de
la ji-cuadrado de bondad de ajuste a una distribucin. Otra muy
utilizada es el Test de Kolmogorov.
29. Otra comprobacin importante es la Homogeneidad de varianzas.
Esto significa que el residuo tiene una dispersin homognea, igual,
sean cuales sean los valores de las variables independientes. Hay

diversas pruebas que se han desarrollado para comprobar si se


cumple o no esta condicin. Una es el Test de Glesjer.
30. Otra comprobacin importante es que no haya autocorrelacin
entre los valores en su orden de obtencin. Que sean valores
independientes uno respecto a otro. El Test de Durbin-Watson es el
apropiado en estos casos. La independencia de los datos entre s es
una suposicin tambin del modelo de Regresin lineal.

31. Otra consideracin importante a investigacin en una Regresin


es la influencia de cada punto. No todo punto tiene la misma
influencia. Es importante que no haya

puntos excesivamente

influyentes. Que las estimaciones de los parmetros del modelo


queden demasiado en manos de esos puntos. Entre muchos criterios
existentes uno de los ms usados es el criterio de Cook (Ver Herbario
de tcnicas) para la deteccin de influencia.
32. Cuando alguna o varias de las condiciones necesarias no se
cumplen una de las opciones ms usuales es la Regresin no
paramtrica. En este mbito los mtodos ms usados se basan en la
utilizacin

de

estimaciones

de

funciones

de

densidad

no

paramtricas.
33. De hecho, los diferentes procedimientos de Regresin no
paramtrica, tanto simple como mltiple, se basan en procedimientos
de construccin, sobre el terreno, partiendo de la muestra, donde
habr una enorme flexibilidad que vendr dada porque la funcin ir
siempre a remolque de la posicin de los valores muestrales que
tengamos.

34. Posiblemente el modelo de Regresin no paramtrica ms


utilizado es el Estimador de Nadaraya-Watson que se puede consultar
en la seccin Herbario de tcnicas.
35. Finalmente un criterio de calidad de una Regresin lineal mltiple,
como sucede tambin en la Regresin lineal simple, es el Coeficiente
de determinacin, la R2 (Ver Herbario de tcnicas). Aunque el valor de
este coeficiente es un nmero que va del 0 al 1 es frecuente
expresarlo en tanto por ciento. Es una forma de expresar el grado de
determinacin

de

la

variable

dependiente

por

independientes.

CONCLUSIONES

parte

de

las

Anda mungkin juga menyukai