Estadistica Medica Trabajo

Ao de la Diversificacin Productiva y del Fortalecimiento de la
Educacin
UNIVERSIDAD PARTICULAR DE CHICLAYO

FACULTAD DE MEDICINA - ESCUELA PROFESIONAL DE
MEDICINA HUMANA DEPARTAMENTO ACADMICO DE
CIENCIAS BSICAS ASIGNATURA ESTADISTICA MEDICA
TEMA
Regresin Simple Lineal. Coeficientes de

Correlacin y de Determinacin. Regresin
Lineal Mltiple
DOCENTE:
o Cinthya Santacruz Renteria
CICLO:
o 2015 II
ALUMNOS:
o
o
o
o
o
CUSTODIO CABREJOS, Mara Alejandra

FLORES PAUCAR , Rocio
MENDOZA TINOCO,jenifer(201510081)
TORRES VASQUEZ , Estefanny (
YAMAGUCHI CHAVEZ, Aiko
INTRODUCCIN
Si sabemos que existe una relacin entre una variable
denominada
dependiente
y
otras
denominadas
independientes, puede darse el problema de que la
dependiente asuma mltiples valores para una combinacin
de valores de las independientes.
La dependencia a la que hacemos referencia es relacional
matemtica y no necesariamente de causalidad. As, para
un mismo nmero de unidades producidas, pueden existir
niveles de costo, que varan empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los
estudios de regresin en los cuales se obtiene una nueva
relacin pero de un tipo especial denominado funcin, en la
cual la variable independiente se asocia con un indicador de
tendencia central de la variable dependiente. Cabe recordar
que en trminos generales, una funcin es un tipo de
relacin en la cual para cada valor de la variable
independiente le corresponde uno y slo un valor de la
variable dependiente.
OBJETIVOS
Determinar una funcin matemtica sencilla que
describa el comportamiento de una variable dados los
valores de otra u otras variables
REGRESIN SIMPLE LINEAL, COEFICIENTES

Y DE DETERMINACIN, REGRESIN LINEAL
MLTIPLE
REGRESIN SIMPLE
La Regresin es una tcnica que se pueden utilizar para solucionar
problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar
y cuantificar alguna Relacin Funcional entre dos o ms variables,
donde una variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables
cualquiera en un modelo de Regresin Simple.
"Y es una funcin de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la
variable dependiente y cul es la variable independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin
de slo una variable independiente, razn por la cual se le denomina
tambin Regresin Divariada porque slo hay dos variables, una
dependiente y otra independiente y se representa as:
Y = f (X)
"Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir.
Tambin se le llama REGRESANDO VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA

REGRESOR y se le utiliza para EXPLICAR Y.
ANLISIS ESTADSTICO: REGRESIN LINEAL

SIMPLE
En el estudio de la relacin funcional entre dos variables
poblacionales, una variable X, llamada independiente,
explicativa o de prediccin y una variable Y, llamada
dependiente o variable respuesta, presenta la siguiente
notacin:
Y=a+bX+e
Donde:
A: es el valor de la ordenada donde la lnea de regresin se
intercepta con el eje Y.
B: es el coeficiente de regresin poblacional (pendiente de la
lnea recta)
E: es el error
SUPOSICIONES DE LA REGRESIN LINEAL

1. Los valores de la variable independiente X son fijos,
medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribucin normal de
valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y estn sobre la

recta.
6. Los valores de Y estn normalmente distribuidos y son
estadsticamente independientes.
ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL
Consiste en determinar los valores de "a" y "b " a partir de la

muestra, es decir, encontrar los valores de a y b con los datos
observados de la muestra. El mtodo de estimacin es el de Mnimos
Cuadrados, mediante el cual se obtiene:
Luego, la ecuacin de regresin muestra estimada es:
Que se interpreta como:

A: es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
B: es el estimador de b, es el coeficiente de regresin
Est expresado en las mismas unidades de Y por cada unidad de X.
Indica el nmero de unidades en que vara Y cuando se produce un
cambio, en una unidad, en X (pendiente de la recta de regresin).
Un valor negativo de b sera interpretado como la magnitud del
decremento en Y por cada unidad de aumento en X.
ANTECEDENTES DEL PROBLEMA

Los datos de la siguiente tabla representan las estaturas (X, cm) y los
pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada
estatura fijada previamente se observ el peso de una persona
seleccionada de entre el grupo con dicha estatura, resultando:
X
152
15
50
61
Con estos datos vamos a plantear una ecuacin de regresin simple

que nos permita pronosticar los pesos conociendo las tallas.
Utilizaremos a = 0.05, y contrastaremos nuestra hiptesis con la
prueba F
DESARROLLO:
Representacin matemtica y grfica de los datos:

Representacin Matemtica
estatu pes
ra
os
Regresin Lineal
I.C. para I.
C.
la media individual
dat
os x
y
Residu
est. al
L. I. L. S. L. I.
x ^2 y ^2 xy
152
50
231
56.4
04
2500 7600 3
-6.43
155
240 3782 9532 59.0

61.5 25
.3
.5
3
2.47
56.0 61.9 50.0 68.0

9
7
5
2
152
54.5 231 2970 8284 56.4 -1.93
53.0 59.7 47.3 65.5
L. S.
53.0 59.7 47.3 65.5

7
9
0
6
04
.3
155
240 3306 8912 59.0

57.5 25
.3
.5
3
-1.53
56.0 61.9 50.0 68.0

9
7
5
2
157
246 4032 9969 60.7

63.5 49
.3
.5
7
2.73
58.0 63.4 51.8 69.6

5
8
5
8
152
59
231
56.4
04
3481 8968 3
2.57
53.0 59.7 47.3 65.5

7
9
0
6
58.0 63.4 51.8 69.6
5
8
5
8
157
61
246
60.7
49
3721 9577 7
0.23
165
72
272
1188 67.7
25
5184 0
1
4.29
65.1 70.2 58.8 76.5

7
4
5
7
66
262
1069 65.1
44
4356 2
1
0.89
62.6 67.5 56.2 73.9

5
6
7
4
72
316
1281 78.9
84
5184 6
9
-6.99
74.6 83.3 69.4 88.5

5
3
5
2
78.0 88.6 73.3 93.3
1
4
1
4
74.6 83.3 69.4 88.5
5
3
5
2
10
162
178
11
183
84
334
1537 83.3
89
7056 2
2
0.68
12
178
82
316
1459 78.9
84
6724 6
9
3.01
Representacin Grfica
HIPTESIS
HO: No hay relacin entre el variable peso y la variable
estatura.
HA: Hay relacin entre la variable peso y la variable
estatura.
Tabla de anlisis de varianza
Fuente de
Grados de
Variacin
libertad
Debido a
la regresin
error
10
total
11
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la

hiptesis nula y aceptamos que la variable estatura est relacionada
con la variable peso con un 95% de confianza.
De acuerdo al desarrollo matemtico hemos obtenido los siguientes

clculos:
Lo que nos permite obtener los coeficientes a y b.

Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 (0.8676) (162.167) = -75.446
INTERPRETACIN
La ecuacin de regresin estimada es:

Coeficiente de correlacin: R= 0.9379
Coeficiente de determinacin: R=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos,
en promedio, por cada centmetro de aumento en la estatura de los
hombres adultos.
El valor de a, no tiene interpretacin prctica en el ejemplo, se
interpretara como el valor obtenido, en promedio, para el peso Y,
cuando la estatura es 0.
Utilizando la ecuacin de regresin para estimar o predecir valores de

la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.
Cunto se espera que pese (en promedio) una persona que

mide 1.60 m?
Sustituyendo el valor de inters en la ecuacin:
Se obtiene:
CONCLUSIN
La ecuacin de Regresin Lineal estimada para las variables
estatura y peso muestran, de acuerdo a la prueba F,
relacin.
Esta relacin se ha estimado en un R = 93.7, que indica una
fuerte relacin positiva.
Adems si consideramos el coeficiente de determinacin R
= 87.9 podemos indicar que el 87.9% de las variaciones
que ocurren en el peso se explicaran por las variaciones en
la variable estatura.
COEFICIENTE DE DETERMINACIN, COEFICIENTE DE

CORRELACIN
Una vez ajustada la recta de regresin a la nube de observaciones es
importante disponer de una medida que mida la bondad del ajuste
realizado y que permita decidir si el ajuste lineal es suficiente o se
deben buscar modelos alternativos. Como medida de bondad del
ajuste se utiliza el coeficiente de determinacin, definido como
sigue:
(6.15)
O bien
Como scE < scG, se verifica que 0 < R < 1.

2
El coeficiente de determinacin mide la proporcin de variabilidad

total de la variable dependiente
respecto a su media que es
explicada por el modelo de regresin. Es usual expresar esta medida
en tanto por ciento, multiplicndola por cien.
Por otra parte, teniendo en cuenta que
- =
, se obtiene:
(6.16)
Dadas dos variables aleatorias cualesquiera X e Y , una medida de la
relacin lineal que hay entre ambas variables es el coeficiente de
correlacin definido por
(6.17)
Donde
representa
la
desviacin
tpica
de
la
variable X (anlogamente para
). Un buen estimador de este
parmetro es el coeficiente de correlacin lineal muestral (o
coeficiente de correlacin de Pearson), definido por:
(6.18)
Por tanto, r
. Este coeficiente es una buena medida de la
bondad del ajuste de la recta de regresin. Evidentemente, existe una
estrecha relacin entre r y
aunque estos estimadores proporcionan
diferentes interpretaciones del modelo:
1
* r es una medida de la relacin lineal entre las variables X e Y.

*
mide el cambio producido en la variable Y al realizarse un cambio

de una unidad en la variable X.
1
De las definiciones anteriores se deduce que:
Es importante estudiar si r es significativo (distinto de cero) ya que

ello implica que el modelo de regresin lineal es significativo.
Desafortunadamente la distribucin de r es complicada pero para
tamaos muestrales mayores que 30 su desviacin tpica es
1/
, y puede utilizarse la siguiente regla
En la interpretacin del coeficiente de correlacin se debe tener en

cuenta que:
r = 1 indica una relacin lineal exacta positiva (creciente) o

negativa (decreciente),
r = 0 indica la no existencia de relacin lineal estocstica, pero no
indica independencia de las variables ya que puede existir una
relacin no lineal incluso exacta,
valores intermedios de r (0 < r < 1 -1 < r < 0) indican la
existencia de una relacin lineal estocstica, ms fuerte cuanto ms
prximo a +1 ( -1) sea el valor der.
Para poder interpretar con mayor facilidad el coeficiente de
correlacin muestral se exponen varias nubes de observaciones y el
ajuste lineal obtenido
Existe una dependencia funcional lineal, las observaciones estn
sobre la recta de regresin. r = R2 = 1, recta de regresin: y = x.
Dependencia funcional lineal.
La relacin lineal entre las variables es muy pequea y no parece que

exista otro tipo de relacin entre ellas, la nube de puntos indica que
las variables son casi independientes.
r = 0 192, R = 0 037, recta de regresin: y = 6 317 + 0 086x.
'
'
'
'
Contraste de regresin:
= 0 687 F
p - valor = 0 418. Se
acepta la no influencia de la variable regresora en Y.
R
'
1,18
'
Observaciones casi independientes.

Existe una dependencia funcional entre las observaciones pero no de
tipo lineal, por tanto la correlacin es muy pequea
r = 0 391, R = 0 153, recta de regresin: y = 32 534 - 1 889x.
'
'
'
'
= 3 252 F
p-valor = 0 088. Se acepta
que no existe relacin lineal con = 0 05. En base a la Figura 6.6. Se
debe de hacer un ajuste del tipo parablico Y = + x + x .
R
'
'
1,18
'
Existe una relacin cuadrt
La nube de datos se ajusta razonablemente a una recta con

pendiente positiva.
r = 0 641, R = 0 410, recta de regresin: y = -3' 963 + -1 749x.
'
'
'
= 12 522 F
rechaza la no influencia lineal de la variable x.
R
Relacin
lineal.
'
1,18
p - valor = 0 002. Se
'
estocstica
Existe una fuerte dependencia lineal negativa entre las dos variables
y la correlacin es muy alta (prxima a 1).
r = 0 924, R = 0 846, recta de regresin: y = -2 528 - 2 267x
'
'
'
= 105 193 F
acepta la existencia de una relacin lineal.
R
'
1,18
'
p - valor = 0 000. Se
'
Fuerte relacin estocstica

lineal.
PREDICCIN EN REGRESIN LINEAL SIMPLE
Como se coment anteriormente hay dos objetivos bsicos en el

ajuste de un modelo de regresin:
- Conocer la relacin existente entre la variable respuesta y las
variables regresoras. En el caso de la regresin lineal simple se
estima
la
mejor
recta
de
regresin
que
relaciona
la
variable Y con la variable X y se cuantifica la importancia de

dicha relacin por medio del coeficiente de correlacin, r.
- Utilizar el modelo de regresin ajustado para predecir el
valor de la variable respuesta Y cuando la variable regresora
toma un valor determinado, X = xt.
En esta seccin se estudia este segundo objetivo. Esto es, estimada la
recta de regresin, cmo predecir el valor de Y sabiendo que la
variable regresora toma el valor X = x ? Ante esta pregunta, se
t
deben distinguir dos situaciones diferentes:

Estimar la media de la distribucin condicionada de Y/X = x : E
= m.
t
Se quiere responder a preguntas del tipo: cul es el gasto

medio en material informtico de las empresas que
tienen unos ingresos globales de 300 millones
anuales?.
Predecir el valor de la variable respuesta en un individuo de la
poblacin en estudio del que se sabe que X = xt. Esto es,
predecir un valor de la variable condicionada Y/X=xt
Se quiere responder a preguntas del tipo: La empresa MEGA tiene

unos ingresos anuales de 300 millones, cul ser el gasto en
material informtico de esta empresa?.
Estimacin de las medias condicionadas:

Una vez calculada la recta de regresin de la variable Y respecto a X,
se quiere estimar el parmetro mt = E

. Para ello, como
estimador se utiliza el que proporciona la recta de regresin,
sustituyendo xt por x en la ecuacin de la recta,
(6.1
9)
Este estimador verifica las siguientes propiedades:

1. Es centrado o insesgado, E
= mt .
2. La varianza es:
(6.2
0)
3. donde
(6.2
1)
4. nt se denomina nmero equivalente de observaciones para

estimar mt.
5. Teniendo en cuenta que en una muestra de tamao n, la
varianza de la media muestral es V ar
= 2/n, la interpretacin
de nt es la siguiente:
la informacin que proporciona la muestra, de tamao n,
n
de datos bivariantes
para estimar mt es la
i=
1
misma que proporcionara una muestra de tamao nt de
observaciones
univariantes
de
una
poblacin
con distribucin igual a la de Y/X = xt.
6. De la expresin de nt se deduce que este valor ser mayor

cuanto ms prximo est xt de . Y si xt = se verifica que nt = n.
7. La inversa de n , h = 1/n se denomina valor de influencia de la

observacin x (muy utilizado el nombre en ingls leverage) y se
t
tt
ver ms adelante que es una medida de la influencia de la

observacin
(si este es uno de los datos muestrales) en el
clculo de la recta de regresin.
8. La distribucin del estimador
es normal,
9. En la prctica el estadstico anterior no se puede utilizar para

calcular intervalos de confianza de m porque es desconocido. Por
ello, se sustituye por su estimador
y bajo la hiptesis
de normalidad se obtiene la siguiente distribucin,
t
La distribucin dada en (6 .22) permite calcular intervalos de

confianza de m con un nivel de confianza , de la siguiente forma:
t
Al utilizar el modelo de regresin lineal para estimar una media

condicionada o predecir una observacin debe de tenerse en cuenta
que el mtodo proporciona resultados aceptables dentro del rango de
valores muestrales de la X (interpolar), aqu est garantizado
que 1 < n < n. Si x es un punto muy alejado de (an estando dentro
de la nube de observaciones est muy alejado del centro de la
misma) entonces n 1 y la varianza de
ser muy grande con lo que
se obtienen estimaciones con poca precisin (mucha variabilidad). El
caso opuesto es que x = y, por tanto, n = n, ahora la varianza de
es /n, la menor posible.
t
Por otra parte, si se quiere predecir fuera del rango de valores

muestrales de X (extrapolar), entonces x - puede ser muy grande y,
en consecuencia, n 0, lo que hace que la precisin de la estimacin
de m sea muy pequea por tener el estimador
una varianza muy
grande y, por tanto, obtener resultados con muy poca validez.
t
Prediccin de una observacin

Se quiere predecir el valor de la variable aleatoria Y/X = x teniendo
en cuenta que se ha ajustado una recta de regresin. El problema es
conceptualmente diferente del anterior, ya que en el apartado
t
anterior se estima un parmetro (la media condicionada) y ahora se

quiere predecir el resultado de una variable aleatoria. El predictor que
se utiliza
se obtiene como aquel que minimize el Error Cuadrtico
Medio de Prediccin. Esto es,
se obtiene como el valor que
minimiza la siguiente funcin
t
Al resolver este problema de minimizacin se obtiene como

predictor el resultado de sustituir el valor de x en la recta de
regresin calculada,
t
Por tanto, la prediccin de Y/X = x es la misma que la estimacin

de m pero su varianza aumenta ya que la variabilidad debida a la
muestra
se incrementa con la variabilidad propia de la
variable aleatoria que se quiere predecir
. Ahora la varianza
de la prediccin es
t
Var( t - yt) =
Por la hiptesis de normalidad y razonando como en el apartado
anterior se obtiene
Utilizando esta distribucin se puede calcular un intervalo de

prediccin para yt, con un nivel de confianza , de la siguiente forma
Por ser la var

mucho mayor que la var
, los intervalos de
prediccin de yt son mucho mayores que los intervalos de confianza
de mt.
Anlisis de un caso de un modelo de regresin lineal

simple
En esta seccin se presenta el desarrollo en detalle de un

supuesto prctico del modelo de regresin lineal simple, en
los clculos se utiliza toda la teora expuesta en este captulo.
Ejemplo 6.3.
Se desea estudiar la posible relacin entre los gastos en
material informtico, en mltiplos de cien mil euros, de una
empresa
y sus ingresos globales, en millones de euros.
Para ello se recoge una muestra de datos anuales de gastos e
ingresos de 65 empresas, los datos muestrales son los de la
tabla adjunta. Estudiar la posible existencia de una relacin
lineal entre la variable respuesta gasto en material
informtico y la variable regresora ingreso global.
X:
Ingr
esos
glo
bales
Y
gast
os en
mat
erial
infor
mt.
20
25
13
43
36
30
14
17
7
.
.
50
15
25
28
17
35
29
20
26
14
6
100
200
25
61
46
23
45
28
24
37
.
.
57
46
54
69
62
71
67
36
41
62
300
400
75
107
72
53
53
77
63
74
87
.
500
91
94
100
93
92
90
109
97
111
87
121
113
90
109
118
117
125
121
122
119
la
recta de
Estadsticos bsicos de las variables X e Y

Estimadores
regresin son
de
los
coeficientes
de
Datos y recta ajustada.
Residuos del modelo.

Se calculan las predicciones de
muestrales
y los residuos, a partir
obtiene la varianza residual
las observaciones
de los cuales se
Intervalos de confianza al 95% ( = 0 05) para los tres

parmetros del modelo.
'
Para
Para
Para
Nota: si se hubiese planteado el problema de forma

inversa y se quisiera calcular la recta de regresin del
ingreso
respecto al gasto
, se obtiene,
o despejando, para comparar con la recta de regresin

de Y sobre X,
Se comprueba que las dos rectas de regresin no coinciden

(observar la Figura 6.11.).
Figura 6.11. Grfica de las dos rectas de regresin.

Contrastes individuales (contrastes de la t).
Contraste C H :
1,
= 0 frente a H :
1
0.
Del p-valor prximo a cero1 se concluye que la variable

regresora X influye linealmente en la variable dependiente Y.
Contraste C H :
0,
= 0 frente a H :
1
0.
Tabla ANOVA. Contraste de regresin.

Con los datos del problema se obtiene la siguiente tabla
ANOVA
Tabla ANOVA
Fuentes Variacin
Suma Cuadrados
Gr. libertad
Por la recta
75.602 5
2
e
= 75.602 5
Residual
8.544 7
63
2
R
= 135 6
Global
84.147 1
64
'
'
'
Varianzas
'
'
= 1.314 8
'
El contraste de la F es
se rechaza la no influencia de la recta de regresin. Este

resultado es exactamente el mismo que se obtiene en el
contraste individual de la t relativo a . El motivo es que se
est estudiando un modelo de regresin con una sola
regresora y, por tanto, el estudio de la influencia del modelo
es equivalente al estudio de la influencia de la nica
regresora. El significado de los contrastes individuales de
la t y del contraste conjunto de la F (contraste de regresin)
1
sern diferentes en modelos de regresin con ms de una

variable explicativa.
Contraste de linealidad.
Dado que para cada valor de X se tienen varios valores
de Y se pueden calcular las medias muestrales condicionadas,
lo que permite descomponer la suma de los residuos al
cuadrado y obtener la siguiente tabla ANOVA
Tabla ANOVA
Fuentes Variacin
Suma Cuadrados
Gr. libertad
Por la recta
75.602 5
2
e
scR(1)
314 7
R,1
scR(2)
8.229 9
58
2
R,2
Residual
8.544 7
63
2
R
Global
84.147 1
64
'
'
'
'
'
Varianzas
= 75.602 5
'
= 62 94
'
= 141 89
'
= 135 6
'
= 1.314 8
'
Se calcula el estadstico del contraste de linealidad de la F
Se acepta claramente la hiptesis de que la funcin de

regresin es lineal.
Coeficiente
simple.
de
determinacin
correlacin
lineal
El coeficiente de determinacin es
El modelo de regresin lineal construdo explica el 89 85% de

variabilidad de la variable respuesta.
'
El coeficiente de correlacin lineal muestral es,
Existe una alta correlacin positiva.

Estimacin de la media condicionada.
Se quiere estimar el gasto medio en material informtico de
las empresas cuyos ingresos globales son de 300 y 800
millones anuales, respectivamente. Calcular intervalos de
confianza al 90% para dichas medias condicionadas.
Para las empresas con 300 millones de ingresos se obtiene
Se calcula el nmero de observaciones equivalentes
La varianza del estimador es
El intervalo de confianza es
Para x = 800, se obtiene
Comparando los intervalos de confianza obtenidos se

observa que el relativo a x = 800 tiene una longitud mucho
mayor que en el caso de x = 300. Esto es debido a que el
punto x = 300 est ms cerca de la media muestral x =
233 231 que el segundo punto x = 800.
'
Prediccin.
Predecir el gasto en material informtico de la empresa
MEGA1 y MEGA2 cuyos ingresos globales son de 300 y 800
millones, respectivamente. Calcular intervalos de prediccin
al 90% para dichas predicciones.
Para la empresa MEGA1, con x = 300, la prediccin de
gasto es
Con varianza
El intervalo de prediccin es
Para la empresa MEGA2, con x = 800, se obtiene la

prediccin
El intervalo de prediccin es
En el cuadro adjunto se comparan las longitudes de los

intervalos de confianza obtenidos
Longitud de los I.C. al 90%
x = 300
x = 800
Estimacin de m
5 180
16 770
39 227
42 346
Prediccin de y
'
'
'
'
En la Figura 6.12. Se representa la nube de puntos del

problema estudiado, la recta de regresin estimada, los
intervalos de confianza de las medias condicionadas al 90%
(los ms prximos a la recta) y los intervalos de prediccin al
90%.
Figura 6.12. Recta de regresin
En la Regresin lineal mltiple
1. Modelizamos la relacin entre una variable dependiente y dos o

ms variables independientes mediante una funcin lineal, una
funcin que ser, ahora, no una recta, como suceda con la Regresin
lineal simple, sino un plano (si tenemos dos variables independientes)
o un hiperplano (si tenemos ms de dos variables independientes).
2. En la Regresin lineal mltiple el punto de partida es el mismo que
en la Regresin lineal simple. Se pretende modelizar la relacin entre
unas variables con la finalidad ltima de poder pronosticar una de
ellas: la variable dependiente, a partir del conocimientos de las otras:
las variables independientes. En la Regresin lineal mltiple se
introducen nuevas variables independientes con la finalidad de
reducir la dispersin de la prediccin, con la finalidad de disminuir el
residuo.
3. El modelo matemtico es, ahora:
y=a 1x1+a2x2+
+adxd+b+e
Donde a1, a2,, ad y b son los coeficientes del modelo y donde es el
residuo, que, como en la Regresin lineal simple, supondremos que
sigue una distribucin normal N (0, DE).
4. Aunque la Regresin lineal mltiple es, en buena parte, una
generalizacin
de
la
Regresin
lineal
simple,
tiene
unas
particularidades que conviene precisar.

5. Una de sus peculiaridades es la tendencia a llenar excesivamente
el modelo. Hay la tendencia a ir introduciendo variables, hinchando el
modelo y esto es muy perjudicial. Para que las cosas funcionen lo
mejor
posible
conviene
independientes entre ellas.
trabajar
con
variables
que
sean
6. Observemos que en el punto anterior he usado la nocin de

independencia entre variables para referirme a las variables que se
denominan independientes en el modelo de regresin. Recordemos
que de esas variables tendremos, en el futuro, valores concretos para
un individuo y a partir de ellos trataremos de pronosticar el valor de
una variable dependiente que desconoceremos su valor para ese
individuo.
7. Pueden observarse dos nociones de independencia distintas, pues,
en lo que estamos diciendo ahora. Una cosa es la posicin de las
variables en el modelo de Regresin y otra es el que las variables
sean independientes entre ellas, que significa que la correlacin entre
ellas sea cero.
8. Cuando no se cumple esta relacin de independencia entre las
variables independientes se produce un fenmeno de colinealidad.
Esto es perjudicial para el modelo. El perjuicio representa que las
estimaciones de los parmetros del modelo (los coeficientes), que son
los elementos bsicos para la construccin de los pronsticos de la
variable dependiente, tienen ms Error estndar. Y el Error estndar,
como Desviacin estndar de una prediccin, es uno de los
principales criterios de calidad de una estimacin.
9. Hay distintos mecanismos para comprobar si tenemos un exceso

de colinealidad. El Test de Belsey, Kuh y Welsch (Ver Herbario de
tcnicas) es uno de los ms usados para comprobar si tenemos ese
exceso de linealidad. Ante un exceso de colinealidad conviene hacer
una
revisin
una
nueva
consideracin
de
las
variables
independientes a usar en el modelo de Regresin, eliminando alguna

de ellas o haciendo una Anlisis de componentes principales (Tcnica
multivalente que veremos ms adelante).
10. De hecho, parece lgico, en una Regresin lineal mltiple, pedirle

a las variables independientes que sean independientes entre ellas.
Pensemos que si no lo son, si tienen un cierto grado de dependencia,
es porque de alguna forma comparten aspectos entre ellas, en cierta
forma dicen cosas similares esas variables. Por lo tanto, a la hora de
ser usadas para predecir una variable dependiente se produce un
fenmeno de redundancia: estamos usando varias veces lo mismo
para pronosticar algo. Y esto se paga con ms imprecisin en las
estimaciones.
11. Otra peculiaridad de la Regresin lineal mltiple es la posibilidad
de construir el modelo paso a paso. Es el procedimiento denominado,
en ingls, Stepwise.
12. Al realizar una Regresin lineal mltiple hay, pues, tres
modalidades de estimacin del modelo:
a. Forzando la entrada en el modelo de todas las variables elegidas.
b. Mediante un Stepwise hacia delante. La Regresin entonces se
denomina Forward Stepwise Regresin.
c. Mediante un Stepwise hacia atrs. La Regresin entonces se
denomina Backward Stepwise Regresin.
13. Expliquemos las dos variantes ltimas, puesto que la primera no
precisa ninguna explicacin.
14. El Stepwise hacia delante lo que hace es, pas a paso, ir

introduciendo, en el modelo de Regresin lineal, como dice su
nombre: pas a paso, variables independientes, hasta completar el
mejor modelo posible.
15. En primer lugar crea un modelo con una nica variable

independiente. En realidad, pues, el primer paso es crear una
Regresin lineal simple. Pero lo hace eligiendo entre todas las
variables independientes la que consigue un mejor modelo, si es que
lo consigue. En este primer paso debe existir entre las variables
independientes una variable que tenga una relacin significativa con
la variable dependiente. De lo contrario el procedimiento acabara
aqu y no tendramos modelo matemtico para relacionar esas
variables.
16. En el segundo paso se prueba de introducir, entre las variables
independientes que quedan, cul es la que consigue un modelo
mejor, si es que alguna lo consigue. Se trata de establecer unos
criterios de calidad mnimos. Lo que se denomina un Criterio de
entrada. Si no se alcanzan nos quedamos con una Regresin lineal
simple y se rechazan las otras variables.
17. Si hemos conseguido introducir en el modelo una segunda
variable independiente se valora, probando con todas las variables
independientes que quedan, la posibilidad de introducir una tercera.
De nuevo se aplican unos criterios de entrada que si no se alcanzan
no se introduce ninguna variable ms.
18. Y as se va haciendo hasta alcanzar el mejor modelo. Es
importante tener en cuenta que en cualquiera de estos pasos hay la
posibilidad de extraer una variable que anteriormente se haba
introducido. Y cambiar as la disposicin inicial. Por ejemplo,
supongamos que en los pasos anteriores se haban introducido las
variables x3 y x5 y, al probar una nueva introduccin, al ensayar con,
por ejemplo, x7, el procedimiento observa que consigue mejores
resultados sacando del modelo la variable x 3 que haba sido la
primera que haba introducido, quedando, entonces, el modelo con
x5 y x7.
19. El Stepwise hacia atrs es lo mismo pero ahora partiendo que

hemos empezado forzando la entrada de todas las variables dentro
del modelo y, a continuacin, en el siguiente paso, mirar de sacar una
de las variables independientes: una variable que al sacarla
alteremos la calidad del modelo menos que un valor umbral
establecido, lo que se denomina, ahora, un Criterio de salida. Si es
as, si podemos extraer sin perjudicar por encima de ese valor
preestablecido, reducimos el modelo.
20. Y as, paso a paso, pero en sentido contrario, vamos creando el
mejor modelo posible, la mejor ecuacin posible que relacione una
variable dependiente con varias variables independientes.
21. Los criterios de entrada y de salida, que en muchas ocasiones son
el mismo valor, generalmente vienen dados por el valor de un
estadstico, por el valor de la F de Fisher. Puede verse en el Herbario
de tcnicas, en concreto, la tcnica Contraste de hiptesis de la
pendiente de Regresin que valores de F pequeos implican buena
relacin entre la variable dependiente y la independiente. Y valores
grandes implican mala relacin. Pues el criterio de entrada ser que
el valor de la F est por debajo de cierto valor y el de salida que est
por encima de tambin de cierto valor, que suele ser el mismo. En
otras ocasiones el criterio de entrada o de salida es un determinado
p-valor prefijado asociado al parmetro de la variable que se decide si
entra o no en el modelo.
22. Dados unos datos muestrales de una serie de individuos donde
tengamos de ellos los valores tanto de la variable dependiente como
de todas las variables independientes, cualquiera de los tres
procedimientos estima los coeficientes del modelo y el valor de la
Desviacin estndar del residuo; o sea, de ese elemento que
sumamos a cualquier procedimiento de Regresin.
23. Todos estos coeficientes debe decidirse si son coeficientes
significativos, valores fiables que nos proporcionan una modelo
asentado, estable, que refleja una realidad no slo muestral, sino una
realidad poblacional.
24. Para que todas estas estimaciones y estas significaciones

proporcionadas, mediante p-valores, por tcnicas estadstica, sean
fiables es necesario que se cumplan algunas condiciones que ahora
comentar.
25. No olvidemos que toda la llamada Estadstica paramtrica se
construye
con
procedimientos
cuyas
decisiones
cuyas
construcciones se basan en unas suposiciones, bastante exigentes,

que deben cumplirse.
26. Por otro lado las suposiciones que ahora comentar son
condiciones
compartidas
con
la
Regresin
lineal
simple.
Habitualmente la mayor parte de software estadsticos que realizan

Regresin lineal, tanto la simple como la mltiple, y, en sta ltima,
tanto los dos tipos de Stepwise como la que fuerza la entrada de
todas las variables independientes, sus inferencias se basan en estas
suposiciones.
27. Una de las comprobaciones necesarias a hacer en estos modelos
es que realmente los residuos sigan la distribucin normal N (0, DE).
Suposicin nuclear en la Estadstica paramtrica. Y fundamental para
el buen funcionamiento de la mayor parte mdulos de Regresin
lineal en los distintos software comerciales.
28. Una de las tcnicas para comprobar esta normalidad es el Test de
la ji-cuadrado de bondad de ajuste a una distribucin. Otra muy
utilizada es el Test de Kolmogorov.
29. Otra comprobacin importante es la Homogeneidad de varianzas.
Esto significa que el residuo tiene una dispersin homognea, igual,
sean cuales sean los valores de las variables independientes. Hay
diversas pruebas que se han desarrollado para comprobar si se

cumple o no esta condicin. Una es el Test de Glesjer.
30. Otra comprobacin importante es que no haya autocorrelacin
entre los valores en su orden de obtencin. Que sean valores
independientes uno respecto a otro. El Test de Durbin-Watson es el
apropiado en estos casos. La independencia de los datos entre s es
una suposicin tambin del modelo de Regresin lineal.
31. Otra consideracin importante a investigacin en una Regresin

es la influencia de cada punto. No todo punto tiene la misma
influencia. Es importante que no haya
puntos excesivamente
influyentes. Que las estimaciones de los parmetros del modelo

queden demasiado en manos de esos puntos. Entre muchos criterios
existentes uno de los ms usados es el criterio de Cook (Ver Herbario
de tcnicas) para la deteccin de influencia.
32. Cuando alguna o varias de las condiciones necesarias no se
cumplen una de las opciones ms usuales es la Regresin no
paramtrica. En este mbito los mtodos ms usados se basan en la
utilizacin
de
estimaciones
de
funciones
de
densidad
no
paramtricas.
33. De hecho, los diferentes procedimientos de Regresin no
paramtrica, tanto simple como mltiple, se basan en procedimientos
de construccin, sobre el terreno, partiendo de la muestra, donde
habr una enorme flexibilidad que vendr dada porque la funcin ir
siempre a remolque de la posicin de los valores muestrales que
tengamos.
34. Posiblemente el modelo de Regresin no paramtrica ms

utilizado es el Estimador de Nadaraya-Watson que se puede consultar
en la seccin Herbario de tcnicas.
35. Finalmente un criterio de calidad de una Regresin lineal mltiple,
como sucede tambin en la Regresin lineal simple, es el Coeficiente
de determinacin, la R2 (Ver Herbario de tcnicas). Aunque el valor de
este coeficiente es un nmero que va del 0 al 1 es frecuente
expresarlo en tanto por ciento. Es una forma de expresar el grado de
determinacin
de
la
variable
dependiente
por
independientes.
CONCLUSIONES
parte
de
las

Estadistica Medica Trabajo

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Estadistica Medica Trabajo

Diunggah oleh

Hak Cipta:

Format Tersedia

Ao de la Diversificacin Productiva y del Fortalecimiento de la

UNIVERSIDAD PARTICULAR DE CHICLAYO

Regresin Simple Lineal. Coeficientes de

CUSTODIO CABREJOS, Mara Alejandra

REGRESIN SIMPLE LINEAL, COEFICIENTES

La variable Independiente X se le denomina VARIABLE EXPLICATIVA

ANLISIS ESTADSTICO: REGRESIN LINEAL

SUPOSICIONES DE LA REGRESIN LINEAL

5. Todas las medias de las subpoblaciones de Y estn sobre la

ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL

Consiste en determinar los valores de "a" y "b " a partir de la

Luego, la ecuacin de regresin muestra estimada es:

Que se interpreta como:

ANTECEDENTES DEL PROBLEMA

Con estos datos vamos a plantear una ecuacin de regresin simple

Representacin matemtica y grfica de los datos:

240 3782 9532 59.0

56.0 61.9 50.0 68.0

54.5 231 2970 8284 56.4 -1.93

53.0 59.7 47.3 65.5

53.0 59.7 47.3 65.5

240 3306 8912 59.0

56.0 61.9 50.0 68.0

246 4032 9969 60.7

58.0 63.4 51.8 69.6

53.0 59.7 47.3 65.5

65.1 70.2 58.8 76.5

62.6 67.5 56.2 73.9

74.6 83.3 69.4 88.5

Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la

De acuerdo al desarrollo matemtico hemos obtenido los siguientes

Lo que nos permite obtener los coeficientes a y b.

La ecuacin de regresin estimada es:

Utilizando la ecuacin de regresin para estimar o predecir valores de

Cunto se espera que pese (en promedio) una persona que

COEFICIENTE DE DETERMINACIN, COEFICIENTE DE

Como scE < scG, se verifica que 0 < R < 1.

El coeficiente de determinacin mide la proporcin de variabilidad

* r es una medida de la relacin lineal entre las variables X e Y.

mide el cambio producido en la variable Y al realizarse un cambio

De las definiciones anteriores se deduce que:

Es importante estudiar si r es significativo (distinto de cero) ya que

En la interpretacin del coeficiente de correlacin se debe tener en

r = 1 indica una relacin lineal exacta positiva (creciente) o

Dependencia funcional lineal.

La relacin lineal entre las variables es muy pequea y no parece que

Observaciones casi independientes.

Existe una relacin cuadrt

La nube de datos se ajusta razonablemente a una recta con

Fuerte relacin estocstica

PREDICCIN EN REGRESIN LINEAL SIMPLE

Como se coment anteriormente hay dos objetivos bsicos en el

variable Y con la variable X y se cuantifica la importancia de

deben distinguir dos situaciones diferentes:

Se quiere responder a preguntas del tipo: cul es el gasto

Se quiere responder a preguntas del tipo: La empresa MEGA tiene

Estimacin de las medias condicionadas:

se quiere estimar el parmetro mt = E

Este estimador verifica las siguientes propiedades:

4. nt se denomina nmero equivalente de observaciones para

6. De la expresin de nt se deduce que este valor ser mayor

7. La inversa de n , h = 1/n se denomina valor de influencia de la

ver ms adelante que es una medida de la influencia de la