Anda di halaman 1dari 91

Tema

17 REGRESIN
Y CORRELACIN
SIMPLE
OBJETIVOS
Al finalizar el Tema 17, el participante ser capaz de:
1. Utilizar diagramas de dispersin para visualizar la
relacin entre dos variables.
2. Identificar relaciones simples entre variables
3. Utilizar la ecuacin de regresin para predecir valores
futuros.
4. Aplicar el anlisis de correlacin para describir el
grado hasta el cul dos variables estn relacionadas
linealmente entre si.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


6. Realizar el diagnostico de la regresin
7. Medicin de la autocorrelacin
8. Realizar la estimacin por intervalos
9. Realizar el anlisis de varianza de la regresin
simple

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


CONTENIDO
1. El diagrama de dispersin
2. Las ecuaciones lineales simples
3. La regresin lineal simple
4. El error estndar de la estimacin
5. El anlisis de correlacin
6. El diagnstico de la regresin: al anlisis residual
7. La estadstica de Durbin-Watson
8. La estimacin por intervalos
9. Anlisis de varianza de la regresin simple.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
17.1 El diagrama de dispersin

Es un grfico que permite detectar la


existencia de una relacin entre dos
variables.
Visualmente se puede buscar patrones que
indiquen el tipo de relacin que se da entre
las variables.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


(a) Lineal directa (b) Lineal inversa (c) Curvilnea directa
Y Y Y

Relaciones posibles

entre X y Y vistos

en diagramas de
dispersin X

X X

Y Y Y








X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relacin
con ms dispersin

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Aplicacin
Los datos siguientes muestran las cantidades
consumidas de complemento nutricional (en Kg.) y
el aumento de peso de nios con signos de
desnutricin.

PACIENTE 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X

AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y

Presente la informacin en un diagrama de dispersin


Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Procedimiento
1er Paso: Rena pares de datos (X,Y), cuya
relacin desea estudiar y organice la informacin
en una tabla.

PACIENTE 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X

AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


2do Paso: Encuentre los valores mnimos y mximos
para X e Y. Elija las escalas que se usarn en los
ejes horizontal y vertical, de manera que ambas
longitudes sean aproximadamente iguales, facilitando
la lectura del diagrama.

20

15

10

0
0.0 2.0 4.0 6.0

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


3er Paso: Registre los datos en el grfico. Cuando
se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
crculos concntricos (o), o registre el segundo punto
muy cerca del primero.
20

15

10

0
0.0 2.0 4.0 6.0

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


4to Paso: Agregue toda la informacin que
puede ser de utilidad para entender el diagrama,
tal como: ttulo del diagrama, perodo de tiempo,
nmero de pares de datos, nombre de la variable
y unidades de cada eje, entre otros.
Relacin complemento nutricional y
aumento de peso

20
Aumento de peso

15
(Kg)

10
5
0
0.0 2.0 4.0 6.0
Complemento nutricional (Kg)

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


17.2 Las ecuaciones lineales simples

Si dos variables, como X e Y, estn


relacionadas, se puede expresar como una
relacin, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuacin se puede:
a) Calcular el valor de Y para cualquier valor
dado de X
b) Conocer el cambio en Y, cuando X vara en 1

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Por ejemplo: Y = 3 + 1,5X

Valor Valor Cambio


dado de X calculado de Y de Y
1 4,5 -
2 6,0 1,5
3 7,5 1,5
4 9,0 1,5
5 10,5 1,5

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


El aumento en Y, cuando X vara en una unidad,
est dado por el coeficiente de X.

Ejemplo:

En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2

En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


A) Tipos de Variables
En una ecuacin como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.

Y = b0 + b1 X

Variable Variable
Dependiente Independiente

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en
igual sentido (aumentos o disminuciones), las
variables estn directamente relacionadas. Se
observa el signo +
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o

X
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Cuando cambios en X, provoca variaciones en Y
en sentido inverso (X aumenta, Y disminuye o
viceversa), las variables estn inversamente
relacionadas. Se observa en la ecuacin el signo
-. Y
Ejemplo: o
Y = 20 - 3X
o o

o o
o
o

X
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
C) Grado de la ecuacin:
La ecuacin es de primer grado si la
variable independiente est elevada al
exponente 1. Su grfica genera una lnea
recta (por lo que tambin se le llama
ecuacin lineal)

Ejemplo: Y = 30 + 4 X

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Si la variable independiente est elevada a un
exponente diferente a 1, la ecuacin toma el valor
del exponente. Su grfica no es una lnea recta.
Ejemplo:

Y = 10 + 3 X + 4 X2 : ecuacin de segundo grado

Y = 3 + 7X + 5 X3 : ecuacin de tercer grado

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


D) Ecuaciones simples y mltiples:
Simples: Muestra la relacin entre dos variables
Y = 30 + 2X
Y = 10 - 3X2

Mltiple: Muestra la relacin entre tres o ms


variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


D) Grfica de una ecuacin de primer grado:
Ejemplo: Y = 3 + 1,5X
X 1 2 3 4 5
Y 4 ,5 6 ,0 7 ,5 9 ,0 1 0 ,5
Los cinco pares de valores se diagraman de la
forma siguiente.
Y

12
11
10
. . (5,10.5)
9
8
7
6
. . (3,7.5)
(4,9)

5
4
3
2
.(1,4.5)
(2,6)

1 2 3 4 5 X
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
E) Forma general:
La ecuacin simple de primer grado tiene la
siguiente forma general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autnomo, es decir, Y = b0 cuando X = 0.
En la grfica es la interseccin con el eje Y
Ejemplo:
Y
Y = 3 + 1.5X

b0 = 3
.
X
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
17.3 Regresin lineal simple
Es una tcnica estadstica que permite
determinar la mejor ecuacin que represente la
relacin entre dos variables relacionadas.

Para poder establecer la relacin cuantitativa


entre X e Y es necesario disponer de pares de
observaciones. Cada par ha sido registrado a la
misma unidad elemental.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


A) Suposiciones de regresin y correlacin
a) Normalidad: los valores de Y estarn distribuidos
normalmente a cada valor de X.
b) Homoscedasticidad: la variacin alrededor de la
lnea de regresin sea constante para todos los
valores de X.
c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
d) Linealidad: la relacin entre las variables es lineal.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


B) El mtodo de Mnimos Cuadrados

Es el procedimiento matemtico utilizado para


determinar los valores numricos de los
coeficientes de regresin: b0 y b1

La ecuacin general Y = b + b X se llama


0 1
ecuacin de regresin y permite estimar o
predecir los valores de Y.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


El mtodo consiste en determinar una
ecuacin que la suma de los errores al
cuadrado sea mnima.
Y

= error
Yi - Y
10

8
. Lnea de
estimacin

6
Y
Min Y - Y
2
4 Error= -6

i


2
. Error= 2

X
2 4 6 8 10 12 14

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


El mtodo utiliza un sistema de ecuacin llamado
ecuaciones normales, que tienen la siguiente
forma:
X Y X2 XY

Y nb 0 + b1 X
1.0 8.0 1.0 8.0
1.5 10.0 2.3 15.0

XY b 0 X b1 X 2 2.0
2.5
9.0
12.0
4.0
6.3
18.0
30.0
3.0 14.0 9.0 42.0

Para aplicar las frmulas, 3.5 13.0 12.3 45.5


4.0 15.0 16.0 60.0
tenemos que confeccionar 4.5 17.0 20.3 76.5
un cuadro como el 5.0 14.0 25.0 70.0
5.5 14.0 30.3 77.0
siguiente: 32.5 126.0 126.3 442.0
X Y X XY
2

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Sustituyendo los valores Y 126,0 , n = 5, X 32,5

2
XY 442 y 126,3 ,en las ecuaciones normales,
X
obtenemos el siguiente sistema de ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479
b1= 1,576 ,por lo tanto,

Y 7,479 1,576X

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


c) Interpretacin

b0 = 7,478 : Es probable que un paciente desnutrido


que no sea considerado dentro del
Programa de Alimentacin Complementaria
tenga un peso de 7,478 Kg.

b1 = 1,576:Por cada Kg. del alimento complementario,


se espera que probablemente el nio
aumento su peso en 1,576 Kg.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


D) Valor observado y valor estimado de Y
El valor observado (Yi) se refiere al nivel efectivo u
observado de la variable Y (peso del nio), mientras
que el valor estimado ( Y ), es el nivel estimado de la
i
variable (peso esperado), obtenido utilizando la
ecuacin de regresin. X Y Y
1.0 8.0 9.055

Y
.
Yi

Y
1.5
2.0
10.0
9.0
9.843
10.630

.
2.5 12.0 11.418
3.0 14.0 12.206
Valor 3.5 13.0 12.994
observado Valor 4.0 15.0 13.782
estimado 4.5 17.0 14.570
5.0 14.0 15.358

X 5.5 14.0 16.146


xo
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
17.4 Error estndar de estimacin (Syx)

Mide la disparidad promedio entre los valores


observados y estimados de la variable Y. Se
calcula por la siguiente relacin

2
(Y - Y)
Syx =
n2

14

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


X Y Y Y Y Y Y 2

1.0 8.0 9.055 -1.1 1.112181


1.5 10.0 9.843 0.2 0.024806
2.0 9.0 10.630 -1.6 2.658204
2.5 12.0 11.418 0.6 0.338375
3.0 14.0 12.206 1.8 3.217718
3.5 13.0 12.994 0.0 3.48E-05
4.0 15.0 13.782 1.2 1.483524
4.5 17.0 14.570 2.4 5.905386
5.0 14.0 15.358 -1.4 1.843621
5.5 14.0 46 -2.1 4.604028
32.5 126.0 126.0 0.0 21.2

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Reemplazando en la formula

21,20 21,20
Sy x = 2,65
10 2 8
Syx =1,628

El Syx es un indicador del grado de precisin con que


la ecuacin de regresin describe la relacin entre
las dos variables: cuanto ms pequeo, los valores
observado y estimado de Y son razonablemente
cercanos y, la ecuacin de regresin es una buena
descripcin esa la relacin.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
17.5 El anlisis de correlacin
El anlisis de correlacin es la tcnica
estadstica que permite describir el grado hasta
el cual una variable est linealmente
relacionada con otra.

Hay dos medidas que se usan para describir la


correlacin
El coeficiente de determinacin
El coeficiente de correlacin

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


A) El coeficiente de determinacin
Al construir un modelo de regresin, se define
que el valor Y depende de X.
Y = f (X)
Si la relacin es lineal: Y = b0 + b1X
Pero en la prctica Y depende tambin de
otros factores diferentes a X:
Y = b 0 + b 1X +
Parte de los cambios en Y pueden explicarse
por X, a otro se llama variacin explicada.
Pero hay cambios en Y que no pueden
explicarse por X, a lo que se llama variacin
no explicada.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Yi
Y Variacin
Variacin no explicada
Total
Yi - Y
Yi - Y
Variacin
Explicada
Y - Y y

VARIACION VARIACION VARIACION


TOTAL = EXPLICADA + NO EXPLICADA

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


El coeficiente de determinacin se puede
calcular del modo siguiente:

variacion explicada
r2
variacion total

r2 =
Y - Y 2

Y - Y
2
i

Se elevan al cuadrado, para evitar que Y - Y 0


obtenindose un nmero positivo.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


1er Paso: Clculo de la venta media por vendedor
son ( Y )
n
Y
i1 i
Y=
n
Y1 Y2 Y3 Y4 Y5
Y=
5

9 5 7 14 10 45
Y=
5 5
Y = 9 unidades

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


2do Paso: Se calcula la variacin total, es decir, la
sumatoria de las desviaciones de las ventas
observadas (Yi) con respecto a la media: Y - Y
i
2

Y Y Y Y Y Y2
8.0 12.6 -4.6 21.16
10.0 12.6 -2.6 6.76
9.0 12.6 -3.6 12.96
12.0 12.6 -0.6 0.36
14.0 12.6 1.4 1.96
13.0 12.6 0.4 0.16
15.0 12.6 2.4 5.76
17.0 12.6 4.4 19.36
14.0 12.6 1.4 1.96
14.0 12.6 1.4 1.96
126.0 126.0 0.0 72.4
Y Y Y Y Y Y
2

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


3er Paso: Se calcula la variacin explicada, es
decir, la sumatoria de las desviaciones cuadrticas
entre las ventas esperadas y la venta media de la
muestra: Y - Y
2

Y Y
Y 2
Y Y Y
9.055 12.6 -3.545 12.5699
9.843 12.6 -2.758 7.6038
10.630 12.6 -1.970 3.8793
11.418 12.6 -1.182 1.3964
12.206 12.6 -0.394 0.1551
12.994 12.6 0.394 0.1553
13.782 12.6 1.182 1.3971
14.570 12.6 1.970 3.8805
15.358 12.6 2.758 7.6055
16.146 12.6 3.546 12.5720
126.0 126.0 0.0 51.2
Y Y Y Y Y Y 2
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
4to Paso: Se compara la variacin explicada y
la variacin total.

variacion explicada
Y - Y
2
r2
variacion total
r2 = i
Y -Y
2

51,2
r2 = 0,707
72,4

5to Paso: Interpretacin: 70,7% de las


variaciones en el incremento de peso, pueden
explicarse por el consumo del complemento
nutricional.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Valores posibles de r2

Si r2 = 1 : Correlacin perfecta, es decir, toda


variacin de Y puede explicarse por X

Si r2 = 0 : no existe correlacin entre X e Y. La


variacin explicada es 0. La variable X
no explica nada de los cambios en Y
Resumen
0 r 1
2

Cuanto ms cerca a uno, las variables tendrn


mayor correlacin.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


B) El coeficiente de correlacin
Es la raz cuadrada del coeficiente de
determinacin.

r= r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
estn directamente relacionados.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Cuando r es negativo, indica que X e Y
estn inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuacin de regresin

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Interpretacin del coeficiente de
correlacin de Pearson

Fuerte Moderada Dbil Dbil Moderada Fuerte


Negativa Negativa Negativa Positiva Positiva Positiva

-1 -0,9 -0,5 0 0,5 0,9 1


Perfecta Perfecta
No existe
Negativa correlacin Positiva

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Ejemplo: r2= 0,707

r = 0,707
r = 0,84

el signo es positivo ya que X e Y estn


relacionados directamente como lo indica el
signo del coeficiente b1 en la ecuacin de
regresin Y 7,479 1,576X

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Interpretacin: El incremento de peso (Y) y el
consumo del complemento nutricional (X) se
encuentran directamente asociados.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


17.6 Diagnstico de la regresin: anlisis
residual
El anlisis residual permite evaluar lo adecuado
del modelo de regresin que ha sido ajustado a
los datos. Tambin sirve para detectar si los
supuestos se cumplen.
A. Evaluacin de lo adecuado de modelo ajustado
Los valores del error residual o estimado (i) se
define como la diferencia entre los valores
observados (Yi) y los estimados ( Yi ) de la variable
dependiente para los valores dados de Xi

i = Yi - Yi
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Podemos evaluar lo adecuado del modelo de
regresin ajustado mediante el grfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).

Ejemplo: Variable X 1 Grfico de los residuales

El grfico muestra un
3
adecuado ajuste entre 2
el incremento de peso
Residuos
1

y el consumo del com- 0


0 1 2 3 4 5 6
-1
plemento nutricional. -2
No se observa una -3

tendencia. Variable X 1

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


El anlisis del grfico nos brinda el criterio para
adoptar el modelo lineal o dejarlo de lado. Si fuese
as, podramos probar con modelos no lineales como
el cuadrtico, logaritmo o exponencial.
El anlisis de residuos se complementa con el
clculo de los residuos estandarizados (SRi), que
resultan de la divisin del residuo dividido por su
error estndar. i
SRi
S YX 1 hi
En donde
hi
1 Xi X2
n
n
Xi2 nX
2

i1
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades
que reflejen la variacin estandarizada alrededor
de la lnea de regresin.

Anlisis de los residuales


Observacin Pronstico para Y Residuos Residuos estndares
1 9.138461538 -0.138461538 -0.101107641
2 3.276923077 1.723076923 1.258228423
3 6.207692308 0.792307692 0.578560391
4 15 -1 -0.730221853
5 12.06923077 -2.069230769 -1.510997526
6 44.30769231 0.692307692 0.505538206
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
En el grfico siguiente, los residuos estandarizados
fueron graficados en funcin de la variable
independiente (cantidad del complemento nutricional).
Se puede observar de que existe una dispersin
amplia en la grfica de residuos, no existe un patrn
evidente o una relacin entre los residuos
estandarizados y Xi . Los residuos parecen estar
equitativamente distribuidos por arriba y por debajo
de 0, para diferentes valores de X. Podemos concluir
que el modelo ajustado parece ser adecuado.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Residuos estndares

1.5
1
0.5
0
-0.5 0 5 10 15 20

-1
-1.5
-2

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


B. Evaluacin de las suposiciones
a. Homoscedasticidad

b. Normalidad

c. Independencia: Los datos recolectados

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


17.7 Medicin de la autocorrelacin: Durbin-Watson
Una de las suposiciones del modelo de regresin
bsico es la independencia de los residuos. Esta
suposicin es violada con frecuencia cuando los
datos son recopilados en periodos secuenciales,
debido a que un residuo en cualquier punto del
tiempo puede tender a ser parecido a los residuos
que se encuentran en puntos de tiempo
adyacentes.
El estadstico D de Durbin-Watson mide la
correlacin de cada residuo y el residuo del
periodo inmediato anterior al periodo de inters.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


El estadstico D (Durbin-Watson)
n

i i1
2

D i2
n

i

i1
2

En la que i representa el residuo en el


periodo i.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Interpretacin de D:
Cuando residuos sucesivos estn correlacionados
positivamente, el valor de D se aproximar a cero.
Si los resultados no estn correlacionados, el valor D
estar cercano a 2.
Si se presentase una autocorrelacin negativa, lo
cual rara vez sucede, de valor D tomar un valor
mayor a 2 e, incluso podra aproximarse a su valor
mximo que es 4.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Los resultados de SPSS nos proporciona el
valor de D de Durbin-Watson
Model Summaryb

Change Statistics
R Square
Model Change F Change df1 df2 Sig. F Change Durbin-Watson
1 .707a 19.336 1 8 .002 1.517
a. Predictors: (Constant), Complemento
b. Dependent Variable: AUMENTO

Segn este resultado permite afirmar que los


residuos no estn correlacionados.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


17.8 Estimacin por intervalos
A.Intervalo de confianza para 1
2
b1 N 1,
SCx
b1 1 b1 1
t
Sb1 Sy x
SCx
2 desconocido
Lo que se va hacer es estimar
SCx conocido

2

se estima mediante la siguiente formula:
n
Y 2

b 2SC

Y 2

n 1 x

S 2
i 1

n2
yx

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


-t0 t0

Pr( t 0 t t 0 )



b1 1
Pr t 0 t0 1
Sy x
SCx

Sy x S y x
Pr b1 t 0 1 b1 t 0 1
SCx SCx

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


B. Intervalo de confianza para 0
1 x
2

b0 0 , 2
n SC
x

b0 0 b0 0
t n2
Sb0 1 x
2

Sy x
n SCx

donde:
Y Y
2

b 2 SC

2

n 0 x

S 2y x
n2
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
-t0 t0

Pr( t 0 t t 0 )

b
Pr t 0 0 0
t0 1
S
b 0


Pr b0 t 0Sb0 0 b0 t 0Sb0 1

t0 con (n-2) grados de libertad y


Material de Clases Jorge Crdova Egocheaga. Febrero 2003
C. Intervalo de confianza para / YX
0

1 X
Y N y / X0 , 2 0
X
2

n SCx

Para un nivel dado de confianza, una variacin


aumentada alrededor de la lnea de regresin,
medida a travs del error estndar de la
estimacin, tiene como resultado un intervalo
ms amplio.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Sin embargo, como se esperara, un tamao de
muestra aumentado reduce el ancho del
intervalo.


Pr y t 0S y y / X0 y t 0S y 1


donde:
1 X x
2

S y S 2y x 0
n SCx

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


D. Intervalo de confianza para un valor
individual
Adems de obtener una estimacin de intervalo
de confianza para el valor promedio, a menudo
es importante tener la capacidad de predecir la
respuesta que se obtendra para un valor
individual.

1 X
Y N y / X0 , 2 1 0
X
2

n SCx

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


El intervalo de prediccin est estimando
un valor individual, no un parmetro.


Pr y t 0S y Y / X0 y t 0S y 1
donde:

2
1 X0 x
S y S y x 1
2

n SC x

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


17.9 Anlisis de varianza de la
regresin simple
El anlisis de varianza es una tcnica que
permite localizar las fuentes de variabilidad
que ayuden a explicar el comportamiento de
la variable dependiente.

SCtotal = SCerror + SCregresin


(SCresidual)

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


El cuadro de Anlisis de Varianza

Fuentes de Suma de Cuadrado F


variabilidad Cuadrados GL Medio calculado E(CMe)
Debido a la 2
b SCX 1
2
b SCx
1
b12SC x 2 12SCx
Regresin S 2y x
Y 2

2
Error
Experimental
Y
2

n
b12SCx n 2 S2y x

Total SCtotal n 1

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Asumiendo que existe una regresin lineal,
determine:
A.La ecuacin de regresin e interprete los
coeficientes de regresin.
B.El intervalo de confianza para 1y para un valor
individual si X=3,8.
C.El cuadro de ANOVA para la regresin lineal
D.El valor de y cuando X = 5,1
E.La prueba de hiptesis respectiva a partir del
ANOVA e interprete el resultado.
F.Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Solucin
Primero se realizan los clculos necesarios:
n 10
Xi 32,5
Yi 126
Xi2 126,25
Yi2 1660
Xi Yi 442
A. Clculo de los coeficientes de regresin:
Y b0 b1X

b0 Y b1 X

Xi Yi X Y
i i
442
32,5126
n 10 32,5
b1 1,57
X 2
126,25
32,5 20,62
i
X 2

n
i
10

b0 12,6 (1,57)(3,25) 7,49


Material de Clases Jorge Crdova Egocheaga. Febrero 2003
La ecuacin de regresin ser:

Y 7,49 1,57X

Interpretacin:
b0= Se espera que el peso que un nio que no
consume este complemento nutricional sea
7,49 Kg.
b1= Por cada Kg. de complemento nutricional, el
peso del nio se incrementar en 1,57 Kg.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


B. Intervalo de confianza para 1


Sy x Sy x

Pr 1,57 t 0,10 8 1 1,57 t 0,10 8 1 0,10

SCx SCx

Sy x Sy x
Pr 1,57 1,86 1 1,57 1,86 0,90
4,54 4,54

1660
126
2
1,57 20,62
2

10 72,7 50,82
S 2
yx 2,69
8 8

S y x 1,642
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
1,642 1,642
Pr 1,57 1,86 1 1,57 1,86 0,90
4,54 4,54

Pr0,8973 1 2,2427 0,90

Interpretacin: Hay 0,90 de confianza que el


intervalo que se ha construido, pertenezca al
grupo de intervalos que contienen al verdadero
parmetro 1.
Intervalo de confianza para un valor individual
Si X = 3,8 entonces Y 13,45
PrY t 0S Y Yind Y t 0S Y 1

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Pr13,45 (1,86)SY Yind 13,45 (1,86)SY 1

1 3,80 3,25
2
SY 1,642 1
10 20,62

Interpretacin

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


C. Anlisis de Varianza

Fuentes de Suma de Cuadrado F


variabilidad Cuadrados GL Medio calculado E(CMe)
Debido a la
Regresin 50,82 1 50,82 18,84
Error
Experimental 21,58 8 2,697
Total
72,40 9
Interpretacin: Se rechaza la hiptesis planteada. El
complemento nutricional si explica significativamente
los cambios en el peso de los nios.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
D. Si X = 5,1

Y 7,49 1,57(5,51)
Y 16,14
E. Prueba de Hiptesis acerca de
1
1. Hp: 1= 0
Ha: 1 0
2. =
Fc
CMeregresin
0,10
3. CMeerror
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Supuestos
- La muestra seleccionada al azar
- La poblacin se distribuye al azar
- Los valores de X fijas y de Y variables (o
aleatorias)
- Asunciones de la regresin lineal simple
4. Criterios de decisin

F1-/2 F/2
0,0041 5,32

Si 5,32 Fc 0,0041se rechaza la hiptesis planteada


Material de Clases Jorge Crdova Egocheaga. Febrero 2003
5. Clculos
50,82
Fc 18,84
2,697
6. Conclusiones
La variable complemento nutricional es
apropiada para explicar el comportamiento
del aumento de peso en nios desnutridos.
Adems, la ecuacin de regresin puede ser
usada con fines de prediccin hasta cierto
lmite.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


F. Para X = 6, que promedio de Y vamos a obtener?


Pr 16,91 1,86S Y Y X0 16,91 1,86 S Y 1

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


17.10 Resultados con Excel

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.99582747
Coeficiente de determinacin R^2 0.99167236
R^2 ajustado 0.98959045
Error tpico 1.5310881
Observaciones 6

ANLISIS DE VARIANZA
GL SC CMe F cal P-valor
Regresin 1 1116.62308 1116.62308 476.328138 2.60786E-05
Residuos 4 9.37692308 2.34423077
Total 5 1126

Coefic Error Estadst Inferior Superior Inferior Superior


ientes tpico ico t P-valor 95% 95% 95.0% 95.0%

Intercepcin 0.346154 0.9173433 0.37734384 0.72508508 -2.200804756 2.893112448 -2.200804756 2.893112448

Variable X 1 2.930769 0.13428531 21.824943 2.6079E-05 2.557932668 3.303605794 2.557932668 3.303605794

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Ejemplo:
En la Farmacia Santa Rita, se desea determinar
la relacin lineal simple entre la experiencia del
vendedor y las ventas durante un mes. Se
seleccionan 5 vendedores, los datos registrados
se presentan a continuacin:

VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL


EXPERIENCIA
(aos):X 3 1 2 5 4
VENTAS
(unidades) : Y 9 5 7 14 10

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Caso 1

Un equipo de profesionales en salud mental de un


hospital psiquitrico donde el tiempo de
permanencia es largo, quiere medir el nivel de
respuesta de pacientes retrados mediante un
programa de terapia de remotivacin. Para este
propsito se contaba con una prueba
estandarizada, que era costosa y su aplicacin
tomaba mucho tiempo. Para salvar este obstculo,
el equipo cre una prueba ms fcil de aplicar.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Para probar la utilidad de este nuevo instrumento
para medir el nivel de respuesta del paciente, el
equipo decidi examinar la relacin entre las
calificaciones obtenidas con la nueva prueba y las
calificaciones obtenidas con la prueba
estandarizada.

Paciente 1 2 3 4 5 6 7 8 9 10 11
Prueba nueva 50 55 60 65 70 75 80 85 90 95 100
Prueba estandar 61 61 59 71 80 76 90 106 98 100 114

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Caso 2
Se llevo a cabo un experimento para estudiar el
efecto de cierto medicamento para disminuir la
frecuencia cardiaca en adultos. Se reunieron los
siguientes datos: dosis en miligramos del
medicamento y la diferencia entre la frecuencia
cardiaca mas baja despus de la administracin
del medicamento y un control antes de
administrarlo.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Dosis (mg) 1 1 1 1 2 2 2 2 3 3 3 3
Reduccion ritmo cardiaco 10 8 12 12 14 12 16 18 17 20 18 20

Determine la ecuacin de regresin lineal y


explique el valor de los coeficientes de regresin.
Calcule e interprete el coeficiente de correlacin y
el coeficiente de determinacin.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


Hoja de Comprobacin

1. El anlisis de regresin se usa para describir que tan bien


una ecuacin de estimacin describe la relacin que est
estudiando

2. Dado que la ecuacin para una lnea es Y = 26 - 24X,


podemos decir que la relacin Y con X es directa y lineal

3. Un valor r2 cercano a cero indica una fuerte correlacin


entre X y Y

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


4. Los anlisis de regresin y correlacin se usan para
determinar relaciones de causa y efecto

2
5. El coeficiente de correlacin de muestra, r, no es nada ms que r
y no podemos interpretar su significado directamente como un
porcentaje del mismo tipo

6. El error estndar de la estimacin mide la variabilidad de los


valores observados alrededor de la ecuacin de regresin.

7. La lnea de regresin se deriva de una muestra y no de toda la


poblacin

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


8. Podemos interpretar el coeficiente de determinacin de muestra
como la cantidad de la variacin en Y que es explicada por la lnea
de regresin

9. Las lneas trazadas a cada lado de la lnea de regresin a 1, 2 y 3


veces el valor del error estndar de la estimacin se denominan lneas
de confianza

10.La ecuacin de estimacin es vlida slo sobre el mismo intervalo


que el dado por los datos originales de muestra sobre los cuales se
desarroll

11.En al ecuacin Y = a + bX para la variable dependiente Y y la


variable independiente X, la interseccin Y es b.

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


12.Si una lnea se ajusta a un conjunto de puntos mediante el mtodo
de mnimos cuadrados, los errores individuales positivos y
negativos desde la lnea suman cero.

13. Si Se = 0 para una ecuacin de estimacin, debe estimar


perfectamente la variable dependiente en los puntos observados

14.Supongamos que la pendiente de una ecuacin de estimacin es


positiva. Entonces el valor de r debe ser la raiz cuadrada positiva
de r2

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


15.Si r = 0.8, entonces la ecuacin de regresin explica 80% de la
variacin total en la variable dependiente

16.El coeficiente de correlacin es el porcentaje de la variacin total


de la variable dependiente que es explicada por la regresin

17.El error estndar de la estimacin es medido perpendicularmente


desde la lnea de regresin ms que sobre el eje X

18.Al cuadrar los errores individuales, el mtodo de mnimos


cuadrados magnidica todas las desviaciones desde la lnea de
regresin estimada

Material de Clases Jorge Crdova Egocheaga. Febrero 2003


19. Una ecuacin de regresin no puede ser vlida al ampliarse fuera del
intervalo de muestra de la variable independiente

20. Un valor r2 implica que no existe una relacin de causa-efecto


significativa entre X y Y

21. Una valor pequeo de r2 implica que no existe una relacin de causa-
efecto significativa entre X y Y

Material de Clases Jorge Crdova Egocheaga. Febrero 2003

Anda mungkin juga menyukai