PRESENTACIN
Cada gua integra el desarrollo del tema con ejercicios, casos de estudio y con
la seccin llamada Aprendiendo.com. En esta ltima seccin se le proporciona
al estudiante un ambiente interactivo, utilizando los recursos disponibles en
Internet, de tal forma que los casos planteados los desarrolle en ambientes
de aprendizaje que le permitan encontrarse con el conocimiento,
manipularlo, hacerlo suyo. Con esta filosofa se utilizan applets, sitios de
internet con acceso a bases de datos reales, software de uso libre y en
general los recursos de la Web 2.0, que se refieren a una segunda generacin
en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboracin y el intercambio gil de informacin entre los mismos.
Los Autores
Las relaciones entre las variables pueden ser directas o tambin inversas.
DIAGRAMAS DE DISPERSIN
El mtodo que por lo comn se utiliza para ajustar una lnea a los datos
muestrales indicados en el diagrama de dispersin, se llama mtodo de
mnimos cuadrados. La lnea se deriva en forma tal que la suma de los
cuadrados de las desviaciones verticales entre la lnea y los puntos
individuales de datos se reduce al mnimo.
El error es cero.
Los datos obtenidos de las muestra son estadsticamente independientes.
La varianza del error es igual para todos los valores de X.
y = a + bx
Para calcular el valor de b (pendiente), que representa el grado de
inclinacin que tiene la recta, se emplea la siguiente formula:
b= xy n x y
x nx 2 2
a = y + bx
Las variables a y b son constantes numricas que son las que se calculan
mediante el mtodo de mnimos cuadrados.
y 2
(a y ) (b xy )
Se =
n2
X Y
4. Se calcula la pendiente.
b=
xy n x y
x n(x )
2 2
a = y + bx
y = a + bx
y 2
(a y ) (b xy )
Se =
n2
Por ejemplo:
Realice una regresin para estimar las ventas de dos sucursales que tienen
14,000 y 30,000 personas como potenciales clientes respectivamente.
Solucin
Datos
n=10
2 2
Sucursal X Y XY X Y
1 2 58 116 4 3364
2 6 105 630 36 11025
3 8 88 704 64 7744
4 8 118 944 64 13924
5 12 117 1404 144 13689
6 16 137 2192 256 18769
7 20 157 3140 400 24649
8 20 168 3380 400 28224
9 22 149 3278 484 22201
10 26 202 5252 676 40804
= 140 1300 21040 2528 184393
4. Calculo de la pendiente.
140
x= = 14 mil personas
10
1300
y= = 130 mil pesos
10
Por lo tanto la pendiente es
a = 130 5(14) = 60
6. Obtener la ecuacin que mejor se ajuste.
y = 60 + 5( x )
y = 60 + 5(14 ) = 130
(14,130 )
y = 60 + 5(30 ) = 210
(30,210 )
1
Recuerda que estamos trabajando con miles de pesos, en este ejercicio.
CORRELACIN SIMPLE
(a y ) + (b xy ) (n y 2
)
=
y (n y )
2
r 2
2
r = r2
INTERVALO DE CONFIANZA
S
yc = y t / 2 , gln 2 e
n
INTERVALO DE PREDICCIN
y p = y (t 2 (n 2)) S e 1 + +
1 (X x ) 2
n x 2 n(x )2
Por ejemplo:
Solucin
X: Aos de experiencia
Y: Ventas anuales en miles de pesos.
Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
= 70 1080
2. Diagrama de dispersin.
Vendedor X Y XY X2 Y2
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
= 70 1080 8128 632 119082
1080
y= = 108
10
70
x= =7
10
a = 108 4(7 ) = 80
y = 80 + 4( x )
Para un vendedor con 7 aos de experiencia, sus ventas estimadas seran:
r = 0.9303 = 0.9645
Este nmero nos indica que las variables X Y tienen una correlacin positiva
intensa.
Considerando
y = 108 ventas anuales
4.61
yc = 108 2.306
10
108 3.3617 yc 108 + 3.3617
104.6383 yc 111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 aos de experiencia estn entre 104.6 y 111.4 miles pesos
anuales.
y p = y (t 2 (n 2)) S e 1 + +
1 (X x ) 2
n x 2 n(x )2
Sustituyendo:
1
y p = 108 2.306 4.61 1 + +
(9 7 ) 2
10 632 10(7) 2
108 11.291 y p 108 + 11.291
96.709 y p 119.291
Se puede asegurar con un nivel de confianza del 95% que las ventas
pronosticadas de un vendedor con 9 aos de experiencia estn entre 96.71
y 119.3 miles pesos anuales.
Ejercicios propuestos:
Galones Tamao
de de
Agua familia.
Y X
650 2
1200 7
1300 9
430 4
1400 12
900 6
1800 9
640 3
793 3
925 2
Seguro Salario
de Anual.
vida
Y X
50 10
80 29
100 30
130 31
150 36
a) Elabora el diagrama de dispersin.
b) Calcula la pendiente y ordenada al origen.
c) Obtener la ecuacin que mejor se ajusta a los datos.
d) Traza la lnea estimada en el diagrama de dispersin.
e) Calcula el error estndar de estimacin.
f) Calcula el coeficiente de determinacin.
g) Determina el coeficiente de correlacin.
h) Determina el intervalo de confianza al 90%.
i) Determina el intervalo de prediccin 90%
Y X
6.7 9.7
7.3 9.8
8.9 7.6
9.1 6.1
7.2 10.2
5.2 12.7
6.9 14.3
6.9 7.9
7.1 8.9
Ventas Precio de
competencia
Y X
520 13
550 13
600 15
610 15
620 16
724 21
680 21
300 14
962 40
270 12
7. Los datos siguientes muestran las ventas (en miles de cajas) y los costos de
un anuncio publicitario para la televisin (en millones de pesos) para 7 marcas
principales de refrescos.
Marca Gastos de Ventas de cajas
publicidad ($) (miles)
Coca-Cola 13.0 19.3
Pepsi-Cola 9.4 13.8
Sprite 6.4 8.4
Diet Coke 5.7 5.5
7-Up 4.2 5.9
Jarritos 2.9 5.3
Boing 1.6 2.5
a) Dibuje el diagrama de dispersin, que parece indicar este diagrama
acerca de la relacin entre las dos variables?
b) Trace una recta que pase por los datos, para aproximar una relacin
lineal entre los gastos del anuncio y las ventas.
c) Aplique el mtodo de los cuadrados mnimos para plantear la ecuacin
estimada de regresin.
d) Prediga las ventas para una marca que decida gastar $7 millones de
pesos en un anuncio publicitario.
e) Calcule el error estndar en la regresin.
f) Calcule el coeficiente de determinacin y correlacin e interprtelos.
g) Determina el intervalo de confianza al 95%.
h) Determina el intervalo de prediccin 95%
Meses en venta 6.5 7.0 8.6 12.1 9.0 9.5 8.6 10.6 15.0
Precio pedido (en 800 1000 990 1250 1400 1100 990 990 1250
miles de pesos)
Nacimientos
Mes de registro Registrados
1 Enero 220,670
2 Febrero 211,330
3 Marzo 213,299
4 Abril 270,819
5 Mayo 225,298
6 Junio 205,572
7 Julio 211,180
8 Agosto 249,626
9 Septiembre 220,666
10 Octubre 241,529
11 Noviembre 211,857
12 Diciembre 173,237
a) Aplique el mtodo de mnimos cuadrados para plantear la ecuacin
estimada de regresin.
b) El INEGI reporto que en julio de 2007 se registraron 211,330
nacimientos, utiliza la ecuacin obtenida y predice cuantos debieron
de haberse registrado en ese mes, compara resultados y obtn tus
conclusiones.
c) Estime cuantos nacimientos se registraron en enero de 2008.
d) Calcule el error estndar en la regresin.
e) Calcule el coeficiente de correlacin y el coeficiente de determinacin
e interprtelos.
f) Determina el intervalo de confianza al 95%.
g) Determina el intervalo de prediccin 95%