varianza muestral
varianza poblacional
covarianza muestral
covarianza poblacional
la covarianza mide la asociacion lineal entre X & Y. no mide la intensidad de esa asociacion,
lo unico que nos interesa es el signo para identificar si es una asociancion lienal positiva o
negativa
Se empieza retomando la aplicación concerniente a la tienda de equipos de sonido que se
presentó en la sección 2.4. El administrador de la tienda desea determinar la relación entre el
número de comerciales televisados en un fin de semana y las ventas de la tienda durante la
semana siguiente. En la tabla 3.7 se presentan datos muestrales de las ventas expresadas en
cientos de dó- lares. En esta tabla se presentan 10 observaciones (n _x0004_ 10), una por cada
semana. El diagrama de dispersión en la figura 3.7 muestra una relación positiva, en que las
mayores ventas (y) están asociadas con mayor número de comerciales (x). En efecto, el
diagrama de dispersión sugiere que podría emplearse una línea recta como aproximación a esta
relación. En la argumentación siguiente se introduce la covarianza como una medida descriptiva
de la asociación entre dos variables.
VOLUMEN DE VENTAS
70
60
50
40 VOLUMEN DE VENTAS
30
20
10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
30
20
10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
Sxy= 11 muestral
9.9 poblacional
sx = √ Desviacion
estandar al cuadrado
poblacional
sigmaxy: sigmaxy/sigmax*sigmay
de donde: sigmaxy:
50
R² = 1
40
30
20
10
0
X Y (Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra) 4 6
5 10 -5 -20 100
10 30 0 0 0
15 50 5 20 100
PROMEDIO 10 30 SUMA 200
rxy= 1
poblacional
X Y
X 16.6666667
Y 66.6666667 266.666667
EJERCICIO
RATING 19 17 17 14 16 12 15
SHARE 32 28 29 24 26 20 24
15
Sxy= 10
10
Sx= 2.44949
Sy= 4.123106
5
0
11 12 13 1
10
5
rxy= 0.990148
r^2= 0.990152
0
11 12 13 1
RATING SHARE
RATING 5.33333333
SHARE 8.88888889 15.1111111
0
R² = 1
0
4 6 8 10 12 14 16
12 13
20 22
SHARE
R² = 0.9803921569
12 13 14 15 16 17 18 19 20
12 13 14 15 16 17 18 19 20
solo una variable independiente. B0 y b1 el metodo de minimos cuadrados se encarga de minimizar el error
Yi: Valor observado de la variable i-esima observacion.
El método de mínimos cuadrados es un método en el que se usan los datos muestrales para hallar la ecuaci
restaurantes Armand’s Pizza Parlors ubicados todos cerca de campus universitarios. Para la observación i o el res
de dólares). En la tabla 14.1 se presentan los valores de xi y yi en esta muestra de 10 restaurantes. Como se ve, e
$58 000. El restaurante 2, para el que x2 _x0004_ 6 y y2 _x0004_ 105, está cerca de un campus de 6000 estudian
campus de 26 000 estudiantes y sus ventas trimestrales son de $202 000. La figura 14.3 es el diagrama de dispers
diagramas de dispersión para el análisis de regresión se trazan colocando la variable independiente x en el eje
conclusiones acerca de la relación entre las variables. ¿Qué conclusión preliminar se puede obtener de la figura
datos se observa que la relación entre el tamaño de la población de estudiantes y
RESTAURANTE
1
2
3
4
5
6
7
8
9
10
promedio 5.5
b1=
b0=
b1= Ʃ()
conclusion: el modelo de regresion lineal estimado (que relaciona poblacion y ventas): esti
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
ANÁLISIS DE VARIANZA
Regresión
Residuos
Total
Intercepción
X= POBLACION DE ESTUDIANTES(miles)
Observación
1
2
3
4
5
6
7
8
9
10
Y=VENTAS
TRIMESTRALES (ventas
X= POBLACION DE ESTUDIANTES(miles) de miles $)
2 58
6 105
8 88
8 118
12 117
16 137
20 157
20 169
22 149
26 202
14 130
5
60
el modelo de regresion lineal estimado (que relaciona poblacion y ventas): estimado a Ŷ=60 + 5x
200
f(x) = 5x + 60
R² = 0.90273363
Y=VENTAS
150 miles $)
Linear (Y=
de miles
100
200
f(x) = 5x + 60
R² = 0.90273363
Y=VENTAS
150 miles $)
Linear (Y=
de miles
100
50
60 + 5x
0
0 5 10 15 20 25 30
Y =V EN TA S TRIM ESTRA L ES (ve ntas de m ile s $ )
ventas de miles $)
30
stada
(ventas de miles $)
MESTRALES (ventas
Superior 95,0%
81.2752744227
6.3380940384
LISIS DE DATOS
Modelo de regresión múltiple
El análisis de regresión múltiple estudia la relación de una variable dependiente con dos o
más variables independientes. Para denotar el número de variables independientes se
suele usar p.
B0: ESTIMADOR DE
B1: ESTIMADORESDE
Y: VALOR OBSERVADO
Ӯ:PROMEDIO
COEFICIENTE
El término DE DETERMINACION:
coeficiente de determinación ES UNA MEDIDA
múltiple DEmide
indica que BONDAD DE AJUSTE
la bondad DEL MODELO
de ajuste A LOSde
de la ecuación DATOS
regresión
múltiple estimada.
R^2: MIDE LA VARIABILIDAD DE LA RESPUESTA QUE ES EXPLICADA A PARTIR DE LAS VARIABLES INDEPENDIENTE O DEPENDIENT
ELO A LOSde
ecuación DATOS
regresión
S INDEPENDIENTE O DEPENDIENTES
X1: MILLAS
RECORRIDO RECCORIDAS
1 100
2 50
3 100
4 100
5 50
6 80
7 75
8 65
9 90
10 90
promedio 80
b1=
b0=
8
f(x) = 0.067826087x + 1.2739130435
R² = 0.6640713116
7
0
40 50 60 70 80 90
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.8149057072 ESTE TAMBIEN SE PUEDE CALCULAR CO
Coeficiente de determinación R^2 0.6640713116
R^2 ajustado 0.6220802256
Error típico 1.0017918729
Observaciones 10
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados
Regresión scr 1 15.8713043478
Residuos sce 8 8.0286956522
Total suma de cuadrados total 9 23.9
X1: MILLAS
RECORRIDO RECCORIDAS
1 100
2 50
3 100
4 100
5 50
6 80
7 75
8 65
9 90
10 90
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.9506781661
Coeficiente de determinación R^2 0.9037889755 el 90% del tiempo es explicado por la d
R^2 ajustado 0.8763001113
Error típico 0.5731421521
Observaciones 10
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados
Suma de cuadrados debido a Regresión 2 21.6005565142
suma de cuadrados debido a Residuos 7 2.2994434858
Total 9 23.9
oras)
90 100 110
10
8
EN SE PUEDE CALCULAR CON LA COVARIANZA 6 y: tiempo de recorrido
4 Pronóstico y: tiempo d
2 recorrido (horas)
0
40 50 60 70 80 90 100 110
X1: MILLAS RECCORIDAS
y: tiempo de
X2: CANTIDAD DE recorrido
ENTREGAS (horas)
4 9.3
3 4.8
4 8.9
2 6.5
2 4.2
2 6.2
3 7.4
4 6
3 7.6
2 6.1
teorica mente el modelo esta explicando el numero real de tempo vs las millas
numero de variables
tiempo es explicado por la distancia y el numero de entregas
Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
-0.9129352572 0.3916343 -3.1187543 1.3813513595 -3.118754293 1.3813513595
6.1823969585 0.00045296 0.03775202 0.0845171729 0.0377520247 0.0845171729
4.1762512507 0.00415662 0.40057512 1.4462756182 0.4005751152 1.4462756182
X1: MILLAS RECCORIDAS Curva de regresión ajustada
y: tiempo de recorrido (horas)
10
8 X2: CANTIDAD DE ENTREGAS Curva
y: tiempode regresión ajustada
de recorrido
6 (horas)
10
y: tiempo de recorrido (horas)
4 Pronóstico y: tiempo de
2 8 y: tiempo de recorrido
6 recorrido (horas)
0 (horas)
4 Pronóstico y: tiempo de
40 50 60 70 80 90 100 110
2 recorrido (horas)
X1: MILLAS RECCORIDAS
0
1.5 2 2.5 3 3.5 4 4.5
X2: CANTIDAD DE ENTREGAS
ERROR(Residual)
1.2434782609
0.1347826087
0.8434782609
-1.5565217391
-0.4652173913
-0.5
1.0391304348
0.3173913043
0.2217391304
-1.2782608696
0
regresión ajustada
5 2 10
20 3 1140
1145 50 9.67647E+87