Estadistica 3

MODELOS DE REGRESION
Medidas de asociacion entre variables
COVARIANZA: Mide la variabilidad que comparten dos variables
varianza: Mide la dispersion de los datos con respecto a otro.
varianza muestral
varianza poblacional
estimadores: son valores numerico estadisticos
parametros: son valores poblacionales
covarianza muestral
covarianza poblacional
la covarianza mide la asociacion lineal entre X & Y. no mide la intensidad de esa asociacion,
lo unico que nos interesa es el signo para identificar si es una asociancion lienal positiva o
negativa
Se empieza retomando la aplicación concerniente a la tienda de equipos de sonido que se
presentó en la sección 2.4. El administrador de la tienda desea determinar la relación entre el
número de comerciales televisados en un fin de semana y las ventas de la tienda durante la
semana siguiente. En la tabla 3.7 se presentan datos muestrales de las ventas expresadas en
cientos de dó- lares. En esta tabla se presentan 10 observaciones (n _x0004_ 10), una por cada
semana. El diagrama de dispersión en la figura 3.7 muestra una relación positiva, en que las
mayores ventas (y) están asociadas con mayor número de comerciales (x). En efecto, el
diagrama de dispersión sugiere que podría emplearse una línea recta como aproximación a esta
relación. En la argumentación siguiente se introduce la covarianza como una medida descriptiva
de la asociación entre dos variables.
SEMANAS NUEMERO DE COMERCIALES VOLUMEN DE VENTAS (Xi-X) (Yi-Y) (Xi-X)(Yi-Y)

1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
PROMEDIO 3 51 SUMA 99
VOLUMEN DE VENTAS
70
60
50
40 VOLUMEN DE VENTAS
30
20
10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
30
20
10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
Sxy= 11 muestral
9.9 poblacional
NUEMERO DE COMERCIALES VOLUMEN DE VENTAS

NUEMERO DE COMERCIALES 2
VOLUMEN DE VENTAS 9.9 56.6
De donde
sx = √ Desviacion
estandar al cuadrado
poblacional
sigmaxy: sigmaxy/sigmax*sigmay
de donde: sigmaxy:
r: mida la intensidad de la asociacion de la lineal entre la variable x & y

si r es cercano a 1 o -1 es fuerte positivo o fuerte negativo
cuando da cercano a cero no existe asociacion lineal a r
el coeficiente de correlacion se utiliza como medida de ajuste para cualquier tipo de

relacion
60
50
R² = 1
40
30
20
10
0
X Y (Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra) 4 6
5 10 -5 -20 100
10 30 0 0 0
15 50 5 20 100
Sxy= 100 asociacion positiva

Sx= 5
Sy= 20
rxy= 1
poblacional
X Y
X 16.6666667
Y 66.6666667 266.666667
EJERCICIO
RATING 19 17 17 14 16 12 15
SHARE 32 28 29 24 26 20 24
RATING SHARE (Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra)

19 32 4 7 28
17 28 2 3 6 35
17 29 2 4 8
14 24 -1 -1 1
30 R² = 0.9803921569
16 26 1 1 1
12 20 -3 -5 15
15 24 0 -1 0 25
12 20 -3 -5 15
13 22 -2 -3 6 20
15
Sxy= 10
10
Sx= 2.44949
Sy= 4.123106
5
0
11 12 13 1
10
5
rxy= 0.990148
r^2= 0.990152
0
11 12 13 1
POBLACIONAL CON BASE EN EL DIAGRAMA DE DISPER
RATING SHARE
RATING 5.33333333
SHARE 8.88888889 15.1111111
CAPITULO DE LINEAL SIMPLE Y LIAL REGRESION CAPITULO 14 Y 15

Y
0
0
R² = 1
0
4 6 8 10 12 14 16
12 13
20 22
SHARE
R² = 0.9803921569
12 13 14 15 16 17 18 19 20
12 13 14 15 16 17 18 19 20
EL DIAGRAMA DE DISPERSION LOS DATOS SE ENCUENTRAN EL CUADRANTE 1

modelo de regresion lineal simple
solo una variable independiente. B0 y b1 el metodo de minimos cuadrados se encarga de minimizar el error
Yi: Valor observado de la variable i-esima observacion.
Y^i: Vlaor stimado de la variable dependiente para la i-esima observacion.

ejercicio 14,1
El método de mínimos cuadrados es un método en el que se usan los datos muestrales para hallar la ecuaci
restaurantes Armand’s Pizza Parlors ubicados todos cerca de campus universitarios. Para la observación i o el res
de dólares). En la tabla 14.1 se presentan los valores de xi y yi en esta muestra de 10 restaurantes. Como se ve, e
$58 000. El restaurante 2, para el que x2 _x0004_ 6 y y2 _x0004_ 105, está cerca de un campus de 6000 estudian
campus de 26 000 estudiantes y sus ventas trimestrales son de $202 000. La figura 14.3 es el diagrama de dispers
diagramas de dispersión para el análisis de regresión se trazan colocando la variable independiente x en el eje
conclusiones acerca de la relación entre las variables. ¿Qué conclusión preliminar se puede obtener de la figura
datos se observa que la relación entre el tamaño de la población de estudiantes y
RESTAURANTE
1
2
3
4
5
6
7
8
9
10
promedio 5.5
EXISTE ASOCCIACION LINEAL POSITIVA

R POSITIVO ESTA CERCA DE 1 LA ASOCIACION ES FUERTE
b1=
b0=
b1= Ʃ()
conclusion: el modelo de regresion lineal estimado (que relaciona poblacion y ventas): esti
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
ANÁLISIS DE VARIANZA
Regresión
Residuos
Total
Intercepción
X= POBLACION DE ESTUDIANTES(miles)
Análisis de los residuales
Observación
1
2
3
4
5
6
7
8
9
10
CAPITULO 14 Y 15 PARA LA PROXIMA CLASE

IMPORTANTE REPASAR ESTADISTICA 2
PRUEBAS DE SIGNIFICANCIA
dos es un método en el que se usan los datos muestrales para hallar la ecuación de regresión estimada. Para ilustrar el método de mínimos
s ubicados todos cerca de campus universitarios. Para la observación i o el restaurante i de la muestra, xi es el tamaño de la población de es
entan los valores de xi y yi en esta muestra de 10 restaurantes. Como se ve, el restaurante 1, para el que x1 _x0004_ 2 y y1 _x0004_ 58, est
ue x2 _x0004_ 6 y y2 _x0004_ 105, está cerca de un campus de 6000 estudiantes y sus ventas trimestrales son de $105 000. El valor mayor
s ventas trimestrales son de $202 000. La figura 14.3 es el diagrama de dispersión de los datos de la tabla 14.1. La población de estudiantes
análisis de regresión se trazan colocando la variable independiente x en el eje horizontal y la variable dependiente y en el eje vertical. El dia
entre las variables. ¿Qué conclusión preliminar se puede obtener de la figura 14.3? Las ventas trimestrales parecen ser mayores cerca de c
s se observa que la relación entre el tamaño de la población de estudiantes y las ventas trimestrales parece poder aproximarse mediante u
Y=VENTAS
TRIMESTRALES (ventas
X= POBLACION DE ESTUDIANTES(miles) de miles $)
2 58
6 105
8 88
8 118
12 117
16 137
20 157
20 169
22 149
26 202
14 130
E ASOCCIACION LINEAL POSITIVA

POSITIVO ESTA CERCA DE 1 LA ASOCIACION ES FUERTE
5
60
el modelo de regresion lineal estimado (que relaciona poblacion y ventas): estimado a Ŷ=60 + 5x
Y =V EN TA S TRIM ESTRA L ES (ve ntas de m ile s $ )

X= POBLACION DE ESTU
250
200
Estadísticas de la regresión 150
100
0.9501229552 50
0.90273363 0
0 5 10 1
0.8905753338
X= POBLACION DE ES
13.8293166859
10
Grados de libertad Suma de cuadrados

1 14200
8 1530
9 15730
Coeficientes Error típico

60 9.2260348097
5 0.580265238
Pronóstico Y=VENTAS TRIMESTRALES (ventas de miles $) Residuos

70 -12
90 15
100 -12
100 18
120 -3
140 -3
160 -3
160 9
170 -21
190 12
sión estimada. Para ilustrar el método de mínimos cuadrados, supóngase que se recolectan datos de una muestra de 10
e la muestra, xi es el tamaño de la población de estudiantes (en miles) en el campus y yi son las ventas trimestrales (en miles
e 1, para el que x1 _x0004_ 2 y y1 _x0004_ 58, está cerca de un campus de 2000 estudiantes y sus ventas trimestrales son de
ntas trimestrales son de $105 000. El valor mayor es el que corresponde a ventas del restaurante 10, el cual está cerca de un
datos de la tabla 14.1. La población de estudiantes se indica en el eje horizontal y las ventas trimestrales en el eje vertical. Los
y la variable dependiente y en el eje vertical. El diagrama de dispersión permite observar gráficamente los datos y obtener
entas trimestrales parecen ser mayores cerca de campus en los que la población de estudiantes es mayor. Además, en estos
rimestrales parece poder aproximarse mediante una línea recta; en efecto, se observa que hay
(Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra) (Xi-Xbarra)^2 Ŷ ventas estimadas

-12 -72 864 144 70
-8 -25 200 64 90
-6 -42 252 36 100
-6 -12 72 36 100
-2 -13 26 4 120
2 7 14 4 140
6 27 162 36 160
6 39 234 36 160
8 19 152 64 170
12 72 864 144 190
SUMA 2840 568 130
Y=VENTAS TRIMESTRALES (ventas de mile

250
200
f(x) = 5x + 60
R² = 0.90273363
Y=VENTAS
150 miles $)
Linear (Y=
de miles
100
200
f(x) = 5x + 60
R² = 0.90273363
Y=VENTAS
150 miles $)
Linear (Y=
de miles
100
50
60 + 5x
0
0 5 10 15 20 25 30
Y =V EN TA S TRIM ESTRA L ES (ve ntas de m ile s $ )
X= POBLACION DE ESTUDIANTES(miles) Curva de regresión ajustada

250
200
150 Y=VENTAS TRIMESTRALES (ventas de miles $)
100 Pronóstico Y=VENTAS TRIMESTRALES (ventas
50 de miles $)
0
0 5 10 15 20 25 30
X= POBLACION DE ESTUDIANTES(miles)
Promedio de los cuadrados F Valor crítico de F

14200 74.248366013 2.54886628529355E-05
191.25
Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%

6.5033355323 0.0001874441 38.7247255773 81.2752744227 38.7247255773
8.6167491557 2.5488663E-05 3.6619059616 6.3380940384 3.6619059616
COMO HALLAR POR ANALISIS DE DATOS

ERROR(Residual)
-12
15
-12
18
-3
-3
-3
9
-21
12
0
ventas de miles $)
Y=VENTAS TRIMESTRALES (ventas de

miles $)
Linear (Y=VENTAS TRIMESTRALES (ventas
de miles $))
Y=VENTAS TRIMESTRALES (ventas de
miles $)
Linear (Y=VENTAS TRIMESTRALES (ventas
de miles $))
30
stada
(ventas de miles $)
MESTRALES (ventas
Superior 95,0%
81.2752744227
6.3380940384
LISIS DE DATOS
Modelo de regresión múltiple
El análisis de regresión múltiple estudia la relación de una variable dependiente con dos o
más variables independientes. Para denotar el número de variables independientes se
suele usar p.
Los conceptos de modelo de regresión y ecuación de regresión vistos en el capítulo previo,

son aplicables en el caso de la regresión múltiple. A la ecuación que describe cómo está
relacionada la variable dependiente y con las variables independientes x1, x2, ..., xp se le
conoce como modelo de regresión múltiple. Se supone que el modelo de regresión
múltiple toma la forma siguiente
B0: ESTIMADOR DE
B1: ESTIMADORESDE
Y: VALOR OBSERVADO
Ӯ:PROMEDIO
COEFICIENTE
El término DE DETERMINACION:
coeficiente de determinación ES UNA MEDIDA
múltiple DEmide
indica que BONDAD DE AJUSTE
la bondad DEL MODELO
de ajuste A LOSde
de la ecuación DATOS
regresión
múltiple estimada.
R^2: MIDE LA VARIABILIDAD DE LA RESPUESTA QUE ES EXPLICADA A PARTIR DE LAS VARIABLES INDEPENDIENTE O DEPENDIENT
ELO A LOSde
ecuación DATOS
regresión
S INDEPENDIENTE O DEPENDIENTES
X1: MILLAS
RECORRIDO RECCORIDAS
1 100
2 50
3 100
4 100
5 50
6 80
7 75
8 65
9 90
10 90
promedio 80
b1=
b0=
y: tiempo de recorrido (horas)

10
8
f(x) = 0.067826087x + 1.2739130435
R² = 0.6640713116
7
0
40 50 60 70 80 90
Resumen
Coeficiente de correlación múltiple 0.8149057072 ESTE TAMBIEN SE PUEDE CALCULAR CO
Coeficiente de determinación R^2 0.6640713116
R^2 ajustado 0.6220802256
Error típico 1.0017918729
Observaciones 10
Regresión scr 1 15.8713043478
Residuos sce 8 8.0286956522
Total suma de cuadrados total 9 23.9

Intercepción 1.2739130435 1.4007445248
X1: MILLAS RECCORIDAS 0.067826087 0.0170556375
Observación Pronóstico y: tiempo de recorrido (horas) Residuos

1 8.0565217391 1.2434782609
2 4.6652173913 0.1347826087
3 8.0565217391 0.8434782609
4 8.0565217391 -1.5565217391
5 4.6652173913 -0.4652173913
6 6.7 -0.5
7 6.3608695652 1.0391304348
8 5.6826086957 0.3173913043
9 7.3782608696 0.2217391304
10 7.3782608696 -1.2782608696
X1: MILLAS
RECORRIDO RECCORIDAS
1 100
2 50
3 100
4 100
5 50
6 80
7 75
8 65
9 90
10 90
R^2 ajustado 0.8763001113

Resumen p= 2
Coeficiente de correlación múltiple 0.9506781661
Coeficiente de determinación R^2 0.9037889755 el 90% del tiempo es explicado por la d
R^2 ajustado 0.8763001113
Error típico 0.5731421521
Observaciones 10
Suma de cuadrados debido a Regresión 2 21.6005565142
suma de cuadrados debido a Residuos 7 2.2994434858
Total 9 23.9

Intercepción -0.8687014668 0.9515477247
X1: MILLAS RECCORIDAS 0.0611345988 0.0098884946
X2: CANTIDAD DE ENTREGAS 0.9234253667 0.2211134607
Observación Pronóstico y: tiempo de recorrido (horas) Residuos

1 8.9384598792 0.3615401208
2 4.9583045729 -0.1583045729
3 8.9384598792 -0.0384598792
4 7.0916091458 -0.5916091458
5 4.0348792062 0.1651207938
6 5.86891717 0.33108283
7 6.4866695427 0.9133304573
8 6.7987489215 -0.7987489215
9 7.4036885246 0.1963114754
10 6.4802631579 -0.3802631579
y: tiempo de recorrido
(horas) (Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra) (Xi-Xbarra)^2 Ŷ ventas estimadas
9.3 20 2.6 52 400 8.0565217391
4.8 -30 -1.9 57 900 4.6652173913
8.9 20 2.2 44 400 8.0565217391
6.5 20 -0.2 -4 400 8.0565217391
4.2 -30 -2.5 75 900 4.6652173913
6.2 0 -0.5 0 0 6.7
7.4 -5 0.7 -3.5 25 6.3608695652
6 -15 -0.7 10.5 225 5.6826086957
7.6 10 0.9 9 100 7.3782608696
6.1 10 -0.6 -6 100 7.3782608696
6.7 SUMA 234 3450 67
0.068 EXISTE ASOCIACION LINEAL NEGATIVA

1.2739130435
oras)
90 100 110
X1: MILLAS RECCORIDAS Curva de regresión ajust

10
8
EN SE PUEDE CALCULAR CON LA COVARIANZA 6 y: tiempo de recorrido
4 Pronóstico y: tiempo d
2 recorrido (horas)
0
40 50 60 70 80 90 100 110
X1: MILLAS RECCORIDAS

15.8713043478 15.8145781 0.00408018
1.0035869565
Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
0.9094542373 0.38968736 -1.9562096 4.50403571 -1.956209623 4.50403571
3.9767547251 0.00408018 0.02849572 0.1071564575 0.0284957164 0.1071564575
SE PUEDE CONCLUIR QUE LA ECUACION ESTA RELACIONADA EN B1 Y B0
y: tiempo de
X2: CANTIDAD DE recorrido
ENTREGAS (horas)
4 9.3
3 4.8
4 8.9
2 6.5
2 4.2
2 6.2
3 7.4
4 6
3 7.6
2 6.1
teorica mente el modelo esta explicando el numero real de tempo vs las millas
numero de variables
tiempo es explicado por la distancia y el numero de entregas

10.8002782571 32.8783674 0.00027624 con valor critico de f determinamos si aceptamos o rechazamos la hipotesis n
0.3284919265
Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
-0.9129352572 0.3916343 -3.1187543 1.3813513595 -3.118754293 1.3813513595
6.1823969585 0.00045296 0.03775202 0.0845171729 0.0377520247 0.0845171729
4.1762512507 0.00415662 0.40057512 1.4462756182 0.4005751152 1.4462756182
X1: MILLAS RECCORIDAS Curva de regresión ajustada
10
8 X2: CANTIDAD DE ENTREGAS Curva
y: tiempode regresión ajustada
de recorrido
6 (horas)
10
4 Pronóstico y: tiempo de
2 8 y: tiempo de recorrido
6 recorrido (horas)
0 (horas)
4 Pronóstico y: tiempo de
40 50 60 70 80 90 100 110
2 recorrido (horas)
X1: MILLAS RECCORIDAS
0
1.5 2 2.5 3 3.5 4 4.5
X2: CANTIDAD DE ENTREGAS
ERROR(Residual)
1.2434782609
0.1347826087
0.8434782609
-1.5565217391
-0.4652173913
-0.5
1.0391304348
0.3173913043
0.2217391304
-1.2782608696
0
regresión ajustada

Pronóstico y: tiempo de
recorrido (horas)
echazamos la hipotesis nula
R^2: F(R^2, n, p)
el R^2 ajustado quita el numero de variables independientes y el tamaño de la muestra

el R^2 mide la bondad de ajsute para con los datos el modelo de ajuste para los datos
5 2 10
20 3 1140
1145 50 9.67647E+87
permiten validar el modelo muestral para toda la poblacion
la prueba F valida el modelo en general
la prueba T valida cada parametro de modelo uno a uno

valor esperado: se da por que se toma una muestra aleatoria
0.01
2
7
9.54657802

Estadistica 3

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Estadistica 3

Diunggah oleh

Hak Cipta:

Format Tersedia

MODELOS DE REGRESION

Medidas de asociacion entre variables

COVARIANZA: Mide la variabilidad que comparten dos variables

varianza: Mide la dispersion de los datos con respecto a otro.

estimadores: son valores numerico estadisticos

parametros: son valores poblacionales

SEMANAS NUEMERO DE COMERCIALES VOLUMEN DE VENTAS (Xi-X) (Yi-Y) (Xi-X)(Yi-Y)

NUEMERO DE COMERCIALES VOLUMEN DE VENTAS

r: mida la intensidad de la asociacion de la lineal entre la variable x & y

el coeficiente de correlacion se utiliza como medida de ajuste para cualquier tipo de

Sxy= 100 asociacion positiva

RATING SHARE (Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra)

POBLACIONAL CON BASE EN EL DIAGRAMA DE DISPER

CAPITULO DE LINEAL SIMPLE Y LIAL REGRESION CAPITULO 14 Y 15

EL DIAGRAMA DE DISPERSION LOS DATOS SE ENCUENTRAN EL CUADRANTE 1

Y^i: Vlaor stimado de la variable dependiente para la i-esima observacion.

EXISTE ASOCCIACION LINEAL POSITIVA

Análisis de los residuales

CAPITULO 14 Y 15 PARA LA PROXIMA CLASE

E ASOCCIACION LINEAL POSITIVA

Y =V EN TA S TRIM ESTRA L ES (ve ntas de m ile s $ )

Grados de libertad Suma de cuadrados

Coeficientes Error típico

Pronóstico Y=VENTAS TRIMESTRALES (ventas de miles $) Residuos

(Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra) (Xi-Xbarra)^2 Ŷ ventas estimadas

Y=VENTAS TRIMESTRALES (ventas de mile

X= POBLACION DE ESTUDIANTES(miles) Curva de regresión ajustada

Promedio de los cuadrados F Valor crítico de F

Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%

COMO HALLAR POR ANALISIS DE DATOS

Y=VENTAS TRIMESTRALES (ventas de

Los conceptos de modelo de regresión y ecuación de regresión vistos en el capítulo previo,

y: tiempo de recorrido (horas)

Coeficientes Error típico

Análisis de los residuales

Observación Pronóstico y: tiempo de recorrido (horas) Residuos

R^2 ajustado 0.8763001113

Coeficientes Error típico

Análisis de los residuales

Observación Pronóstico y: tiempo de recorrido (horas) Residuos

0.068 EXISTE ASOCIACION LINEAL NEGATIVA

X1: MILLAS RECCORIDAS Curva de regresión ajust

Promedio de los cuadrados F Valor crítico de F

SE PUEDE CONCLUIR QUE LA ECUACION ESTA RELACIONADA EN B1 Y B0

Promedio de los cuadrados F Valor crítico de F

y: tiempo de recorrido (horas)

el R^2 ajustado quita el numero de variables independientes y el tamaño de la muestra

permiten validar el modelo muestral para toda la poblacion

la prueba F valida el modelo en general

la prueba T valida cada parametro de modelo uno a uno

Anda mungkin juga menyukai