Anda di halaman 1dari 54

MODELOS DE REGRESION

Medidas de asociacion entre variables

COVARIANZA: Mide la variabilidad que comparten dos variables

varianza: Mide la dispersion de los datos con respecto a otro.

varianza muestral

varianza poblacional

estimadores: son valores numerico estadisticos

parametros: son valores poblacionales

covarianza muestral

covarianza poblacional

la covarianza mide la asociacion lineal entre X & Y. no mide la intensidad de esa asociacion,
lo unico que nos interesa es el signo para identificar si es una asociancion lienal positiva o
negativa
Se empieza retomando la aplicación concerniente a la tienda de equipos de sonido que se
presentó en la sección 2.4. El administrador de la tienda desea determinar la relación entre el
número de comerciales televisados en un fin de semana y las ventas de la tienda durante la
semana siguiente. En la tabla 3.7 se presentan datos muestrales de las ventas expresadas en
cientos de dó- lares. En esta tabla se presentan 10 observaciones (n _x0004_ 10), una por cada
semana. El diagrama de dispersión en la figura 3.7 muestra una relación positiva, en que las
mayores ventas (y) están asociadas con mayor número de comerciales (x). En efecto, el
diagrama de dispersión sugiere que podría emplearse una línea recta como aproximación a esta
relación. En la argumentación siguiente se introduce la covarianza como una medida descriptiva
de la asociación entre dos variables.

SEMANAS NUEMERO DE COMERCIALES VOLUMEN DE VENTAS (Xi-X) (Yi-Y) (Xi-X)(Yi-Y)


1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
PROMEDIO 3 51 SUMA 99

VOLUMEN DE VENTAS
70

60

50

40 VOLUMEN DE VENTAS

30

20

10

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
30

20

10

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
Sxy= 11 muestral
9.9 poblacional

NUEMERO DE COMERCIALES VOLUMEN DE VENTAS


NUEMERO DE COMERCIALES 2
VOLUMEN DE VENTAS 9.9 56.6
De donde

sx = √ Desviacion
estandar al cuadrado
poblacional

sigmaxy: sigmaxy/sigmax*sigmay

de donde: sigmaxy:

r: mida la intensidad de la asociacion de la lineal entre la variable x & y


si r es cercano a 1 o -1 es fuerte positivo o fuerte negativo
cuando da cercano a cero no existe asociacion lineal a r

el coeficiente de correlacion se utiliza como medida de ajuste para cualquier tipo de


relacion
60

50
R² = 1

40

30

20

10

0
X Y (Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra) 4 6
5 10 -5 -20 100
10 30 0 0 0
15 50 5 20 100
PROMEDIO 10 30 SUMA 200

Sxy= 100 asociacion positiva


Sx= 5
Sy= 20

rxy= 1

poblacional
X Y
X 16.6666667
Y 66.6666667 266.666667
EJERCICIO

RATING 19 17 17 14 16 12 15
SHARE 32 28 29 24 26 20 24

RATING SHARE (Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra)


19 32 4 7 28
17 28 2 3 6 35
17 29 2 4 8
14 24 -1 -1 1
30 R² = 0.9803921569
16 26 1 1 1
12 20 -3 -5 15
15 24 0 -1 0 25
12 20 -3 -5 15
13 22 -2 -3 6 20
PROMEDIO 15 25 SUMA 80

15

Sxy= 10
10
Sx= 2.44949
Sy= 4.123106
5

0
11 12 13 1
10

5
rxy= 0.990148

r^2= 0.990152
0
11 12 13 1

POBLACIONAL CON BASE EN EL DIAGRAMA DE DISPER

RATING SHARE
RATING 5.33333333
SHARE 8.88888889 15.1111111

CAPITULO DE LINEAL SIMPLE Y LIAL REGRESION CAPITULO 14 Y 15


Y
0

0
R² = 1

0
4 6 8 10 12 14 16
12 13
20 22

SHARE

R² = 0.9803921569

12 13 14 15 16 17 18 19 20
12 13 14 15 16 17 18 19 20

EL DIAGRAMA DE DISPERSION LOS DATOS SE ENCUENTRAN EL CUADRANTE 1


modelo de regresion lineal simple

solo una variable independiente. B0 y b1 el metodo de minimos cuadrados se encarga de minimizar el error
Yi: Valor observado de la variable i-esima observacion.

Y^i: Vlaor stimado de la variable dependiente para la i-esima observacion.


ejercicio 14,1

El método de mínimos cuadrados es un método en el que se usan los datos muestrales para hallar la ecuaci
restaurantes Armand’s Pizza Parlors ubicados todos cerca de campus universitarios. Para la observación i o el res
de dólares). En la tabla 14.1 se presentan los valores de xi y yi en esta muestra de 10 restaurantes. Como se ve, e
$58 000. El restaurante 2, para el que x2 _x0004_ 6 y y2 _x0004_ 105, está cerca de un campus de 6000 estudian
campus de 26 000 estudiantes y sus ventas trimestrales son de $202 000. La figura 14.3 es el diagrama de dispers
diagramas de dispersión para el análisis de regresión se trazan colocando la variable independiente x en el eje
conclusiones acerca de la relación entre las variables. ¿Qué conclusión preliminar se puede obtener de la figura
datos se observa que la relación entre el tamaño de la población de estudiantes y

RESTAURANTE
1
2
3
4
5
6
7
8
9
10
promedio 5.5

EXISTE ASOCCIACION LINEAL POSITIVA


R POSITIVO ESTA CERCA DE 1 LA ASOCIACION ES FUERTE

b1=
b0=

b1= Ʃ()

conclusion: el modelo de regresion lineal estimado (que relaciona poblacion y ventas): esti

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones

ANÁLISIS DE VARIANZA

Regresión
Residuos
Total

Intercepción
X= POBLACION DE ESTUDIANTES(miles)

Análisis de los residuales

Observación
1
2
3
4
5
6
7
8
9
10

CAPITULO 14 Y 15 PARA LA PROXIMA CLASE


IMPORTANTE REPASAR ESTADISTICA 2
PRUEBAS DE SIGNIFICANCIA
dos es un método en el que se usan los datos muestrales para hallar la ecuación de regresión estimada. Para ilustrar el método de mínimos
s ubicados todos cerca de campus universitarios. Para la observación i o el restaurante i de la muestra, xi es el tamaño de la población de es
entan los valores de xi y yi en esta muestra de 10 restaurantes. Como se ve, el restaurante 1, para el que x1 _x0004_ 2 y y1 _x0004_ 58, est
ue x2 _x0004_ 6 y y2 _x0004_ 105, está cerca de un campus de 6000 estudiantes y sus ventas trimestrales son de $105 000. El valor mayor
s ventas trimestrales son de $202 000. La figura 14.3 es el diagrama de dispersión de los datos de la tabla 14.1. La población de estudiantes
análisis de regresión se trazan colocando la variable independiente x en el eje horizontal y la variable dependiente y en el eje vertical. El dia
entre las variables. ¿Qué conclusión preliminar se puede obtener de la figura 14.3? Las ventas trimestrales parecen ser mayores cerca de c
s se observa que la relación entre el tamaño de la población de estudiantes y las ventas trimestrales parece poder aproximarse mediante u

Y=VENTAS
TRIMESTRALES (ventas
X= POBLACION DE ESTUDIANTES(miles) de miles $)
2 58
6 105
8 88
8 118
12 117
16 137
20 157
20 169
22 149
26 202
14 130

E ASOCCIACION LINEAL POSITIVA


POSITIVO ESTA CERCA DE 1 LA ASOCIACION ES FUERTE

5
60

el modelo de regresion lineal estimado (que relaciona poblacion y ventas): estimado a Ŷ=60 + 5x

Y =V EN TA S TRIM ESTRA L ES (ve ntas de m ile s $ )


X= POBLACION DE ESTU
250
200
Estadísticas de la regresión 150
100
0.9501229552 50
0.90273363 0
0 5 10 1
0.8905753338
X= POBLACION DE ES
13.8293166859
10

Grados de libertad Suma de cuadrados


1 14200
8 1530
9 15730

Coeficientes Error típico


60 9.2260348097
5 0.580265238

Pronóstico Y=VENTAS TRIMESTRALES (ventas de miles $) Residuos


70 -12
90 15
100 -12
100 18
120 -3
140 -3
160 -3
160 9
170 -21
190 12
sión estimada. Para ilustrar el método de mínimos cuadrados, supóngase que se recolectan datos de una muestra de 10
e la muestra, xi es el tamaño de la población de estudiantes (en miles) en el campus y yi son las ventas trimestrales (en miles
e 1, para el que x1 _x0004_ 2 y y1 _x0004_ 58, está cerca de un campus de 2000 estudiantes y sus ventas trimestrales son de
ntas trimestrales son de $105 000. El valor mayor es el que corresponde a ventas del restaurante 10, el cual está cerca de un
datos de la tabla 14.1. La población de estudiantes se indica en el eje horizontal y las ventas trimestrales en el eje vertical. Los
y la variable dependiente y en el eje vertical. El diagrama de dispersión permite observar gráficamente los datos y obtener
entas trimestrales parecen ser mayores cerca de campus en los que la población de estudiantes es mayor. Además, en estos
rimestrales parece poder aproximarse mediante una línea recta; en efecto, se observa que hay

(Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra) (Xi-Xbarra)^2 Ŷ ventas estimadas


-12 -72 864 144 70
-8 -25 200 64 90
-6 -42 252 36 100
-6 -12 72 36 100
-2 -13 26 4 120
2 7 14 4 140
6 27 162 36 160
6 39 234 36 160
8 19 152 64 170
12 72 864 144 190
SUMA 2840 568 130

Y=VENTAS TRIMESTRALES (ventas de mile


250

200
f(x) = 5x + 60
R² = 0.90273363
Y=VENTAS
150 miles $)
Linear (Y=
de miles
100
200
f(x) = 5x + 60
R² = 0.90273363
Y=VENTAS
150 miles $)
Linear (Y=
de miles
100

50

60 + 5x
0
0 5 10 15 20 25 30
Y =V EN TA S TRIM ESTRA L ES (ve ntas de m ile s $ )

X= POBLACION DE ESTUDIANTES(miles) Curva de regresión ajustada


250
200
150 Y=VENTAS TRIMESTRALES (ventas de miles $)
100 Pronóstico Y=VENTAS TRIMESTRALES (ventas
50 de miles $)
0
0 5 10 15 20 25 30
X= POBLACION DE ESTUDIANTES(miles)

Promedio de los cuadrados F Valor crítico de F


14200 74.248366013 2.54886628529355E-05
191.25

Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%


6.5033355323 0.0001874441 38.7247255773 81.2752744227 38.7247255773
8.6167491557 2.5488663E-05 3.6619059616 6.3380940384 3.6619059616

COMO HALLAR POR ANALISIS DE DATOS


ERROR(Residual)
-12
15
-12
18
-3
-3
-3
9
-21
12
0

ventas de miles $)

Y=VENTAS TRIMESTRALES (ventas de


miles $)
Linear (Y=VENTAS TRIMESTRALES (ventas
de miles $))
Y=VENTAS TRIMESTRALES (ventas de
miles $)
Linear (Y=VENTAS TRIMESTRALES (ventas
de miles $))

30

stada

(ventas de miles $)
MESTRALES (ventas

Superior 95,0%
81.2752744227
6.3380940384

LISIS DE DATOS
Modelo de regresión múltiple

El análisis de regresión múltiple estudia la relación de una variable dependiente con dos o
más variables independientes. Para denotar el número de variables independientes se
suele usar p.

Los conceptos de modelo de regresión y ecuación de regresión vistos en el capítulo previo,


son aplicables en el caso de la regresión múltiple. A la ecuación que describe cómo está
relacionada la variable dependiente y con las variables independientes x1, x2, ..., xp se le
conoce como modelo de regresión múltiple. Se supone que el modelo de regresión
múltiple toma la forma siguiente

B0: ESTIMADOR DE
B1: ESTIMADORESDE
Y: VALOR OBSERVADO
Ӯ:PROMEDIO

COEFICIENTE
El término DE DETERMINACION:
coeficiente de determinación ES UNA MEDIDA
múltiple DEmide
indica que BONDAD DE AJUSTE
la bondad DEL MODELO
de ajuste A LOSde
de la ecuación DATOS
regresión
múltiple estimada.

R^2: MIDE LA VARIABILIDAD DE LA RESPUESTA QUE ES EXPLICADA A PARTIR DE LAS VARIABLES INDEPENDIENTE O DEPENDIENT
ELO A LOSde
ecuación DATOS
regresión

S INDEPENDIENTE O DEPENDIENTES
X1: MILLAS
RECORRIDO RECCORIDAS
1 100
2 50
3 100
4 100
5 50
6 80
7 75
8 65
9 90
10 90
promedio 80

b1=
b0=

y: tiempo de recorrido (horas)


10

8
f(x) = 0.067826087x + 1.2739130435
R² = 0.6640713116
7

0
40 50 60 70 80 90

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.8149057072 ESTE TAMBIEN SE PUEDE CALCULAR CO
Coeficiente de determinación R^2 0.6640713116
R^2 ajustado 0.6220802256
Error típico 1.0017918729
Observaciones 10

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados
Regresión scr 1 15.8713043478
Residuos sce 8 8.0286956522
Total suma de cuadrados total 9 23.9

Coeficientes Error típico


Intercepción 1.2739130435 1.4007445248
X1: MILLAS RECCORIDAS 0.067826087 0.0170556375

Análisis de los residuales

Observación Pronóstico y: tiempo de recorrido (horas) Residuos


1 8.0565217391 1.2434782609
2 4.6652173913 0.1347826087
3 8.0565217391 0.8434782609
4 8.0565217391 -1.5565217391
5 4.6652173913 -0.4652173913
6 6.7 -0.5
7 6.3608695652 1.0391304348
8 5.6826086957 0.3173913043
9 7.3782608696 0.2217391304
10 7.3782608696 -1.2782608696

X1: MILLAS
RECORRIDO RECCORIDAS
1 100
2 50
3 100
4 100
5 50
6 80
7 75
8 65
9 90
10 90

R^2 ajustado 0.8763001113


Resumen p= 2

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.9506781661
Coeficiente de determinación R^2 0.9037889755 el 90% del tiempo es explicado por la d
R^2 ajustado 0.8763001113
Error típico 0.5731421521
Observaciones 10

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados
Suma de cuadrados debido a Regresión 2 21.6005565142
suma de cuadrados debido a Residuos 7 2.2994434858
Total 9 23.9

Coeficientes Error típico


Intercepción -0.8687014668 0.9515477247
X1: MILLAS RECCORIDAS 0.0611345988 0.0098884946
X2: CANTIDAD DE ENTREGAS 0.9234253667 0.2211134607

Análisis de los residuales

Observación Pronóstico y: tiempo de recorrido (horas) Residuos


1 8.9384598792 0.3615401208
2 4.9583045729 -0.1583045729
3 8.9384598792 -0.0384598792
4 7.0916091458 -0.5916091458
5 4.0348792062 0.1651207938
6 5.86891717 0.33108283
7 6.4866695427 0.9133304573
8 6.7987489215 -0.7987489215
9 7.4036885246 0.1963114754
10 6.4802631579 -0.3802631579
y: tiempo de recorrido
(horas) (Xi-Xbarra) (Yi-Ybarra) (Xi-Xbarra)*(Yi-Ybarra) (Xi-Xbarra)^2 Ŷ ventas estimadas
9.3 20 2.6 52 400 8.0565217391
4.8 -30 -1.9 57 900 4.6652173913
8.9 20 2.2 44 400 8.0565217391
6.5 20 -0.2 -4 400 8.0565217391
4.2 -30 -2.5 75 900 4.6652173913
6.2 0 -0.5 0 0 6.7
7.4 -5 0.7 -3.5 25 6.3608695652
6 -15 -0.7 10.5 225 5.6826086957
7.6 10 0.9 9 100 7.3782608696
6.1 10 -0.6 -6 100 7.3782608696
6.7 SUMA 234 3450 67

0.068 EXISTE ASOCIACION LINEAL NEGATIVA


1.2739130435

oras)

90 100 110

X1: MILLAS RECCORIDAS Curva de regresión ajust


y: tiempo de recorrido (horas)

10
8
EN SE PUEDE CALCULAR CON LA COVARIANZA 6 y: tiempo de recorrido
4 Pronóstico y: tiempo d
2 recorrido (horas)
0
40 50 60 70 80 90 100 110
X1: MILLAS RECCORIDAS

Promedio de los cuadrados F Valor crítico de F


15.8713043478 15.8145781 0.00408018
1.0035869565
Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
0.9094542373 0.38968736 -1.9562096 4.50403571 -1.956209623 4.50403571
3.9767547251 0.00408018 0.02849572 0.1071564575 0.0284957164 0.1071564575

SE PUEDE CONCLUIR QUE LA ECUACION ESTA RELACIONADA EN B1 Y B0

y: tiempo de
X2: CANTIDAD DE recorrido
ENTREGAS (horas)
4 9.3
3 4.8
4 8.9
2 6.5
2 4.2
2 6.2
3 7.4
4 6
3 7.6
2 6.1

teorica mente el modelo esta explicando el numero real de tempo vs las millas
numero de variables
tiempo es explicado por la distancia y el numero de entregas

Promedio de los cuadrados F Valor crítico de F


10.8002782571 32.8783674 0.00027624 con valor critico de f determinamos si aceptamos o rechazamos la hipotesis n
0.3284919265

Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
-0.9129352572 0.3916343 -3.1187543 1.3813513595 -3.118754293 1.3813513595
6.1823969585 0.00045296 0.03775202 0.0845171729 0.0377520247 0.0845171729
4.1762512507 0.00415662 0.40057512 1.4462756182 0.4005751152 1.4462756182
X1: MILLAS RECCORIDAS Curva de regresión ajustada
y: tiempo de recorrido (horas)

10
8 X2: CANTIDAD DE ENTREGAS Curva
y: tiempode regresión ajustada
de recorrido
6 (horas)
10
y: tiempo de recorrido (horas)

4 Pronóstico y: tiempo de
2 8 y: tiempo de recorrido
6 recorrido (horas)
0 (horas)
4 Pronóstico y: tiempo de
40 50 60 70 80 90 100 110
2 recorrido (horas)
X1: MILLAS RECCORIDAS
0
1.5 2 2.5 3 3.5 4 4.5
X2: CANTIDAD DE ENTREGAS

ERROR(Residual)
1.2434782609
0.1347826087
0.8434782609
-1.5565217391
-0.4652173913
-0.5
1.0391304348
0.3173913043
0.2217391304
-1.2782608696
0

regresión ajustada

y: tiempo de recorrido (horas)


Pronóstico y: tiempo de
recorrido (horas)
echazamos la hipotesis nula
R^2: F(R^2, n, p)

el R^2 ajustado quita el numero de variables independientes y el tamaño de la muestra


el R^2 mide la bondad de ajsute para con los datos el modelo de ajuste para los datos

5 2 10
20 3 1140
1145 50 9.67647E+87

permiten validar el modelo muestral para toda la poblacion

la prueba F valida el modelo en general

la prueba T valida cada parametro de modelo uno a uno


valor esperado: se da por que se toma una muestra aleatoria
0.01
2
7
9.54657802

Anda mungkin juga menyukai