Anda di halaman 1dari 30

Nombre: Clara Delgado Villacís

E-mail: cdelgado@cohervisa.com.ec
Móvil: 094343396
Centro/Apoyo: N.27 (Milagro)
Tutor: Econ.
Mes de Estudio: Primero
Materia: Estadística Aplicada a la Administración

ACTIVIDAD DE APRENDIZAJE 1.1

Identifique la variable dependiente y la independiente


en cada uno de estos casos y conteste a la siguiente
pregunta:

¿Qué tipo de correlación (positiva, negativa o nula)


debemos esperar de las siguientes variables?:

Las relaciones entre las variables pueden ser positivas (directas), negativas
(indirectas) o pueden no existir, entonces son nulas.

Relaciones positivas son aquellas, donde las dos variables X y Y actúan en la misma
dirección, o sea si una crece, otra también crece; si una decrece, otra también
decrece: Ejemplo: A mayor peso de una persona(X)- mayor talla de la ropa que usa
(Y).

Relaciones negativas son aquellas, donde las dos variables X y Y actúan en la


dirección opuesta, o sea si una crece, otra decrece y viceversa: Ejemplo: A mayor
precio de un producto(X)- menor demanda (Y).

También podemos decir que las relaciones existentes entre las variables pueden ser:
lineales, curvilíneas o exponenciales (logarítmicas). Las más comunes son relaciones
lineales.

a. Precio de un producto y la oferta de este.


La correlación es positiva

b. Valor de la canasta básica y el valor de la inflación de un país.


La correlación es positiva

1
c. Numero de los atrasos de un empleado al trabajo y su calificación
del desempeño otorgada por su jefe inmediato.
Correlación negativa

d. Calificaciones en estadística de los estudiantes de una universidad


y el número de horas que se preparan para el examen.
Correlación positiva

e. Peso de los clientes en un banco y valor de los depósitos en sus


cuentas de ahorros.
Correlación positiva

f. El tráfico en la ciudad de Quito y el número de autos que circulan


diariamente por la ciudad.
Correlación positiva

ACTIVIDAD DE APRENDIZAJE 1.2

La directora de recursos humanos del Banco de


Pichincha está interesada en estudiar la relación entre
la calificación del desempeño (sobre 100 puntos), que
otorga a los empleados del banco y el número de años
que ellos trabajan en esta institución (experiencia). La
directora seleccionó una muestra de 10 empleados y la
información que recopiló es la siguiente:

EMPLEADO 1 2 3 4 5 6 7 8 9 10
CALIFICACIÓN 95 60 82 50 85 94 96 75 70 91
EXPERIENCIA (en años) 15 2 6 1 7 10 16 5
3 14

a. Trace un diagrama de dispersión


Experienc
Calificació Desviación
Emplead ia Y' Desviaci
n X² Y² XY al cuadrado
o (en años) (a+bX) ón (Y-Y')
(Y) (Y-Y')²
(X)
1 15 95 225 9025 1425,00 98,0767 -3,0767 9,46608289
2 2 60 4 3600 120,00 64,6121 -4,6121 21,2714664
3 6 82 36 6724 492,00 74,9089 7,0911 50,2836992

2
4 1 50 1 2500 50,00 62,0379 -12,0379 144,911036
5 7 85 49 7225 595,00 77,4831 7,5169 56,5037856
6 10 94 100 8836 940,00 85,2057 8,7943 77,3397125
100,650
7 16 96 256 9216 1536,00 9 -4,6509 21,6308708
8 5 75 25 5625 375,00 72,3347 2,6653 7,10382409
9 3 70 9 4900 210,00 67,1863 2,8137 7,91690769
10 14 91 196 8281 1274,00 95,5025 -4,5025 20,2725063
797,998
0,0012 416,699892
TOTAL 79 798 901 65932 7017 8

b. Con base en tal diagrama, ¿Parecería existir una relación entre la


calificación del desempeño y la experiencia de un empleados?

La deducción es que la calificación obtenida tiene relación con los años de


experiencia, a medida que aumentan los años de experiencia, aumenta la calificación.
Es razonable que la directora de recursos humanos diga que cuanto mayor son los
años de experiencia, mayor es la calificación.

Calcule la ecuación de mínimos cuadrados para predecir la calificación


del desempeño determinada por la experiencia.

ΣXY=7017
ΣX=79
ΣY=798
ΣX2=901
n=10

b=nΣXY-ΣXΣYnΣX2-ΣX2

b=107017-7979810901-792=70170-630429010-6241=71282769=2,5742

a= ΣYn-bΣXn

a= 79810-2,57427910=79,8-20,3362=59,4638

Por lo tanto la ecuación de mínimos cuadrados es:


Y'=a+bX
Y'=59,4638+2,5742X

MINITAB:
La ecuación de regresión es:
C1 = 59,5 + 2,57 C2

Coef.
3
Predictor Coef de EE T P
Constante 59,464 4,117 14,44 0,000
C2 2,5742 0,4337 5,94 0,000

S = 7,21717 R-cuad. = 81,5% R-cuad.(ajustado) = 79,2%

c. Interprete los coeficientes de la ecuación dada.

El valor “b” significa que para cada año de experiencia adicional, la calificación
aumenta casi 2,6.

El valor de “a” de 59,4638 es el punto donde la ecuación cruza el eje Y o sea sino
tiene años de experiencia la calificación será 59,5

d. ¿Cuál sería la calificación del desempeño, si el empleado trabaja en


el banco 8 años?

Y'=a+bX
Y'=59,4638+2,57428=80,0574
O sea la calificación sería aproximadamente 80

e. Calcule e interprete el error estándar de la estimación.

sy.x=ΣY-Y'2n-2

sy.x=416,699910-2=7.2172

Por medio de la otra fórmula:


sy.x=ΣY2-aΣY-bΣXYn-2
a=59,4638
b=2,5742
ΣY2=65932
ΣY=798
ΣXY=7017
n=10

sy.x=65932-59,4638798-2,5742701710-2=7.2174

La distancia promedio de los valores observados alrededor de la ecuación de regresión


es de 7,22. Es decir la dispersión de los valores observados es 7,22.

4
f. Calcule un intervalo de predicción del 90% para el inciso e).

Intervalo de Predicción=Y'±tsy.x1+1n+X-X2ΣX2-ΣX2n

Y'=59,4638+2,57428=80,0574

Y'=80,0574
n=10
gl= n-2=10-2=8
Ver en apéndice F para gl=8 y 90%
t=1,860
X=8
X=7,9
ΣX2=901
ΣX=79
Intervalo de Predicción=80,0574±1,8607,21741+110+8-7,92901-79210
=80,0574±14,0798

El intervalo va desde 65,9776 hasta 94,1372 de calificación. Se concluye que la


calificación se encontrara entre 66 y 94 aproximadamente.

g. Calcule e interprete el coeficiente de determinación y el coeficiente


de correlación para los datos dados.

coeficiente de correlación

r= nΣXY-ΣXΣYnΣX2-ΣX2nΣY2-ΣY2
n=10
X=8
ΣX2=901
ΣX=79
ΣY2=65932
ΣY=798
ΣXY=7017

r=107017-7979810901-7921065932-7982

r=0.9027

Es positivo de manera que se ve que hay una relación directa entre los años de
experiencia y la calificación. El valor 0.9027 está bastante cercano a uno por lo que
se concluye que la relación es fuerte.

Coeficiente de determinación=r2
r2= 0.90272=0.8149=81.49% ≈81.5%

5
por lo tanto el 81.5% de la variación en la calificación se explica
por la variación en los años de experiencia

h. Usted se encuentra complacido/a con los resultados obtenidos de este


modelo de regresión simple? Justifique su respuesta.

Si. En el análisis de regresión lineal simple buscamos la relación entre la variable


dependiente Y y una sola independiente, demostrando su empleo para determinar una
ecuación que describa la relación entre las dos variable. La regresión y los análisis de
correlación nos muestran como determinar tanto la naturaleza como la fuerza de una
relación entre dos variables.

ACTIVIDAD DE APRENDIZAJE 1.3

Patricio Estrada, presidente de una compañía, trabaja en la


relación entre el salario de un trabajador y el porcentaje de
ausentismo. Patricio Estrada dividió el intervalo de salarios de
la compañía en doce grados o niveles (1 es el de menor
grado, 12 el más alto) y después muestreó aleatoriamente a
un grupo de trabajadores.

Determinó el grado de salario de cada trabajador y el número


de días que ese empleado había faltado en los últimos tres
años.

Trabajador 1 2 3 4 5 6 7 8 9 10 11
12
Categoría del salario 11 10 8 5 9 9 7 3 11 8 7
2
Ausencias 18 17 29 36 11 26 28 35 14 20 32
39

6
Categorí
Trabajad Ausencia a del Y'
X² Y² XY Y-Y' (Y-Y')²
or s (X) salario (a+bX)
(Y)

1 18 11 324 121 198 9,5213 1,4787 2,18655369


2 17 10 289 100 170 9,7938 0,2062 0,04251844
3 29 8 841 64 232 6,5238 1,4762 2,17916644
4 36 5 1296 25 180 4,6163 0,3837 0,14722569
5 11 9 121 81 99 11,4288 -2,4288 5,89906944
6 26 9 676 81 234 7,3413 1,6587 2,75128569
7 28 7 784 49 196 6,7963 0,2037 0,04149369
8 35 3 1225 9 105 4,8888 -1,8888 3,56756544
9 14 11 196 121 154 10,6113 0,3887 0,15108769
10 20 8 400 64 160 8,9763 -0,9763 0,95316169
11 32 7 1024 49 224 5,7063 1,2937 1,67365969
12 39 2 1521 4 78 3,7988 -1,7988 3,23568144
305 90 8697 768 2030 90,0031 -0,0031 22,828469

a. Prepare un diagrama de dispersión para estos datos.

b. Identifique el tipo de relación que existe entre las variables X y Y.


Existe una relación inversa entre las variables, a medida que aumenta el número de
días que el empleado ha faltado, disminuye el porcentaje de ausentismo. Es una
relación negativa.

c. Calcule la ecuación de mínimos cuadrados para predecir el salario


determinado por el porcentaje de ausentismo del trabajador.

Y'=a+bX
ΣXY=2030
ΣX=305
ΣY=90
ΣX2=8697
n=12
Y'=14.4263-0.2725X

a= ΣYn-bΣXn

b=nΣXY-ΣXΣYnΣX2-ΣX2

b=122030-30590128697-3052=24360-27450104364-93025=-309011339=-0.2725

7
a= 9012--0.272530512=7.5+6.9263=14.4263

Por lo tanto la ecuación de mínimos cuadrados es:


Y'=a+bX

Y'=14.4263-0.2725X

La ecuación de regresión es:

Categoría del salario (Y) = 14,4 - 0,273 Ausencias (X)

Predictor Coef Coef. de EE T P


Constante 14,426 1,323 10,90 0,000
Ausencias (X) -0,27251 0,04915 -5,54 0,000

S = 1,51091 R-cuad. = 75,5% R-cuad.(ajustado) = 73,0%

d. Interprete los coeficientes de la ecuación dada.

El valor “b” significa que para cada día de ausencia en los tres últimos años
adicional, la categoría del salario disminuye casi 0,3.

El valor de “a” 14.4263 es el punto donde la ecuación cruza el eje Y o sea sino tiene
ningún día de ausencia la categoría del salario será 14,4

e. Calcule e interprete el error estándar de la estimación.

Y=90
Y'=
n=12
sy.x=ΣY-Y'2n-2

sy.x=22,82846912-2=1.5108

Por medio de la otra fórmula:

sy.x=ΣY2-aΣY-bΣXYn-2

a=14.4263
b= -0.2725
ΣY2=768
ΣY=90
n=12
ΣXY=2030

sy.x=768-14.426390--0.2725203012-2=1.5102
8
La distancia promedio de los valores observados alrededor de la ecuación de regresión
es de 7,22. Es decir la dispersión de los valores observados es 7,22.
El error estándar de estimación, es bajo por lo tanto la dispersión de los puntos
alrededor de la línea de regresión es mínima.

f. Utilice la ecuación de regresión para estimar el salario de un


trabajador, si el porcentaje de ausentismo fue 13.

Y'=a+bX
Y'=14.4263-0.272513=10.8838
O sea la categoría del salario de un trabajador con el 13% de ausentismo seria
aproximadamente 11.

g. Calcule un intervalo de predicción del 95% para el inciso f).

Intervalo de Predicción=Y'±tsy.x1+1n+X-X2ΣX2-ΣX2n

Y'=14.4263-0.272513=10.8838

n=12
gl=12-2=10
t=2,228
X=13
X=25,4167
ΣX2=8697
ΣX=305

Intervalo de Prediccion=10.8838±2.228(1.5102)1+112+13-25.416728697-(305)212
=10.8838±2.2281.51021.1165
=10.8838±3.7557

El intervalo va desde 7,1281 hasta 14,6395 de categoría del salario. Se concluye que
la categoría se encontrara entre7,1281 hasta 14,6395 aproximadamente.

Calcule e interprete el coeficiente de determinación y el coeficiente de


correlación para los datos dados.

coeficiente de correlación

r= nΣXY-ΣXΣYnΣX2-ΣX2nΣY2-ΣY2

n=12
ΣX2=8697

9
ΣX=305
ΣY2=768
ΣY=90
ΣXY=2030

r=122030-30590128697-305212768-902

r= -0.8686
Es negativo de manera que se ve que hay una relación inversa entre los años de
experiencia y la calificación. El valor -0,8686 está bastante cercano a -1 por lo que
se concluye que la relación es negativa intensa.

Coeficiente de determinación=r2
r2=(-0.8686)2=0.7545=75.45% ≈75.5%

Por lo tanto el 75,5% de la variación en la categoría del salario se explica por la


variación en los días de ausencia.

h. ¿Usted se encuentra complacido/a con los resultados obtenidos de


este modelo de regresión simple?

Si. En este análisis de regresión se desarrolla una ecuación de estimación, esto es,
una fórmula matemática que relaciona las variables conocidas con la variable
desconocida. Entonces ya podemos, aplicar el análisis de correlación para determinar
el grado de en el que están relacionadas las variables. El análisis de correlación,
entonces, nos dice qué tan bien están relacionadas las variables. La ecuación de
estimación realmente describe la relación.

10
ACTIVIDAD DE APRENDIZAJE 1.4
http://www.youtube.com/watch?v=ciQGl0ABpac&feature=related
http://www.youtube.com/user/felipe2000ipn#p/a/u/0/fmrPEJvfFS8
El señor Erazo, gerente de ventas de una compañía
(distribuidora de repuestos para automóviles), quiere
desarrollar un modelo para predecir las ventas anuales totales
para una región. Si las ventas regionales se pueden predecir,
entonces se podrán estimar las ventas totales de la compañía.
El número de distribuidores de la región que mantiene en
inventario y el número de automóviles registrados para cada
región, son las variables de predicción que el señor Erazo
quiere investigar.

REGIÓN 1 2 3 4 5 6 7 8 9 10
VENTAS (en miles de $) Y 52 26 20 16 30 46 35 24 33 25
NO. DE DISTRRIBUIDORES X1 40 28 25 18 30 35 33 18 33 24
NO. DE AUTOS (en cientos) X2 25 22 18 13 20 28 20 14 23 15

Ventas Nª de
(en miles de Distribuidores Nª de Autos (Y-
Region Y' Y-Y'
$) X2 Y')²
Y X1
31,080
46,425 5,575
1 52 40 25 6
24,900
30,99 -4,99
2 26 28 22 1
36,120
26,01 -6,01
3 20 25 18 1
0,0132
15,885 0,115
4 16 18 13 3
5 30 30 20 32,7 -2,7 7,29
20,611
41,46 4,54
6 46 35 28 6
7 35 33 20 36,3 -1,3 1,69
60,372
16,23 7,77
8 24 18
Gráfica de probabilidad normal 14 9
(la respuesta es Ventas) 18,792
37,335 -4,335
9 99
33 33 23 2
1,5006
95 23,775 1,225
10 90
25 24 15 3
202,37
80
307,11 -0,11
Total 307 284 198 1
Porcentaje

70
60
50
40
30
20

10

1
-10 -5 0 11 5 10
Residuo
a. Desarrolle una ecuación de estimación que permita
predecir ventas dadas en términos de las variables: número
de distribuidores y número de autos registrados.

La ecuación de regresión es
C1 = - 10,2 + 1,20 C2 + 0,345 C3

Coef.
Predictor Coef de EE T P
Constante -10,177 7,534 -1,35 0,219
C2 1,1987 0,5790 2,07 0,077
C3 0,3452 0,8553 0,40 0,699

S = 5,37680 R-cuad. = 82,3% R-cuad.(ajustado) = 77,2%

Y'=a+b1X1+b2X2

ΣY=na+b1ΣX1+b2ΣX2
ΣX1Y=aΣX1+b1ΣX12+b2ΣX1X2
ΣX2Y=aΣX2+b1ΣX1X2+b2ΣX22

ΣY=307
n=10
ΣX1=284
ΣX2=198
ΣX1Y=9382
ΣX12=8536
ΣX1X2=5911
ΣX2Y=6498
ΣX22=4136

307=10a+284b1+198b2
9382=284a+8536b1+5911b2
6498=198a+5911b1+4136b2

La ecuación de regresión es:

Y'= - 10,2 + 1,20X1+ 0,345X2

12
a=- 10,2
b1=1,20
b2= 0,345

b. Interprete la ecuación obtenida, analizando los


coeficientes de regresión estimados: a, b1, b2.

Para dos variables independientes, la fórmula general de la ecuación de regresión


múltiple es:
Y'=a+b1X1+b2X2
X1 (números de distribuidores) y X2 (número de autos): son las variables
independientes.

a: es la intercepción en Y cuyo valor es - 10,2. Esta es la ordenada del punto donde la


gráfica de la ecuación de regresión cruza el eje Y

b1: Es el cambio neto en Y por cada cambio unitario enX1, manteniendo X2


constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.

b2: Es el cambio neto en Y por cada cambio unitario en X2, manteniendo X1,
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión

Los coeficientes de regresión para el numero de distribuidores y el numero de


autos, son positivos esto es a medida que aumenta el número de distribuidores y el
numero de autos, aumentan las ventas por lo tanto es una relacion directa. Por cada
distribuidor que aumente, aumenta 1,20 (en miles de $) en las ventas. La variable
numero de autos también muestra una relacion directa cuanto más número de autos
(en cientos) registrado para cada región mayor serán las ventas esto es por cada
cientos de autos que aumente, las ventas (en miles de $) aumentan 0,345.

c. Calcule e interprete el error estándar de la estimación.

sy.12=ΣY-Y'2n-k+1=202,3710-(2+1)=5,37680
Por la otra fórmula:

sy.12=SSEn-k+1=202,3710-2+1=5,37680 dolares

13
Es difícil determinar cuál es un valor grande y cuál es uno pequeño para el error
estándar.
La distancia promedio de los valores observados al rededor de la ecuación de
regresión es de 5,377 es decir la dispersión de los valores observados es de 5,377.

d. Pruebe la significancia de los coeficientes de regresión


estimados para un nivel de 0.05 (prueba de dos colas).
http://www.tu.tv/videos/grafica-distribucion-t

Gráficadedistribución
T. df=8
0,4

0,3
Densidad

0,2

0,1

0,0
-2,31 0 2,306
X

Utilizando el nivel de significancia 0,05 consulto en el apéndice F para gl=n-2=10-


2=8 nos da 2,306.

H0: ρ = 0 (La correlación en la población es nula o 0)


H1: ρ ≠ 0 (La correlación en la población es diferente de 0).

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 939,73 469,87 16,25 0,002
Error residual 7 202,37 8,91
Total 9 1142,1

Fuente GL SC MC
F
Regresión k SSR MSR=SSR/k
MSR/MSE

14
Error residual n-(k+1) SSE MSE=SSE/n-k+1
Total n-1 SS total

R2=SSRSStotal=939,731142,1=0,823

t=rn-21-r2=

r=0,907
n=10
r2=0,823 =82,3%

t=0,90710-21-0,823=2,5650,421=6,097

El valor calculado t queda en el área de rechazo, de manera que se rechaza la Ho , lo


cual significa que la correlación en la población no es nula, esto indica al gerente de
ventas que definitivamente existe correlación en la población de las ventas con el
numero de distribuidores y número de autos.

e. Utilice la ecuación que se obtuvo en el inciso a) para


predecir las ventas, si en la región hay 38 distribuidores y
hay 800 automóviles.

Y'= - 10,2 + 1,20X1+ 0,345X2


Y'= - 10,2 + 1,2038+ 0,345800=- 10,2 +45,6+276=311,4(Miles de $)

f. Calcule un intervalo de predicción del 90% para el inciso


e).
http://www.scribd.com/doc/29771741/Regresion-multiple
Para determinar t: el número de grados de libertad es n-2=8, el nivel de
confianza es 90%, del apéndice F se obtiene 1,860
Intervalo de Predicción=Y'±tsy.x12

Intervalo de Predicción=311,4±5.377(1,860)

Intervalo de Predicción=311,4±10.001
.
Con un nivel de confianza del 90% El gerente de ventas puede sentirse seguro de
que las ventas estarán en un intervalo que va desde 301,4 hasta 321,4 (miles de $)
con 38 distribuidores y 800 automóviles registrados.

g. ¿Qué porcentaje de la variación total de las Ventas es


explicado por esta ecuación?

15
Ventas Media de Ventas
Region (en miles de $)
(en miles de $) Y
Y-Y (Y-Y)ª
Y

1 52 30,7 21,3 453,69


2 26 30,7 -4,7 22,09
3 20 30,7 -10,7 114,49
4 16 30,7 -14,7 216,09
5 30 30,7 -0,7 0,49
6 46 30,7 15,3 234,09
7 35 30,7 4,3 18,49
8 24 30,7 -6,7 44,89
9 33 30,7 2,3 5,29
10 25 30,7 -5,7 32,49
TOTAL 307 0,0 1142,1

La variación total de las ventas es 1181,1

r2=Variación total-Variación no explicadaVariacion Total

r2=1142,1-202,371 1142,1=0,8228

El 82% de la variación total de las ventas.

h. ¿Usted se encuentra complacido/a con los resultados


obtenidos de este modelo de regresión múltiple?

Si. La regresión múltiple es solo una manera de usar varias variables independientes
para hacer un pronóstico mejor de la variable dependiente.
El análisis de regresión múltiple estudia la forma en que una variable dependiente Y,
se relaciona con dos o más variables independiente
Dicha medida nos la da el coeficiente de determinación R2, que verifica cuanto más
cercano a uno sea su valor, mayor es el grado de asociación lineal que existe entre la
variable dependiente y las independientes o predictoras.
ACTIVIDAD DE APRENDIZAJE 1.5

La compañía de tiendas de abarrotes Mi Comisariato, está


planeando expandir su cadena de almacenes. Para ayudarse
en la elección de lugares donde abrir las nuevas tiendas se
han recabando datos sobre las ventas semanales de cada una
16
de las 23 tiendas de la cadena. Como una ayuda para
explicarse la variabilidad de las ventas semanales, también se
ha recolectado información que describe a cuatro variables
que se cree están relacionadas con las ventas. Las variables
se definen como:

Y -VENTAS: ventas semanales promedio para cada tienda en


miles de dólares.
X1- AUTOS: volumen promedio de tráfico de automóviles por
semana en miles.
X2- ENTRADA: facilidad de entrada/salida media en una escala
de 1 a 100.
X3 –INGRESO ANUAL: ingreso anual promedio por familia en el
área, en miles de $.
X4- DISTANCIA: distancia en millas desde la tienda al
supermercado más cercano.

Los resultados obtenidos en este modelo de regresión


múltiple fueron los siguientes:

Se = 85.59
r2= 0.9579
b0 = 175.371
b1 = -0.028 sb1 = 0.315
b2 = 3.775 sb2 = 1.272
b3 = 1.990 sb3 = 4.51
b4 = 212.407 sb4 = 28.09

En primer lugar, interprete los coeficientes de este modelo de


regresión múltiple, después interprete el error estándar de la
estimación y el coeficiente de determinación y al final realice
una prueba de hipótesis para determinar si las variables
independientes son significativas para este modelo con el 5
% del nivel de significancia.

¿Usted se encuentra complacido/a con los resultados


obtenidos de este modelo de regresión múltiple?

1.- interprete los coeficientes de este modelo de regresión


múltiple.
Para cuatro variables independientes, la fórmula general de la ecuación de regresión
múltiple es:
17
b0 = 175.371
b1 = -0.028
b2 = 3.775
b3 = 1.990
b4 = 212.407

Y'=b0+b1X1+b2X2+b3X3+b4X4

Y'=175.371 -0.028X1+3.775 X2+1.990X3+212.407X4

Y= ventas semanales promedio para cada tienda en miles de dólares.


X1= volumen promedio de tráfico de automóviles por semana en miles.
X2= facilidad de entrada/salida media en una escala de 1 a 100.
X3= ingreso anual promedio por familia en el área, en miles de $.
X4= distancia en millas desde la tienda al supermercado más cercano.
Son las variables independientes.

b0: es la intercepción en Y cuyo valor es 175.371. Esta es la ordenada del punto


donde la gráfica de la ecuación de regresión cruza el eje Y. Es el valor estimado de
las ventas semanales cuando entrada. ingreso anual, distancia son 0.

b1: Es el cambio neto en Y por cada cambio unitario enX1, manteniendo X2, X3, X4,
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.

b2: Es el cambio neto en Y por cada cambio unitario en X2, manteniendo X1, X3, X4
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión
b3: Es el cambio neto en Y por cada cambio unitario en X3, manteniendo X1, X2, X4
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.
b4: Es el cambio neto en Y por cada cambio unitario en X4, manteniendo X1, X2, X3
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.

Los coeficientes de regresión para el volumen promedio de tráfico de automóviles por


semana (en miles) es negativo esto es, conforme aumenta el volumen promedio de
tráfico de automóviles por semana disminuyen las ventas semanales, por tanto se
espera una relación inversa, por cada aumento en una unidad de mil, autos que
transitan en la semana, se espera que las ventas disminuya 0.028 manteniendose
constante entrada. ingreso anual, distancia. Entrada. ingreso anual, distancia, son
positivos esto es a medida que aumenta la facilidad de entrada/salida media en una
18
escala de 1 a 100, ingreso anual promedio por familia en el área, en miles de $ y
distancia en millas desde la tienda al supermercado más cercano. , aumentan las
ventas, por lo tanto es una relación directa. Por cada facilidad de entrada/salida que
aumente, aumenta 3.775 en las ventas manteniendo constantes las demás variables.
Así mismo, por cada ingreso anual de una familia las ventas aumentan 1,990 La variable
distancia también muestra una relacion directa cuanto más distancia haya serán
mayores las ventas esto es por cada milla de distancia, aumenta 212.407 las ventas.

Interprete el error estándar de la estimación.


La distancia promedio de los valores observados al rededor de la ecuación de
regresión es de 85.59 es decir la dispersión o variación de los valores observados
es de 85.59.

Interprete el coeficiente de determinación.


Aproximadamente, el 95,79% de los cambios producidos por las ventas semanales
promedio para cada tienda en miles de dólares son explicadas por los cambios
producidos por el tráfico, entrada, ingreso anual y distancia.

Realice una prueba de hipótesis para determinar si las


variables independientes son significativas para este modelo
con el 5 % del nivel de significancia.
gl= n - (k+1) = 23- (4+1) = 18
gl = 18 Gráfica de distribución
T. df=18
Nivel de significancia = 0,05 0,4

tcrítico = 2,101
0,3
Densidad

0,2

Para Autos: 0,1

t1=b1sb1
0,0
-2,10 0 2,10
H0 : b1 = 0 X

H1 : b1 ≠ 0

t1=-0,0280,315=-0,089

La razón t1 calculada no se encuentra en la región de rechazo No se rechaza la Ho, b1


podría ser igual a cero, la variable auto no es un predictor significativo para las ventas
semanales promedio para cada tienda en miles de dólares. En consecuencia se puede
eliminar del análisis.

Para Entrada:
t2=b2sb2

19
H0 : b2 = 0
H1 : b2 ≠ 0
t2=0,37751,272=0,297

La razón t2 calculada no se encuentra en la región de rechazo. No se rechaza la Ho b2


podría ser igual a cero, la variable entrada no es un predictor significativo para las
ventas semanales promedio para cada tienda en miles de dólares. En consecuencia se
puede eliminar del análisis.

Ingreso anual:
t3=b3sb3

H0 : b3 = 0
H1 : b3 ≠ 0
t1=1,9904,51=0,441

La razón t3 calculada no se encuentra en la región de rechazo. No se rechaza la Ho, b3


podría ser igual a cero, la variable Ingreso anual no es un predictor significativo para
las ventas semanales promedio para cada tienda en miles de dólares. En consecuencia
se puede eliminar del análisis.

t4=b4sb4

H0 : b4 = 0
H1 : b4 ≠ 0

t1=212,40728,09=7,562

La razón t4 calculada se encuentra en la región de rechazo. Se rechaza la Ho, b3 no


podría ser igual a cero, la variable distancia en millas desde la tienda al
supermercado más cercano es un predictor significativo para las ventas semanales
promedio para cada tienda en miles de dólares. En consecuencia no se puede eliminar
del análisis.

ACTIVIDAD DE APRENDIZAJE 1.6

Jorge Mora es el gerente de recursos humanos de una


empresa. Como parte de su reporte anual para el presidente,
se requiere que presente un análisis de los empleados
asalariados. Como hay más que 300 empleados y no tiene
personal para reunir información sobre cada empleado, decide
seleccionar una muestra de 10 empleados. Por cada empleado
registra su salario mensual, el tiempo de servicio en la
compañía, en años, edad del empleado, el género (1 =
masculino, 0 = femenino), y si ocupa un puesto técnico o
20
administrativo. Los trabajos técnicos se codifican como 1 y los
administrativos como 0. La información es la siguiente:
EMPLEADO 1 2 3 4 5 6 7 8 9 10

SALARIO MENSUAL $ 250 400 800 1150 350 480 520 280 300 630

ANTIGÜEDAD (en años) 1 3 5 8 2 4 6 1 2 4


EDAD 25 30 36 44 28 32 34 22 26 33
GÉNERO 0 0 1 1 1 1 0 1 1 1
PUESTO 0 1 1 1 0 0 1 0 0 1

Salario
Antigüeda
Mensua Eda Gener Puest
Empleado d
l d o o
s (en años)
$ X2 X3 X4
X1
Y
1 250 1 25 0 0
2 400 3 30 0 1
3 800 5 36 1 1
4 1150 8 44 1 1
5 350 2 28 1 0
6 480 4 32 1 0
7 520 6 34 0 1
8 280 1 22 1 0
9 300 2 26 1 0
10 630 4 33 1 1

Análisis de regresión: Salario mensual vs. Antigüedad (X₁). C3. C4. C5

La ecuación de regresión es:


Salario mensual (Y)= - 851 - 15,0(X₁) + 41,9 C3 + 123 C4 + 72,1 C5

Coef.
Predictor Coef de EE T P
Constante -850,8 394,9 -2,15 0,084
Antigüedad(X₁) -15,05 51,01 -0,29 0,780
Edad (X2) 41,90 18,86 2,22 0,077
Genero (X3) 123,09 69,01 1,78 0,135
Puesto (X4) 72,08 91,14 0,79 0,465

21
a) Determine la ecuación de regresión usando el salario
mensual como variable dependiente, y las otras variables
como variables independientes.

Coeficientes
Intercepción -850,8247198
Antigüe (X₁) -15,04624089
Edad (X₂) 41,89642041
Género (X₃) 123,0905233
Puesto (X₄) 72,07757589

Y'=a+b1X1+b2X2+b3X3+b4X4

Y'=-850,823-15,046X1+41,896X2+123,091X3+72,078X4

b) Interprete los coeficientes de regresión estimados.

El valor de intercepción en Y “a” cuyo valor es -850,823 Esta es la ordenada del


punto donde la gráfica de la ecuación de regresión cruza el eje Y.

b1: Es el cambio neto en Y por cada cambio unitario enX1, manteniendo X2, X3, X4,
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.

b2: Es el cambio neto en Y por cada cambio unitario en X2, manteniendo X1, X3, X4
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión
b3: Es el cambio neto en Y por cada cambio unitario en X3, manteniendo X1, X2, X4
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.
b4: Es el cambio neto en Y por cada cambio unitario en X4, manteniendo X1, X2, X3
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.

Los coeficientes de regresión para tiempo de servicio en la compañía (en años) es


negativo (-15,046), esto no quiere decir que sea una relación inversa, sino que la
intercepción (-850,823) es negativa y bien alta o sea los dos son negativa por lo tanto la
relacion es directa, mientras más años de servicio tenga mayor es el salario. La edad,
género (masculino o femenino), y puesto técnico o administrativo, son positivos por lo
tanto es una relación directa. Por cada aumento de los años de edad en su empleo,

22
aumenta su salario. Así mismo, a medida que asciende de puesto administrativo
aumenta su salario.

c) Realice una prueba de hipótesis para los coeficientes de


regresión.
¿Consideraría eliminar cualquiera de las variables
independientes? Use el nivel de significancia de 0.1.

NAÁLISIS DE VARIANZA
Valor
Grados de Suma de Promedio de los crítico
libertad cuadrados cuadrados F de F
Regresión 4 674565,79 168641,4479 23,1179 0,00201
Residuos 5 36474,21 7294,841693
Total 9 711040

H0 :b1=b2=b3=b4
H1 :No todas las b son 0

K=4(numero de variable independiente)(grado de libertad del numerador)


Gl= 5 (grado de libertad del denominador [n-(k+1)] )

F= SSRKSSEn-(k-1)
SSR=674565,79
SSE=36474,21
k=4

F= 674565,79436474,2110-(4+1)=168641,457294,842=23,12

El valor crítico de F se obtiene del apéndice G, utilizando la tabla para el nivel de


significancia 0,01 con grado de libertad del numerador de 4 y grado de libertad del
denominador de 5 vamos a la tabla y obtenemos 11,4. La regla de decisión es: No
rechazar la hipótesis nula de que todos los coeficientes de regresión son 0, si el
valor de F es menor o igual que 11,4. Si la F calculada es mayor que 11,4 se rechaza la
hipótesis nula y se acepta la hipótesis alternativa. El valor calculado de F de 23,12
está en la región está en la región de rechazo. Por tanto se rechaza la hipótesis nula
de que todos los coeficientes de regresión múltiple son cero. Se acepta la hipótesis
alternativa, lo que indica que no todos los coeficientes de regresión son cero. Es
lógico que la antigüedad, la edad, el género y el puesto tengan mucho que ver con el
salario mensual.

23
Primero determinaremos el valor crítico para t en el apéndice F para una prueba de
dos colas con 5 grados de libertad n-(k+1) y un nivel de significancia de 0,1 y
obtenemos t=2,015 se rechaza H0 si t es menor que -2,015 o es mayor que 2,015.

Coef.
Predictor Coef de EE T P
Constante -850,8 394,9 -2,15 0,084
Antigüedad(X₁) -15,05 51,01 -0,29 0,780
Edad (X2) 41,90 18,86 2,22 0,077
Genero (X3) 123,09 69,01 1,78 0,1355
Puesto (X4) 72,08 91,14 0,79 0,465

Ahora realizaremos 4 pruebas de hipótesis:


Para la Antigüedad:
H0 : X1 =0
H1 : X1 ≠0
b1=-15,046
sb1=51,01

t=b1-0sb1=-15,04651,01=-0,295
t=2,015
La H0 no se rechaza y se concluye que X1 podría ser igual a cero, la antigüedad en
años de servicio no es un predictor significativo para el salario mensual, en
consecuencia se puede eliminar del análisis
Para la Edad:
H0 : X2 =0
H1 : X2 ≠0

b2=41,90
sb2=18,86

t=b1-0sb1=41,9018,86 =2,22
t=2,015
La H0 se rechaza y se concluye que X2 no es igual a cero, los coeficientes de
regresión para la variable edad no son cero y no se elimina del análisis.

Para el Género:
H0 :X3 =0
H1 : X3 ≠0

b3=123,09
sb3=69,01

t=b1-0sb1=123,09 69,01=1,784 t=2,015

24
La H0 no se rechaza y se concluye que X3 podría ser igual a cero, el género
(masculino o femenino) no es un predictor significativo para el salario mensual, en
consecuencia se puede eliminar del análisis.

Para el Puesto:
H0 :X4 =0
H1 : X4 ≠0

b4=72,08
sb4=91,14
t=b4-0sb4=72,08 91,14=0,791
t=2,015

La H0 no se rechaza porque 0,791 está en la zona de no rechazo y se concluye que X4


podría ser igual a cero, el el puesto (técnico o administrativo) no es un predictor
significativo para el salario mensual, en consecuencia se puede eliminar del análisis.

d) Si su conclusión para la parte c) fue suprimir una variable


independiente, efectúe de nuevo el análisis sin esa variable.
e)
Eliminaremos la variable independiente con el valor t absoluto más pequeño, o el
valor p más grande, y volveremos a determinar la ecuación de regresión con las tres
variables restantes.

Eliminaremos primero la variable antigüedad:

Salario
Empleado
Mensual Edad Genero Puesto
$ X1 X2 X3
Y
1 250 25 0 0
2 400 30 0 1
3 800 36 1 1
4 1150 44 1 1
5 350 28 1 0
6 480 32 1 0
7 520 34 0 1
8 280 22 1 0
9 300 26 1 0
10 630 33 1 1

La ecuación de regresión es
C1 = - 748 + 36,8 X1 + 126 X2 + 69,6 X3

25
Coef.
Predictor Coef de EE T P
Constante -747,7 169,4 -4,41 0,004
X1 36,788 6,868 5,36 0,002
X2 126,49 62,65 2,02 0,090
X3 69,57 83,55 0,83 0,437

Para la Edad:
H0 : X1 =0
H1 : X1≠ 0

X1=36,788
sb1=6,868

t=b1-0sb1=36,788 6,868=5,356
t=2,015
La H0 se rechaza y se concluye que X1 no es igual a cero, los coeficientes de
regresión para la variable edad no son cero y no se elimina del análisis.

Para el Género:
H0 : X2 =0
H1 : X2 ≠0

b2=126,49
sb2=62,65

t=b2-0sb2=126,49 62,65=2,019
t=2,015
La H0 se rechaza y se acepta la hipótesis alternativa, se concluye que X2 no podría
ser igual a cero, el género (masculino o femenino) es un predictor significativo para
el salario mensual, en consecuencia no se puede eliminar del análisis.

Para el Puesto:
H0 :X3 =0
H1 : X3 ≠0

b3=69,57
sb3=83,55
t=b3-0sb3= 69,57 83,55=0,833
t=2,015

La H0 no se rechaza porque 0,833 está en la zona de no rechazo y se concluye que X3


podría ser igual a cero, el puesto (técnico o administrativo) no es un predictor
significativo para el salario mensual, en consecuencia se puede eliminar del análisis.
26
Eliminaremos la variable independiente con el valor t absoluto más pequeño, o el
valor p más grande, y volveremos a determinar la ecuación de regresión con las dos
variables restantes.

La ecuación de regresión es:

Salario = - 836 + 41,3 edad + 101 genero

Coef.
Predictor Coef de EE T P
Constante -835,8 129,4 -6,46 0,000
edad 41,319 4,097 10,09 0,000
genero 101,30 53,64 1,89 0,101

Para la Edad:
H0 : X1 =0
H1 : X1≠ 0

X1=41,319
sb1=4,097

t=b1-0sb1=41,319 4,097=10,085
t=2,015
La H0 se rechaza y se concluye que X1 no es igual a cero, los coeficientes de
regresión para la variable edad no son cero y no se elimina del análisis.

Para el Género:
H0 : X2 =0
H1 : X2 ≠0

b2=101,30
sb2=53,64

t=b2-0sb2=101,3053,64=1,888
t=2,015
La H0 no se rechaza y no se acepta la hipótesis alternativa, se concluye que X2
podría ser igual a cero, el género (masculino o femenino) es un predictor no
significativo para el salario mensual, en consecuencia se debe eliminar esta variable.

27
e) Dé un intervalo de confianza de 90% para el salario si la
antigüedad del servicio en la compañía es de 7 años, la edad
del empleado es de 55 años, es un hombre, y desempeña el
cargo técnico.

Salario
Antigüedad
Emplead Mensual Edad Genero Puesto
(en años) Y' Y-Y' (Y-Y')²
o $ X2 X3 X4
X1
Y

1 250 1 25 0 0 181,531 68,469 4688


2 400 3 30 0 1 432,997 -32,997 1088,8
3 800 5 36 1 1 777,372 22,628 512,026
4 1150 8 44 1 1 1067,4 82,598 6822,43
5 350 2 28 1 0 415,264 -65,264 4259,39
6 480 4 32 1 0 552,756 -72,756 5293,44
7 520 6 34 0 1 555,443 -35,443 1256,21
8 280 1 22 1 0 178,934 101,066 10214,3
9 300 2 26 1 0 331,472 -31,472 990,487
10 630 4 33 1 1 666,73 -36,73 1349,09
TOTaL 5160 36 310 7 5 5159,9 0,099 36474,2

Y'=-850,823-15,0467+41,89655+123,0911+72,0781=1543,304

Para determinar t: el número de grados de libertad es 5 grados de libertad n-


(k+1), el nivel de confianza es 90%, del apéndice F se obtiene 2,015.

sy.x123=ΣY-Y'2n-k-1

sy.x123=36474,25=85,41

Intervalo de Confianza=Y'±tsy.x123
Intervalo de Confianza=1543,304±2,015(85,41)
Intervalo de Confianza=1543,304±172,1

28
¿
T
i
e Con un nivel de confianza del 90% El gerente de Recursos Humanos puede
n sentirse seguro de que el salario mensual de un empleado con una antigüedad del
e servicio en la compañía es de 7 años, la edad del empleado es de 55 años, es un
hombre, y desempeña el cargo técnico, estará en un intervalo que va desde
q 1371,2 hasta 1715,4.
u
e f) Después de haber hecho la regresión, se descubrió que
en realidad se quería codificar al Hombre con 0 y a la
v Mujer con 1; y también se quería codificar con 0 a los
o Técnicos y con 1 a los administrativos.
l
v
e
Empleado
r Salario
Mensual Antiguedad Edad Género Puesto
s $ X1 X2 X3 X4
e Y
1 250 25 25 1 1
a 2 400 30 30 1 0
3 800 36 36 0 0
r 4 1150 44 44 0 0
e 5 350 28 28 0 1
a 6 480 32 32 0 1
7 520 34 34 1 0
l
8 280 22 22 0 1
i 9 26 0 1
300 26
z 10 630 33 33 0 0
a
r
l La ecuación de regresión es
a salario = - 656 - 15,0 antiguedad + 41,9 edad - 123 Genero - 72,1 Puesto

r
Coef.
e Predictor Coef de EE T P
g Constante -655,7 450,3 -1,46 0,205
r Antigüedad -15,05 51,01 -0,29 0,780
Edad 41,90 18,86 2,22 0,077
e
Genero -123,09 69,01 -1,78 0,135
s Puesto -72,08 91,14 -0,79 0,465
i
ó
S = 85,4098 R-cuad. = 94,9% R-cuad.(ajustado) = 90,8%
n
? Análisis de varianza

S
29
i
s
u
Fuente GL SC MC F P
Regresión 4 674566 168641 23,12 0,002
Error residual 5 36474 7295
Total 9 711040

Fuente GL SC sec.
antiguedad 1 585901
edad 1 65447
Genero 1 18655
Puesto 1 4563

NO. La fórmula sería:

salario = - 656 - 15,0 antigüedad + 41,9 edad - 123 Genero - 72,1 Puesto

y si en nuestros cálculos solo consideraríamos solo salario y edad la fórmula sería:

Salario = - 800 + 42,4 Edad

30

Anda mungkin juga menyukai