Anda di halaman 1dari 29

EJERCICIOS DE REGRESIN LINEAL SIMPLE

PRESENTAN: PAOLA KRYSTHEL NORATO ESTEVEZ. HCTOR JESS ROSAS VASQUZ. JSSICA HAYDE GARCA SILVARN. HUERTA GRANILLO AMARANTA.

PROFESOR: DR. MARIO LEONCIO ARRIOJA.

FECHA: 22/FEBRERO/2013

EJERCICIO 1:
Una compaa de seguros considera que el nmero de vehculos (x) que circulan por una determinada autopista a ms de 120 km/h, puede ponerse en funcin del nmero de accidentes (y) que ocurren en ella. Durante 12 das obtuvo los siguientes resultados:

Xi 300.000 554.000 856.000 948.000 231.000 720.000 483.000 321.000 533.000 731.000 482.000 211.000

Yi 3.000 5.000 9.000 10.000 2.000 8.000 4.000 3.000 5.000 8.000 4.000 1.000

Diagrama de dispersin:

diagama de dispersion
12.000 10.000 8.000 6.000 4.000 2.000 0.000 0.000 200.000 400.000 600.000 800.000 1000.000

El diagrama anterior muestra que existe una relacin en el numero de vehculos que transitan con el numero de accidentes que ocurren.

Mediante la realizacin de diversos clculos podremos obtener la ecuacin del modelo:


X 90000.000 306916.000 732736.000 898704.000 53361.000 518400.000 233289.000 103041.000 284089.000 534361.000 232324.000 44521.000 4031742.000 XiYi 900.000 2770.000 7704.000 9480.000 462.000 5760.000 1932.000 963.000 2665.000 5848.000 1928.000 211.000 40623.000

Ecuacin del modelo: Yest= -1.128 + 0.012 Xi

Despus de obtener la ecuacin de nuestro modelo podemos calcular el valor estimado para Y y tambin los errores.
Yest 2.430 5.441 9.022 10.113 1.611 7.410 4.599 2.679 5.192 7.540 4.588 1.374 eij 0.570 -0.441 -0.022 -0.113 0.389 0.590 -0.599 0.321 -0.192 0.460 -0.588 -0.374 eij 0.325 0.195 0.000 0.013 0.151 0.348 0.359 0.103 0.037 0.211 0.345 0.140

Analizaremos si el modelo es funcional o no, esto se determina si cumple o no con los siguientes supuestos.

diagama de dispersion
12.000 10.000 8.000 6.000 4.000 2.000 0.000 0.000 200.000 400.000 600.000 800.000 1000.000

En esta grafica se que si existe aleatoriedad en la seleccin de los datos, cumplindose de esta manera el primer supuesto.

aleatoriedad
0.800 0.600 0.400 0.200 0.000 0.000 -0.200 -0.400 -0.600 -0.800 2.000 4.000 6.000 8.000 10.000 12.000 14.000

En esta grafica nos damos cuenta no hay evidencias de falta de aleatoriedad.

homocedasticidad
1.000 0.500 0.000 0.000 -0.500 -1.000

2.000

4.000

6.000

8.000

10.000

12.000

En este grafico podemos observar que no hay evidencias de falta de homoscedasticidad.

normalidad
120.0000 100.0000 80.0000 60.0000 40.0000 20.0000 0.0000 -0.8000-0.6000-0.4000-0.2000 0.0000 0.2000 0.4000 0.6000 0.8000

Este grafico demuestra que no existe falta de normalidad de esta manera se cumple el cuarto supuesto.

Coeficiente de determinacin.
CME -1.814 SCR 91.437 SCT 93.667 r 0.976 Syy rajustado 93.667 0.974

El r2 es el porcentaje de variabilidad de Y que puede ser controlado por el modelo. Nuestro modelo tiene un .976 de coeficiente de determinacin, en donde podemos confirmar que la humedad ambiente afecta en un 97% el porcentaje de eficiencia por lo que podemos concluir que nuestro modelo no es muy adecuado debido a que existe otra u otras variables afectando en un 3%.

El r ajustado es coeficiente de correccin de la medida en que el tiempo de operacin en la eficacia de extraccin, obteniendo un resultado de 97.4%

Para la realizacin de los siguientes anlisis a nuestro modelo ocuparemos un =.3 teniendo de esta manera un nivel del 70% de confiabilidad en los resultados, este valor fue establecido de esta manera debido a que queremos establecer un patrn de tiempo necesario para realizar la operacin, buscando perder el, menor tiempo posible debido a que si planeamos una cantidad de tiempo errnea para alcanzar la meta, esto se refleja en prdida econmica para la empresa. Anlisis de la varianza Con esta tcnica analizaremos si el modelo es funcional.
anlisis de varianza grados de cuadrado libertad medio 1.000 10.000 11.000 91.437 0.223

fuente de variacin Regresin Residual Total

suma de cuadrados 91.437 2.230 93.667

F0 410.122

Tablas 1.195

En donde nuestro valor de F0 es mayor al valor de las con esto podemos considerar que nuestro modelo es aceptable.

Estimacin por intervalos. Tambin nos permitir fijar rango entre los cuales obtendremos el valor estimado.

Para y .
intervalo de confianza para el parmetro error de estimacin 0.011 < < error de estimacin -1.913 < <

0.001 0.012 0.786 -0.342

Concluyendo que los valores de se encuentran en un rango de 0.011y 0.012 y los valores de en un rango de -1.913 y -0.342

Para la varianza.
intervalo de confianza para la varianza -1.248 < <

-3.257

La varianza se encuentra entre -1.248 y -3.257

Para el valor futuro, en este caso estamos pronosticando para los 12 das en los que se hicieron las observaciones

Xo=
Y estimada

783.000 8.1567

intervalo de confianza para el valor futuro error de estimacion= 6.935 < E(Yi) <

1.222 9.378

Este anlisis nos muestra que al estimar los 783 encontraremos un resultado de 81.5% sin embargo contamos con un error, siendo nuestro valor uno entre 6.93% y 9.37% siendo un error de estimacin de 1.222

EJERCICIO 2:

En un laboratorio de la industria papelera Paper Marker se quiere investigar la forma en la que se relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel), mediante un muestreo aleatorio simple se obtuvieron los siguientes datos

Porcentaje de Resistencia fibra Xi Yi 4 6 8 10 12 14 16 18 20 22 24 26 28 30 134 145 142 149 144 160 156 157 168 166 167 171 174 183

Diagrama de dispersin:

Dispersion
200 150 100 50 0 0 10 20 30 40

En este diagrama podemos observar que si existe una relacin entre la resistencia con el porcentaje de fibra. Clculos realizados

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 totales: Medias:

Porcentaje de Resistencia fibra Xi Yi 4 6 8 10 12 14 16 18 20 22 24 26 28 30 238 17 134 145 142 149 144 160 156 157 168 166 167 171 174 183 2216 158.29

X2 16 36 64 100 144 196 256 324 400 484 576 676 784 900 4956

XiYi 536 870 1136 1490 1728 2240 2496 2826 3360 3652 4008 4446 4872 5490 39150

n Sxx Sxy 14 910 1478 Obteniendo la ecuacin de Y estimada Yest= 759.49

1.62 (-35.36)

130.67 X

Con la frmula anterior podemos calcular el valor esperado de Y al igual que los errores

Yest 137.17 140.42 143.67 146.92 150.16 153.41 156.66 159.91 163.16 166.41

eij -3.17 4.58 -1.67 2.08 -6.16 6.59 -0.66 -2.91 4.84 -0.41

eij" 10.06 20.98 2.78 4.34 38.01 43.39 0.44 8.47 23.44 0.17

169.65 172.90 176.15 179.40

-2.65 -1.90 -2.15 3.60 0.00

7.05 3.62 4.63 12.96 180.33

Para comprobar algunos supuestos se realiza el anlisis de suma de cuadrados de los residuales. eij -3.17 4.58 -1.67 2.08 -6.16 6.59 -0.66 -2.91 4.84 -0.41 -2.65 -1.90 -2.15 3.60 0.00 eij 10.06 20.98 2.78 4.34 38.01 43.39 0.44 8.47 23.44 0.17 7.05 3.62 4.63 12.96 180.33 Zi -0.82 1.18 -0.43 0.54 -1.59 1.70 -0.17 -0.75 1.25 -0.10 -0.68 -0.49 -0.56 0.93

Obtencin de graficas residuales: En la siguiente grafica se muestra la variabilidad existente entre los datos demostrando que no existe falta de aleatoriedad.

Aleatoridad
2.00 1.50 1.00 0.50 0.00 -0.50 0 -1.00 -1.50 -2.00 5 10 15

En el siguiente supuesto es que las varianzas deben ser iguales (tambin conocido como homoscedasticidad) En este grafico podemos observar que no hay evidencias de falta de homoscedasticidad.

Homosedasticidad
8.00 6.00 4.00 2.00 0.00 -2.00 0.00 -4.00 -6.00 -8.00 50.00 100.00 150.00 200.00

Otro de los supuestos nos dice que las condiciones deben ser normales En esta grafica podemos observar que no existe falta de normalidad. Grafica de Normalidad:

Normalidad
120.00 100.00 80.00 60.00 40.00 20.00 0.00 -2.00 -1.50 -1.00 -0.50 0.00 0.50 1.00 1.50 2.00

Coeficiente de correlacin Es el porcentaje de variabilidad de Y que puede ser controlado por el modelo. El modelo nos muestra un coeficiente de correlacin de 93%, donde nos R indica que el porcentaje de fibra afecta un 93% a la resistencia y que 0.93 nuestro modelo es muy bueno. Rajustado El Rajustado es coeficiente de correccin de la medida en que afecta en porcentaje de fibra con la resistencia. 0.92 Para poder realizar el anlisis de nuestro modelo ocuparemos un =.o7 teniendo de esta manera un nivel del 93% de confiabilidad en los resultados, buscando tener resultados precisos para establecer la cantidad de fibra optimo necesaria para el papel y elaborar un modelo de produccin. Intervalos de confianza: Una vez asignado el =.o7 se calcula lo siguiente: = 0.07 1- X1-/, n-2 0.93 4.78 /2 0.035 t/, n-2 1.99

X/, n-2 22.23

Mediante la tabla de ANDEVA podemos evaluar si nuestro modelo es adecuado. A continuacin en la siguiente tabla se muestran nuestros resultados obtenidos. Tabla ANDEVA: Fuente de variacin Regresin Residual Total grados Suma de de cuadrados libertad 2400.53 1 180.33 12 2580.86 13 Cuadrado F medio 2400.53 15.03 159.75 tabla 3.96

Como se muestra en la tabla podemos observar que el valor F0 es mayor al valor de las tablas se considera que el modelo es bueno.

Estimacin por intervalo. Esto nos permitir verdadero valor. tener idea de lo cerca que est nuestra estimacin del

intervalo de confianza para el para metro Error de estimacin 0.26 << 1.37 1.88

Una vez obtenidos los resultados, podemos darnos cuenta de que los valores de pueden variar de 1.37 a 1.88y para de 129.43 y 131.92

Error de estimacin 1.24 << 129.43 131.92 intervalo de confianza para la varianza 37.74 8.11 << 37.74 En la varianza podemos observar que nuestro modelo se encuentra en un rango de 8.11 y 37.74 de su valor.

intervalo de confianza para el Para el valor futuro, en este caso estamos pronosticando para el valor de 20% del valor futuro porcentaje de fibra. Error de estimacin 7.7308965 155.43 <E(Yi)< 170.89 X= 20 Yest= 163.16

intervalo de confianza para la respuesta media Error de estimacin 2.20 < E(Yi) 160.96 < 165.36

Con este modelo obtuvimos una resistencia de 163.16, aunque debemos considerar que existe un error de estimacin de 2.20 y que nuestro valor puede estar entre 160.96 y 165.36.

EJERCICIO 3: La empresa Cafimex el ingeniero encargado de la coordinacin del almacn se pudo percatar que se est almacenando caf en un lugar donde no se tiene control sobre la humedad. Se realizan mediciones la humedad existente en el lugar de almacenamiento y la humedad en las muestras del caf durante 12 das mediante un muestreo sistemtico, este muestreo se determin as debido a que se tiene el inters de analizar los elementos de una manera uniforme (constante) para apreciar la manera en que es afectado el caf por la humedad expresando los resultados en la siguiente tabla (la cantidad de humedad esta expresada en porcentaje).

Diagrama de dispersin

diagama de dispersion
20.000 15.000 10.000 5.000 0.000 0.000 10.000 20.000 30.000 40.000 50.000 60.000 70.000

El diagrama anterior muestra una relacin existente entre la humedad de la muestra y la humedad en el ambiente.

Clculos: Xi 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000 11.000 12.000 Total media 42.000 35.000 50.000 43.000 48.000 62.000 31.000 36.000 44.000 39.000 55.000 48.000 533.000 44.417 Yi 12.000 8.000 14.000 9.000 11.000 16.000 7.000 9.000 12.000 10.000 13.000 11.000 132.000 11.000 X 1764.000 1225.000 2500.000 1849.000 2304.000 3844.000 961.000 1296.000 1936.000 1521.000 3025.000 2304.000 XiYi 504.000 280.000 700.000 387.000 528.000 992.000 217.000 324.000 528.000 390.000 715.000 528.000

24529.000 6093.000

n 12.000

Sxx 854.917

Sxy 230.000

-0.950

0.269

Obteniendo la ecuacin de nuestro modelo: Yest= -0.950 + 0.269 Xi

A travs de la frmula anterior podemos calcular el valor esperado para Y as como tambin los errores existentes. Yest 10.350 8.467 12.502 10.619 11.964 15.730 7.390 8.736 10.888 9.543 13.847 11.964 total eij 1.650 -0.467 1.498 -1.619 -0.964 0.270 -0.390 0.264 1.112 0.457 -0.847 -0.964 0.000 eij 2.723 0.218 2.244 2.621 0.929 0.073 0.152 0.070 1.237 0.209 0.718 0.929 12.123

Para comprobar algunos supuestos se realiza el anlisis se analiza la suma de cuadrados residuales eij 1.650 -0.467 1.498 -1.619 -0.964 0.270 -0.390 0.264 1.112 0.457 -0.847 -0.964 0.000 eij 2.723 0.218 2.244 2.621 0.929 0.073 0.152 0.070 1.237 0.209 0.718 0.929 12.123 zi 1.499 -0.424 1.360 -1.470 -0.876 0.245 -0.355 0.240 1.010 0.415 -0.770 -0.876 0.000

Analizaremos si cumple con los supuestos este modelo mediante grficas.

aleatoriedad
2.000 1.500 1.000 0.500 0.000 0.000 -0.500 -1.000 -1.500 -2.000 2.000 4.000 6.000 8.000 10.000 12.000 14.000

Esta grafica nos muestra que se cumple el primer supuesto el modelo funciona si la variable dependiente es aleatoria. En esta grafica se observa la variabilidad existente entre los datos demostrando que no existe falta de aleatoriedad

linealidad
18.000 16.000 14.000 12.000 10.000 8.000 6.000 4.000 2.000 0.000 30.000 35.000 40.000 45.000 50.000 55.000 60.000 65.000

El segundo supuesto que debe cumplirse para que el modelo sea adecuado nos dice que la relacin entre las variables debe ser lineal Este grafico podemos observar que existe un modelo lnea en donde X crece, esto significa que nuestro modelo tiene un

buen ajuste.

homocedasticidad
2.000 1.000 0.000 0.000 -1.000 -2.000

El cuarto supuesto que debe cumplirse es que las varianzas deben ser iguales (tambin conocido como homoscedasticidad)
15.000 20.000

5.000

10.000

En este grafico podemos observar que no hay evidencias de falta de homoscedasticidad.

normalidad
120.0000 100.0000 80.0000 60.0000 40.0000 20.0000 0.0000 -2.0000 -1.0000 0.0000 1.0000 2.0000

El ltimo supuesto nos dice que las condiciones deben ser normales Este grafico demuestra que no existe falta de normalidad.

Coeficiente de determinacin. R 0.836 modelo.

Es el porcentaje de variabilidad de Y que puede ser controlado por el

Nuestro modelo tiene un 83.6 de coeficiente de determinacin, en donde podemos confirmar que la humedad ambiente afecta en un 83.6 % en la humedad de la muestra. Rajustado El Rajustado es coeficiente de correccin de la medida en que afecta 0.820 la humedad ambiental en la humedad de la muestra, este anlisis tiene en cuenta el tamao del conjunto de datos.

Para la realizacin de los diferentes anlisis a nuestro modelo ocuparemos un =.10 teniendo de esta manera un nivel del 90% de confiabilidad en los resultados, este valor fue establecido de esta manera debido a que no podemos arriesgar mucha variacin en nuestros resultados, el propsito del modelo es que a travs de este se pueda crear un estndar con poca variabilidad existente obteniendo la cantidad de humedad en la muestra deseada.

Anlisis de la varianza Es una tcnica que nos permite evaluar que tan adecuado es nuestro modelo anlisis de varianza grados fuente de suma de de variacin cuadrados libertad Regresin 61.877 1.000 Residual 12.123 10.000 Total 74.000 11.000 cuadrado F0 medio 61.877 1.212 51.043 Tablas 3.285

En donde si el valor de F0 es mayor al valor de las tablas se considera que el modelo es bueno. Con los clculos realizados en la tabla anterior podemos concluir que nuestro modelo es bueno.

Estimacin por intervalos. Esto nos permitir tener idea de lo cerca que est nuestra estimacin del verdadero valor. Tambin nos permitir saber con precisin del valor estimado.

Para y . intervalo de confianza para el parmetro error de estimacin 0.201 error de estimacin -3.752

< <

0.068 0.337 2.803 1.853

< <

Al analizar esta tabla podemos decir que los valores de pueden variar de 0.201 a 0.068 y para de -3.752 a 1.853

Para la varianza. intervalo de confianza para la varianza -0.541 < <

-2.512

La varianza que tendremos en nuestro modelo est en un rango de -.541 a -2.512 su valor.

Para el valor futuro, en este caso estamos pronosticando para el valor de 49% de humedad en el ambiente Xo= 49.000 Y estimada 12.2331

intervalo de confianza para el valor futuro error de estimacin= 8.561 < E(Yi) <

3.672 15.905

Esta tabla nos indica que la prediccin que podemos hacer con respecto al valor de 49% se encontrara en un rango de 8.561 a 15.905, es decir de nuestro valor estimado por el modelo de 12.33 3.672.

EJERCICIO 4: La empresa de procesadores de computadora CompuSyst requiere estimar los gastos generales basndose en el nivel de produccin de los procesadores ltimamente elaborados. Con el objeto de establecer una ecuacin que establezca esta relacin, se recabo informacin sobre los gastos generales mediante un muestreo aleatorio entre las 12 empresas existentes en la repblica mexicana se decidi realizar este tipo de muestreo debido a que estas 12 plantas cuentan con el mismo nmero de maquinaria para realizar los procesadores y cuentan con caractersticas muy similares para desarrollar el trabajo no teniendo ventaja una sobre otra, suponindose que las plantas que sean elegidas para el estudio arrojaran datos muy similares a que si se tomara en cuenta alguna de las plantas no usadas en ese estudio. Los gastos estn expresados en miles de pesos y al igual que las unidades producidas, en diferentes plantas en el mes de diciembre, con las que cuenta la compaa, en base a esa informacin:

PLANTA

GASTOS UNIDADES GENERALES PRODUCIDAS (MILES DE PESOS) 15 18 12 16 13 10 11 14 105 130 90 120 92 60 80 100

1 2 3 4 5 6 7 8

Diagrama de dispersin

140 120 100 80 60 40 20 0 0 5 10 15 20

Este diagrama nos permite afirmar que existe una dependencia entre las variables.

Clculos: Xi 15 18 12 16 13 10 11 14 109 13.625 Yi 105 130 90 120 92 60 80 100 777 97.125 Xi 225 324 144 256 169 100 121 196 1535 XiYi 1575 2340 1080 1920 1196 600 880 1400 10991

totales medias

n 8

Sxx 49.875

Sxy 404.375

8.10776942 -13.34335

Mediante estas operaciones nos es posible determinar nuestra ecuacin del modelo Yest= -13.34335 + 8.10776942 Xi

Y a travs de la frmula podemos calcular los valores esperados para Y al igual que el error. Yest 108.27 132.60 83.95 116.38 92.06 67.73 75.84 100.17 TOTAL eij -3.27 -2.60 6.05 3.62 -0.06 -7.73 4.16 -0.17 0.00 eij 10.71 6.74 36.60 13.10 0.00 59.82 17.29 0.03 0.00

Para comprobar algunos supuestos se realiza el anlisis de suma de cuadrados de los residuales. eij -3.2732 -2.5965 6.0501 3.6190 -0.0576 -7.7343 4.1579 -0.1654 0.0000 eij 10.7137 6.7418 36.6040 13.0975 0.0033 59.8200 17.2881 0.0274 144.2957 zi -0.6675 -0.5295 1.2337 0.7380 -0.0118 -1.5771 0.8479 -0.0337

Obtencin de graficas residuales: En la siguiente grafica se muestra la variabilidad existente entre los datos demostrando que no existe falta de aleatoriedad.

Aleatoriedad
2.0000 1.0000 0.0000 -1.0000 -2.0000 15 18 12 16 13 10 11 14

En el siguiente supuesto tenemos que observar si hay homoscedasticidad, es decir, si las varianzas son iguales. En este grafico podemos observar que no hay evidencias de falta de homocedasticidad.

Homoscedasticidad
1.5000 1.0000 0.5000 0.0000 -0.5000 -1.0000 -1.5000 -2.0000 50 60 70 80 90 100 110 120 130 140

En esta grafica podemos observar que no existen evidencias de falta de normalidad. Grafica de Normalidad:

Normalidad
100 80 60 40 20 0 -2 -20 -1.5 -1 -0.5 0 0.5 1 1.5

Coeficiente de correlacin Es el porcentaje de variabilidad de Y que puede ser controlado por el modelo. R 0.9578 El modelo nos muestra un coeficiente de correlacin de 95.78%, donde nos indica que el porcentaje de fibra afecta un 95.78% a las unidades producidas y que nuestro modelo es muy bueno. Rajustado 0.9508 El Rajustado es coeficiente de correccin de la medida en que afecta los gastos generales a las unidades producidas.

Para poder realizar el anlisis de nuestro modelo ocuparemos un =0.1 teniendo de esta manera un nivel del 90% de confiabilidad en los resultados, buscando tener resultados precisos para establecer la cantidad de dinero para producir las unidades de productos necesarias minimizando los gastos y elaborar un modelo de produccin.

Intervalos de confianza: Una vez asignado el =0.1 se calcula lo siguiente: = /2= 1-= t/,n-2 X/,n-2 X1-/,n2 0.1 0.05 0.9 1.9432 12.5916 1.6354

Mediante la tabla de ANDEVA podemos evaluar si nuestro modelo es adecuado. A continuacin en la siguiente tabla se muestran nuestros resultados obtenidos. Tabla ANDEVA: grados fuente de suma de de variacin cuadrados libertad Regresin 3278.5793 1 Residual 144.2957 6.0000 Total 3422.8750 7.0000 cuadrado F0 medio Tablas

3278.5793 136.3275 3.7759 24.0493

Como se muestra en la tabla podemos observar que el valor F0 es mayor al valor de las tablas se considera que el modelo es bueno. Estimacin por intervalo. Esto nos permitir verdadero valor. tener idea de lo cerca que est nuestra estimacin del

error de estimacin 1.3493 < 6.7584 < 9.4571 error de estimacin -17.1547

3.8114 < < -9.5320

Una vez obtenidos los resultados, podemos darnos cuenta de que los valores de pueden variar de 6.7584 a 9.4571 para de -17.1547 y -9.5320.

intervalo de confianza para la varianza 7.64175339 < < 58.8374777 En la varianza podemos observar que nuestro modelo se encuentra en un rango de 7.64 y 58.83 de su valor.

intervalo de confianza para el valor futuro error de estimacin= 10.2017448 81.8559 < E(Yi) < 102.2594 Xo= 13 Y estimada 92.0576 Para el valor futuro, en este caso estamos pronosticando para el valor de 13% del los gastos.

intervalo de confianza para la respuesta media error de estimacin= 3.47308738 88.5846 < E(Yi) < 95.5307 Con este modelo obtuvimos unidades producidas de 92.0576, aunque debemos considerar que existe un error de estimacin de 3.47 y que nuestro valor puede estar entre 88.5846 y 95.5307.

C:\Users\amaranta\Downloads\AmarantaCorregido.xlsx