Anda di halaman 1dari 18

Actividad Unidad 3.

REGRESIN Y DETERMINACIN

Integrantes:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD


ESCUELA DE CIENCIAS BSICAS TECNOLOGA E INGENIERA (ECBTI)
CURSO DE ESTADSTICA DESCRIPTIVA
ABRIL DE 2016

INTRODUCCIN

La estadstica descriptiva y el anlisis de datos tienen como objetivo ordenar cierta


cantidad de datos con el fin de adquirir el mximo de informacin y orientar la
investigacin que se est realizando mediante numerosas herramientas, una de
ellas es la regresin lineal.
Esta tcnica estadstica es utilizada para estudiar la relacin entre variables tanto
en el caso de slo dos variables (regresin simple) como en el de ms de dos
variables (regresin mltiple), a nivel general, el anlisis de regresin lineal puede
utilizarse para explorar y cuantificar la relacin entre una variable dependiente y
una o ms independientes con el fin de desarrollar un modelo matemtico lineal
con fines predictivos.
En el presente trabajo, se analizaron los datos obtenidos de diferentes situaciones
mediante regresin lineal (simple y mltiple) desarrollndose sus respectivos
modelos matemticos y coeficientes de correlacin y determinacin, concluyendo
en cada uno de los ejercicios presentados si el modelo desarrollado es confiable o
no a la hora de realizar una prediccin del comportamiento de los datos.

JUSTIFICACIN

Cuando se lleva a cabo una recoleccin de datos con fines estadsticos el paso a
seguir es ordenarlos por variables y analizar el comportamiento y relacin entre
cada una de stas, para ello es importante determinar el modelo matemtico que
ms se acerque a ese comportamiento. Uno de los mtodos para desarrollar esta
ecuacin es la regresin lineal, la cual se puede realizar con ayuda de un software
por ejemplo Microsoft Excel; pero no todas las veces el modelo obtenido es el ms
acertado, por eso tambin es importante determinar los coeficientes de correlacin
(r, se encuentra entre -1 y 1) el cual establece una medida del grado de asociacin
lineal entre las variables dependiente e independiente(s) y de determinacin (R2,
se encuentra entre 0 y 1) el cual determina la calidad del modelo para representar
los resultados y la proporcin de variacin de los resultados que pueden
explicarse mediante el modelo. Lo explicado anteriormente fue lo que se analiz
en cada uno de los ejercicios propuestos.

OBJETIVOS

Objetivo General
Desarrollar en cada uno de los ejercicios propuestos el modelo matemtico que
represente el comportamiento de los datos presentados mediante regresin lineal
simple y mltiple (si es el caso) y determinar la confiabilidad de dicho modelo.

Objetivos Especficos

Realizar los correspondientes diagramas de dispersin que relacionen las


variables.
Encontrar el modelo matemtico lineal que permite predecir el efecto de una
variable sobre la otra con ayuda de Microsoft Excel.
Determinar con ayuda del mismo software los coeficientes de determinacin y
correlacin correspondientes a cada modelo.
Concluir teniendo en cuenta los anteriores coeficientes la confiabilidad del
modelo encontrado.

SOLUCIN LABORATORIO

1. El rendimiento del producto de un proceso qumico est relacionado con la


temperatura de operacin del proceso. Se desea establecer la relacin que
existe entre la pureza (y) del oxgeno producido y el porcentaje de
hidrocarburo (x) que est presente en el condensador principal en un proceso
de destilacin, de acuerdo con los siguientes datos:

a. Realice el diagrama
el tipo de asociacin
El
diagrama
es el siguiente:

de

X
Y
(% de
(Purez
Hidrocarbur
a)
os)
0,99
90,01
1,02
89,05
1,15
91,43
1,29
93,74
1,46
96,73
1,36
94,45
0,87
87,59
1,23
91,77
1,55
99,42
1,4
93,65
1,19
93,54
1,15
92,52
0,98
90,56
1,01
89,54
1,11
89,85
1,2
90,39
1,26
93,25
1,32
93,41
1,43
94,98
0,95
87,33

de dispersin y determine
entre las variables.
dispersin de las variables

Ejercicio 1
105
100
95
Pureza

90
85
80
0.8

0.9

1.1

1.2

1.3

1.4

1.5

1.6

% de Hidrocarburos

Figura 1: Diagrama de dispersin Ej. 1

Gracias a la funcin lnea de tendencia en Excel se determin la mejor


asociacin entre las variables la cual es una funcin lineal como se observa en
la siguiente figura:

Ejercicio 1
105
100
95
Pureza

90
85
80
0.8

0.9

1.1

1.2

1.3

1.4

1.5

1.6

% de Hidrocarburos

Figura 2. Lnea de tendencia Ej. 1

b. Encuentre el modelo matemtico que permite predecir el efecto de una


variable sobre la otra. Es confiable?

El modelo lineal que relaciona las dos variables es el siguiente (obtenido en


Excel):
y=14.947 x +74.283
El cual es confiable ya que su porcentaje de explicacin (dado a conocer en el
siguiente punto) es bastante alto en la grfica y los datos son cercanos a la
lnea de tendencia.
c. Determine el porcentaje de explicacin del modelo y el grado de relacin de
las dos variables.

% Explicacin = Coeficiente R2 x 100


= 0.877435705 x 100 = 87.7435705%

r (grado de relacin entre las variables) =

R 2 = 0.936715381
= 93.6715381%

d. Cul es el porcentaje de hidrocarburo cuando la pureza del oxgeno es


igual a 91.3?
y=14.947 x +74.283
y=91.3

91.3=14.947 x +74.283

x=

91.374.283
14.947

x=1.1385

2. El nmero de libras de vapor (y) consumidas mensualmente por una planta


qumica, se relaciona con la temperatura ambiental promedio (en F). Para el
ao 2014, se registraron los siguientes valores de temperatura y consumo
anual.
2014 Registros de temperatura y consumos de vapor.
Mes
Temperatur Consumo
a (F)
de vapor
(Lb)
Ene.
21
185,79
Feb.
24
214,47
Mar.
32
288,03
Abr.
47
424,84
May.
50
455
Jun.
59
539
Jul.
68
621,55
Ago.
74
675,06
Sep.
62
562,03
Oct.
50
452,93
Nov.
41
369,95
Dic.
30
273,98
a. Realice el diagrama de dispersin y determine el tipo de asociacin entre las
variables. El diagrama de dispersin de las variables es el siguiente:

Ejercicio 2
800
700
600
500
400
Consumo de Vapor
300
200
100
0
10

20

30

40

50

60

70

80

Temperatura (F)

Figura 3. Diagrama de dispersin Ej. 2

Gracias a la funcin lnea de tendencia en Excel se determin la mejor asociacin


entre las variables la cual es una funcin lineal como se observa en la siguiente
figura:

Ejercicio 2
800
700
600
500
400
Consumo de Vapor
300
200
100
0
10

20

30

40

50

60

70

80

Temperatura (F)

Figura 4. Lnea de Tendencia Ej. 2

b. Ajuste un modelo matemtico que permita predecir el efecto de una variable


sobre la otra. Es confiable?

El modelo lineal que relaciona las dos variables es el siguiente (obtenido en


Excel):
y=9.2087 x6.3184
El cual es confiable ya que su porcentaje de explicacin (dado a conocer en el
siguiente punto) es muy cercano al 100% y los datos en la grfica se encuentran
prcticamente dentro de la lnea de tendencia.
c. Determine el porcentaje de explicacin del modelo y el grado de relacin de
las dos variables.

% Explicacin = Coeficiente R2 x 100


= 0.99986387x 100 = 99.986387%

r (grado de relacin entre las variables) =

R 2 = 0.999931932

= 99.9931932%
d. Cul es el de consumo de vapor cuando la temperatura es de 70 F?
y=9.2087 x6.3184

x=70

y=9.2087( 70 ) 6.3184

y=650.096.3184

y=643.7716 lb

3. Los investigadores estn estudiando la correlacin entre la obesidad y la


respuesta individual al dolor. La obesidad se mide como porcentaje sobre el
peso ideal (x). La respuesta al dolor se mide utilizando el umbral de reflejo de
reflexin nociceptiva (y) que es una medida de sensacin de punzada.
Obsrvese que ambas, X e Y, son variables aleatorias:

x
(porcentaj
e de
sobrepeso
)
89
90

y (umbral
de reflejo
de flexin
nociceptiva
)
2
3

75
30
51
75
62
45
90
20

4
4.5
5.5
7
9
13
15
14

a. Realice el diagrama de dispersin y determine el tipo de asociacin entre las


variables.
El diagrama de dispersin de las variables es el siguiente:

Ejercicio 3
16
14
12
10
8
Umbral de reflejo de flexin nociceptiva
6
4
2
0
0

20

40

60

80 100

% de sobrepeso

Figura 5: Diagrama de dispersin Ej. 3

Gracias a la funcin lnea de tendencia en Excel se determin la asociacin lineal


entre las variables como se observa en la siguiente figura:

Ejercicio 3
16
14
12
10
8
Umbral de reflejo de flexin nociceptiva
6
4
2
0
0

20

40

60

80 100

% de sobrepeso

Figura 6: Lnea de Tendencia Ej. 3

b. Ajuste un modelo matemtico que permita predecir el efecto de una variable


sobre la otra. Es confiable?

El modelo lineal que relaciona las dos variables es el siguiente (obtenido en


Excel):
y=0.0629 x+11.642
El cual no es confiable ya que su porcentaje de explicacin (dado a conocer en el
siguiente punto) es muy bajo y los datos en la grfica se encuentran muy
dispersos y alejados de la lnea de tendencia.

c. Determine el porcentaje de explicacin del modelo y el grado de relacin de


las dos variables.

% Explicacin = Coeficiente R2 x 100


= 0.111494545 x 100 = 11.1494545%

r (grado de relacin entre las variables) =

R 2 = - 0.333907988
= - 33.3907988%

d. Cul es el umbral de reflejo de flexin nociceptiva, cuando hay un porcentaje


de sobrepeso, de 40?
Aunque el modelo matemtico encontrado anteriormente no es el ms confiable
se partir de este para encontrar el valor del umbral deseado as que el resultado
obtenido tampoco ser confiable.
y=0.0629 x+11.642
x=40

y=0.062940+11.642

y=2.516+11.642

y=9.126

EJERCICIO BASE DE DATOS


1. Determinar la relacin entre dos variables cuantitativas del problema de
estudio:
a. Identificar dos variables cuantitativas del problema que puedan estar
relacionadas.

Variable dependiente: Costo estimado del siniestro


Variable independiente: Nmero de muertos

b. Realizar el diagrama de dispersin de dichas variables.

Correlacin lineal simple


$ 120,000,000.00
$ 100,000,000.00
$ 80,000,000.00
Costo estimado del siniestro

$ 60,000,000.00
$ 40,000,000.00
$ 20,000,000.00
$0

Nmero de muertos

Figura 7: Diagrama de dispersin Correlacin lineal simple Base de datos

c. Calcular la recta de regresin y el coeficiente de correlacin para probar


estadsticamente su relacin.
El modelo lineal que relaciona las dos variables y los coeficientes de
determinacin y correlacin son los siguientes (obtenidos en Excel):
y=3106 x+3107

R2=0.0073

r=0.08544

Anlisis de correlacin lineal simple de las dos variables seleccionadas:

El coeficiente de correlacin entre las variables costo estimado del siniestro y


nmero de muertos es 0.08544 lo cual es muy bajo, cercano a cero, por ende un
modelo lineal no representa la relacin entre estas variables; la anterior afirmacin
tambin se puede comprobar grficamente donde los datos se encuentran muy
dispersos y alejados de la lnea de tendencia. No es confiable.

2. Determinar la relacin entre una variable dependiente y varias independientes;


si es el caso:
a. Identificar una variable dependiente y varias independientes del estudio de
investigacin.

Variable dependiente: Costo estimado del siniestro


Variables independientes:
o Nmero de muertos
o Nmero de heridos
o Grados de alcohol
o Velocidad

b. Realizar el diagrama de dispersin de dichas variables.

Correlacin mltiple Variable 1


$ 120,000,000.00
$ 100,000,000.00
$ 80,000,000.00
Costo estimado del siniestro

$ 60,000,000.00
$ 40,000,000.00
$ 20,000,000.00
$0

Nmero de muertos

Figura 8: Diagrama de dispersin Variable 1 Correlacin mltiple Base de datos

Correlacin mltiple Variable 2


$ 120,000,000.00
$ 100,000,000.00
$ 80,000,000.00
Costo estimado del siniestro

$ 60,000,000.00
$ 40,000,000.00
$ 20,000,000.00
$0

5 10 15 20

Nmero de heridos

Figura 9: Diagrama de dispersin Variable 2 Correlacin mltiple Base de datos

Correlacin mltiple Variable 3


$ 120,000,000.00
$ 100,000,000.00
$ 80,000,000.00
Costo estimado del siniestro

$ 60,000,000.00
$ 40,000,000.00
$ 20,000,000.00
$0.0 1.0 2.0 3.0 4.0
Grados de Alcohol

Figura 10: Diagrama de dispersin Variable 3 Correlacin mltiple Base de datos

Correlacin mltiple Variable 4


$ 120,000,000.00
$ 100,000,000.00
$ 80,000,000.00
Costo estimado del siniestro

$ 60,000,000.00
$ 40,000,000.00
$ 20,000,000.00
$0

100

200

Velocidad

Figura 11: Diagrama de dispersin Variable 4 Correlacin mltiple Base de datos

c. Calcular la recta de regresin y el coeficiente de correlacin para probar


estadsticamente su relacin.
Mediante la herramienta Anlisis de datos Regresin de Microsoft Excel se
encontraron los coeficientes tanto de correlacin como de cada una de las
variables que se presentan a continuacin:
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.3400271
1
Coeficiente de determinacin R^2
0.1156184
3
R^2 ajustado
0.0848573
4
Error tpico
27848845.
9
Observaciones
120
Modelo:

y=a x 1 +b x 2+ c x 3 +d x 4+ i
Coeficient
es

Intercepcin (i)
Grados de alcohol (a)
Nmero de heridos (b)
Nmero de muertos (c)
Velocidad (d)

22644954.6
5017499.72
2911738.34
5806096.3
12723.9615

Modelo matemtico Regresin mltiple:


y=5017499.72 x 1 +2911738.34 x 2 +5806096.3 x 312723.9615 x 4 +22644954.6
Anlisis de correlacin mltiple de las variables seleccionadas:
Los coeficientes de correlacin y determinacin entre la variable dependiente
costo estimado del siniestro y las variables independientes grados de alcohol,
nmero de heridos, nmero de muertos y velocidad son 0.34002711 y 0.11561843
respectivamente, los cuales son muy bajos, por ende el modelo matemtico
deducido de esta regresin mltiple no representa la relacin entre estas
variables; la anterior afirmacin tambin se puede comprobar en las grficas ya
mostradas donde los datos se encuentran muy dispersos y alejados de cada una
de las lneas de tendencia. No es confiable.

Anda mungkin juga menyukai