Anda di halaman 1dari 22

CORRELACIN Y REGRESIN

1. El editor en jefe de un importante peridico metropolitano ha intentado convencer al


dueo del peridico para que mejore las condiciones de trabajo en el taller de prensas.
Ests convencido de que, cuando trabajan las prensas, el grado de ruido crea niveles no
saludables de tensin y ansiedad. Recientemente hizo que un psiclogo realizara una
prueba durante la cual los prensistas se situaron en cuartos con niveles variables de ruido
y luego se le hizo otra prueba para medir niveles de humor y ansiedad. La siguiente tabla
muestra el ndice de su grado de ansiedad o nerviosismo y el nivel de ruido al que se
vieron expuestos, (1,0 es bajo y 10,0 es alto).

Nivel de ruido 4 3 1 2 6 7 5 8
Grado de ansiedad 39 38 16 18 41 45 40 48

a) Represente grficamente esos datos.


b) Desarrolle una ecuacin de estimacin que describa los datos.
c) Pronostique el grado de ansiedad que podramos esperar cuando el nivel de ruido
es 9.
d) Calcule e interprete el coeficiente de correlacin.
e) Calcule e interprete el coeficiente de determinacin.

Solucin:

El Nivel de ruido es la variable independiente la denotaremos por x y el Grado de


Ansiedad es la variable dependiente la denotaremos por y. Ordenando los datos
tenemos:

x 1 2 3 4 5 6 7 8
y 16 18 38 39 40 41 45 48

a) Represente grficamente esos datos

En el siguiente grfico se puede observar que la tendencia es lineal con una


pendiente es positiva.
Nivel de ruido relaciondo
con el Grado de ansiedad
60

50
Grado de Ansiedad

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9
Nivel de Ruido

b) Desarrolle una ecuacin de estimacin que describa los datos.

Como la grfica presenta una tendencia lineal se proceder con calcular la ecuacin de
estimacin utilizando regresin lineal con el mtodo de mnimos cuadrados.
La ecuacin de mnimos cuadrados para la regresin lineal es la que se indica a
continuacin:

Donde:
Variable dependiente calculada por la ecuacin de estimacin, indica el pronstico para
un valor dado de .
Variable independiente.
Indica el valor de cuando es =0.
Pendiente de la recta.
Representa el valor de la variable dependiente correspondiente a un valor de .

Para calcular los valores de y se utilizan las siguientes frmulas.


( )


( )
Para nuestro caso n=8 entonces los valores de i son de 1 al 8. Tenemos el siguiente
cuadro para calcular las sumatorias que se utilizarn en las frmulas.

i=1 1 16 16 1 256
i=2 2 18 36 4 324
i=3 3 38 114 9 1444
i=4 4 39 156 16 1521
i=5 5 40 200 25 1600
i=6 6 41 246 36 1681
i=7 7 45 315 49 2025
i=8 8 48 384 64 2304
36 285 1467 204 11155

Por lo tanto la ecuacin de estimacin es:


c) Pronostique el grado de ansiedad que podramos esperar cuando el nivel de ruido
es 9.
Evaluando en la ecuacin de estimacin para x=9, se tiene:

d) Calcule e interprete el coeficiente de correlacin.

Una medida de la calidad o bondad de ajuste realizado viene dado por el coeficiente de
relacin entre las variables x e, definido como:

Donde:


( )


( )

Entonces reemplazando los datos en las frmulas:

( )
( )

El coeficiente de correlacin puede adoptar valores desde -1 hasta 1. Si R es +/- 1 o


prximo a estos valores, decimos que el modelo lineal es adecuado para describir los
datos experimentales. Cuando R es cercano a 0 decimos que una expresin lineal no es
una buena descripcin de los datos. Para este caso el valor obtenido de R=0,899,
entonces podemos decir que la ecuacin lineal de estimacin es una buena
representacin de la relacin que existe entre el nivel de ruido y el grado de ansiedad.

e) Calcule e interprete el coeficiente de determinacin.

El coeficiente de determinacin es el cuadrado del coeficiente de correlacin:

A diferencia del coeficiente de correlacin este solo adopta valores de 0 hasta 1, no puede
ser negativo. Mientras ms cercano a 1 decimos que el modelo lineal es adecuado para
describir los datos y mientras ms cercano a 0 decimos que una expresin lineal no es
una buena descripcin de los datos. En nuestro caso R=0,809, entonces podemos decir
que la ecuacin lineal de estimacin es una buena representacin de la relacin que
existe entre el nivel de ruido y el grado de ansiedad.

A continuacin se muestra un grfico de los datos y la ecuacin de estimacin.


Nivel de ruido relaciondo y = 4.3929x + 15.857
con el Grado de ansiedad R = 0.809

60

50

40
Grado de Ansiedad

30

20

10

0
0 1 2 3 4 5 6 7 8 9
Nivel de Ruido

2. El gerente de una Clnica dispone de la siguiente informacin:

Ao 2011 2012 2013 2014 2015 2016


Cirugas 120 143 150 170 162 158

a) Grafique y determine la ecuacin de tendencia.


b) Proyecte las cirugas al corazn para el ao 2017.

Solucin:

El Ao es la variable independiente la denotaremos por x y el Nmero de cirugas es la


variable dependiente la denotaremos por y. Ordenando los datos tenemos:

x 2011 2012 2013 2014 2015 2016


y 120 143 150 170 162 158
Para este caso contamos con 6 pares de datos n=6

a) Grafique y determine la ecuacin de tendencia.

El siguiente grfico muestra como los datos forman una seccin creciente y otra
decreciente, haciendo inferir que los datos corresponden a una ecuacin cuadrtica con
coeficiente principal negativa. Es por ello que en este caso haremos uso del ajuste
parablico con el mtodo de mnimos cuadrados.

Relacin entre el ao y
el nmero de cirugas
180

160

140
Nmero de Cirugas

120

100

80

60

40

20

0
2010 2011 2012 2013 2014 2015 2016 2017
Ao

Tenemos la ecuacin cuadrtica de la forma general:

Donde para hallar los valores de a, b y c se tendr que resolver el sistema de ecuaciones
lineales con 3 variables que se muestra a continuacin:

Tenemos el siguiente cuadro para calcular las sumatorias que se utilizarn en las
frmulas.

i=1 2011 120 4044121 8132727331 16354914662641 241320 485294520


i=2 2012 143 4048144 8144865728 16387469844736 287716 578884592
i=3 2013 150 4052169 8157016197 16420073604561 301950 607825350
i=4 2014 170 4056196 8169178744 16452725990416 342380 689553320
i=5 2015 162 4060225 8181353375 16485427050625 326430 657756450
i=6 2016 158 4064256 8193540096 16518176833536 318528 642152448
12081 903 24325111 48978681471 98618787986515 1818324 3661466680

Reemplazando en las frmulas, tenemos:

Resolviendo el sistema se tiene

Por lo tanto se tiene la ecuacin de estimacin:

b) Proyecte las cirugas al corazn para el ao 2017.

Para calcular el nmero de cirugas al corazn para el ao 2017, evaluamos la ecuacin


de estimacin hallada anteriormente en x=2017.

Como el nmero de cirugas debe ser un nmero entero este ltimo se redondea a
.

El siguiente grfico muestra la lnea de tendencia cuadrtica dibujada por la ecuacin de


estimacin:
Relacin entre el ao y
y = -3.4821x2 + 14030x - 1E+07
el nmero de cirugas R = 0.9457
180

160

140
Nmero de Cirugas

120

100

80

60

40

20

0
2010 2011 2012 2013 2014 2015 2016 2017
Ao

3. Se ha medido la variacin de creatinina en pacientes tratados con Captopril (droga


antihipertensin) tras la suspensin del tratamiento con dilisis, resultando la siguiente
tabla:

Das tras la dilisis:


X 1 5 10 15 20 25 35
Creatinina (mg/dl):
Y 5.7 5.2 4.8 4.5 4.2 4 3.8

a) Calcule el modelo de regresin lineal


b) Interprete la variacin de creatinina, en funcin de los das transcurridos tras la
dilisis
c) Si un individuo presenta 8 das tras la suspensin del tratamiento con dilisis, que
sucede con la creatinina (mg/dl)

Solucin:

En el siguiente grfico se puede observar que la tendencia es lineal con una pendiente es
negativa.
Relacin entre los das tras la dilisis y
la creatinina (mg/dl)
6

Creatinina (mg/dl) 5

0
0 10 20 30 40
Das tras la dilisis

a) Calcule el modelo de regresin lineal

La ecuacin de mnimos cuadrados para la regresin lineal es la que se indica a


continuacin:


( )


( )

Para nuestro caso n=7 entonces los valores de i son de 1 al 7. Tenemos el siguiente
cuadro para calcular las sumatorias que se utilizarn en las frmulas.

i=1 1 5.7 5.7 1


i=2 5 5.2 26 25
i=3 10 4.8 48 100
i=4 15 4.5 67.5 225
i=5 20 4.2 84 400
i=6 25 4 100 625
i=7 35 3.8 133 1225
111 32.2 464.2 2601
Por lo tanto la ecuacin de estimacin es:

b) Interprete la variacin de creatinina, en funcin de los das transcurridos tras la


dilisis.

De acuerdo a la ecuacin de estimacin calculada anteriormente se puede decir que la


creatina en un paciente tras la suspensin de la dilisis disminuye en 0,0552 por cada da
que trasncurre. Y que adems en el da del dilisis (x=0) la persona presentar un nivel de
creatinina de 5,475 mg/dl.

c) Si un individuo presenta 8 das tras la suspensin del tratamiento con dilisis, que
sucede con la creatinina (mg/dl)

Esto se puede deducir evaluando la ecuacin de estimacin para x=8.

Por lo tanto el nivel de creatinina tras 8 das de la suspensin del tratamiento con dilisis
es 5,0334 mg/dl.

A continuacin se muestra un grfico de los datos y la ecuacin de estimacin.


Relacin entre los das tras la dilisis y y = -0.0552x + 5.475
la creatinina (mg/dl) R = 0.921
6

5
Creatinina (mg/dl)

0
0 5 10 15 20 25 30 35 40
Das tras la dilisis

PRUEBA DE INDEPENDENCIA

4. Quinientos empleados de una empresa que fabrica cierto producto, sospechoso de estar
asociado con alteraciones respiratorias, se clasificaron en forma cruzada con base de
grado de exposicin al producto y si tenan o no los sntomas de tales alteraciones
respiratorias. Los resultados se muestran en la siguiente tabla:

Sntomas Sin exposicin


Alto Limitado Total
presentes conocida
S 185 33 17 235
No 120 73 72 265
Total 305 106 89 500

Proporcionan estos datos la evidencia suficiente para indicar que, en un nivel de


significacin de 0.05, existe una relacin entre el grado de exposicin y la presencia de
los sntomas de las alteraciones respiratorias?

Solucin:

Hiptesis

Ho: Hiptesis nula de independencia: no hay relacin entre variables.

H1: Hiptesis alternativa: existe relacin entre variables.


Se calcula el valor estadstico de contraste con la siguiente frmula:

( )

Donde:

i: filas de las variables

j: columnas de las variables

: son los valores observados

los valores esperados bajo la hiptesis nula de independencia

valor total de la variable en la fila i

valor total de la variable en la columna j

Total de la muestra

Por los datos observados en la tabla se tiene que:

k=2 (2 filas) y m=3 (3 columnas), N=500.


Rechazamos la hiptesis nula si:

Donde es el valor crtico asociado con una distribucin Chi Cuadrado con (k-1)(m-1)
grados de libertad, con un nivel de significancia de .

Por lo tanto:

Grados de libertad = (2-1)(3-1)=2

=0.05

Segn la tabla de distribucin Chi Cuadrado se tiene que

Comparando los valores:

por lo tanto rechazamos la hiptesis nula, en consecuencia


aceptamos la hiptesis alternativa.

Conclusin: Hay evidencia estadsticamente suficiente para concluir que las personas con
cierto grado exposicin a un producto presentan sntomas de las alteraciones
respiratorias.

5. A un grupo de 350 adultos que participaron en una encuesta de salud, se les pregunt si
llevaban o no una dieta. Las respuestas (por sexos) son las siguientes:

Sexo
Masculino Femenino Total
A dieta 14 25 39
Sin dieta 159 152 311
Total 173 177 350

Sugieren estos datos que al estar en dieta depende del sexo? Sea = 0.05.

Solucin:

Hiptesis

Ho: Hiptesis nula de independencia: no hay relacin entre variables.


H1: Hiptesis alternativa: existe relacin entre variables.

Se calcula el valor estadstico de contraste con la siguiente frmula:

( )

Por los datos observados en la tabla se tiene que:

k=2 (2 filas) y m=2 (2 columnas), N=350.

Grados de libertad = (2-1)(2-1)=1

=0.05

Segn la tabla de distribucin Chi Cuadrado se tiene que

Comparando los valores:

por lo tanto aceptamos la hiptesis nula.

Conclusin: No hay evidencia estadsticamente suficiente para concluir que al estar en


dieta dependa del sexo.
PRUEBA DE HOMOGENEIDAD

6. En un estudio acerca de la contaminacin atmosfrica realizado en dos comunidades, se


seleccion una muestra aleatoria de 200 familias de cada una de dichas comunidades. Se
le pregunt a uno de los miembros de cada familia si algn miembro de la misma se
senta afectado por la contaminacin atmosfrica. Las respuestas fueron las siguientes:

Algn miembro de la familia ha sido afectado por la


contaminacin?
Comunidad S No Total
I 43 157 200
II 81 119 200
Total 124 276 400

Pueden concluir los investigadores que las dos comunidades difieren con respecto a la
variable de inters? Sea = 0.05.

Solucin:

Hiptesis

Ho: Hiptesis de homogeneidad: Existe homogeneidad

H1: Hiptesis alternativa: No existe homogeneidad

Se calcula el valor estadstico de contraste con la siguiente frmula:

( )

Por los datos observados en la tabla se tiene que:

k=2 (2 filas) y m=2 (2 columnas), N=400.


Grados de libertad = (2-1)(2-1)=1

=0.05

Segn la tabla de distribucin Chi Cuadrado se tiene que

Comparando los valores:

Rechazamos la hiptesis de homogeneidad si:

por lo tanto rechazamos la hiptesis de homogeneidad.

Conclusin: Existe evidencia estadsticamente suficiente para concluir que ambas


comunidades difieren respecto a la variable de inters.

7. A cada uno de los varones de una muestra de tamao 250, extrada de una poblacin que
se sospechaba sufra de alguna enfermedad de las articulaciones se les pregunt cul de
tres sntomas lo molestaba mayormente. La misma pregunta se le hizo a una muestra de
300 mujeres que se sospechaba padecan la misma enfermedad. Los resultados fueron
los siguientes:

Sntoma ms molesto Hombres Mujeres


Rigidez matutina 111 102
Dolor por la noche 59 73
Hinchazn de las
articulaciones 80 125
TOTAL 250 300

Proporcionan estos datos la suficiente evidencia para indicar que las dos poblaciones no
son homogneas con respecto a los sntomas principales? Sea = 0.05.

Solucin:

Completando la tabla:
Sntoma ms molesto Hombres Mujeres Total
Rigidez matutina 111 102 213
Dolor por la noche 59 73 132
Hinchazn de las
80 125 205
articulaciones
TOTAL 250 300 550

Hiptesis

Ho: Hiptesis de homogeneidad: Existe homogeneidad

H1: Hiptesis alternativa: No existe homogeneidad

Se calcula el valor estadstico de contraste con la siguiente frmula:

( )

Por los datos observados en la tabla se tiene que:

k=3 (3 filas) y m=2 (2 columnas), N=550.


Grados de libertad = (3-1)(2-1)=2

=0.05

Segn la tabla de distribucin Chi Cuadrado se tiene que

Comparando los valores:

por lo tanto rechazamos la hiptesis de homogeneidad.

Conclusin: Existe evidencia estadsticamente suficiente para concluir que ambas


comunidades no son homogneas con respecto a los sntomas principales.

ODDS RATIO, RIESGO RELATIVO

8. Se tiene inters en evaluar si el uso de anticonceptivo orales es un factor de riesgo del


infarto miocrdico en mujeres casadas menores de 45 aos de edad. Para tal efecto se
realiza un estudio comparativo tipo caso control y se obtienen los siguientes resultados:

Uso de Pacientes con Sin infarto


anticonceptivos infarto Miocrdico Miocrdicos
orales (Casos) (Controles)
S 23 34
Nunca 35 132
Total 58 166

Se pide calcular e interpretar el odds ratio (OR).

Solucin:

El ODDS es el cociente entre la probabilidad de que un evento ocurra frente a la


probabilidad de que no ocurra.

En los estudios de casos y controles, ODDS Ratio, es el cociente entre la ODDS de


exposicin observada en casos y la ODDS de exposicin en el grupo de control.
Si el resultado de ODDS ratio es mayor a 1 la asociacin es positiva, es decir que la
presencia del factor se asocia a la mayor ocurrencia del evento. Se le considera un Factor
de Riesgo.

Por lo tanto, en nuestro caso es mayor a 1, entonces podemos decir que el


uso de anticonceptivos orales es un factor de riesgo frente a padecer infarto miocrdico.

9. Evaluar si niveles altos de colesterol srico (>250) se considera factor de riesgo de un


infarto del miocardio. Por consiguiente se realiza un estudio comparativo de cohortes y se
obtiene los siguientes resultados:

Desarrolla IM Srico No desarroll


Niveles de colesterol (mg%) IM Total
>250 10 125 135
250 21 449 470

Se pide calcular e interpretar el riesgo relativo.

Solucin:

El riesgo de infarto del miocardio en el grupo con niveles de colesterol srico mayores a
250 es 0,0741, mientras que el riesgo de infarto del miocardio en el grupo con niveles de
colesterol srico menor o igual a 250 es 0,0447.

Por tanto el RR es 1,658 siendo este mayor a 1, entonces podemos decir que, cunto
ms probable es que ocurra un infarto de miocardio en las personas que presentan un
nivel alto de colesterol srico frente a las que no.

10. Se realiz un estudio caso-control para encontrar si la vasectoma es un factor de riesgo


del cncer de prstata. Los datos obtenidos se muestran en la tabla cruzada de abajo.

VASECTOMIA Casos Controles TOTAL


S 70 80 154
No 105 178 279
Total 175 258 433

Calcular el odds ratio. Interpretar los resultados.

Solucin:
Por lo tanto, en nuestro caso es mayor a 1, entonces podemos decir que
realizarse la vasectoma es un factor de riesgo frente a padecer cncer de prstata.