Anda di halaman 1dari 22

REGRESIN Y CORRELACIN

Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales


Francisco lvarez Gonzlez
http://www2.uca.es/serv/fag/fct/
francisco.alvarez@uca.es

DISTRIBUCIONES BIVARIANTES
El estudio de la relacin existente entre dos variables X e Y conduce a la consideracin simultnea de ambas variables
estadsticas. Tal distribucin de las dos variables se denomina bivariante.
La presentacin de los datos experimentalmente observados puede hacerse :
a) Mediante los pares (Xi , Yi) :

(X1 , Y1) , (X2 , Y2) , (X3 , Y3) , ...


c) Tabla de frecuencias de doble entrada :

b) Tabla simple de frecuencias :


X
X1
X2

Y
Y1
Y2

n
n1
n2

....

....

....

Xn

Yn

nn

....

....

....

n22
....

....

....

Ym
n1m
n2m

....

....

....

nn2

....

....

nnm

Y2
n12

....

n21
....

Xn

nn1

X1
X2

Y
....

Y1
n11

Distribuciones marginales :
Son las obtenidas de la distribucin bivariante, al considerar de forma independiente cada una de las dos
variables.
De ellas obtendremos los parmetros de centralizacin y dispersin caractersticos : media y desviacin tpica.

X , s 2X

, Y , s 2Y

, sX

, sY

Covarianza :
Este ndice de variacin conjunta de X e Y se define como :

s XY

s XY =

n .(X
i

X )(
. Yi Y )

n . X .Y

N
nij .(X i X ).(Y j Y )
i

X .Y

n .X .Y
ij

para tablas simples de frecuencias


j

X .Y

para tablas de frecuencias de doble

entrada.
Si sXY = 0 expresar que las variables X e Y son independientes.

RECTAS DE REGRESIN
Representando los pares de observaciones (X,Y) como
puntos en un plano cartesiano, obtenemos el denominado
diagrama de dispersin o nube de puntos.
Por recta de regresin o de ajuste entendemos la recta que
ms se aproxima a los puntos representativos de las
observaciones (X,Y).
El mtodo de los mnimos cuadrados proporciona un sistema
de obtencin de tales rectas, estableciendo que sea mnima
la suma de los cuadrados de las separaciones existentes
entre cada punto y la recta.

Segn se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen,
respectivamente, las rectas de regresin de Y sobre X y de X sobre Y.

Regresin y correlacin (F. lvarez) - 1

RECTA DE REGRESIN DE Y SOBRE X


Y' = a + b.X

a = ordenada en el origen
b = coeficiente de regresin de Y sobre X = pendiente de la recta de regresin = tangente del
ngulo que forma con el eje horizontal.
Y' = predicciones de Y para el valor X observado.

Los coeficientes a y b de la recta de regresin de Y sobre X se obtienen resolviendo el sistema :

a. f . X

+ b. n. X
s XY
s 2X

b=

el cul tiene como solucin :

b. n. X

a.N

n.Y
n.X .Y

=
=

a = Y b. X

RECTA DE REGRESIN DE X SOBRE Y


X' = a' + b'.Y

a' = ordenada en el origen


b' = coeficiente de regresin de X sobre Y = pendiente de la recta de regresin.
X' = predicciones de X para el valor Y observado.

Los coeficientes a' y b' de la recta de regresin de X sobre Y se obtienen igualmente al resolver :

+ b'. n.Y
+ b'. n.Y 2

a'.N
a '. f .Y
b' =

o directamente :

s XY
s Y2

n. X
n.X .Y

=
=

a ' = X b'. Y

Otro procedimiento de clculo simplificado permite obtener los coeficientes de regresin del siguiente modo :

b=

N . X .Y ( X )(
. Y )

b' =

N . X 2 ( X )

N . X .Y ( X )(
. Y )
N . Y 2 ( Y )

Si utilizamos puntuaciones diferenciales : x = X X


y = Y Y ,
las rectas de regresin pierden el trmino independiente (ordenadas en el origen a y a' ) al ser las medias nulas, siendo
su expresin :
y' = b.x
x' = b'.y

COEFICIENTE DE CORRELACIN DE PEARSON


La recta de regresin es la que pasa ms cerca de las observaciones, pero no nos indica si pasa muy cerca o no de
ellas.
Hemos de definir una medida del grado de asociacin o relacin entre ambas variables, lo cul, en trminos de recta de
ajuste, indicar la bondad de la misma.
Tal coeficiente se denomina coeficiente de correlacin, definido por Pearson del siguiente modo :

r = b . b' =

s XY
sX . sY

ya que : r =

b . b' =

s XY s XY
.
=
s X2 s Y2

2
s XY
s
= XY
2
2
sX . sY
sX . sY

Segn las expresiones finales obtenidas para b y b', podemos tambin calcularlo como :

r=
La expresin

N . X .Y ( X )(
. Y )

[N . X

][

( X ) . N . Y 2 ( Y )
2

n conduce a las siguientes relaciones (sin ms que multiplicar y dividir por sX o por sY ) :
r = b.

sX
sY

r = b'.

sY
sX

De aqu resulta que, si se trabaja con puntuaciones tipificadas (las desviaciones tpicas son iguales a 1) :
r = b = b' y las rectas de regresin son : z'Y = r.z'X ; z'X = r.z'Y
El coeficiente de correlacin toma siempre valores comprendidos entre -1 y 1 : -1 r 1
Proporcin de varianza explicada por X = r2 = Coeficiente de determinacin ( R2 )
(Suele expresarse en %, lo cul se obtendra: R2 = r2 x 100 )

2 - Regresin y correlacin (F. lvarez)

Interpretacin :
r
prximo a 0
prximo a 1
prximo a -1

Asociacin de las variables


Variables independientes o no relacionadas
linealmente
Variables relacionadas directamente (cuando una
aumenta la otra tambin)
Variables relacionadas inversamente (cuando una
aumenta la otra disminuye)

Bondad del ajuste


Mala recta de ajuste. No pasa cerca de las
observaciones.
Buena recta de ajuste. Creciente (pendientes b
y b' positivas)
Buena recta de ajuste. Decreciente (pendientes
b y b' negativas)

OTROS PROCEDIMIENTOS DE CLCULO DEL COEFICIENTE DE CORRELACIN r


Coeficiente de correlacin (phi) :
El siguiente procedimiento se puede utilizar cuando las dos variables X e Y son dicotmicas.
Y
X

1
a
c

1
0

Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento


representado en la tabla de la izquierda.
El coeficiente de correlacin toma el valor :

0
b
d

ad bc
(a + b )(. c + d )(. a + c )(. b + d )

Coeficiente de correlacin biserial puntual rbp :


El siguiente procedimiento se puede utilizar cuando una variable es continua y la otra dicotmica. Supuesta X
continua :

X X0
rbp = 1
. p. q
sX

Siendo :

X1
X0
sX
p
q=1-p

la media de los valores de X que se corresponden con un 1 en Y.


la media de los valores de X que se corresponden con un 0 en Y.
la desviacin tpica de X (considerados sus valores globalmente).
la proporcin de unos en Y.
la proporcin de ceros en Y.

Coeficiente de correlacin por rangos de Spearman :


El siguiente procedimiento se puede utilizar cuando las dos variables son ordinales (reordenaciones de una serie de
elementos).

= 1

6. d 2

N. N 2 1

Siendo d las diferencias entre los valores de X e Y.

Los coeficientes de correlacin anteriores no son ms que una adaptacin del coeficiente de correlacin de Pearson
para tipos especiales de variables. En consecuencia, su valor coincide con el que habramos obtenido siguiendo el
procedimiento de Pearson (r); por ello, su interpretacin es la establecida para r .

Regresin y correlacin (F. lvarez) - 3

OBSERVACIN PRCTICA
En el presente tema se sigue la metodologa clsica y los procedimientos habituales de
clculo. No obstante, ante las dificultades que pueden observar algunos alumnos,
RECOMIENDO se siga el proceso descrito en la presentacin REGRESION.PPS

4 - Regresin y correlacin (F. lvarez)

Regresin y correlacin (F. lvarez) - 5

EJERCICIOS RESUELTOS
1
La tabla siguiente contiene los resultados de las calificaciones en Matemticas (X) y Lengua (Y) de un
grupo de 40 alumnos de Secundaria.
X
3
3
5
6
6
6
7
8

Y
4
5
5
6
7
8
7
8

n
3
5
12
4
5
3
6
2

a)
b)
c)
d)

Obtenga la recta de regresin de Y sobre X.


Obtenga la recta de regresin de X sobre Y.
Calcule e interprete el coeficiente de correlacin lineal.
Calcule e interprete el coeficiente de determinacin

Tabla de clculos :
X
3
3
5
6
6
6
7
8

a)

Y
4
5
5
6
7
8
7
8

n
3
5
12
4
5
3
6
2
40

n.Y
12
25
60
24
35
24
42
16
238

n.X2
27
45
300
144
180
108
294
128
1226

Y=

238
= 5' 95
40

n.Y2
48
125
300
144
245
192
294
128
1476

n.X.Y
36
75
300
144
210
144
294
128
1331

Recta de regresin de Y sobre X.


X=

b=

n.X
9
15
60
24
30
18
42
16
214

N . X .Y ( X )(
. Y )
N . X ( X )
2

214
= 5' 35
40

40.1331 214.238 2308


=
= 0'71
Recta de regresin de Y sobre X :
3244
40.1226 214 2
Y' = 2'1436 + 0'7115.X

a = Y b . X = 5' 95 0' 7115 . 5' 35 = 2' 1436

b)

Recta de regresin de X sobre Y.


N . X .Y ( X )(
. Y ) 40.1331 214.238 2308
b' =
=
=
= 0'96
2
Recta de regresin de X sobre Y :
2396
40.1476 238 2
N . Y 2 ( Y )
X' = -0'3815 + 0'9633.Y

a ' = X b ' . Y = 5' 35 0' 9633 . 5' 95 = 0' 3815

c)

Coeficiente de correlacin de Pearson.


Conocidos los coeficientes de regresin puede calcularse como :

r = b . b' = 0' 7115 . 0' 9633 = 0' 8279


Existe una elevada relacin entre las calificaciones en Matemticas y Lengua. Dicha relacin es positiva
(directa); es decir, alumnos con altas calificaciones en Matemticas se corresponden con altas calificaciones en
Lengua, y a la inversa.
Podemos afirmar que las rectas de regresin obtenidas son buenas rectas de ajuste. Es decir, expresan con
una elevada aproximacin la relacin matemtica (lineal) existente entre las calificaciones en Matemticas y
Lengua.

d)

R2.
La proporciona : r2 = 0'82792 = 0'6854. Es decir el 68'54%.

6 - Regresin y correlacin (F. lvarez)

2
De la distribucin bivariante siguiente :

a)
b)
c)
d)

Y
1
1
9
0

0
0
0
8

2
4
6

2
5
0
0

Obtenga la recta de regresin de Y sobre X.


Obtenga la recta de regresin de X sobre Y.
Calcule e interprete el coeficiente de correlacin lineal.
Calcule e interprete el coeficiente de determinacin.

Obtenemos las distribuciones marginales de X y de Y totalizando las frecuencias en filas y columnas :

X
2
4
6

n
6
9
8
23

Y
1
1
9
0
10

0
0
0
8
8

2
4
6

n.X2
24
144
288
456

n.X
12
36
48
96

2
5
0
0
5
Y
0
1
2

6
9
8
23
n
8
10
5
23

n.Y
0
10
10
20

n.Y2
0
10
20
30

La suma de los productos de X por Y hemos de obtenerla directamente de la tabla proporcionada :

X .Y = n .X .Y
ij

0.2.0 + 1.2.1 + 5.2.2 + 0.4.0 + 9.4.1 + 0.4.2 + 8.6.0 + 0.6.1 + 0.6.2 = 58

Como puede observarse, slo realizamos los productos correspondientes a frecuencias y valores de variables no nulos.
X . Y = 1.2.1 + 5.2.2 + 9.4.1 = 58

Utilicemos las medias y varianzas de X e Y, as como la covarianza, en los clculos solicitados.

X=

96
= 4' 1739
23

20
= 0' 8696
23

Y=

n . X .Y
ij

Covarianza =

a)

s XY =

s 2X =

X .Y =

456
4' 1739 2 = 2' 4045
23

s Y2 =

30
0' 8696 2 = 0' 5482
23

X .Y X .Y = 58 4'1739.0'8696 = 1'1078
N

23

Recta de regresin de Y sobre X :


b=

s XY 1' 1078
=
= 0' 4607
2' 4045
s X2

a = Y b . X = 0' 8696 ( 0' 4607 ). 4' 1739 = 2' 7925

Y' = 2'7925 - 0'4607 . X


b)

Recta de regresin de X sobre Y :


b' =

s XY 1' 1078
=
= 2' 0207
0' 5482
s Y2

a ' = X b' . Y = 4' 1739 ( 2' 0207 ). 0' 8696 = 5' 9310

X' = 5'9310 - 2'0207 . Y


c)

Coeficiente de correlacin :
Utilizando la expresin r = b.b' = ( 0'4607 )(
. 2'0207 ) = 0'9648

podemos tener duda en cuanto

al signo del coeficiente de correlacin. Este signo es el de b y b', ya que es el que proporciona la covarianza.
Calculado como r =

s XY
=
sX . sY

1' 1078

= 0' 9648 no se plantear tal dificultad.

2' 4045 . 0' 5486

Regresin y correlacin (F. lvarez) - 7

d)

Coeficiente de determinacin :
Es el cuadrado del coeficiente de correlacin, representando la proporcin de varianza explicada por la variable
X (en el ajuste de Y sobre X).

R 2 = r 2 = ( 0'9648) = 0'9309
2

La variable X explica el 93'09% de la varianza de Y. Slo el 6'91% no es atribuible a X.

3
De la siguiente distribucin bivariante :

a)
b)
c)
d)

[0,1)
1
3
1

2
3
4

Y
[1,2)
2
6
2

[2,3]
1
3
1

Calcule e interprete el valor de la covarianza.


Obtenga la recta de regresin de Y sobre X.
Obtenga la recta de regresin de X sobre Y.
Calcule el coeficiente de correlacin lineal y el de determinacin.

Totalizando filas y columnas obtendremos las distribuciones marginales de X e Y :

X
2
3
4

n
4
12
4
20

X .Y = n .X .Y
ij

a)

2
3
4

n.X2
16
108
64
188

n.X
8
36
16
60
j

Y
1'5
2
6
2
10

0'5
1
3
1
5

2'5
1
3
1
5
Y
0'5
1'5
2'5

4
12
4
20
n
5
10
5
20

n.Y
2'5
15
12'5
30

n.Y2
1'25
22'5
31'25
55

1.2.0'5 + 2.2.1'5 + 1.2.2'5 + 3.3.0'5 + 6.3.1'5 + 3.3.2'5 + 1.4.0'5 + 2.4.1'5 + 1.4.2'5 = 90

Covarianza :
X=

n . X .Y
ij

Covarianza =

s XY =

60
=3
20

X .Y =

Y=

30
= 1' 5
20

X .Y X .Y = 90 3.1'5 = 4'5 4'5 = 0


N

20

Interpretacin :
Las variables son independientes.
Siendo nula la covarianza, tambin los sern los coeficientes de regresin, el coeficiente de correlacin
y el de determinacin, dado que en sus clculos interviene la covarianza en el numerador.
Al ser nulos los coeficientes de regresin, a coincidir con la media de Y y a' con la de X.

b)

Recta de regresin de Y sobre X :


b=

c)

a = Y b . X = 1' 5 0 . 3 = 1' 5

Y' = 1'5

X' = 3

Recta de regresin de X sobre Y :


b' =

d)

s XY
0
= 2 =0
2
sX
sX

s XY
0
= 2 =0
s 2Y
sY

a ' = X b'. Y = 3 0 . 1' 5 = 3

Coeficiente de correlacin y de determinacin :


Como se indic en el apartado a), al ser nula la covarianza, ambos coeficientes tambin lo son :

8 - Regresin y correlacin (F. lvarez)

r = b . b' =

r=

0. 0 = 0

s XY
0
=
=0
sX . sY sX . sY

R 2 = r2 = 0

4
Se desea estudiar la relacin entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo
del alumno que lo realiza. Los resultados observados fueron :
Test
1
1
2
2
3
4
4
5
5

Sexo
Varn
Hembra
Varn
Hembra
Varn
Hembra
Varn
Hembra
Varn

N de alumnos
3
1
2
4
3
5
1
1
2

a)
Mida el grado de asociacin existente entre las dos variables mediante el coeficiente ms
adecuado.
b)
Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el
apartado anterior.

a)

Siendo dicotmica la segunda variable, calcularemos el coeficiente de correlacin biserial puntual :


Denominando Y a la variable sexo (asignamos : 1=Hombre ; 0=Mujer) y X a la variable puntuacin en el test,
procederemos a los clculos necesarios para su obtencin. Ello nos conduce a calcular las medias de los
valores de X que se corresponden con un 1 y con un 0 en Y (X1 y X0) de forma separada, as como la
desviacin tpica de X.
Las siguientes tablas facilitan nuestras operaciones :
X
1
1
2
2
3
4
4
5
5

Y
1
0
1
0
1
0
1
0
1

n
3
1
2
4
3
5
1
1
2
N= 22

n.X
3
1
4
8
9
20
4
5
10
64

n.X2
3
1
8
16
27
80
16
25
50
226

X1
1
2
3
4
5

n
3
2
3
1
2
11
p

n.X1
3
4
9
4
10
30

X0
1
2
4
5

n
1
4
5
1
11
q

n.X0
1
8
20
5
34

30
34
11
11
X0 =
p=
= 0' 5
q=
= 0' 5 = 1 p
= 2' 7273
= 3' 0909
11
11
22
22
64
226
X=
= 2' 9091
s 2X =
2' 90912 = 1' 8099 s X = 1' 8099 = 1' 3453
22
22
X X0
2' 7273 3' 0909
Con esto : rbp = 1
. p. q =
. 0' 5 . 0' 5 = 0' 1351
sX
1' 3453
X1 =

b)

Coeficiente de correlacin de Pearson :


El propsito de este apartado no es otro que comprobar que efectivamente coinciden los coeficientes de
correlacin de Pearson y biserial puntual. Calculemos la media y desviacin tpica de Y, as como la covarianza:

Regresin y correlacin (F. lvarez) - 9

Y=
s XY

f.Y

n.Y2

n.X.Y

1
1
2
2
3
4
4
5
5

1
0
1
0
1
0
1
0
1

3
1
2
4
3
5
1
1
2
22

3
0
2
0
3
0
1
0
2
11

3
0
2
0
3
0
1
0
2
11

3
0
4
0
9
0
4
0
10
30

11
11
0' 5 2 = 0' 25 s Y = 0' 25 = 0' 5
= 0' 5 s 2Y =
22
22
0' 0909
30
=
2' 9091. 0' 5 = 0' 0909
r=
= 0' 1351
22
1' 3453. 0' 5

5
La siguiente tabla nos muestra la distribucin por sexo de un grupo de 167 personas, indicando si
fuman o no.
Fuma
85
10

Hombre
Mujer

No fuma
12
60

a) Calcule el coeficiente de ms adecuado para medir el grado de asociacin existente entre el sexo y
el ser o no fumador.
b) Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el apartado
anterior.

a)
Las dos variables son dicotmicas. El coeficiente especfico para esta situacin es el coeficiente de
correlacin (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
X

=
b)

1 (Fuma)
a = 85
c = 10
95

1 (Hombre)
0 (Mujer)

ad bc

(a + b )(. c + d )(. a + c )(. b + d )

0 (No fuma)
b = 12
d = 60
72

85.60 12.10
97.70.95.72

97
70

= 0'7307

Coeficiente de correlacin de Pearson :


X
1
1
0
0

Y
1
0
1
0

n
85
12
10
60
167

n.X
85
12
0
0
97

n.Y
85
0
10
0
95

n.X2
85
12
0
0
97

n.Y2
85
0
10
0
95

n.X.Y
85
0
0
0
85

97
97
= 0' 5808
s 2X =
0' 5808 2 = 0' 2435 s X = 0' 2435 = 0' 4934
167
167
95
95
Y=
= 0' 5689
s 2Y =
0' 5689 2 = 0' 2453 s Y = 0' 2453 = 0' 4952
167
167
85
0' 1786
s XY =
0' 5808 . 0' 5689 = 0' 1786
r=
= 0' 7307
167
0' 4934 . 0' 4952
X=

Coincidente con el calculado en el apartado anterior, como era de esperar.

10 - Regresin y correlacin (F. lvarez)

6
Doce atletas (A, B, C, ..., L) participan en una carrera de 100 metros y en otra de lanzamiento de peso.
Las clasificaciones en dichas pruebas fueron :
100 metros :
A,B,C,D,E,F,G,H,I,J,K,L
Peso :
K,I,J,L,G,H,F,D,E,B,C,A
a)
Determine la relacin existente entre las dos clasificaciones en las pruebas descritas, mediante
el coeficiente ms adecuado.
b)
Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el
apartado anterior.
Nos encontramos ante dos reordenaciones distintas de los 12 individuos. Calcularemos pues el coeficiente de
correlacin por el mtodo de los rangos de Spearman.

a)

Coeficiente de correlacin :
6. d 2
6.552
= 1
= 1
= 0'9301
2
N. N 1
12. 12 2 1

(Ver tabla siguiente)

A continuacin se ofrecen las tablas auxiliares de clculos de y r , calculados para comprobar que coinciden.
X
1
2
3
4
5
6
7
8
9
10
11
12
78

b)

Para el clculo de
Y
d
11
-10
9
-7
10
-7
12
-8
7
-2
8
-2
6
1
4
4
5
4
2
8
3
8
1
11
78
0

d2
100
49
49
64
4
4
1
16
16
64
64
121
552

X
1
2
3
4
5
6
7
8
9
10
11
12
78

Para el clculo de r
Y
X2
Y2
11
1
121
9
4
81
10
9
100
12
16
144
7
25
49
8
36
64
6
49
36
4
64
16
5
81
25
2
100
4
3
121
9
1
144
1
78
650
650

X.Y
11
18
30
48
35
48
42
32
45
20
33
12
374

Coeficiente de correlacin de Pearson :


650
78
= 6' 5
s 2X =
6' 5 2 = 11' 9167 s X = 11' 9167 = 3' 4521
12
12
650
78
Y=
= 6' 5 s 2Y =
6' 5 2 = 11' 9167 s Y = 11' 9167 = 3' 4521
12
12
11' 0833
374
s XY =
6' 5 . 6' 5 = 11' 0833
r=
= 0' 9301
12
3' 4521. 3' 4521
X=

En efecto coinciden los coeficientes de correlacin obtenidos por los dos mtodos.
Su alto valor negativo (prximo a -1) nos indica que existe una fuerte relacin entre las dos clasificaciones en
las pruebas atlticas, quedando mejor clasificados en una los peor clasificados en la otra.

7
De los archivos de la Direccin provincial de Trfico se han seleccionado los expedientes de 64
conductores, realizando el siguiente recuento en funcin del sexo (M = mujer ; H = hombre) y el nmero
de multas impuestas durante el ltimo ao.
Sexo
N de multas
en el ltimo ao

1
2
3
4
5
6

M
9
7
6
1
1
0

H
0
0
2
9
11
18

Qu conclusin puede deducirse acerca de la relacin existente entre sexo y nmero de denuncias ?.
Utilice para ello el ndice de asociacin ms apropiado.
Al ser dicotmica la variable sexo, obtendremos el coeficiente de correlacin biserial puntual :
Regresin y correlacin (F. lvarez) - 11

Y
X

1
2
3
4
5
6

M=1

H=0

n.X

n.X2

Y=1
n.X1

Y=0
n.X0

9
7
6
1
1
0
24

0
0
2
9
11
18
40

9
7
8
10
12
18
N=64

9
14
24
40
60
108
255

9
28
72
160
300
648
1217

9
14
18
4
5
0
50

0
0
6
36
55
108
205

50
205
24
40
= 2' 0833
= 5' 125
X0 =
p=
= 0' 375 q =
= 0' 625 = 1 p
24
40
64
64
1217
255
X=
= 3' 9844
s 2X =
3' 9844 2 = 3' 1404 s X = 3' 1404 = 1' 7721
64
64
X X0
2' 0833 5' 125
Con esto : rbp = 1
. p. q =
. 0' 375 . 0' 625 = 0' 831
sX
1' 7721
X1 =

Es decir existe una fuerte relacin, de sentido inverso, entre ambas variables. Algo que poda advertirse al
analizar el recuento de las observaciones.

8
Para analizar si existe o no relacin entre las calificaciones en materias cientficas y las del rea
literaria, seleccionamos ocho alumnos a los que sometemos a dos pruebas (una de cada rea).
Clasificados por orden de puntuacin result :
Alumno
P. Cientfica
P. Literaria

1
3
3

2
6
5

3
7
7

4
1
4

5
2
1

6
8
8

7
5
2

8
4
6

Utilizando el ndice adecuado establezca el grado de relacin que existe entre las calificaciones de
dichas reas de conocimiento.
Calcularemos el coeficiente de correlacin (rangos de Spearman) al presentarse dos variables ordinales (dos
reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en la prueba cientfica y en la
literaria . Ordenadas las primeras, calculemos sus diferencias :
X
1
2
3
4
5
6
7
8

Con ello :

= 1

6. d 2

Y
4
1
3
6
2
5
7
8

N. N 1
2

= 1

d
-3
1
0
-2
3
1
0
0

d2
9
1
0
4
9
1
0
0
24

6.24
= 0'7143
8. 8 2 1

Es decir, existe una alta relacin entre las calificaciones. Generalmente un alumno con altas calificaciones en el
rea cientfica tendr altas calificaciones en el rea de conocimientos literarios.

12 - Regresin y correlacin (F. lvarez)

9
Un grupo de COU integran 17 alumnos de Ciencias y 14 de Letras. De ellos repiten curso 16 de Ciencias
y slo 2 de Letras. Calcule el coeficiente de correlacin ms adecuado para medir el grado de
asociacin existente entre las variables descritas.
Se trata de analizar la relacin que puede existir entre la especialidad (Ciencias o Letras) y el ser repetidor o no serlo.
Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
X

1 (Repite)
a = 16
c=2
18

1 (Ciencias)
0 (Letras)

0 (No repite)
b=1
d = 12
13

17
14

ad bc
16.12 1.2
=
= 0'8051 alta relacin entre las variables.
(a + b )(. c + d )(. a + c )(. b + d ) 17.14.18.13

10
A partir de los seis pares de valores, correspondientes a una variable bidimensional (X,Y) ,
(1 , 4) , (2 , 5) , (3 , 5) , (4 , 6) , (5 , 7)
a)
b)
c)

Calcule la ecuacin de la recta de regresin de Y sobre X.


Represente grficamente el diagrama de dispersin y la recta de regresin.
Calcule e interprete el coeficiente de correlacin.

Clculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza) :
X
1
2
3
4
5
15

X=

a)

15
=3
5

b=

s 2X =

1' 4
= 0' 7
2

55
32 = 2
5

Y
4
5
5
6
7
27

Y=

X2
1
4
9
16
25
55

27
= 5' 4
5

Y2
16
25
25
36
49
151

s Y2 =

X.Y
4
10
15
24
35
88

151
5' 4 2 = 1' 04
5

a = 5' 4 0' 7. 3 = 3' 3

s XY =

88
3. 5' 4 = 1' 4
5

Y = 3'3 + 0'7 . X

b)
Para X = 0
Para X = 5

Y = 3'3
Y = 6'8

(0 , 3'3)
(5 , 6'8)

Enlazando los dos puntos anteriores obtenemos la grfica de la recta.

Observe que el punto que tiene por coordenadas las medias


de X e Y (3 , 5'4) , es un punto contenido en la recta de
regresin.
Apreciamos la proximidad de los puntos a la recta de ajuste,
as como que dicha recta es creciente (r > 0).

Regresin y correlacin (F. lvarez) - 13

c)

1' 4

r=

= 0' 9707

2 . 1' 04
Elevada relacin entre las variables y de signo positivo.
La recta de regresin es una buena funcin de ajuste, siendo creciente (r > 0).
Para representar grficamente la recta de regresin, localizamos dos puntos cualesquiera de ella :
Y = 3'3 + 0'7 . X

11
La recta de regresin de Y sobre X, calculada en el estudio de la relacin existente entre dos variables,
tiene por ecuacin Y' = 5'4 - 0'9 . X , siendo la varianza de la variable dependiente Y igual a 1'84.
Si la distribucin de las predicciones de Y tiene como media 3'6 y varianza 1'619936,
a)
calcule la media y varianza de X
b)
determine la ecuacin de la recta de regresin de X sobre Y
c)
obtenga el valor del coeficiente de correlacin.
Iniciamos aqu una serie de ejemplos que requieren para su resolucin el empleo de las diferentes relaciones
funcionales (frmulas para entendernos) tratadas en el tema.
Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores
conocidos. Tal vez as podamos obtener los que nos pida el problema.
1.2.3.-

Y ' = 5'4 0'9. X

(a = Y b. X )

5'4 = Y + 0'9. X

s
b = XY
= 0'9
2
sX

s 2Y = 1' 84
s Y = 1' 84 = 1' 3565
Y' = Y = 3'6
s 2Y' = 1'619936

Siendo 3'6 la media de Y, la expresin de a nos permite obtener la media de X :

5' 4 = Y + 0' 9 . X

5' 4 = 3' 6 + 0' 9 . X

X=

5' 4 3' 6
=2
0' 9

La varianza de X no puede obtenerse de momento (para extraerla del valor del coeficiente de regresin b necesitamos
conocer antes la covarianza o el coeficiente de correlacin).
Partiendo, por ejemplo, de la proporcin de varianza explicada (hace referencia a la varianza de las predicciones) :

r2 =

s 2Y' 1' 619936


=
= 0' 8804
1' 84
s 2Y

r = 0' 8804 = 0' 9383

El coeficiente de correlacin ser negativo, ya que lo es el coeficiente de regresin b (b = -0'9), luego : r = 0'9383 .

sX
nos permitir calcular la desviacin tpica de X :
sY
sX
0' 9383. 1' 3565
0' 9383 = 0' 9 .
sX =
= 1' 4142 s X2 = 1' 4142 2 = 2
1' 3565
0' 9

La expresin r = b .

r = b.

sX
sY

Finalmente, calculemos la recta de ajuste de X sobre Y :

b' =

s XY
s
1' 4142
= r . X = 0' 9383.
= 0' 9783
2
sY
1' 3565
sY

a ' = X b'. Y = 2 ( 0' 9783 ). 3' 6 = 5' 5217

Su ecuacin es :
X' = 5'5217 - 0'9783 . Y

12
La recta de regresin de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la
proporcin de varianza no explicada por X del 25'58%.
a)
Calcule los coeficientes de correlacin y de determinacin.
b)
Siendo X = 5, qu pronstico diferencial corresponde a una puntuacin directa X = 4 ?.

a)

Los coeficientes de correlacin y de determinacin se obtienen directamente de la proporcin de varianza no


explicada :
1 - r2 = 0'2558 r2 = 1 - 0'2558 = 0'7442
Luego :
Coeficiente de determinacin :

R2 = r2 = 0'7442

Coeficiente de correlacin :

r = 0' 7442 = 0' 8627

Para determinar si el coeficiente de correlacin es positivo o negativo se pueden seguir distintos


procedimientos. Uno podra consistir en dibujar la recta de regresin (enlazando los dos puntos
14 - Regresin y correlacin (F. lvarez)

conocidos) observando si es creciente (b > 0 y r > 0) o decreciente (b < 0 y r < 0). As resulta que
es creciente y, por tanto, r = 0'8627.

b)

Determinemos la recta de regresin en puntuaciones directas y diferenciales :


Si la recta de regresin Y' = a + b.X pasa por (0'5,0) y (0,-0'4) , significa que :
- para X = 0'5 Y' = 0 :
0 = a + b.0'5
- para X = 0 Y' = -0'4 :
-0'4 = a + b.0
-0'4 = a 0 = -0'4 + b.0'5 b = 0'4 / 0'5 = 0'8
La recta de regresin es :
en puntuaciones directas :
en puntuaciones diferenciales :

Y' = -0'4 + 0'8 . X


y' = 0'8 . x

A la puntuacin directa X = 4 , le corresponde una puntuacin diferencial : x = X X = 4 5 = 1


luego el pronstico diferencial correspondiente es :
y' = 0'8 . x = 0'8 . (-1) y' = -0'8
NOTA : Calculado b = 0'8 > 0, concluiremos que el coeficiente de correlacin es tambin positivo (r = 0'8627), tal como
se dedujo en el apartado a).

13
En un grupo de 10 sujetos se han aplicado dos pruebas (X,Y). Las puntuaciones obtenidas en X fueron
dicotomizadas por la Mediana formndose dos categoras: altos (A) y bajos (B). Los resultados son los
siguientes :
Sujeto
X
Y

1
B
5

2
A
3

3
B
3

4
A
0

5
A
1

6
B
3

7
B
2

8
A
0

9
A
1

10
B
2

Elija y calcule el ndice de correlacin adecuado para medir la relacin existente entre X e Y.

X
0
1
2
3
4
5

XA =

nA nA.X nB nB.X X
2
2
0
1
0
0

0
2
0
3
0
0

0
0
2
2
0
1

0
0
4
6
0
5

15

0
1
2
3
4
5

n.X n.X2

2
2
2
3
0
1

0
2
4
9
0
5

0
2
8
27
0
25

10

20

62

5
15
20
62
= 1; XB = = 3 ; X =
= 2 ; SX =
2 2 = 1483
'
5
5
10
10
rbp =

XA X B
1 3
5 5
. p. q =
.
. = 0'674
SX
1483
'
10 10

Cierta relacin entre las variables, de signo inverso. A mayor puntuacin en la prueba Y menor nivel en X.

14
Las puntuaciones directas obtenidas por 5 sujetos en la escala LKS (Escala de Lucas) y las obtenidas
por esos mismos sujetos en el factor C (Control Social) del PSI son las que figura en la tabla final.
a) Encuentre la puntuacin pronosticada en LKS de un sujeto cuya puntuacin directa en C es 15.
b) Encuentre la parte de la varianza de LKS asociada a la variacin de C.
c) Interprete el resultado obtenido al calcular el estadstico que expresa la relacin entre LKS y C.
Sujetos
LKS
C
Y = LKS

A
49
8

B
40
16

C
43
14

D
31
20

E
37
12

X=C
X
8
16
14
20
12
70

Y
49
40
43
31
37
200

X
64
256
196
400
144
1060

Y2
2401
1600
1849
961
1369
8180

X.Y
392
640
602
620
444
2698
Regresin y correlacin (F. lvarez) - 15

70
200
1060
= 14 ; Y =
= 40 ; S 2X =
14 2 = 16 ; S X = 4
5
5
5
8180
2698
S 2Y =
40 2 = 36 ; S Y = 6 ; S XY =
14.40 = 20'4
5
5
X=

b = -204 / 16 = -1275

a = 40 - (.1275).14 = 5785

a)
Y = 5785 - 1275.X = 5785 - 1275 . 15 = 38725
b)

r = -204 / 4 . 6 = -085 r2 = 07225 (7225%)

a) Alta relacin entre las dos pruebas (r=-085) y de signo inverso. Es decir, un sujeto con alta puntuacin en LKS
tendr baja puntuacin en C

15
La empresa de publicidad VENDEBIEN quiere saber si la aceptacin o rechazo dependen del sexo.
Para ello se encuesta a 200 personas de las cules el 50% son mujeres; 40 hombres rechazan el
producto mientras que 30 mujeres lo aceptan.
Elija y calcule el ndice de correlacin adecuado para interpretar estos datos.

Aceptan
Rechazan

H
a=60
c=40

M
b=30
d=70

60.70 30.40
ad bc
=
= 0'3015
(a + b).( c + d ).( a + c).( b + d )
90110100100
. . .

Escasa relacin entre la aceptacin y el sexo. De aceptarla, el mayor rechazo se produce en mujeres.

16
Estudiando la relacin entre las variables X e Y se obtuvieron los siguientes datos :

X = 119 , Y = 1'30 , S x = 10 , SY = 0'55 , rxy = 0'70 , n = 10


a) Elena C. obtuvo una puntuacin de 130 en X. Estime su puntuacin en Y.
b) Se estim la puntuacin 128 en la variable Y para Gonzalo S.. Cul fue su puntuacin en la
variable X ?.
c) Determinar el valor de

a)

b = r.

sy
sx

= 0'7.

Sy.x

y la desviacin tpica de las puntuaciones pronosticadas (Sy).

0'55
= 0'0385 ; a = 130
' 0'0385x119 = 3'2815 Y' = 3'2815 + 0'0385. X
10

Y' = 3'2815 + 0'0385130


.
= 1'7235
b)

c)

128 = -32815+00385.X X = 11848

S Y.X = S Y . 1 r 2 = 0'55. 1 0'7 2 = 0'3928


S 2Y' = S Y2 S Y2 .X = 0'3025 01543
'
= 01482
'
S Y' = 0'385

17
El gabinete de estudios sobre Malestar Social desea conocer si existe relacin entre la consumicin
de drogas y la comisin de delitos sobre la propiedad. Para ello se selecciona una muestra y se
comprueba que 50 individuos han consumido algn tipo de droga y a la vez han estado implicados en
delitos contra la propiedad. Teniendo en cuenta que un 20% de la muestra ha cometido delitos contra la
propiedad, que 250 no consumen drogas ni han estado implicados en delitos contra la propiedad y que
la muestra constaba de 500 individuos, qu conclusin obtendr el gabinete de estudios ?. (Elija,
calcule e interprete el coeficiente de correlacin adecuado).

16 - Regresin y correlacin (F. lvarez)

Delito SI
Delito NO

Droga SI
a=50
c=150

Droga NO
b=50
d=250

50.250 50150
.
ad bc
'
=
= 0144
(a + b).( c + d ).( a + c).( b + d )
100.400.200.300

Escasa relacin entre consumo de drogas y comisin de delitos. De aceptarla, la mayor comisin de delitos se
produce en consumidores de drogas.

18
Estudiando una muestra de 50 alumnos de BUP se observ que una proporcin de 010 estaba
compuesta por alumnos hijos nicos. De los 50 alumnos, una proporcin de 06 coman en el Colegio.
Si sabemos que una proporcin de 004, con respecto al total, son hijos nicos que no comen en el
Colegio. Existe una relacin entre ser hijo nico o no y comer o no en el Colegio ?. Halle el coeficiente
de correlacin que corresponda e interprete el resultado.

Comen SI
Comen NO

nico SI
a=3
c=2

nico NO
b=27
d=18

318
. 27.2
ad bc
=0
=
(a + b).( c + d ).(a + c).( b + d )
30.20.5.45

Las variables son independientes. No existe ningn tipo de relacin entre ser hijo nico y comer en el colegio.

19
La desviacin tpica de un determinado grupo de personas en la variable ansiedad (X) es igual a 2.
Tambin conocemos para esta variable la media de los varones (10) y la de las mujeres (5). Sabiendo
que el ndice de asociacin entre las variables ansiedad y sexo es igual a +1, y que el nmero de
varones es superior al de mujeres :
a) Qu coeficiente de correlacin habr sido utilizado ?.
b) Interprete el valor del coeficiente de correlacin.
c) Calcule la proporcin de varones que componen nuestra muestra.
a)

Biserial puntual (rbp). Una cuantitativa y la otra dicotmica.

b)

Relacin perfecta. Los varones presentan altas puntuaciones en ansiedad y las mujeres bajas.

rbp =
c)

xv xm
10 5
2
. p. q = 1 =
. p. q p. q = = 0'4 p. q = 016
'
2
5
sx

' p p 2 = 016
' p 2 p + 016
' =0p=
p.(1 p) = 016

1 1 0'64 1 0'6 p = 0'8


=
=
2
2
p = 0'2

La solucin es 08 al indicar que hay ms varones que mujeres.

20
Con el fin de estudiar si existe o no relacin entre las calificaciones en Matemticas y en Filosofa de
COU, seleccionamos seis alumnos. Clasificados por orden de puntuacin final en cada materia result :
Alumno
Matemticas
Filosofa

1
3
3

2
6
5

3
4
6

4
1
4

5
2
1

6
5
2

Utilizando el ndice adecuado, basado en el concepto de correlacin de Pearson, establezca el grado de


relacin que existe entre las calificaciones de las dos asignaturas.
Calcularemos el coeficiente de correlacin (rangos de Spearman) al presentarse dos variables ordinales
(dos reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en Matemticas y
en Filosofa.
Ordenando las primeras (X), calculamos sus diferencias con las segundas :
Regresin y correlacin (F. lvarez) - 17

X
1
2
3
4
5
6

Con ello :

= 1

Y
4
1
3
6
2
5

6. d 2

N. ( N 1)
2

d
-3
1
0
-2
3
1

= 1

Es decir, apenas existe relacin entre las calificaciones.

18 - Regresin y correlacin (F. lvarez)

6 . 24

d2
9
1
0
4
9
1
24

6. ( 6 2 1)

= 0'3143

EJERCICIOS PROPUESTOS
1
X

4
4
5
6
6
6

0
1
2
2
3
4

3
5
6
2
8
1

0
1
2

2
3
0
0

De la presente distribucin conjunta de las dos variables (X,Y) :


b)
b)
c)

Obtener la recta de regresin de Y sobre X en puntuaciones diferenciales.


Obtener la recta de regresin de X sobre Y en puntuaciones tpicas..
Calcular e interpretar el coeficiente de determinacin

2
Y

4
1
6
2

6
0
4
4

8
0
0
5

De la presente distribucin conjunta de las variables (X,Y) :


a)
Obtener la recta de regresin de Y sobre X.
b)
Calcular e interpretar el coeficiente de determinacin.

3
De los 10 pares de valores que se representan en el
diagrama de dispersin de la izquierda,
a) Calcular la recta de regresin de Y sobre X.
b) Calcular e interpretar el coeficiente de correlacin
lineal
.

4
Edad

Hermanos

[10,15)
[10,15)
[10,15)
[15,20)
[15,20)
[20,25]
[20,25]

0
1
2
1
2
1
2

3
5
9
5
10
3
5

De la distribucin de edades y nmero de hermanos de 40 jvenes :


Calcular e interpretar el coeficiente de correlacin lineal.

5
Las siguientes distribuciones bivariantes pretenden estudiar el grado de relacin existente entre las variables :
a) Puntuacin en un test de agresividad y sexo.
b) Clasificacin (de mayor a menor) segn la nota media obtenida en las asignaturas del curso y en una
prueba tendente a determinar su coeficiente intelectual.
c) Ser bebedor y ser fumador.
Determine y calcule en cada caso el ndice adecuado que permite medir el grado de relacin entre las variables
descritas.

Regresin y correlacin (F. lvarez) - 19

(I)

Puntos
test
[ 0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)

Sexo
Hombre
Mujer
0
2
5
3
11
9
20
22
14
9
6
6

(II)
Alumno
Nota media
C.I.

1
2
3

2
4
4

3
5
6

4
1
1

S
No

Fuman
S
No
4
31
41
14

(III)
Beben

5
6
5

6
3
2

6
La proporcin de varianza residual, en un ajuste de Y sobre X, es del 22'12%.
a)
Determine dicha recta de ajuste sabiendo que a una puntuacin directa X=2 corresponde una
prediccin 2'1 y que dicha recta corta al eje de ordenadas en el punto (0,0'3).
b)
Calcule el coeficiente de correlacin.

7
En el estudio de la relacin lineal existente entre dos variables X e Y, sabemos que a las puntuaciones directas
0 y 2 de X le corresponden unos pronsticos respectivos 33243 y 77567. Sabiendo que el coeficiente de
determinacin es del 9465% y que la variable dependiente tiene por media 82 y varianza 1536, calcular :
a) Ecuacin de la recta de ajuste.
b) Coeficiente de correlacin.
c) Media y varianza de la variable X.

8
Analizamos las edades de 8 personas que acuden a un examen para la obtencin del carnet de conducir.
Sabiendo que aprueban 5 con edades : 28, 24, 32, 45 y 30 y que los que suspenden tienen 23, 21 y 27 aos,
determine el coeficiente ms adecuado para medir el grado de relacin de la edad con la superacin o no del
examen.

9
Para los siguientes pares de valores de las variables X e Y :
(12 , 4) , (10 , 7) , (12 , 5) , ( 11 , 65) , (14 , 2) , (11, 85) , (12, 3) , (14 , 15) , (10, 9) , ( 11, 7)
calcular la proporcin de varianza que explica el ajuste de Y sobre X.

10
X
Y
f

0
-6
3

1
-2
6

1
-1
11

1
1
16

2
3
3

3
8
1

3
9
4

5
12
2

Determine la varianza de los errores y de las


predicciones, correspondientes al ajuste de Y
sobre X en la distribucin anterior.

11
En un grupo de 10 alumnos se han obtenido las calificaciones en Anatoma, separando el ejercicio terico del
prctico. El profesor encargado orden tales calificaciones de mayor a menor puntuacin, encontrando los
resultados siguientes :
Alumno
Clasificacin teora
Clasificacin prctica

1
6
6

2
2
10

3
7
4

4
10
3

5
4
9

6
1
7

7
8
2

8
5
5

9
9
1

10
3
8

Elija y calcule el ndice de correlacin adecuado para medir si existe relacin o no entre las calificaciones en las
dos partes del examen.

20 - Regresin y correlacin (F. lvarez)

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
s 2X = 0'7456

X = 5'12
a) b = 1'133
b) r = 0'909
c) r2 = 0'8263

s 2Y = 1'1584

Y = 1'96

s XY = 0'8448

y' = 1'133 . x
zy' = 0'909 . zx
La proporcin de variabilidad explicada por X supone el 62'63% de la de Y.

2
s 2X = 0'5216

X = 1'28
a) a = 2'6871
b) R2 = r2 = 0'5711

s 2Y = 3'52

Y = 5'2

s XY = 1'024

Y' = 2'6871 + 1'9632 . X


b = 1'9632
Representa la proporcin de varianza de Y explicada por X (el 57'11%)

3
s 2X = 8'25

X = 5'5
a) a = 1'9333
b) r = 0'8188

s 2Y = 1'8225

Y = 4'05

s XY = 3'175

Y' = 1'9333 + 0'3848 . X


b = 0'3848
Elevada relacin entre las variables (de tipo directo)

4
X = 16'375

s 2X = 14'3594

s 2Y = 0'3994

Y = 1'525

s XY = 0'4656

Las variables no estn relacionadas linealmente (son independientes)

b) r = 0'1944

5
(I)

Coeficiente biserial puntual

rbp = 0'0389

(II)

Coeficiente de los rangos de Spearman

= 0'8857

(III)

Coeficiente

= - 0'6154

6
a)

Y = 0'3 + 0'9 . X

b)

r = 0'8825

7
a) Y = 33243 + 22162.X
b) 09729
c) 22, 296

8
rbp = 056

9
08331

(o bien el 8331%)

10
19543 ; 155069

11
= -08667

Regresin y correlacin (F. lvarez) - 21

22 - Regresin y correlacin (F. lvarez)

Anda mungkin juga menyukai