Anda di halaman 1dari 7

03/06/2014

1
Elementos de estadstica
para historiadores
Jorge Gonzalorena Dll
Universidad de Valparaso
2014
Regresin lineal
El coeficiente de correlacin mide la direccin y la
fuerza de una relacin entre dos variables. Pero si lo
que interesa es resumir la relacin entre dos variables
en trminos de que una explique o prediga a la otra,
el indicador pertinente es el de la regresin lineal.
En los casos de regresin se da por supuesta la
existencia de una dependencia funcional entre las
variables. Siendo una de ellas independiente (X) y la
otra dependiente (Y), se habla entonces de la
regresin de Y sobre X.
Se describen y/o predicen, as, los cambios que se
registran en una variable dependiente Y en respuesta
a los cambios que se operan en una variable
independiente X, correspondiendo cada pareja de
valores a un mismo elemento de la poblacin.
En una regresin lineal dicha relacin de dependencia
se expresa a travs de la lnea recta que se configura
con los valores pareados de ambas variables. La
ecuacin general de la recta es:
y = a + bx
03/06/2014
2
En base a esta ecuacin se puede calcular para
cualquier punto de una recta, el valor estimado que
tomara y a partir de:
1. el conocimiento de su correspondiente valor x
2. la pendiente (o inclinacin) de la recta b
3. el punto en que la recta corta el eje de las
ordenadas (x = 0) a
y
b
b
a
o x
Ejemplifiquemos esto
con el caso de una
industria que paga a
sus operarios $100
por cada unidad de
pieza de vestuario
cortada. Se da as
una relacin directa y
claramente definida
entre el nmero de
piezas (x) y el monto
de los salarios (y).
Piezas
(X)
Salarios
(Y)
68 6.800
70 7.000
75 7.500
78 7.800
80 8.000
83 8.300
84 8.400
86 8.600
92 9.200
95 9.500
Aqu las dos variables se correlacionan de manera
perfecta, siendo su grfica una lnea recta que no
corta el eje de las ordenadas y cuya ecuacin es:
y = 100 x
Esta es la recta de regresin de los salarios sobre las
unidades producidas (o regresin de Y sobre X).
Generalizando, indicamos con b el monto del pago
por unidad y la recta de regresin queda simbolizada
como y = bx, la cual pasa por el origen (0, 0)
y
b
o x
Supongamos ahora que
se modifica la forma de
pago, asignndose un
salario base diario de
$2.500 y, sobre esa
suma, $80 por cada
unidad de pieza cortada.
En este caso los valores
(x, y) definen una recta
cuya ecuacin es:
y = 2.500 + 80x
Piezas
(X)
Salarios
(Y)
68 7.940
70 8.100
75 8.500
78 8.740
80 8.900
83 9.140
84 9.220
86 9.380
92 9.860
95 10.100
03/06/2014
3
Generalizando, el salario base se indica con a y el
pago por pieza con b, expresndose la recta de
regresin en la ecuacin y = a + bx
y
b
2.500
o x
En cualquiera de los casos, las lneas de regresin
permiten lecturas dentro y fuera del rango de los
valores observados, dando lugar a interpolaciones si
se localizan entre los valores registrados y a
extrapolaciones si se sitan ms all de sus lmites.
Sin embargo, por lo general las correlaciones
observadas entre dos variables, X e Y, no son
perfectas, por lo que al ubicar en un plano cartesiano
los datos pareados (x, y) se obtienen puntuaciones
con algn grado de dispersin como las ilustradas en
la siguiente grfica.
-2
0
2
4
6
8
10
12
0 2 4 6 8 10 12
X
Y
Como se observa en dicha figura, los pares de valores
no permiten trazar una recta que pase por todos los
puntos, pero s sera posible establecer una con
respecto a la cual las desviaciones de los valores
observados fuesen mnimas.
-2
0
2
4
6
8
10
12
0 2 4 6 8 10 12
X
Y
03/06/2014
4
Esa recta, definida como la que minimiza la suma de
los cuadrados de las desviaciones con respecto a ella
de todos los puntos correspondientes a la informacin
recogida (mtodo de los mnimos cuadrados), se la
conoce como lnea de mejor ajuste .
En el trazado de esta recta, el parmetro b viene
determinado por la frmula siguiente:


=
2
) (
) )( (
x x
y y x x
b
A su vez, el parmetro a viene determinado por:
) ( x b y a =
Vamos a ilustrar el proceso de clculo valindonos de
los ejemplos de salarios por pieza que ya hemos
utilizado. En el caso del primer ejemplo tenemos que:
x y (x-x) (y-y) (x-x)(y-y) (x-x)
2
68 6.800 -13,1 -1.310 17.161 171,61
70 7.000 -11,1 -1.110 12.321 123,21
75 7.500 -6,1 -610 3.721 37,21
78 7.800 -3,1 -310 961 9,61
80 8.000 -1,1 -110 121 1,21
83 8.300 1,9 190 361 3,61
84 8.400 2,9 290 841 8,41
86 8.600 4,9 490 2.401 24,01
92 9.200 10,9 1.090 11.881 118,81
95 9.500 13,9 1.390 19.321 193,21
811 81.100 0 0 69.090 690,90


=
2
) (
) )( (
x x
y y x x
b
100
90 , 690
090 . 69
= = b
03/06/2014
5
0 ) 1 , 81 * 100 ( 110 . 8 = = a
) ( x b y a =
Por lo tanto, la recta que mejor se ajusta a la serie de
datos correspondientes al primer ejemplo es :
En el caso del segundo ejemplo, tenemos que:
x y 100 =
X Y (x-x) (y-y) (x-x)(y-y) (x-x)
2
68 7.940 -13,1 -1.048 13728,8 171,61
70 8.100 -11,1 -888 9856,8 123,21
75 8.500 -6,1 -488 2976,8 37,21
78 8.740 -3,1 -248 768,8 9,61
80 8.900 -1,1 -88 96,8 1,21
83 9.140 1,9 152 288,8 3,61
84 9.220 2,9 232 672,8 8,41
86 9.380 4,9 392 1920,8 24,01
92 9.860 10,9 872 9504,8 118,81
95 10.100 13,9 1.112 15456,8 193,21
811 89.880 0 0 55.272 690,90


=
2
) (
) )( (
x x
y y x x
b
80
9 , 690
272 . 55
= = b
500 . 2 488 . 6 988 . 8 ) 1 , 81 * 80 ( 988 . 8 = = = a
) ( x b y a =
Por lo tanto, la recta que mejor se ajusta a esta serie
de datos es :
) 80 ( 500 . 2 x y + =
03/06/2014
6
En los ejemplos que hemos utilizado el valor de los
parmetros a y b ya era conocido y el procedimiento
slo nos ha permitido confirmarlo.
Pero lo usual es que tales valores sean desconocidos
y que, en consecuencia, resulte necesario inferirlo a
partir de los datos disponibles.
Estatura Peso
1,25 32
1,28 33
1,27 34
1,21 30
1,22 32
1,29 35
1,30 34
1,24 32
1,27 32
1,29 35
1,25 33
1,28 35
1,27 34
1,21 30
1,22 33
Ejercicio:
Determinar la lnea de
regresin de Y sobre X
a partir de los datos
sobre estatura y peso
del grupo de alumnos
registrados en la tabla.
Luego, a partir de ella,
determinar el probable
peso de quienes midan
1,25 y 1,28 mts.
Estatura Peso (x-x) (y-y) (x-x)(y-y) (x-x)
2
1,25 32 -0,01 -0,93 0,01 0,0000
1,28 33 0,02 0,07 0,00 0,0005
1,27 34 0,01 1,07 0,01 0,0002
1,21 30 -0,05 -2,93 0,14 0,0022
1,22 32 -0,04 -0,93 0,03 0,0013
1,29 35 0,03 2,07 0,07 0,0011
1,30 34 0,04 1,07 0,05 0,0019
1,24 32 -0,02 -0,93 0,02 0,0003
1,27 32 0,01 -0,93 -0,01 0,0002
1,29 35 0,03 2,07 0,07 0,0011
1,25 33 -0,01 0,07 0,00 0,0000
1,28 35 0,02 2,07 0,05 0,0005
1,27 34 0,01 1,07 0,01 0,0002
1,21 30 -0,05 -2,93 0,14 0,0022
1,22 33 -0,04 0,07 0,00 0,0013
18,85 494,00 0,00 0,00 0,577 0,0131


=
2
) (
) )( (
x x
y y x x
b
046 , 44
0131 , 0
577 , 0
= = b
568 , 22 6 , 55 93 , 32 ) 26 , 1 * 046 , 44 ( 93 , 32 = = = a
) ( x b y a =
Una vez establecidos los parmetros a y b y aplicando
luego la ecuacin de la recta y = a + bx se puede
determinar el peso (variable dependiente y) que con
mayor probabilidad corresponder a cualquier otra
estatura (variable independiente x).
03/06/2014
7
As, por ejemplo, para una estatura de 1,25 mts. se
prev un peso aproximado de 32,49 kgs. y para una
estatura de 1,28 mts. de 33,81 kgs.
En efecto, si x = 1,25 :
) 25 , 1 * 046 , 44 ( 568 , 22 + = y
) 0575 , 55 ( 568 , 22 + = y
49 , 32 = y
bx a y + =
Si, en cambio, x = 1,28 :
) 28 , 1 * 046 , 44 ( 568 , 22 + = y
) 37888 , 56 ( 568 , 22 + = y
81 , 33 = y
bx a y + =

Anda mungkin juga menyukai