A NUESTROS PADRES
SUMARIO
PORTADAI
DEDICATORIA......II
SUMARIO..III - IV
PROLOGO..V - VI
INTRODUCCION..VII - VIII
CAPITULO I: MARCO TEORICO
1.1
1.2
DEFINICIONES PREVIAS.....9
1.1.1
1.1.2
Correlacin......10
1.1.3
Regresin.10
1.1.4
1.1.5
Diagrama de dispersin...11
1.1.6
Covarianza..12
CORRELACIN
1.2.1
Definicin12 - 13
1.2.2
Tipos de Correlacin....13 - 15
1.2.3
1.2.4
1.2.5
1.2.6
1.2.7
1.3
REGRESIN
1.3.1
1.3.2
1.3.3
1.3.4
1.3.5
1.3.6
1.3.7
CONCLUSIONES.....37
ANEXOS....39
BIBLIOGRAFA
Bsica....40
Citada.40 - 41
Consultada.........41
No Consultada.......41
PRLOGO
Los Alumnos
INTRODUCCIN
Son numerosos los casos en la vida cotidiana en el que trabajamos con dos variables
que estn relacionadas de alguna u otra manera, como: produccin y consumo, ingresos y
costos, horas de estudio y rendimiento acadmico etc.; y como tal nuestra actividad
minera est inmersa dentro de ello, por ejemplo las horas trabajadas y accidentes de
trabajo en sus operaciones unitarias. Es importante entonces conocer y aplicar los
mtodos de regresin y correlacin (tema de la presente monografa) en problemas de la
vida diaria.
El motivo de eleccin del tema fue el deseo de tener conocimientos respecto a los
mtodos de regresin y su importancia en la toma de decisiones, toda vez que en la
actualidad las diversas situaciones a la que nos enfrentamos diariamente, implican el
conocimiento de la regresin y correlacin.
La presente monografa se divide en dos captulos:
En el Captulo I, trata todo lo referente al aspecto terico, podemos encontrar las
diferentes definiciones necesarias para analizar, comprender las frmulas estadsticas
como, el coeficiente de correlacin, ajustes por mnimos cuadrados, que sern de gran
ayuda para la realizacin en las aplicaciones.
Los Alumnos
CAPITULO I
MARCO TERICO
1.1 GENERALIDADES
1.1
10
1.2
X e Y discretos.
X e Y continuos.
X continua e Y discreta.
Correlacin
Al respecto, Triola nos dice que existe entre dos variables cuando una de ellas
se relaciona con la otra de alguna manera2.
Tambin Ciro Martnez, refiere al respecto que el anlisis de correlacin nos
describe el grado o fuerza con que se produce esta relacin 3.
Entonces, en nuestro objetivo de determinar este grado de relacin utilizaremos
una medida conocida como coeficiente de correlacin o correlacin de Pearson.
1.3
Regresin
El principal objetivo de la regresin es describir la relacin entre dos variables
por medio del clculo de la grfica y la ecuacin que representa la relacin. Las
ecuaciones de regresin resultan tiles cuando se emplean para predecir el valor
de una variable, a partir de algn valor en particular de la otra variable. Si la
ecuacin de regresin se ajusta bastante bien a los datos, entonces es sensato
utilizar dicha ecuacin para hacer predicciones, ya que no vamos ms all de los
valores disponibles4.
11
1.4
1.5
Diagrama de dispersin
Los datos de una distribucin bidimensional, pueden ser representados
grficamente en un par de ejes coordenados, considerando al eje de las abscisas
para la primera variable(x1) y al eje vertical o de las ordenadas, para los valores
de la segunda variable (y1). En un plano cartesiano, se presentan tantos puntos
como pares de observaciones se tengan, correspondiendo a cada punto un par de
observaciones; a esta representacin grfica se le denomina indistintamente:
diagrama de desparramiento, de dispersin, de espaciamiento o nube de
puntos.6A continuacin se muestra grficamente ejemplos de lo que se dijo
anteriormente:
Fuente: INTERNEThttp://www.umss.edu.bo/epubs/etexts/downloads/18/alumno/cap2.html.
5INTERNEThttp://www.umss.edu.bo/epubs/etexts/downloads/18/alumno/cap2.html.
6 MARTINEZ BENCARDINO, Ciro...Op. Cit p. 618
12
Fuente: INTERNEThttp://www.umss.edu.bo/epubs/etexts/downloads/18/alumno/cap2.html.
1.6
Covarianza
Es una estadstica que mide el grado de dispersin o variabilidad conjunta de
).
); es decir7:
1.2 CORRELACIN
1.2.2
Definicin
Por lo ya expuesto, la covarianza indica cmo es la relacin entre dos
variables, es decir, cmo se orienta la nube de puntos, pero l parmetro no
indica de una forma concreta la medida de esa relacin. Para resolver este
problema se definen los conceptos de correlacin y coeficiente de
correlacin.8
TRIOLA menciona en su obra:
7 CORDOVA ZAMORA, Manuel Estadstica Descriptiva e Inferencial.Lima, Editorial Moshera S.R.L, 2003. Quinta edicin, Cap. IV, p. 89
8 MARTINEZ BENCARDINO, Ciro...Op. Cit pp. 634 a 635
13
N de TMS de Mineral Xi
Precio del Mineral Yi
1
3
2
5
3
7
4
9
5
11
Figura 01
TMS
de Mineral
Fuente:
INTERNET.http://personal5.iddeo.es/ztt/Tem/t15_distribuciones_bidimensionales
.htm
Correlacin directa: Al aumentar una variable aumenta la otra,
(ver figura 02). Ejemplo: Nmero de proveedores de suministros y
nmero de pedidos por las minas. 11
N de Proveedores
14
Figura 02
N de Pedidos
Fuente:
N de Proveedores
INTERNET.-http://carmesimatematic.webcindario.com/bidimensionales.htm
N Toneladas de Mineral
Tiempo ( meses )
N de Ton de Reservas de Mineral
1
450000
2
400000
3
350000
4
250000
Figura
5
200000
03
Fuente:
INTERNET.-
Tiempo (meses)
http://personal5.iddeo.es/ztt/Tem/t15_distribuciones_bidimensionales
.htm
N de Trabajadores
Leyes de Mineral
60
7
50
9
Figura 04
12 Idem.
13 Idem.
91
11
75
15
105
10
N Leyes de Mineral
15
Fuente:
INTERNET.-
N de trabajadores
http://personal5.iddeo.es/ztt/Tem/t15_distribuciones_bidimensionales
.htm
r=
Cov ( x , y )
Sx , Sy
16
r=
n XY X Y
n X ( X ) x n Y ( Y )
2
17
18
1.2.5
Coeficiente de Correlacin por Rangos de Sperman
Este coeficiente es una medida de asociacin lineal que utiliza los rangos,
nmeros de orden, de cada grupo de sujetos y compara dichos rangos. Existen
dos mtodos para calcular el coeficiente de correlacin de los rangos uno
sealado por Spearman y otro por Kendall. El r de Spearman llamado tambin
rho de Spearman es ms fcil de calcular que el de Kendall. El coeficiente de
correlacin de Spearman es exactamente el mismo que el coeficiente de
correlacin de Pearson calculado sobre el rango de observaciones. El
coeficiente de correlacin de Spearman es recomendable utilizarlo cuando los
datos presentan valores externos ya que dichos valores afectan mucho el
coeficiente de correlacin de Pearson, o ante distribuciones no normales. 17
Segn Rufino Moya C. se procede como sigue:
Para definir este coeficiente de correlacin se
considera los rangos de cada variable; o sea, los
nmeros de orden de las observaciones cuando se
ordenan de manera creciente o decreciente. Si
existen dos o ms valores iguales de la variable, los
rangos de cada uno de stos son iguales al
promedio de los rangos que les corresponda en el
caso de que fueran diferentes consecutivos. 18
El clculo del coeficiente (rs19) viene dado por:
n
d i2
r s =1
i=1
2
n(n 1)
Coeficiente de Determinacin=r 2
17 INTERNET.- http://carmesimatematic.webcindario.com/bidimensionales.htm
18 MOYA, Rufino C. Estadstica Descriptiva, Conceptos y Aplicaciones.Per, Editorial San Marcos, 1era edicin, 2007.- Cap. V p. 398
19 Este coeficiente de Spearman tiene la misma interpretacin que la del
coeficiente de correlacin de Pearson
19
1.2.7
Interpretacin del coeficiente de correlacin.
Como se ha indicado el coeficiente de correlacin de Pearson es un ndice
cuyos valores absolutos oscilan entre 0 y 1. Cuanto ms cerca de 1 mayor ser
la correlacin, y menor cuanto ms cerca de cero. Pero como interpretar un
coeficiente determinado? Qu significa un coeficiente de 0.6?. Es alto o
bajo?. No puede darse una respuesta precisa. Depende en gran parte de la
naturaleza de la investigacin. Por ejemplo, una correlacin de 0.6 sera baja
si se trata de la fiabilidad de un cierto test, pero sin embargo, sera alta si
estamos hablando de su validez. No obstante, intentaremos abordar el tema
desde dos perspectivas distintas. Por un lado, ya ha sido tratado desde la
perspectiva de la significacin estadstica mencionada en los apartados
anteriores. Desde este enfoque una correlacin es efectiva si puede afirmarse
que es distinta de cero. Pero ha de decirse que una correlacin significativa no
necesariamente ha de ser una correlacin fuerte; simplemente es una
correlacin diferente de cero o en otros trminos, es una correlacin que es
poco probable que proceda de una poblacin cuya correlacin es cero. Tan
solo se est diciendo que se ha obtenido "algo" y que ese "algo" es
(probablemente) ms que "nada". La significacin de r xy depende en gran
medida del tamao de la muestra, si por ejemplo una correlacin de 0.01
puede ser significativa en una muestra suficientemente grande y otra de 0.9 no
serlo en una muestra pequea. Aqu se cumple la ley de los grandes nmeros;
tendencias dbiles son muy improbables, desde la Hiptesis nula, en grandes
masas de datos, mientras que tendencias fuertes pueden ser relativamente
probables en un tamao pequeo de muestra. 20
Ms inters tiene la interpretacin del coeficiente de correlacin en trminos
de proporcin de variabilidad compartida o explicada, donde se ofrece una
20 INTERNET.- http://dialnet.unirioja.es/servlet/articulo?
codigo=950680&orden=140963&info=link
20
xy
, y se
21 Loc. Cit
22 Loc. Cit.
21
1.2.8
Errores comunes en las correlaciones
Un error comn es concluir que la correlacin implica causalidad. Es fcil
imaginarse que parejas de variables pudieran dar un alto valor de un
coeficiente de correlacin y que no se deba realmente a una estrecha
relacin entre ellas, sino el efecto comn sobre stas de una tercera,
conocida como variable interventora
23
coeficiente de correlacin refleja slo ese efecto comn. Por ello los
coeficientes de correlacin deben manejarse con cuidado, sino podra
llevarnos a conclusiones errneas.
Otro error es el proveniente de los datos basados en promedios. Los
promedios eliminan la variacin individual y pueden inflar o reducir el
coeficiente de correlacin.
Mario TRIOLA menciona como ejemplo, que:
Un estudio produjo un coeficiente de
correlacin lineal de 0.4 para datos apareados
que relacionaban el ingreso y la educacin de
individuos, pero el coeficiente de correlacin
lineal se convirti en 0.7 cuando se utilizaron
promedios regionales. 24
22
Fuente:
TRIOLA
Op. Cit. p.
Por
Fuente:
Mario F
498
ltimo
tenemos
un error que,
puede
calificarse un
23
Y .
Veamos primero el caso en que la curva de regresin de
lineal, esto es. Para cualquier
sobre
es
+ x . En general, Y
, y escribimos.
Y = + x +
diferentes a
24
n observaciones apareadas
sobre
x es lineal y
^y =a+bx
Donde a y b son constantes.
A continuacin merece resaltar la idea de Mario F. Triola:
La ecuacin de regresin expresa una relacin entre x (conocida como:
29
^y
y=mx +b
^y =b 0+ b1 x
Donde:
Note que
b0 y b1
b0 :intercepto y
b1 : pendiente
son estadsticos mustrales que servirn para estimar
0 y 1
b0
Pendiente de la ecuacin de regresin
b1
Ecuacin de la recta de regresin
1
y= 0 + 1 x
25
^y =b 0+ b1 x
Fuente: Mario F. Triola Op Cit, Cap 9, p.518
a yb
maysculas
en funcin de
esta representado
^y =a+bx
b>0
Fuente: Ciro
Martinez Op Cit, Cap. 10 p. 621
0
x
b<0
Fuente:0 Ciro Martinez Op Cit, cap 10 p. 621
x
b=o
Si b es un valor mayor que cero, es decir positivo nos, indicara que la recta es
26
^y
cuando
puede ser mayor, menor o igual a cero, como se puede observar en las
siguientes figuras.
Ubicacin del coeficiente de posicin
c >0
c=0
c <0
Fuente:Ciro Martinez Op Cit, cap 10 p. 622
En el primer caso ser un punto por encima del origen, en segundo pasara por
el origen y en el tercero estar por debajo del origen.
Ajuste de una recta
c
Fuente: Ciro Martinez Op Cit, cap 10 p. 622
El problema ahora
0 consiste en calcular los coeficientesx de regresin
mustrales que son estimadores de los parmetros o coeficientes de regresin
27
a y b , de modo que
i sea lo
y i , para ello el
cuadrados. 31
Redondeo de la pendiente
b y de a , el intercepto de y :
a y b generalmente tratamos de
1.3.2
28
i .
2
e i =
y ):
De acuerdo con la ecuacin general de la recta Y= a+bx, en el cual tenemos
como incgnitas (a y b), requiere para su solucin de dos ecuaciones
normales; tales ecuaciones se obtienen derivando la ecuacin anterior
respecto de los parmetros a y b e igualando a cero tenemos:
Note que .
y i( a+ bx i ) 2
e2i =
Entonces tenemos:
yi
(a+
bx
(
i) )(1)=0
n
S (a , b)
=2
a
i=1
29
yi
((a+ bx i) )(x i )=0
n
S (a , b)
=2
b
i=1
y i=an+b x i
i=1
i=1
i=1
i=1
i=1
x i yi =a x i+ b x i
b=
x i y in x y
x 2i n x 2
a= y b x
x i 2 /n
i=1
x 2i
n
S xx =
i=1
y i 2 /n
i=1
y 2i
n
S yy =
i=1
i=1
i=1
i=1
S xy = x i y i( x i)( y i)/n
Entonces tenemo: 38
a= y x S xy / S2x
35 Richard A. JohnsonOp Cit,p. 334.
36 Ciro Martinez Op Cit, cap 10 p. 625
37. Richard A. JohnsonOp Cit,p. 337
38. Cesar Perez Lopez Estadstica problemas resueltos y aplicacin, Madrid ,
Imprenta pearson educacin. 2003, p. 67.
30
b=S xy /S x
Lo que hace que la recta de regresin Y sobre X sea:
Y =a+bX= y
x S xy
S 2x
+ S xy /S x x
y y =( x x ) S xy /S 2x
1.3.3
Uso de la ecuacin de regresin para ser predicciones:
A continuacin merece resaltar el concepto de Mario F. Triola:
Las ecuaciones de regresin resultan tiles
cuando se emplean para predecir el valor de una
variable a partir de algn valor particular de la otra
variable. Si la recta de regresin se ajusta bastante
bien a los datos, entonces es sensato utilizar esta
ecuacin para ser predicciones, ya que no vamos
mas all de los valores disponibles 39
Sin embargo debemos tener claro que la ecuacin de la recta de regresin solo
se utiliza si r indica que existe una correlacin lineal. En caso contrario no
debemos empelar la ecuacin de regresin para proyectar y predecir, en su
lugar el mejor estimado de la segunda variable es sencillamente su media
muestral.
Al proyectar algn valor Y con base en algn valor dado de X.
1. Si no existe una correlacin lineal el mejor valor predicho de Y es y .
2. Si existe un correlacin lineal , el mejor valor predicho Y se calcula
sustituyendo el valor X en la ecuacin de regresin
1.3.4
31
1.3.5
Nociones de regresin no lineal
En muchos casos del mundo real, cuando los valores en parejas de las
variables X e Y no se ajustan a una lnea recta, se puede lograr obtener una
relacin lineal (recta) mediante una transformacin de estos valores;
continuacin se presentan algunas ecuaciones no lineales con su respectiva
transformacin:
ECUACIN
TRANSFORMACIN LINEAL
,entonces
(exponencial)
,donde:W=logY,
A=logA,
B=logB
,entonces
(potencia)
(hiperblica)
, siendo:
, esto es
(logstico)
donde
(logartmico)
,
, donde:
Fuente: El alumno
Tambin son ecuaciones no lineales las siguientes:
(polinomios)
(cuadrtico)
Proyeccin exponencial
32
Proyeccin potencial
Proyeccin
logartmica
Proyeccin hiperblica
Fuente: http://www.umss.edu.bo/epubs/etexts/downloads/18/alumno/cap2.html
Si deseramos trabajar con los datos reales, es necesario el desarrollo de un
modelo matemtico, cuya seleccin depende de la naturaleza de los datos
muestrales, y un diagrama de dispersin resultar muy til para tomar esta
determinacin; he aqu las reglas bsicas para la creacin de un buen modelo
matemtico41:
Bsqueda de un patrn en la grfica, consiste en examinar el diagrama
de dispersin y comparar el patrn bsico con las grficas genricas
conocidas de una funcin lineal, cuadrtica, exponencial, potencial, etc.
Al tratar de seleccionar un modelo, consideremos nicamente aquellas
33
modelo
seleccionado.
Al
delimitar
los
posibles
modelos,
1.3.6
ingresos,
etc.
La
ecuacin
general
de
la
parablica
es
34
trabajamos con logaritmos, ya sean neperianos o con base diez, teniendo como
resultado una funcin logartmica:
42 MARTINEZ BENCARDINO, CiroEstadstica y Muestreo. BogotColombia, Editores Digiprint, 2007. Reimpresin 12 edicin, Cap. X, pp 675676.
35
43 Idem. p.690
CONCLUSIONES
ANEXOS
39
Anexo 01
BIBLIOGRAFIA
1. Bibliografa Bsica.
MITACC MEZA, MximoTpicos de estadstica descriptiva y probabilidad.Lima, Editorial Thales, 1996, Primera Edicin, Cap.III, p 143.
2. Bibliografa Citada.
MARTINEZ BENCARDINO, Ciro Estadstica y Muestreo.- BogotColombia, Editores Digiprint, 2007. Reimpresin 12 edicin, Cap. X, p. 613
41
INTERNET.- http://carmesimatematic.webcindario.com/bidimensionales.htm
INTERNET.http://personal5.iddeo.es/ztt/Tem/t15_distribuciones_bidimensionales.htm
3. Bibliografa Consultada.
MANUAL
DE
BIOESTADSTICA:
TEORA
PRCTICAS
ESTADSTICA
APLICADA
INFERENCIA
ESTADSTICA
ESTADISTICA EMPRESARIAL.
PARTE I: ESTADISTICA DESCRIPTIVA.
PARTE II: MODELOS PROBABILISTICOS
GARCIA RAMOS, JUAN ANTONIO y RAMOS GONZALEZ, CARMEN y
RUIZ GARZON, GABRIEL.