Anda di halaman 1dari 40

UNIVERSIDAD NACIONAL DE ANCASH

SANTIAGO ANTUNEZ DE MAYOLO


FACULTAD DE INGENIERIA DE MINAS GEOLOGIA Y
METALURGIA

ESCUELA PROFESIONAL DE MINAS


DISTRIBUCIONES BIDIMENSIONALES
(Avance Captulo I)
Presentada en la Asignatura de Geoestadstica

NOMBRES de los Integrantes


NOMBRES de los Integrantes

Huaraz, agosto del 2016

A NUESTROS PADRES

SUMARIO

PORTADAI
DEDICATORIA......II
SUMARIO..III - IV
PROLOGO..V - VI
INTRODUCCION..VII - VIII
CAPITULO I: MARCO TEORICO
1.1

1.2

DEFINICIONES PREVIAS.....9
1.1.1

Variable estadstica bidimensional..10

1.1.2

Correlacin......10

1.1.3

Regresin.10

1.1.4

Error estndar de la estimacin...11

1.1.5

Diagrama de dispersin...11

1.1.6

Covarianza..12

CORRELACIN
1.2.1

Definicin12 - 13

1.2.2

Tipos de Correlacin....13 - 15

1.2.3

Coeficiente de Correlacin de Pearson....15 - 18

1.2.4

Coeficiente de Correlacin por Rangos de Sperman...18 - 19

1.2.5

Coeficiente de Determinacin. .........................19

1.2.6
1.2.7
1.3

Interpretacin del coeficiente de correlacin...19 - 21


Errores comunes en las correlaciones..21 - 23

REGRESIN
1.3.1
1.3.2
1.3.3

Definicin regresin lineal simple...23 - 29


Mtodo de los mnimos cuadrados...29 - 31
Uso de la ecuacin de regresin para ser predicciones31 - 32

1.3.4

Interpretacin de la ecuacin de regresin: cambio marginal.32

1.3.5

Nociones de regresin no lineal...32 - 35

1.3.6

Regresin parablica simple............35

1.3.7

Regresin exponencial y logartmica simple...35 - 36

CONCLUSIONES.....37
ANEXOS....39
BIBLIOGRAFA

Bsica....40

Citada.40 - 41

Consultada.........41

No Consultada.......41

PRLOGO

El presente trabajo de investigacin se pone a disposicin del lector, en lo


referente a la Distribuciones Bidimensionales.
Los objetivos generales de la presente monografa, es conocer, todos aquellos
conceptos de distribuciones bidimensionales; comprender el fundamento terico;
aplicar lo expuesto mediante diversos ejemplos.
Como objetivos especficos tenemos: describir detalladamente lo concerniente a
correlacin y regresin, responder

a las expectativas del lector; elaborar,

ejemplos adaptados a la minera y finalmente comprometerse con el uso


consiente de esta materia.
La variedad bibliogrfica respecto al tema, es una de las ventajas que se tiene en
la elaboracin del presente trabajo, no slo en la estadstica, sino tambin en
investigacin de operaciones como el de Juan Prawda, Hampa A. Taha, entre
otros; tambin la amplia informacin hallada en Internet, las cuales vamos a
resumir y adaptar de la mejor forma posible en el contenido de la monografa.

Una de las desventajas fue la escasa bibliografa en las bibliotecas de nuestra


universidad que trate especficamente la estadstica aplicada en la ingeniera, en su
mayor parte son libros que refieren a la estadstica matemtica; tambin el tema
nos exige el repaso de definiciones bsicas de la estadstica como frmulas,
algoritmos de probabilidades, teora de decisin, entre otros; que son algunas de
las desventajas durante el desarrollo de la investigacin.
Debemos dar agradecimiento al Ing. Valerio de la Torre, que como parte del
desarrollo de la asignatura en clases, nos explic previamente a la presentacin del
presente, sobre algunas definiciones importantes del tema, que nos facilit un
mayor entendimiento en la elaboracin de la monografa. Finalmente
agradecemos a nuestros padres por su apoyo continuo incondicional econmica y
moralmente.

Los Alumnos

INTRODUCCIN

Son numerosos los casos en la vida cotidiana en el que trabajamos con dos variables
que estn relacionadas de alguna u otra manera, como: produccin y consumo, ingresos y
costos, horas de estudio y rendimiento acadmico etc.; y como tal nuestra actividad
minera est inmersa dentro de ello, por ejemplo las horas trabajadas y accidentes de
trabajo en sus operaciones unitarias. Es importante entonces conocer y aplicar los
mtodos de regresin y correlacin (tema de la presente monografa) en problemas de la
vida diaria.
El motivo de eleccin del tema fue el deseo de tener conocimientos respecto a los
mtodos de regresin y su importancia en la toma de decisiones, toda vez que en la
actualidad las diversas situaciones a la que nos enfrentamos diariamente, implican el
conocimiento de la regresin y correlacin.
La presente monografa se divide en dos captulos:
En el Captulo I, trata todo lo referente al aspecto terico, podemos encontrar las
diferentes definiciones necesarias para analizar, comprender las frmulas estadsticas
como, el coeficiente de correlacin, ajustes por mnimos cuadrados, que sern de gran
ayuda para la realizacin en las aplicaciones.

En el Captulo II, se desarrollarn diversos problemas de aplicacin a la minera


para comprobar, verificar el uso de la regresin y correlacin, de manera didctica para el
entendimiento del lector.
El mtodo de investigacin que se utilizar en toda la monografa es el Analtico
Sinttico, puesto que investigamos el tema motivo de estudio, partiendo del todo hacia
sus partes y, de sus partes hacia el todo para llegar a conocimientos generales.
La tcnica de investigacin empleada es la Descriptiva, pues compilamos de
manera sistemtica los temas ya elaborados a partir de fuentes primarias y secundarias
para describir el contenido de la monografa. Hemos recopilado diversas informaciones
obtenidas de las bibliografas e informacin de Internet, que las resumimos, presentes en
el primer captulo.
Podemos concluir que el plan de monografa de modelo de regresin lineal es un
anlisis muy importante el cual nos va a permitir la correcta pronosticacin y toma de
decisiones en diferentes situaciones que se nos presenta dentro de la actividad minera.
Cabe recomendar las informaciones que podamos encontrar en Internet, ya que nos habla
de la estadstica aplicada a la ingeniera, nos sirven en la compilacin de informacin para
la realizacin de los avances para cada captulo.
Los alcances que ofrece el modelo de Regresin y correlacin en la rama de la Ingeniera
de Minas son muchas, en cada una de sus operaciones unitarias, como en la gestin de la
empresa, incluyndose su economa.

Los Alumnos

CAPITULO I

MARCO TERICO

1.1 GENERALIDADES
1.1

Variable estadstica bidimensional


En la prctica es comn analizar el comportamiento conjunto de dos o ms
variables. En el presente trabajo consideraremos cuando el investigador realiza
la observacin simultnea de dos caractersticas en una poblacin, muestra;
obteniendo de esta manera pares de resultados. Los distintos valores que pueden
adoptar estos caracteres lo denotaremos por (X, Y), llamndose variable
estadstica bidimensional; sta puede presentar las siguientes situaciones 1:

Dos caracteres cualitativos.

1 MITACC MEZA, MximoTpicos de estadstica descriptiva y


probabilidad.- Lima, Editorial Thales, 1996, Primera Edicin, Cap.III, p 143.

10

Dos caracteres cuantitativos.

Uno cualitativo y el otro cuantitativo.


Si los componentes de la variable bidimensional (X, Y) son cuantitativos, puede
clasificarse a su vez en:

1.2

X e Y discretos.

X e Y continuos.

X continua e Y discreta.

Correlacin
Al respecto, Triola nos dice que existe entre dos variables cuando una de ellas
se relaciona con la otra de alguna manera2.
Tambin Ciro Martnez, refiere al respecto que el anlisis de correlacin nos
describe el grado o fuerza con que se produce esta relacin 3.
Entonces, en nuestro objetivo de determinar este grado de relacin utilizaremos
una medida conocida como coeficiente de correlacin o correlacin de Pearson.

1.3

Regresin
El principal objetivo de la regresin es describir la relacin entre dos variables
por medio del clculo de la grfica y la ecuacin que representa la relacin. Las
ecuaciones de regresin resultan tiles cuando se emplean para predecir el valor
de una variable, a partir de algn valor en particular de la otra variable. Si la
ecuacin de regresin se ajusta bastante bien a los datos, entonces es sensato
utilizar dicha ecuacin para hacer predicciones, ya que no vamos ms all de los
valores disponibles4.

2 TRIOLA Mario F Estadstica .- Novena edicin, Mxico, Imprenta Pearson


Educacin, 2004, Cap. 9, p. 496
3 MARTINEZ BENCARDINO, Ciro Estadstica y Muestreo.- BogotColombia, Editores Digiprint, 2007. Reimpresin 12 edicin, Cap. X, p. 613
4 TRIOLA Mario F Op. Cit. p. 517

11

1.4

Error estndar de la estimacin (Se):


El error de la estimacin es una medida que permite mostrar el nivel de
confiabilidad que tiene la ecuacin de prediccin e indica hasta que punto los
valores observados difieren de sus valores histricos alrededor de la lnea de
regresin. Cuando " Se" se aproxima a cero, entonces la ecuacin de Regresin
empleada ser un estimador ptimo de la variable dependiente. Para el clculo
directo se puede utilizar la siguiente frmula 5:

1.5

Diagrama de dispersin
Los datos de una distribucin bidimensional, pueden ser representados
grficamente en un par de ejes coordenados, considerando al eje de las abscisas
para la primera variable(x1) y al eje vertical o de las ordenadas, para los valores
de la segunda variable (y1). En un plano cartesiano, se presentan tantos puntos
como pares de observaciones se tengan, correspondiendo a cada punto un par de
observaciones; a esta representacin grfica se le denomina indistintamente:
diagrama de desparramiento, de dispersin, de espaciamiento o nube de
puntos.6A continuacin se muestra grficamente ejemplos de lo que se dijo
anteriormente:

Fuente: INTERNEThttp://www.umss.edu.bo/epubs/etexts/downloads/18/alumno/cap2.html.

5INTERNEThttp://www.umss.edu.bo/epubs/etexts/downloads/18/alumno/cap2.html.
6 MARTINEZ BENCARDINO, Ciro...Op. Cit p. 618

12

Fuente: INTERNEThttp://www.umss.edu.bo/epubs/etexts/downloads/18/alumno/cap2.html.

1.6

Covarianza
Es una estadstica que mide el grado de dispersin o variabilidad conjunta de

dos variables X e Y con respecto a sus medias respectivas (

).

La covarianza de n valores (x 1, y1), (x2, y2)( xn, yn) de una variable


bidimensional (X, Y) es el nmero Cov(X, Y) o s XY que se define igual a la
media aritmtica de los productos de las desviaciones de los datos con respecto

a sus correspondientes medias (

); es decir7:

1.2 CORRELACIN
1.2.2
Definicin
Por lo ya expuesto, la covarianza indica cmo es la relacin entre dos
variables, es decir, cmo se orienta la nube de puntos, pero l parmetro no
indica de una forma concreta la medida de esa relacin. Para resolver este
problema se definen los conceptos de correlacin y coeficiente de
correlacin.8
TRIOLA menciona en su obra:

7 CORDOVA ZAMORA, Manuel Estadstica Descriptiva e Inferencial.Lima, Editorial Moshera S.R.L, 2003. Quinta edicin, Cap. IV, p. 89
8 MARTINEZ BENCARDINO, Ciro...Op. Cit pp. 634 a 635

13

() analizar un conjunto de datos mustrales


apareados (que llamamos en ocasiones datos
bivariados) y determinar si parece haber una
relacin entre las dos variables. En estadstica, nos
referimos a una relacin como est como una
correlacin. 9
MARTINEZ BENCARDINO en su libro refiere:
() por correlacin. En este ultimo decamos que
nos determina el grado de relacin que puede haber
entre las dos variables. Este grado de correlacin lo
obtenemos mediante el clculo del Coeficiente de
correlacin. 10
1.2.3
Tipos de Correlacin
Correlacin funcional: Todos los puntos estn situados
sobre una recta o una curva. Existe una relacin funcional
entre las variables X e Y, (ver figura 01).
Ejemplo: Nmero de Toneladas de Mineral y Precio de
Toneladas de Mineral

N de TMS de Mineral Xi
Precio del Mineral Yi

1
3

2
5

3
7

4
9

5
11

Precio del Mineral

Figura 01

TMS
de Mineral
Fuente:
INTERNET.http://personal5.iddeo.es/ztt/Tem/t15_distribuciones_bidimensionales
.htm
Correlacin directa: Al aumentar una variable aumenta la otra,
(ver figura 02). Ejemplo: Nmero de proveedores de suministros y
nmero de pedidos por las minas. 11
N de Proveedores

9 TRIOLA Mario F Op. Cit. p. 496


NMARTINEZ
de Pedidos
70 Cit 90
150
170
10
BENCARDINO, Ciro...Op.
p. 634 110
11 INTERNET.- http://carmesimatematic.webcindario.com/bidimensionales.htm

14

Figura 02

N de Pedidos

Fuente:

N de Proveedores

INTERNET.-http://carmesimatematic.webcindario.com/bidimensionales.htm

Correlacin inversa o indirecta: Al aumentar una


variable la otra disminuye, (ver figura 03). Ejemplo: La
cantidad de reservas de mineral y el tiempo transcurrido desde la
explotacin. 12

N Toneladas de Mineral

Tiempo ( meses )
N de Ton de Reservas de Mineral

1
450000

2
400000

3
350000

4
250000

Figura

5
200000

03

Fuente:

INTERNET.-

Tiempo (meses)
http://personal5.iddeo.es/ztt/Tem/t15_distribuciones_bidimensionales
.htm

Correlacin nula: No existe relacin entre las variables,

(ver figura 04)


Ejemplo: El nmero de trabajadores en una mina y leyes de minerales. 13

N de Trabajadores
Leyes de Mineral

60
7

50
9

Figura 04

12 Idem.
13 Idem.

91
11

75
15

105
10

N Leyes de Mineral

15

Fuente:

INTERNET.-

N de trabajadores
http://personal5.iddeo.es/ztt/Tem/t15_distribuciones_bidimensionales
.htm

1.2.4 Coeficiente de Correlacin de Pearson


La covarianza no es un buen indicador de la correlacin, o grado de relacin
lineal entre dos variables pues no est normalizado, es decir no hay un valor
que sea el mximo alcanzable, ni tampoco un mnimo, por lo que su
interpretacin es difcil. Tambin sucede que la covarianza depende de la
unidades empleadas en las variables, si cambiamos de escala una de las
variables la covarianza cambiar de valor, sin que se haya alterado el grado de
relacin entre las variables.14
Por ello, se prefiere como indicador del grado de relacin lineal entre dos
variables, el coeficiente de correlacin lineal, o coeficiente de correlacin de
Pearson, que es simplemente la covarianza entre dos variables, medidas en
unidades de sus respectivas desviaciones tpicas, o ms brevemente, la
covarianza de las puntuaciones tpicas. La expresin ser por tanto:

r=

Cov ( x , y )
Sx , Sy

Si sustituimos la covarianza y las desviaciones tpicas, por las


expresiones empleadas para su clculo y multiplicamos numerador y
denominador por n, tendremos:

14 TRIOLA Mario F Op. Cit. p. 499

16

r=

n XY X Y

n X ( X ) x n Y ( Y )
2

que es la frmula habitualmente indicada en los textos, para su clculo.


El coeficiente de correlacin de Pearson es un nmero sin dimensiones,
comprendido entre -1 y 1. En razn de su propia definicin, goza de
la propiedad de ser invariante frente a cambios de escala y origen, por
ello el valor obtenido es el mismo si se calcula a partir de las
puntuaciones inciales, de las puntuaciones diferenciales o de las
puntuaciones tpicas, o de cualquier otra puntuacin obtenida por
transformacin lineal de las originales. 15
El coeficiente de correlacin nos proporciona dos tipos de informacin,
su signo nos indica el sentido de la relacin.
Si el coeficiente es positivo indica una relacin directa, al aumentar una
variable aumenta la otra y viceversa al disminuir una variable
disminuye la otra. Por el contrario, si el coeficiente es negativo estamos
frente a una relacin inversa, donde al aumentar una variable disminuye
la otra.
El valor absoluto del coeficiente de Pearson nos seala el grado de
relacin, cuando su valor es 1, estamos en un caso de relacin perfecta
o relacin funcional, esto quiere decir que si representsemos los pares
de valores X e Y obtendramos una linea recta perfecta. 16
Cuando el valor es cero, diremos que las variables estn incorreladas o
nula , esto nos indica la ausencia de relacin lineal entre las dos
15 CORDOVA ZAMORA, ManuelOp. Cit., pp. 89 a 90
16 TRIOLA Mario F Op. Cit. p. 501

17

variables, bien porque las variables son independientes, lo que dara


origen a un grafico del tipo siguiente:

Fuente: TRIOLA Mario F Op. Cit. p. 498

o bien porque la relacin existente entre ellas es de otro tipo, cuadrtica,


etc. en cuyo
caso la grafica que obtendramos sera:

Fuente: TRIOLA Mario F Op. Cit. p. 498

Resumiendo tenemos que:


Si r = 1 o r = 1, la correlacin es perfecta o correlacin funcional.
Si r est prximo a 1 o a 1, la correlacin es fuerte.
Si r = 0, correlacin nula
El signo, r > 0 o r < 0, indica si la correlacin es directa o inversa,
respectivamente.

18

1.2.5
Coeficiente de Correlacin por Rangos de Sperman
Este coeficiente es una medida de asociacin lineal que utiliza los rangos,
nmeros de orden, de cada grupo de sujetos y compara dichos rangos. Existen
dos mtodos para calcular el coeficiente de correlacin de los rangos uno
sealado por Spearman y otro por Kendall. El r de Spearman llamado tambin
rho de Spearman es ms fcil de calcular que el de Kendall. El coeficiente de
correlacin de Spearman es exactamente el mismo que el coeficiente de
correlacin de Pearson calculado sobre el rango de observaciones. El
coeficiente de correlacin de Spearman es recomendable utilizarlo cuando los
datos presentan valores externos ya que dichos valores afectan mucho el
coeficiente de correlacin de Pearson, o ante distribuciones no normales. 17
Segn Rufino Moya C. se procede como sigue:
Para definir este coeficiente de correlacin se
considera los rangos de cada variable; o sea, los
nmeros de orden de las observaciones cuando se
ordenan de manera creciente o decreciente. Si
existen dos o ms valores iguales de la variable, los
rangos de cada uno de stos son iguales al
promedio de los rangos que les corresponda en el
caso de que fueran diferentes consecutivos. 18
El clculo del coeficiente (rs19) viene dado por:
n

d i2
r s =1

i=1
2

n(n 1)

Donde di = a la diferencia de los rangos de x e y (di = Rx - Ry)


Si una de las variables es no ordinal, se asigna rango a las puntuaciones.
1.2.6
Coeficiente de Determinacin.
Es el coeficiente que mide el grado de dependencia entre variables, tomando
el valor 0 en caso de correlacin nula o el valor 1 en caso de correlacin total.
Equivale al cuadrado del coeficiente de correlacin que es:

Coeficiente de Determinacin=r 2

17 INTERNET.- http://carmesimatematic.webcindario.com/bidimensionales.htm
18 MOYA, Rufino C. Estadstica Descriptiva, Conceptos y Aplicaciones.Per, Editorial San Marcos, 1era edicin, 2007.- Cap. V p. 398
19 Este coeficiente de Spearman tiene la misma interpretacin que la del
coeficiente de correlacin de Pearson

19

1.2.7
Interpretacin del coeficiente de correlacin.
Como se ha indicado el coeficiente de correlacin de Pearson es un ndice
cuyos valores absolutos oscilan entre 0 y 1. Cuanto ms cerca de 1 mayor ser
la correlacin, y menor cuanto ms cerca de cero. Pero como interpretar un
coeficiente determinado? Qu significa un coeficiente de 0.6?. Es alto o
bajo?. No puede darse una respuesta precisa. Depende en gran parte de la
naturaleza de la investigacin. Por ejemplo, una correlacin de 0.6 sera baja
si se trata de la fiabilidad de un cierto test, pero sin embargo, sera alta si
estamos hablando de su validez. No obstante, intentaremos abordar el tema
desde dos perspectivas distintas. Por un lado, ya ha sido tratado desde la
perspectiva de la significacin estadstica mencionada en los apartados
anteriores. Desde este enfoque una correlacin es efectiva si puede afirmarse
que es distinta de cero. Pero ha de decirse que una correlacin significativa no
necesariamente ha de ser una correlacin fuerte; simplemente es una
correlacin diferente de cero o en otros trminos, es una correlacin que es
poco probable que proceda de una poblacin cuya correlacin es cero. Tan
solo se est diciendo que se ha obtenido "algo" y que ese "algo" es
(probablemente) ms que "nada". La significacin de r xy depende en gran
medida del tamao de la muestra, si por ejemplo una correlacin de 0.01
puede ser significativa en una muestra suficientemente grande y otra de 0.9 no
serlo en una muestra pequea. Aqu se cumple la ley de los grandes nmeros;
tendencias dbiles son muy improbables, desde la Hiptesis nula, en grandes
masas de datos, mientras que tendencias fuertes pueden ser relativamente
probables en un tamao pequeo de muestra. 20
Ms inters tiene la interpretacin del coeficiente de correlacin en trminos
de proporcin de variabilidad compartida o explicada, donde se ofrece una

20 INTERNET.- http://dialnet.unirioja.es/servlet/articulo?
codigo=950680&orden=140963&info=link

20

idea ms cabal de la magnitud de la relacin. Nos referimos al coeficiente de


determinacin. Dicho coeficiente se define como el cuadrado del coeficiente
de correlacin; esto es, dada dos variable X e Y, hace referencia a r 2

xy

, y se

entiende como una proporcin de variabilidades. Por ejemplo, si la correlacin


entre inteligencia y rendimiento acadmico es de 0.8, significa que 0.82 = 0.64
es la proporcin de varianza compartida entre ambas variables. Puede
interpretarse como que un 64% del rendimiento acadmico es debido a la
inteligencia -variabilidad explicada-, o bien, y esto es ms exacto si hemos de
ser estrictos, que inteligencia y rendimiento acadmico comparten un 64% de
elementos, o lo que es lo mismo, tanto la inteligencia como el rendimiento
ponen en juego un 64% de habilidades comunes. 21
En estas circunstancias, si tomamos como variable dependiente o a explicar el
rendimiento acadmico y elegimos la inteligencia como variable predictora o
explicativa, tendremos que tal variable da cuenta de un 64% de la variabilidad
en rendimiento. Queda, por ello, 1-0.64=0.36, un 36% del rendimiento que
queda sin explicar. A este valor (0.36) se le denomina coeficiente de no
determinacin o coeficiente de alienacin, y se define como 1 r 2xy . Un
trmino ms adecuado y que proporciona mayor compresin es el de
proporcin de variabilidad no explicada. El planteamiento de la correlacin en
trminos de proporcin variabilidad es, la forma ms comprensiva de afrontar
la correlacin lineal. Si acordamos que la variable dependiente Y corresponde
a un cierto aspecto de la conducta que deseamos conocer, y definimos su
variabilidad total, se trata de encontrar un conjunto de variables X1 , X2 , ...
Xk que absorban de Y un gran porcentaje de su variabilidad. De esta forma,
interviniendo sobre el conjunto de variables independientes podremos dar
cuenta de lo que sucede en Y, y modificarlo, si fuera el caso. 22

21 Loc. Cit
22 Loc. Cit.

21

1.2.8
Errores comunes en las correlaciones
Un error comn es concluir que la correlacin implica causalidad. Es fcil
imaginarse que parejas de variables pudieran dar un alto valor de un
coeficiente de correlacin y que no se deba realmente a una estrecha
relacin entre ellas, sino el efecto comn sobre stas de una tercera,
conocida como variable interventora

23

, y entonces este valor del

coeficiente de correlacin refleja slo ese efecto comn. Por ello los
coeficientes de correlacin deben manejarse con cuidado, sino podra
llevarnos a conclusiones errneas.
Otro error es el proveniente de los datos basados en promedios. Los
promedios eliminan la variacin individual y pueden inflar o reducir el
coeficiente de correlacin.
Mario TRIOLA menciona como ejemplo, que:
Un estudio produjo un coeficiente de
correlacin lineal de 0.4 para datos apareados
que relacionaban el ingreso y la educacin de
individuos, pero el coeficiente de correlacin
lineal se convirti en 0.7 cuando se utilizaron
promedios regionales. 24

Un tercer error implica la propiedad de linealidad. Puede existir una


relacin entre X y Y, an cuando no haya correlacin lineal
significativa. Los datos presentados en la figura tiene un valor r r = 0, lo
que indica que no existe un a correlacin lineal entre las dos variables.
Sin embargo, al observarse la figura, con facilidad podemos que existe
un patrn que refleja la no linealidad.
Figura 05

23 Una variable interventora es aquella que afecta a las variables que se


estudian, pero que no est incluida en la investigacin.
24 TRIOLA Mario F Op. Cit. p. 504

22

Fuente:
TRIOLA
Op. Cit. p.

Por

Fuente:
Mario F
498

ltimo

tenemos

un error que,

puede

calificarse un

error de concepto, pues en ocasiones el coeficiente de correlacin se


interpreta errneamente como un porcentaje. Si r = 0.65, ser incorrecto
afirmar que el 65% de las variaciones de Y viene explicado por la variable
X. Para una interpretacin correcta deber considerarse r 2. As para r =
0.65, ser r2 = 0.42, slo el 42% de la variacin de Y es explicada por la
variable X.
1.3 REGRESIN
1.3.1
Definicin regresin lineal simple
Para definir hemos recurrido a diversos textos sobre dicho tema; tenemos los
siguientes.
Segn Richard A. Johnson:
una variable dependiente debe ser predicha
en trminos de una sola variable independiente.
En muchos problemas de este tipo, la variable
independiente se observa sin error, o con un error
que es despreciable comparado con el
error(variacin aleatoria) en la variable
dependiente . 25
A continuacin merece resaltar el concepto de Mario F. Triola al respecto.
describir la relacin entre dos variables por medio del clculo de la
grafica y la ecuacin de la recta que representa la relacin. 26
Continuando con los conceptos merece acotar la definicin siguiente:
El anlisis de regresin lineal es una tcnica de
pronstico que establece una relacin entre
variables. Una variable se conoce y se usa para
pronosticar el valor de una variable aleatoria

25 Richard A. JohnsonProbabilidad y Estadstica para ingenieros de Miller y


Freund.-Quinta Edicin Mxico, Imprenta Prentice-Hall Hispanoamericana, S.A ,
1997.-cap11, pp330-331
26 TRIOLA Mario F Op. Cit. ,p 517

23

desconocida. () se establece una relacin


funcional entre las variables. Se considera en este
momento la situacin de regresin ms sencilla
slo para dos variables y para una relacin
funcional lineal entre ellas. 27
Debe quedar claro por lo antes dicho que en este contexto Y es una
variable aleatoria cuya distribucin depende de x .
El anlisis de regresin da lugar una ecuacin matemtica que nos permite
describir la relacin existente entre dos variables. Es decir, obtener una lnea
ideal conocida como lnea de regresin que nos describa la relacin o
dependencia entre dichas variables.
Dicha lnea o funcin matemtica, en el caso de una sola variable
dependiente o explicativa puede ser expresada, atreves de una:
Recta o funcin lineal: ^y =bx +c
Parbola de segundo grado: ^y =a x 2 +bx +c
Funcin exponencial: ^y =c b x
Funcin potencial: ^y =c x b
Con las ecuaciones anteriores se puede dar solucin a la mayora de
situaciones que se presentan en la vida diaria. 28
Consideremos la idea de Richard A. Johnson:
Nos referimos a la curva de regresin de Y sobre
relacin entre

x cuando hay una la

y la media de la correspondiente distribucin de las

Y .
Veamos primero el caso en que la curva de regresin de
lineal, esto es. Para cualquier

esta dado por

sobre

es

dada, la media de la distribucin de las

+ x . En general, Y

denotamos esta diferencia con


As,

diferir de esta media y

, y escribimos.
Y = + x +

es una variable aleatoria y siempre podemos escoger a de manera

que la media de la distribucin de esta variable aleatoria sea igual a cero.

Depender de un posible error de medicin y de los valores de variables

diferentes a

x que puedan tener influencia sobre Y .

27EVERETT E. ADAM, RONALD J. EBERT Administracin De La


Produccin Y Las Operaciones... Editorial Prentice- Hall Hispanoamrica S.A.,
Mxico 1991; p107
28 MARTINEZ BENCARDINO, Ciro...Op. Cit Cap10, p.613

24

n observaciones apareadas

Debemos tener en cuenta; cuando tenemos

(x i , y i ) donde se cumple que la regresin de Y

sobre

x es lineal y

deseamos calcular la ecuacin de la lnea que nos proporciona el mejor


ajuste, as predecimos

por medio de la ecuacin:

^y =a+bx
Donde a y b son constantes.
A continuacin merece resaltar la idea de Mario F. Triola:
La ecuacin de regresin expresa una relacin entre x (conocida como:
29

variable independiente, variable predictora o variable explicativa) y

^y

(llamada variable dependiente o de respuesta).La ecuacin general de una


lnea recta viene dado por:

y=mx +b

sta, esta expresada en la forma siguiente:

^y =b 0+ b1 x

Donde:

Note que

b0 y b1

b0 :intercepto y
b1 : pendiente
son estadsticos mustrales que servirn para estimar

los parmetros poblacionales

0 y 1

. Para estimar la ecuacin de

regresin hacemos uso de datos mustrales apareados. Si se utilizan


nicamente datos mustrales no podemos calcular los valores exactos de los
parmetros poblacionales 0 y 1 . 30
Supuestos:
Estamos investigando nicamente relaciones lineales.
Para cada valor de x , y es una variable aleatoria con una
distribucin normal (en forma de campana).
Notacin para la ecuacin de regresin
Parmetro Estadstico
Poblacional
muestral
0
Intercepto y de la ecuacin de regresin

b0
Pendiente de la ecuacin de regresin

b1
Ecuacin de la recta de regresin

29 Richard A. Johnson Op Cit, pp.331-333.


30 Mario F. Triola Op Cit, Cap. 9,pp. 517-518

1
y= 0 + 1 x

25

^y =b 0+ b1 x
Fuente: Mario F. Triola Op Cit, Cap 9, p.518

Nota: En el desarrollo de la presente monografa, (como consecuencia de las


diferentes representaciones matemticas)

a yb

utilizaremos letras minsculas

para simbolizar los coeficientes de regresin. Dado que las letras

maysculas

servirn para simbolizar parmetros. Es decir

coeficientes de regresin poblacionales y no mustrales.


En funcin a lo expresado el modelo matemtico que describe una relacin
lineal cuando se estima el valor y
por:

en funcin de

esta representado

^y =a+bx

que se utilizara a lo largo de la monografa. Con el objeto de estimar la


ecuacin de regresin poblacional.
Representacin del coeficiente angular o pendiente

b>0

Fuente: Ciro
Martinez Op Cit, Cap. 10 p. 621
0

x
b<0
Fuente:0 Ciro Martinez Op Cit, cap 10 p. 621

x
b=o

Fuente:Ciro Martinez Op Cit, cap 10 p. 621

Si b es un valor mayor que cero, es decir positivo nos, indicara que la recta es

26

ascendente: si b es menor que cero la recta ser descendente y, si b es igual a


cero ser una paralela al eje horizontal; a es el smbolo que se utiliza para
indicar e; coeficiente de posicin u origen en la ordenada.se dice que es un
punto localizado en el eje de la ordenada, factor constante que se incluye en

^y

la ecuacin siendo igual a

cuando

x=0 . El coeficiente de posicin

puede ser mayor, menor o igual a cero, como se puede observar en las
siguientes figuras.
Ubicacin del coeficiente de posicin

c >0

c=0

c <0
Fuente:Ciro Martinez Op Cit, cap 10 p. 622
En el primer caso ser un punto por encima del origen, en segundo pasara por
el origen y en el tercero estar por debajo del origen.
Ajuste de una recta

c
Fuente: Ciro Martinez Op Cit, cap 10 p. 622
El problema ahora
0 consiste en calcular los coeficientesx de regresin
mustrales que son estimadores de los parmetros o coeficientes de regresin

27

poblacional. E n la practica la dificultad radica determinar el criterio que nos


sirva para definir el mejor ajuste es decir la mejor lnea que represente el
conjunto de puntos.
Esa es la razn de hallar los valores de

a y b , de modo que

mas cercano posible a los valores observados de

i sea lo

y i , para ello el

procedimiento de calculo ma sindicado es el mtodo de los mnimos

cuadrados. 31
Redondeo de la pendiente

b y de a , el intercepto de y :

Para redondeo de los valores

a y b generalmente tratamos de

redondear cada uno de su valores hasta tres dgitos significativos .puesto


que estos valores son muy sensibles al redondeo durante los pasos
intermedios del clculo, trate de conservar al menos seis dgitos
significativos (o utilice valores exactos) en los pasos intermedios . 32

1.3.2

Mtodo de los mnimos cuadrados:

Hemos establecido que la ecuacin de regresin representa la recta que se ajusta


mejor a los datos, y ahora describiremos el criterio utilizado para
determinar la recta que es mejor de todas las dems. Este criterio se basa en
las distancias verticales entre los puntos de datos originales y la recta de
regresin.
Consideramos la definicin de Mario F. Triola:
Para una muestra de datos apareados ( x , y
) , un residual es la diferencia ( y ^y ) entre
un valor y un muestral observado y el valor de
^y ,que es valor de y predicho por medio
de la ecuacin de regresion.es decir residual = y
observada y predicha= y-. 33
31 Se ver mas adelante con lujo de detalle

32 Mario F. Triola Op Cit, cap 9,p. 519


33 Ibid., cap 9,p 525

28

Dicho mtodo es el preferido de estimacin. Por el cual las cantidades a


estimar son determinados, minimizando la suma de los cuadrados de las
diferencias entre los valores observados ( y i ) y los valores estimados

i .

2
e i =

e es considerada como el error que se puede cometer en la estimacin, el


cual debe ser mnima frente a otros modelos, para que proporcione una buena
representacin de esos puntos por la lnea de regresin establecida. 34
Procedimiento de clculo de los coeficientes de regresin a y b

y ):
De acuerdo con la ecuacin general de la recta Y= a+bx, en el cual tenemos
como incgnitas (a y b), requiere para su solucin de dos ecuaciones
normales; tales ecuaciones se obtienen derivando la ecuacin anterior
respecto de los parmetros a y b e igualando a cero tenemos:
Note que .

y i( a+ bx i ) 2

e2i =

Entonces tenemos:

yi
(a+
bx
(
i) )(1)=0
n
S (a , b)
=2
a
i=1

34 Ciro Martinez Op Cit, cap 10 p. 623

29

yi
((a+ bx i) )(x i )=0
n
S (a , b)
=2
b
i=1

Podemos reescribir estas dos ecuaciones como:


n

y i=an+b x i
i=1

i=1

i=1

i=1

i=1

x i yi =a x i+ b x i

Este conjunto de dos ecuaciones lineales y las incgnitas a y b ,


llamados ecuaciones normales da valores de a y b para la lnea que
proporciona el mejor ajuste para un conjunto dado de datos apareados
de acuerdo con el criterio de los mnimos cuadrados . 35
Las soluciones a y b de este sistema de ecuaciones normales son: 36

b=

x i y in x y
x 2i n x 2
a= y b x

Que tambin lo podemos expresar de la siguiente manera:


Nota: Las ecuaciones que vamos ah representar a continuacin son para
fines prcticos: 37
n

x i 2 /n
i=1

x 2i
n

S xx =
i=1

y i 2 /n
i=1

y 2i
n

S yy =
i=1

i=1

i=1

i=1

S xy = x i y i( x i)( y i)/n
Entonces tenemo: 38

a= y x S xy / S2x
35 Richard A. JohnsonOp Cit,p. 334.
36 Ciro Martinez Op Cit, cap 10 p. 625
37. Richard A. JohnsonOp Cit,p. 337
38. Cesar Perez Lopez Estadstica problemas resueltos y aplicacin, Madrid ,
Imprenta pearson educacin. 2003, p. 67.

30

b=S xy /S x
Lo que hace que la recta de regresin Y sobre X sea:

Y =a+bX= y

x S xy
S 2x

+ S xy /S x x

Por lo tanto tenemos:

y y =( x x ) S xy /S 2x
1.3.3
Uso de la ecuacin de regresin para ser predicciones:
A continuacin merece resaltar el concepto de Mario F. Triola:
Las ecuaciones de regresin resultan tiles
cuando se emplean para predecir el valor de una
variable a partir de algn valor particular de la otra
variable. Si la recta de regresin se ajusta bastante
bien a los datos, entonces es sensato utilizar esta
ecuacin para ser predicciones, ya que no vamos
mas all de los valores disponibles 39
Sin embargo debemos tener claro que la ecuacin de la recta de regresin solo
se utiliza si r indica que existe una correlacin lineal. En caso contrario no
debemos empelar la ecuacin de regresin para proyectar y predecir, en su
lugar el mejor estimado de la segunda variable es sencillamente su media
muestral.
Al proyectar algn valor Y con base en algn valor dado de X.
1. Si no existe una correlacin lineal el mejor valor predicho de Y es y .
2. Si existe un correlacin lineal , el mejor valor predicho Y se calcula
sustituyendo el valor X en la ecuacin de regresin
1.3.4

Interpretacin de la ecuacin de regresin: cambio marginal.-

Tambin la ecuacin de regresin nos sirve para observar el efecto en una


variable, cuando la otra variable cambia una cantidad especfica.
La siguiente definicin Mario F. Triola:
Cuando se trabaja con dos variables relacionadas
por una ecuacin de regresin, el cambio marginal
en una variable es la cantidad que cambia cuando
la otra variable cambia exactamente una unidad.la
pendiente b en la ecuacin de regresin representa
el cambio marginal que ocurre en y cuando x
cambia una unidad40

39.. Mario F. Triola Op Cit, cap 9,p. 521


40.. Mario F. Triola Op Cit, cap 9,p. 523

31

1.3.5
Nociones de regresin no lineal
En muchos casos del mundo real, cuando los valores en parejas de las
variables X e Y no se ajustan a una lnea recta, se puede lograr obtener una
relacin lineal (recta) mediante una transformacin de estos valores;
continuacin se presentan algunas ecuaciones no lineales con su respectiva
transformacin:
ECUACIN

TRANSFORMACIN LINEAL
,entonces

(exponencial)

,donde:W=logY,

A=logA,

B=logB
,entonces
(potencia)

, siendo: Y=logY, A=logA,


B=B, X=logX

(hiperblica)

, siendo:

, esto es

(logstico)
donde
(logartmico)

,
, donde:

Fuente: El alumno
Tambin son ecuaciones no lineales las siguientes:
(polinomios)

(cuadrtico)

A continuacin se muestran sus respectivos grficos:


Proyeccin lineal

Proyeccin exponencial

32

Proyeccin potencial

Proyeccin

logartmica

Proyeccin hiperblica

Fuente: http://www.umss.edu.bo/epubs/etexts/downloads/18/alumno/cap2.html
Si deseramos trabajar con los datos reales, es necesario el desarrollo de un
modelo matemtico, cuya seleccin depende de la naturaleza de los datos
muestrales, y un diagrama de dispersin resultar muy til para tomar esta
determinacin; he aqu las reglas bsicas para la creacin de un buen modelo
matemtico41:
Bsqueda de un patrn en la grfica, consiste en examinar el diagrama
de dispersin y comparar el patrn bsico con las grficas genricas
conocidas de una funcin lineal, cuadrtica, exponencial, potencial, etc.
Al tratar de seleccionar un modelo, consideremos nicamente aquellas

41 TRIOLA Mario F., Estadstica. Mxico,


pp 551- 552.

Pearson Educacin, 2006. Novena edicin, Cap. IX,

33

funciones que parecen ajustarse vitalmente a los puntos observados de


una forma razonablemente adecuada.
Calcular y comparar valores de R2, para cada modelo que consideremos,
debemos obtener el valor del coeficiente de determinacin R 2. Los
valores de R2 indican el porcentaje de pares de muestras implicados en
el

modelo

seleccionado.

Al

delimitar

los

posibles

modelos,

seleccionaremos funciones que dan como resultado valores mas grandes


de R2, porque valores mas grandes corresponden a funciones que se
ajustan mejor a los puntos observados. Sin embargo, no debemos dar
mucha importancia a las diferencias pequeas, tales como R 2 = 0,984 y R2
= 0,989 (otra medicin utilizada para evaluar la calidad de un modelo es
la suma de cuadrados de los residuales).
Pensar, implica aplicar el sentido comn; significa no utilizar un modelo
que conduzca a valores predichos que son poco realistas. Utilizar el
modelo para calcular valores futuros, pasados y valore de aos perdidos;
luego determinar si los resultados son realistas.

1.3.6

Regresin parablica simple

La regresin parablica tambin es considerada de gran utilidad en el estudio


de muchos fenmenos; cuando estos son observados en un diagrama de
dispersin presentan una concentracin de puntos inicialmente ascendente y
en seguida descendente (puede darse lo contrario). Esta regresin parablica,
es utilizada por gran parte de los economistas en el anlisis de funciones de
utilidad,

ingresos,

etc.

La

ecuacin

general

de

la

parablica

es

.Siguiendo el procedimiento de los mnimos cuadrados,

34

se calculan A, B y C; las ecuaciones que son consideradas para hallar A, B y C


y los respectivos reemplazos en las ecuaciones, se dan a continuacin 42:

1.3.7 Regresin exponencial y logartmica simple


En determinados experimentos, en su mayora biolgicos, la dependencia entre las
variables X e Y es de forma exponencial, en cuyo caso interesa ajustar a la nube de
puntos una funcin del tipo Y= eA+Bx (ecuacin general).
Cuando estas variables estudiadas en el fenmeno motivo de estudio, presentan un
crecimiento o decrecimiento aritmtico, la regresin lineal es la mas adecuada, sin
embargo, si este crecimiento o decrecimiento es geomtrico, se debe adoptar la
regresin exponencial.
La funcin exponencial

, se puede convertir en una funcin lineal cuando

trabajamos con logaritmos, ya sean neperianos o con base diez, teniendo como
resultado una funcin logartmica:

Reemplazando W=logY, A=logA, B=logB tendremos la funcin lineal:

Para su representacin grfica (si es que se utiliza la ecuacin logartmica), debe


emplearse el papel semilogartmico, cuando la variable X, localizada en el eje de
las abscisas, se presenta en forma de progresin aritmtica, mientras que en el eje
de las ordenadas, donde se ubica la variable Y, se expresa en forma logartmica. Si

42 MARTINEZ BENCARDINO, CiroEstadstica y Muestreo. BogotColombia, Editores Digiprint, 2007. Reimpresin 12 edicin, Cap. X, pp 675676.

35

ambas variables tienen crecimiento geomtrico, la representacin grfica se realiza


en papel logartmico43.

43 Idem. p.690

CONCLUSIONES

1. Las medias aritmticas, las deviaciones tpicas marginales y la covarianza y


sirven como medio para el clculo del coeficiente de correlacin.
2. La correlacin es mide el grado de relacin entre variables X y Y en sistema
de muestreo bivariado.
3. La ecuacin de regresin sirve para proyectar o predecir. siempre y cuando a
ya una correlacin lineal.

ANEXOS

39

Anexo 01

BIBLIOGRAFIA

1. Bibliografa Bsica.

ZAMORA, Manuel Crdova Estadstica Descriptiva e Inferencial .- Per,


Editorial Moshero, 5ta edicin, 2003, Cap. IV.

MOYA, Rufino C. Estadstica Descriptiva, Conceptos y Aplicaciones.- Per,


Editorial San Marcos, 1era edicin, 2007.- Cap. V

MITACC MEZA, MximoTpicos de estadstica descriptiva y probabilidad.Lima, Editorial Thales, 1996, Primera Edicin, Cap.III, p 143.

2. Bibliografa Citada.

TRIOLA Mario F Estadstica .- Novena edicin, Mxico, Imprenta Pearson


Educacin, 2004, Cap. 9, p. 496

MARTINEZ BENCARDINO, Ciro Estadstica y Muestreo.- BogotColombia, Editores Digiprint, 2007. Reimpresin 12 edicin, Cap. X, p. 613

MOYA, Rufino C. Estadstica Descriptiva, Conceptos y Aplicaciones.- Per,


Editorial San Marcos, 1era edicin, 2007.- Cap. V

41

EVERETT E. ADAM, RONALD J. EBERT Administracin De La


Produccin Y Las Operaciones... Editorial Prentice- Hall Hispanoamrica S.A.,
Mxico 1991; p107

INTERNET.- http://carmesimatematic.webcindario.com/bidimensionales.htm

INTERNET.http://personal5.iddeo.es/ztt/Tem/t15_distribuciones_bidimensionales.htm

3. Bibliografa Consultada.

MANUAL

DE

BIOESTADSTICA:

TEORA

PRCTICAS

Lagares Franco, Carolina; Garca Ortega, Cesreo; Almenara Barrios, Jos.

ESTADSTICA

APLICADA

INFERENCIA

ESTADSTICA

Juan Santiago Murgui Izquierdo, Roberto Escuder Valls .


4. Bibliografa No Consultada.

LECCIONES DE ESTADSTICA.ESTADSTICA DESCRIPTIVA Y


PROBABILIDAD.
JOS LUIS BONNET JEREZ.

ESTADISTICA EMPRESARIAL.
PARTE I: ESTADISTICA DESCRIPTIVA.
PARTE II: MODELOS PROBABILISTICOS
GARCIA RAMOS, JUAN ANTONIO y RAMOS GONZALEZ, CARMEN y
RUIZ GARZON, GABRIEL.

Anda mungkin juga menyukai