Anda di halaman 1dari 20

Universidad Autnoma de Baja California Centro de Ciencias de la Salud Unidad Valle de las Palmas

Alumnos Montoya Molina Roberto Rosales de la Torre Christian Fernando

Unidad III. Correlacin y Regresin Lineal Simple Estadstica Mdica

Profesor Jess Eduardo Soto Vega

Fecha de entrega 2 de Agosto de 2013

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

NDICE

Portada ndice Introduccin Correlacin Lineal Simple Definicin Diagramas de dispersin Covarianza Coeficiente de correlacin Desviacin estndar Grados de correlacin Coeficiente de determinacin Regresin Lineal Simple Definicin Ecuacin de regresin X sobre Y Y sobre X Ejemplos Conclusiones Referencias Bibliogrficas

1 2 3 4 4 4 7 8 9 9 10 11 11 11 11 12 14 19 20

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

INTRODUCCIN

La estadstica inferencial pretende dar significancia a los datos obtenidos mediante la estadstica descriptiva. La estadstica descriptiva tiene un campo de aplicacin ms til que la descriptiva para quienes la saben desarrollar puesto que en una investigacin, despus de haber obtenido ciertos datos (por medio de la estadstica descriptiva), estos se pueden interpretar y darle un sentido a la misma al sacar conclusiones por medio de clculos estadsticos.

A lo largo del curso de estadstica se han aprendido tcnicas que pertenecen a la estadstica descriptiva como a la estadstica inferencial. Sin embargo por medio de este trabajo se desarrolla un tema a manera de introduccin, el cual aporta las tcnicas bsicas a la estadstica inferencial para poder interpretar datos obtenidos de la estadstica descriptiva cuando se pretende relacionar dos variables.

Estas tcnicas resultan de gran importancia puesto que los investigadores basan la mayora de sus conclusiones en comparar cosas, en este caso, variables.

Los temas a tratar en este trabajo son: correlacin lineal simple y regresin lineal simple. Esperando que el desarrollo de los mismos sean de fcil entendimiento y que se pueda comprender mejor la metodologa de estas tcnicas de gran importancia.

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

CORRELACIN LINEAL SIMPLE

Definicin El concepto de correlacin se refiere al grado de variacin conjunta existente entre dos o ms variables. La correlacin lineal considera nicamente dos variables, por eso tambin se le llama simple.
1

As por ejemplo, se puede plantear si hay alguna relacin entre las calificaciones de la asignatura Estadstica I y las de Matemticas I. Otro ejemplo consistira en analizar la facturacin de una empresa en un periodo de tiempo dado y de cmo influyen los gastos de promocin y publicidad en dicha facturacin. 2 Ejemplo: 3

Diagrama de Dispersin La forma ms directa e intuitiva para formarse una primera impresin sobre el tipo de relacin existente entre dos variables es a travs de un diagrama de dispersin.1 El diagrama de dispersin es un grfico con escala aritmtica en ambos ejes.
Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

La confeccin de este grfico es el primer paso para determinar si hay algn tipo de relacin entre dos variables y se dibuja utilizando los datos observados, bien corresponden a una poblacin o una muestra. Por costumbre, se representan los valores de la variable independiente en el eje horizontal y los de la variable dependiente en el vertical; los valores de las dos variables podran estar expresados en las mismas unidades de medida pero no es necesario. Tipos de diagramas de dispersin: 1

Este

diagrama

muestra

una

lnea cuando

recta las

ascendente,

esto

ocurre

puntuaciones mayores en una de las variables es tambin mayor en la otra. Se le llama: relacin lineal directa (positiva).1

Este

diagrama y

muestra ocurre

una

lnea cuando

recta las

descendente

puntuaciones mayores de una variable son las menores en la otra. Se le llama: relacin lineal inversa (negativa).1

En este diagrama se observa una relacin pero no se considera lineal puesto que los puntos no reflejan una lnea recta.1

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

En este diagrama no parece existir alguna pauta de variacin clara, queda una nube dispersa y est muy lejos de ser una lnea recta.
1

Ejemplo: 3

La descripcin conjunta y estudio de independencia entre dos variables cuantitativas medidas con escala de intervalo se lleva a cabo a partir de la obtencin del coeficiente de covarianza y del coeficiente de correlacin (de Pearsons). Estos dos coeficientes evalan la existencia de relacin lineal. Estos valores slo indican la existencia de relacin lineal, es importante realizar la representacin grfica de las dos variables (diagrama de dispersin) antes de calcular esto valores con el fin de descartar la existencia de otros tipos de relacin entre las dos variables.4

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

Covarianza La covarianza es la medida de la variacin conjunta de las desviaciones en cada individuo de la muestra en las dos variables a relacionar. Su frmula es: 4

Dnde: SPxy es la suma de los productos cruzados que es el numerador de la covarianza.

En caso de trabajar con muestras pequeas se debe dividir por n-1en lugar de dividir por n. Si la covarianza es 0, indica la ausencia de correlacin lineal entre las dos variables, si el valor es positivo indica la presencia de relacin lineal directa y si es negativo indica la presencia de relacin lineal inversa. Ejemplo: 3 Para medir la intensidad de la relacin lineal entre la cantidad de comerciales, x, y el volumen de ventas, y, en el problema del almacn de equipos de sonido se aplica la segunda ecuacin para calcular la covarianza de la muestra. Las operaciones se muestran en la siguiente tabla:
4

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

La primer columna corresponde a los valores de la primera variable, la segunda columna corresponde a los valores de la segunda variable, la tercer columna corresponde a la media muestral de la primera variable menos el valor de esta, la media muestral para la primer variable (x) es de 3 puesto que la sumatoria es 30 y el total de datos es 10, tenemos que 30/10 = 3. La cuarta columna corresponde a la media muestral de la segunda variable menos el valor de esta, la media muestral para la segunda variable (y) es 51 puesto que la sumatoria es 510, tenemos que 510/10=51. La cuarta columna corresponde a la operacin total del numerador de la frmula inicial, la cual es el resultado de multiplicar los valores de la tercera y cuarta columna.

Coeficiente de correlacin En particular, interesa cuantificar la intensidad de la relacin lineal entre dos variables. El parmetro que permite esa cuantificacin es el coeficiente de correlacin lineal simple (de Pearson) que se denota con la letra r y cuyo valor oscila entre -1 y +1. 2

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

Su frmula es la siguiente: Donde se interpreta que es el cociente entre la covarianza y el producto de las desviaciones tpicas de ambas variables.

Desviacin Estndar La desviacin estndar se calcula con la raz cuadrada de la varianza, la cual tiene dos frmulas, la que se presenta a continuacin es la que se utiliza en estadstica inferencial:

De tal manera que al sustituir esta frmula en la frmula del coeficiente de correlacin, la frmula final queda de la siguiente manera: 3

Grados de correlacin La interpretacin del valor de r es la siguiente: Cuanto ms se aproxime al valor de +1 la correlacin tiende a ser lineal directa. 3 Que como se explic anteriormente, los valores de x aumentan conforme aumenta y. Cuando el valor de r se aproxima a -1 la correlacin tiende a ser lineal inversa.3 En la siguiente recta se explica de manera sencilla cmo se aplica la interpretacin del coeficiente de correlacin:

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

Coeficiente de determinacin Es una medida de bondad de ajuste de modelos de regresin lineal a los datos. La definicin del coeficiente de determinacin (R2) es el cuadrado del coeficiente de correlacin entre los valores de Y observados y los valores de Y ajustados. Su expresin es la siguiente: La interpretacin de este coeficiente es que si vale 0 (lmite menor), no hay ajuste de variables, pero al llegar a 1 (lmite mayor) hay un ajuste perfecto y entonces los puntos aparecen en una lnea recta.

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

10

REGRESIN LINEAL SIMPLE

Definicin Ayuda a la prediccin de los valores de una variable cuantitativa.5 Es un procedimiento que permite obtener una ecuacin que indique cual es la relacin entre las variables. En la terminologa se utiliza una variable que se va a predecir y se le llama variable dependiente y a las variables que se usan para predecir l valor de la variable se les llama variables independientes.5

Ecuacin de regresin Y sobre X Relacin de causalidad de la variable X (causa) hacia la variable Y (efecto), y se sabe que esa relacin es de tipo lineal, dentro del rango de los datos.

Y = a + bX
Dnde: a y b son dos cantidades fijas obtenidas a travs de frmulas presentadas ms adelante. X representa el valor, ya sea mayor o menor, de Xi en la tabla final de puntos de recta. La recta que representa los datos Y se llama intercepto sobre el eje vertical. La solucin est dada por las siguientes frmulas:

Dnde: b es se denomina pendiente y es la inclinacin de la recta, es decir, es el incremento que se produce en la variable Y que se produce cuando X aumenta una unidad. Se calcula por el cociente de la sumatoria de Xi menos la media
Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

11

aritmtica de X, multiplicado por Yi menos la media aritmtica de Y entre la sumatoria de Xi menos la media aritmtica de X al cuadrado. a es la ordenada en el origen; es la altura o estimacin que la recta corta al eje Y cuando X=0. Se denomina Trmino Independiente.

Para encontrar el valor de a usamos el valor de la media aritmtica de Y y restamos el valor de la pendiente multiplicado por el valor de la media aritmtica de X.

X sobre Y Relacin de causalidad de la variable Y (causa) hacia la variable X (efecto), y se sabe que esa relacin es de tipo lineal, dentro del rango de los datos.

X= a + by
Para obtener el valor de X se requiere el valor de a sumado al valor de b una vez multiplicado por el valor de Y. El proceso de obtencin de valores de estas variables es de manera similar al de la recta de Y sobre X, pero las frmulas a aplicar son las siguientes:

En este caso el denominador sera reemplazado por la siguiente expresin:

(Yi - Y)

Para obtener el valor de a usaremos la media aritmtica de X menos el producto del valor de la pendiente y la media aritmtica de Y, tal como en la frmula siguiente:

a = X - by

Finalmente usamos la frmula requerida, en este caso el ejemplo es con Y sobre X, para establecer los puntos para la recta. Si a = 18.78 y b = 81.63 esta seria nuestra frmula para obtener el valor de Y:
Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

12

[ Inicio ] [ Termino ]

Y = 18.78 +(.8994 * Valor Minimo X ) Y = 18.78 + (.8994 * Valor Maximo X )

Estos dos resultados marcarn el punto de inicio y el punto de trmino de la recta. Puntos para Recta X 54 83 Y 67.35 88.93

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

13

EJEMPLOS UNO Un centro comercial sabe en funcin de la distancia, en kilmetros, a la que se site de un ncleo de poblacin, acuden los clientes, en cientos, que figuran en la tabla: # de Clientes Distancia (Y) 8 15 7 19 6 25 4 23 34 40 2 1

Xi 8 7 6 4 2 1 28

Yi 15 19 25 23 34 40 156

Xi * Yi 120 133 150 92 68 40 603

Xi2 64 49 36 16 4 1 170

Yi2 225 361 625 529 1156 1600 4496

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

14

Regresin Lineal Simple

Inicio

Y = -3.2(1) + 40.96 = 37.67

Termino Y = -3.2(8) + 15.41 = 15.41

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

15

DOS

Clculos parciales, en que X es el ndice mayo 2002, Y el ndice mayo 2003: n = 28 x =136.6 y =144.9 Sxx =(xi x)2 = 134,913.6 Syy = (yi y)2 = 187,813.72 Sxy =(xi x)(yi y) =154,350.8

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

16

Indica un muy buen ajuste. El siguiente grfico muestra de recta de regresin estimada:

inicio -13.61 + (1.14)(34.7)= 25.95 termino -13.61 + (1.14)(282.5)= 308.44

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

17

TRES Determinar las rectas de regresin y calcular la nota esperada en Qumica para un alumno que tiene 7.5 en Matemticas.

Matematicas Quimica

6 6.5

4 4.5

8 7

5 5

3.5 4

Xi 6 4 8 5 3.5 26.5

Yi 6.5 4.5 7 5 4 27

Xi * Yi 36 16 64 25 12.25 153.25

Xi2 42.25 20.25 49 25 16 152.5

Yi2 39 18 56 25 14 152

r = .535

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

18

CONCLUSIONES

Montoya Molina Roberto En el desarrollo de este tema se comprende la importancia de saber interpretar datos obtenidos en ciertas observaciones, y no slo interpretarlos sino tambin relacionar las diferentes variables a las que estuvo sometida la observacin. Algo importante que se puede resaltar es que no siempre se van a encontrar dos variables, sino que es hasta ms probable que aparezcan ms de dos variables y entonces se tendrn que aplicar otros procedimientos puesto que el desarrollo de este tema se bas slo en las problemticas de correlacin y regresin de dos variables.

Rosales de la Torre Christian Fernando En mi humilde opinin este tema me ayud a considerar el hecho de que usando los datos correctos y relacionando linealmente las variables por causa y efecto, podemos obtener un resultado probablemente cercano al siguiente. Sin embargo, es importante saber identificar las situaciones en las que una correlacin es nula o inversa ya que nuestros resultados tendrn vastas diferencias. De la misma

manera me doy cuenta que al ya tener un resultado, es posible aadir otros resultados que no estuvieron desde un principio en el planteamiento del problema y al mismo tiempo calcular su probabilidad; todo esto porque aprend que X o Y incrementan en torno a la pendiente del problema.

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

19

Referencias Bibliogrficas [1] Anlisis de Correlacin Lineal. Pag.

Principal

de

internet:

http://pendientedemigracion.ucm.es [Archivo en formato PDF disponible en: http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materi ales/analisis_datosyMultivariable/17corlin_SPSS.pdf]. 31/07/2013. [2] Anlisis de regresin y correlacin lineal. Pg. principal de internet: http://www.uoc.edu [Archivo en formato PDF disponible de en: Fecha de consulta:

http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf]. 31/07/2013.

Fecha

consulta:

[3] Anderson David, Sweeney Dennis, Williams Arthur. Estadstica para administracin y economa. (8va edicin). Editorial Thomson. Mxico, 2005. Pp. 104-106 [4] Guardia Olmos Joan, Freixia Monserrat, Pero Cebollero Maribel, Turbany Oset Jaume. Anlisis de datos en Psicologa. Editorial Delta. Las Rozas, Madrir, 2007. Pp. 192-199. [5] Galbiati Jorge. Regresin Lineal Simple. Pag. Principal de internet: http://www1.herrera.unt.edu.ar [Archivo en formato PDF disponible en: http://www1.herrera.unt.edu.ar/mediciones/TPracticos/Regresion%20Lineal.pdf] Fecha de consulta: 01/08/2013

Los superndices indican la referencia bibliogrfica de donde se obtuvo la informacin

20