1.-Variable Estadstica Bidimensional. Tablas de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.- Concepto de variable estadstica bidimensional. Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . 1.2.-Tablas bidimensionales de frecuencias. Tablas de doble entrada. . . . . . . . . . . . . . . . . . . 1.3.-Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.-Vector de medias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.-Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.-Covarianza: Concepto y clculo. Matriz de covarianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 4 5 5 5
2.- Introduccin a la regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.- Idea intuitiva del ajuste de una linea a un diagrama de dispersin . . . . . . . . . . . . . . . . . 7 2.2 Recta de regresin: Significado y clculo de la recta de regresin de y sobre x. Clculo de la recta de regresin de x sobre y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.-Significado y clculo del coeficiente de correlacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1 Coeficiente de correlacin lineal: Definicin y clculo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 Interpretacin del coeficiente de correlacin Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Dependencia Funcional.
Cuando es posible predecir con exactitud los valores de una variable a partir de los de la otra, se dice que ambas variables estn en relacin funcional. Dada la variable (X,Y) existir una funcin f(x) tal que yi = f(xi). Para cada valor de x se puede conocer el valor de y. Ejemplo: a) La altura desde la que cae un cuerpo y el tiempo que tarda en llegar al suelo est sujeto a la ley de la gravedad. Siempre tarda lo mismo en recorrer el mismo espacio. b) El precio de una tela es funcin del coste del metro de tela y del nmero de metros.
Independencia o Incorrelacin.
Cuando las dos variables no tienen ninguna relacin entre ellas y podemos estudiarlas por separado. Ejemplo: a) La estatura y la nota de matemticas. b) La nota en selectividad y el nmero de letras del nombre.
Podemos apuntar un par de ideas sobre la nube de puntos: 1.- En muchas ocasiones la nube de puntos sugiere la forma de la grfica de alguna funcin conocida: una recta, una parbola, una funcin exponencial. Esto significa que puede existir alguna relacin entre las variables. Si as ocurriese, se dira que las variables estn correlacionadas. 2.- Si la forma de la nube es estirada y sus puntos se pueden encerrar en una elipse, la estrechez de esa elipse es un indicador de la fuerza de la correlacin
Escribe la distribucin de frecuencias de X="nota en Lengua". Calcula su media y su varianza. Escribe la distribucin de frecuencias de Y="nota en Idioma". Calcula su media y su varianza.
Observa esta nueva tabla en la que se ha aadido una fila y una columna ms con los totales:
Y\X
0 1 2 3 4 5 6 7 8 9 10
1
1
3
2
10
Total
1 2 4 0
3 3 1 2 2 2 3 2 3 2
3 7 3 3 2 3 2
Total
30
1.3.-Distribuciones marginales
Se denomina distribucin marginal de una variable bidimensional a la distribucin que se obtiene al estudiar independientemente cada variable. Si tomamos la primera columna y la ltima columna en la tabla anterior, obtenemos la distribucin de frecuencias marginales de la variable estadstica Y:
Y ni
0
0 1
1 2
2 4
3 0
4 3
5 7
6 3
7 3
8 2
9 3
10 2
1 2 4 4 5 2 7 2 3 0 nj 0 Con estas distribuciones podemos calcular los mismos parmetros estadsticos que calculamos para las distribuciones unidimensionales.
x=
x
i= 1
ni
y=
x
i= 1
n' i
N
j
(x
i
x ) ni N
= (x2 ) (x)
2 Sy =
(y
j
y ) n' j N
= ( y 2 ) ( y)
1.4.-Vector de medias.
Sea (X,Y) una distribucin estadstica bidimensional. Al par ( x , y ) se le denomina vector de medias o centro de gravedad de la distribucin. Ejercicios: 1) Un vendedor de helados anota durante doce das la temperatura (T) a las doce de la maana y el nmero de bloques vendidos (V) en ese da, obteniendo los siguientes valores: (300,10), (270,8), (280,9), (270,8), (300,10), (310,11), (270,9), (280,10), (290,11), (300,11), (290,12), (300,10). Escribe la distribucin de frecuencias de la variable bidimensional (T,V) en forma de tabla de doble entrada. Escribe las distribuciones marginales de la distribucin anterior y calcula la temperatura media y el nmero medio de bloques vendidos. Calcula en las dos distribuciones marginales la varianza y la desviacin tpica. 2) Hemos preguntado a los 20 alumnos de una clase el nmero de horas semanales que dedican al estudio (E) y el nmero de horas semanales que ven televisin (T): E T 2 1 5 6 5 3 1 4 0 2 1 3 4 3 2 1 1 2 4 0 1
7 2 7 6 9 5 5 9 6 7 5 6 8 5 5 9 5 5 8 Construye una tabla de doble entrada. escribe las distribuciones marginales de ambas variables y calcula sus medias y varianza. 3) Las alturas (X) y los pesos (Y) de 25 personas son los siguientes: [60-65) [60-65) [65-70) X (Kgr.) Y (Cm.) Frecuencia X (Kgr.) Y (Cm.) [165-170) 1 [70-75) [165-170) [170-175) 3 [70-75) [170-175) [165-170) 2 [70-75) [175-180)
Frecuencia 1 4 3 3 2 Expresa estos resultados mediante una tabla de doble entrada. Escribe las distribuciones marginales y calcula sus medias y varianzas (toma como valor de cada intervalo el punto medio, Marca de clase).
1.5.-Distribuciones condicionadas
Son las distribuciones que se obtienen al fijar un valor en una de las variables y estudiar las frecuencias correspondientes a la otra. Por ejemplo la distribucin de la variable Y para el valor X=xi. La distribucin que se obtiene es unidimensional.
(x
i
x)
(y
j
y ) f r ( xi , y j ) =
(x
i, j
x ) ( y j y ) n ij N
Se demuestra que: xy
x
i, j
y j nij xy N
Interpretacin de la covarianza
Una covarianza positiva y alta indica que ambas variables crecen o decrecen simultneamente, es decir, presentan una fuerte correlacin. Cuando mayor sea la covarianza, ms estrecha es la relacin entre las variables. Una covarianza alta y negativa indica que cuando una variable crece, la otra decrece y viceversa, es decir, presentan una fuerte correlacin inversa. Cuanto menor sea la covarianza, puesto que es negativa, ms estrecha es esta relacin entre las variables. La covarianza cero o prxima a cero indica que no existe relacin entre las variables. Ejemplo: A 12 alumnos de un colegio se les toma las notas de los ltimos exmenes de matemticas, fsica y filosofa. Observa que hay una relacin fuerte entre las notas de matemticas y las de fsica. ALUMNO MATEMTICAS.SSS FSICA FILOSOFA 1 2 A 3 3 B 2 4 C 4 4 D 4 5 E 4 6 F 6 6 G 4 7 H 6 7 I 7 8 J 9 10 K 10 10 L Vemos la grfica de los pares de puntos (xi,yj) y su relacin con la covarianza. 2 5 7 8 5 3 4 6 7 5 5 9
En la primera grfica, los puntos estn ms alineados y por tanto la relacin entre las variables (CORRELACIN) es ms fuerte. Por el contrario, en la segunda grfica es ms dbil. Pero la covarianza presenta algn inconveniente: 1- Los puntos ms alejados de la nube influyen ms en su valor y signo que los centrales. 2- Las escalas influyen en el valor de la covarianza. As, al cambiar la escala cambia el valor de la covarianza y sin embargo, la relacin entre las variables es la misma.
Matriz de covarianzas
2 Sx M = S xy
S xy 2 Sy
Estadstica Bidimensional. -6-
2.2 Recta de regresin: Significado y clculo de la recta de regresin de y sobre x. Clculo de la recta de regresin de x sobre y.
Dada una nube de puntos, la recta de regresin que mejor se ajuste a ella tendr una ecuacin de la forma y = Ax + B. Para obtener los valores de A y B, se impondrn dos condiciones: 1.- Gravedad de la nube de puntos. Esta condicin implica que la recta de regresin pasa por el punto ( x , y ) es decir su ecuacin ser y y = A ( x x ) . Slo queda por determinar el valor de la pendiente de la recta, A. 2.- A cada punto Pi, de coordenadas (xi, yi), perteneciente a la nube de puntos, le corresponde, en la recta, el punto Pi' de coordenadas (xi, yi). Si se llamamos Di a la diferencia yi - yi, se impondr la condicin de que la suma de los cuadrados de estas diferencias sea mnima. Puesto que el punto ( xi,yi ) pertenece a la recta se verifica que y ' i = y + A ( xi x ) Como Di2 tiene que ser mnimo, para cometer el menor error. Entonces la derivada de
_ _
Di2
( y'
i
_
yi ) =
2
_ _ y + A ( x x ) yi i
condicin, y mediante un tratamiento matemtico, se deduce que el valor de A debe ser A = Sxy / Sx2. Por lo tanto la recta de regresin de y sobre x es:
_ Sxy y y = 2 ( x x ) esta ecuacin permite aproximar valores de y conocidos los de x . Sx S xy
Al valor
2 Sx
Del mismo modo obtenemos la ecuacin de la recta de regresin de x sobre y que ser:
xx=
Al valor
2 Sy
El mtodo de obtencin de esta recta, minimizando la suma de los cuadrados de las diferencias yi - yi, se denomina mtodo de mnimos cuadrados y la recta de regresin se llama tambin recta de mnimos cuadrados.
Interpolacin y extrapolacin .
La recta de regresin puede utilizarse para predecir el valor de Y que corresponde a un determinado valor de X conocido. Se llama interpolacin a la estimacin de un valor de la variable Y para un cierto valor de X, dentro de su recorrido. Se llama extrapolacin a la estimacin de un valor de Y, para un cierto valor de X fuera de su recorrido. Ejemplo: Realizamos un experimento que consiste en suministrar a cada una de 10 ratas una dosis diaria de 1 mg, 2 mg, 3 mg, ...., 10 mg, respectivamente, de un cierto frmaco A, y calculamos el aumento de peso de cada rata despus de un mes. Realizamos el mismo experimento con otras 10 ratas y otro frmaco B. Y por ltimo un tercer experimento con otras 10 ratas y otro frmaco C. Los resultados grficamente son: A la vista de las tres grficas, nos inclinamos a pensar que A favorece el engorde de las ratas, B no influye y C es perjudicial. La correlacin de la grfica 1 es positiva y la de la 3 es negativa, igual que las pendientes de las rectas de regresin correspondientes. En la segunda grfica se observa que la nube de puntos es amorfa y no sugiere ninguna recta. No hay correlacin entre las variables. Se dice que son Incorreladas.
La correlacin mide el grado de ajuste de la nube de puntos a la funcin matemtica asignada. Responde por tanto a la pregunta: en qu medida una recta, u otra funcin matemtica, describe de un modo adecuado la relacin existente entre las variables?. La relacin entre dos variables puede ajustarse muy bien a una recta o cualquier otra funcin matemtica. Para medir el grado de ajuste de la distribucin a una recta, se emplea el coeficiente de correlacin de Pearson, cuya expresin es:
xy =
S xy Sx S y
xy x y
Este coeficiente soluciona los problemas que presentaba la Covarianza por varias razones: 1.- Si el coeficiente de una varia ble (x, y) es D el de (aAx, bAy) tambin es D 2.- No tiene unidades, lo que nos permitir estudiar la correlacin con independencia de como tomemos las medidas.
xy , puesto
que *x y *y son dos nmeros positivos. Los valores que puede tomar el coeficiente de correlacin de Pearson estn comprendidos entre -1 y 1. A Si 0<Dxy <1, la correlacin es positiva. La correlacin es positiva o directa cuando al aumentar una variable, se produce un aumento en la otra, y al disminuir una, se produce una disminucin en la otra. Esto ocurre cuando la covarianza es positiva. A Si -1<Dxy < 0, la correlacin es negativa. La correlacin es negativa, o inversa, cuando al aumentar una variable, se produce una disminucin de la otra, y al disminuir una variable, se produce un aumento en la otra. Esto ocurre, cuando la covarianza es negativa. Si Dxy = 1 el ajuste es perfecto. Cuando se da este caso, las variables X e Y guardan una relacin funcional lineal exacta, y = f(x). Si Dxy = 1 la recta tiene pendiente positiva y si Dxy = -1 la recta tiene pendiente negativa. Si
+