Anda di halaman 1dari 88

Tema 1 de Anlisis de datos resumen Conceptos bsicos y organizacin de datos UNED Curso 2012

Mariluz Lozano Gago

1.1.Introduccin La estadstica se aplica en todas las reas del saber, y puede ser terica o aplicada (a la realidad, se entiende), siendo llamada esta ltima: "anlisis de datos". 1.2. La investigacin en Psicologa. Con la aparicin de la ciencia moderna en el siglo XVII, el mtodo cientfico pas a ser la fuente de estudio ms utilizada, aunque no la nica. El mtodo cientfico consiste en dar razn sistemtica, emprica y en lo posible experimental, de los fenmenos (Yela, 1994). El mtodo cientfico se caracteriza por ser sistemtico (=en fases) y replicable (= debe arrojar datos susceptibles de rplica o refutacin por cualquier investigador interesado). Las fases interdependientes del mtodo cientfico son: 1. Definicin del problema. 2. Deduccin de hiptesis contrastables. 3. Establecimiento de un procedimiento de recogida de datos. 4. Anlisis de los resultados obtenidos. * (objeto de esta asignatura) 5. Discusin de dichos resultados y bsqueda de conclusiones. 6. Informe. 1.3. Concepto y funciones de la estadstica: descriptiva e inferencial. La Estadstica en general se ocupa de la sistematizacin, recogida, ordenacin y presentacin de los datos referentes a un fenmeno que presenta variabilidad o incertidumbre para su estudio metdico, con objeto de hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. La Estadstica descriptiva = mediante la estadstica descriptiva se organizan y resumen conjuntos de observaciones procedentes de una muestra o de la poblacin total, en forma cuantitativa. La Estadstica inferencial = se realizan inferencias acerca de una poblacin basndose en los datos obtenidos a partir de una muestra. Para realizar estas generalizaciones de la muestra a la poblacin se utiliza el clculo de probabilidades. * Conceptos estadsticos bsicos: Poblacin : Conjunto de todos los elementos que cumplen una determinada caracterstica objeto de estudio. Muestra: Un subconjunto cualquiera de una poblacin Parmetro: Es una medida (= propiedad descriptiva) de una poblacin Estadstico: Es una medida (= propiedad descriptiva) de una muestra (vg, el porcentaje de la muestra que responde que s votar en unas elecciones)

Las conclusiones obtenidas de una muestra slo servirn para el total de una poblacin si la muestra es representativa (y para que sea representativa se usan mtodos de muestreo probabilstico). Por contra, las muestras no probabilsticas no se basan en las matemticas de las probabilidades como vg la muestra de conveniencia o incidental (personas cercanas al investigador, fcil acceso) 1.4. Medicin y escalas de medida. Consiste en asignar un nmero a cada una de las modalidades de una caracterstica. Hay 4 tipos de escala de medida: Nominal= Asignacin de nmeros o smbolos, por tanto la nica relacin que obtenemos es la de igualdad o desigualdad. (no hay suma) Vg catlicos practicantes versus catlicos no practicantes. Ordinal= Como su propio nombre indica, aparte de la igualdad o desigualdad , tambin nos indica el orden de las posiciones del objeto clasificado. Nos permite establecer relaciones de mayor que o menor que. Ejemplo status socioeconmico (1, 2, 3: alto, medio, bajo, los ns no slo indican diferentes modalidades sino tambin orden entre ellas) Intervalo= Adems de las caractersticas de la escala nominal (igualdad o desigualdad) y ordinal (orden) , la escala de intervalo se identifica porque cada nmero es una unidad de medicin, podemos sumarlos o restarlos obteniendo resultados coherentes (a diferencia de la escala nominal) Es importante sealar que en la escala de intervalo el origen es arbitrario. Ejemplo: el test de inteligencia, el 0 no significa la ausencia de inteligencia, ni 160 de CI supone el doble de inteligencia que 80. De razn= Adems de todas las caractersticas de las tres escalas diferentes, supera a las dems en que se puede establecer un punto de origen verdadero de valor cero (a diferencia del 0 arbitrario de la escala de intervalo). Es lo que se conoce como valor absoluto. Ejemplo: la altura y el peso. 1.5. Variables: clasificacin y notacin.
Variable: Representacin numrica de una caracterstica que presenta ms de una modalidad (valor) de un conjunto determinado. Si una caracterstica tiene una nica modalidad se llama constante. Segn el nivel de medicin tenemos tantas variables como escalas (variable nominal, ordinal, de intervalo, de razn).

Aparte de esta clasificacin existen ms clasificaciones: - Variable independiente: Cualquier suceso que sospechamos es la causa de otro, es la manipulada o controlada a su vez por el investigador - Variable dependiente: Medida utilizada para estudiar la variable independiente = es tambin llamada variable consecuente, y est subordinada a la independiente. - Variable extraa: Aquellas que pueden influir sobre la variable dependiente pero no nos interesa estudiar sus efectos. Para referirnos a un valor cualquiera de la variable X se utiliza el subndice i (Xi ), siendo n el nmero de elementos que componen la muestra:

1.6. Distribucin de frecuencias. Una distribucin de frecuencias es una representacin de la relacin entre un conjunto de medidas exhaustivas y mutuamente influyentes y la frecuencia de cada una de ellas. Funciones: - Ofrecer la informacin necesaria para realizar representaciones grficas - Facilitar los datos para obtener los estadsticos muestrales

Conceptos Frecuencia absoluta (ni): Nmero de veces que se repite cada uno de los valores de una variable. La suma de todas las frecuencias absolutas representa el total de la muestra (n) Proporcin o frecuencia relativa (pi): Cociente entre la frecuencia absoluta de cada valor de la variable (ni) y el nmero total de observaciones (n). pi = ni /n Porcentaje (Pi): Valor de la frecuencia relativa (pi) multiplicado por cien: Pi = pi x 100 Frecuencia absoluta acumulada (na): Nmero de veces que se repita cada modalidad o cualquiera de las modalidades inferiores. Proporcin acumulada o frecuencia relativa acumulada (pa): Cociente entre la frecuencia absoluta acumulada de cada clase y el total de observaciones. pa = na / n Porcentaje acumulado (Pa): Valor de la frecuencia relativa acumulada multiplicado por cien. Pa= pax 100 Ms conceptos Si la variable cuantitativa es reducida (nmero de hijos) no hay problema, la utilizamos tal cual. Pero si ocurre que puede ser muy amplia (edad) debemos recurrir a la agrupacin en intervalos. La amplitud de los intervalos representa al nmero de unidades que tenemos dentro de cada intervalo. No es lo mismo tener una amplitud de intervalos de 10 en 10 (11-20) (21-30) (31-40) que de 5 en 5 (15-19) (20-24) (25-29). Obviamente al establecer intervalos siempre se pierde informacin. Por lo tanto hay que buscar equilibrio entre la precisin que buscamos y lo cmodo que sea trabajar con esos datos (si no establecisemos intervalos podramos encontrarnos con tablas de 100 filas) Aunque tengamos un intervalo de edad (25-35) (36-45) no significa que no pueda haber personas con 35,5 aos. Por lo tanto los intervalos (25-35) y (36-45) reciben el nombre de limites informados o aparentes. (aparentan ser lo que no son) ya que en realidad los lmites verdaderos son (25,5-35,5) y (35,5-45,5). El lmite superior exacto del primer intervalo (35,5) coincide con el lmite inferior exacto del siguiente (35,5) Clculo de lmites exactos Lmite exacto = Valor informado (el que nos han dado) +- 0,5 x I I = Instrumento de medida. (en el caso de las edades I = 1) Punto Medio: Es la semisuma del lmite superior e inferior del intervalo. Se calcula a travs de los lmites informados o de los lmites exactos.

*Nota: Con un poco de sentido comn el punto medio se haya sumando los dos valores del intervalo y dividiendo el resultado entre 2 Tomemos el intervalo (26-35) = 26 + 35 = 61/2 = 35,5. Ya sabemos lo que es la semisuma

Intervalo abierto: Son los intervalos finales que se utilizan para no tener frecuencia nula. Ejemplo de edad: (76 aos o ms) 1.7. Representaciones grficas Un grfico es una forma rpida de visualizar un conjunto de datos o distribucin de frecuencias. El sistema de coordenadas ms habitual est formado por: Eje vertical (ordenada o eje Y) Eje horizontal (abscisa o eje X) Origen: Punto donde se juntan ambos ejes Representacin grfica de una variable a) Diagrama de barras Se utiliza para variables nominales, ordinales y cuantitativas discretas. - En el eje X se colocan los valores y en el Y las frecuencias. Sobre cada valor de la variable se dibuja un rectngulo o barra perpendicular cuya altura debe ser igual a la frecuencia. Diagrama de barras acumulativo Variedad del diagrama de barras que se utiliza en variables ordinales y cuantitativas discretas. En el eje X se sitan los valores de la variable y en el eje Y las frecuencias acumuladas.

b) Diagrama de sectores Se utiliza para variables cualitativas y cuasicuantitativas - Representacin en forma de crculo. El crculo se divide en secciones cuya superficie es proporcional a la frecuencia de la modalidad correspondiente. Para determinar el ngulo de los sectores de cada modalidad se multiplica la frecuencia relativa por 360, que es el nmero de grados de una circunferencia.

c) Pictograma Se utiliza para variables cualitativas - Son dibujos alusivos al objeto de estudio. Son escalas que deben ser proporcionales al valor que representan.

d) Histograma (parecido al diagrama de barras pero no hay espacio entre los rectngulos) Se utiliza para variables cuantitativas continuas con datos agrupados en intervalos - En el eje X se colocan los lmites exactos de los intervalos y en el eje Y la frecuencia.

e) Polgono de frecuencias Se utiliza para variables discretas - La forma que obtenemos es una lnea poligonal cuya figura se obtiene a partir de una diagrama de barras o de un histograma. - Tambin se puede utilizar en frecuencias acumuladas

Representacin grfica de dos variables a) Diagrama de barras conjunto Se utiliza cuando al menos una de las dos variables es cualitativa - Los datos se organizan en una tabla de doble entrada. Se sitan los valores de una variable en las filas y los valores de la otra variable en las columnas. - Una vez construida la tabla, se procede a dibujar los grficos por columnas

b) Diagrama de dispersin o nube de puntos Se utiliza en el caso de dos variables cuantitativas - Una variable se sita en el eje X y la otra en el eje Y. Para cada par de datos se localiza la interseccin entre ambas variables y se marca con un punto. - Es una manera rpida de hallar relaciones lineales entre las dos variables.

1.8. Propiedades de la distribucin de frecuencias. a) Tendencia central Se refiere al lugar donde se centra una distribucin particular en la escala de valores.

b) Variabilidad Se refiere al grado de concentracin de las observaciones en torno al promedio. Una distribucin de frecuencias ser: Homognea (tiene poca variabilidad). Si los valores de distribucin estn cercanos al promedio. (cuando hay pocos rectngulos alrededor del central) Heterognea (tiene mucha variabilidad). Si los valores se dispersan mucho en torno al promedio. (cuando hay muchos rectngulos alrededor del central)

c) Asimetra o sesgo Se refiere al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central. Diremos que una distribucin ser simtrica cuando al dividirla en dos a la altura de la media, las dos mitades se superponen. Si esto no ocurre decimos que se produce asimetra. Hay dos tipos de asimetra:

Asimetra positiva: Cuando la mayor concentracin de puntuaciones se produce en la parte baja de la escala. Asimetra negativa: Cuando la mayor parte de puntuaciones se sita en la parte alta de la escala.

Tema 2 de Anlisis de datos resumen Conceptos bsicos y organizacin de datos UNED Curso 2012

Mariluz Lozano Gago

Medidas de tendencia central


La media aritmtica Tambin llamada promedio o media a secas: Es el centro de gravedad de la distribucin de frecuencias, y slo puede calcularse para variables cuantitativas. La media aritmtica de una variable X, se define como la suma de todos los valores observados de la variable divididos por el nmero total de observaciones. Se expresa as matemticamente:

Si el nmero de observaciones es muy grande, la media aritmtica se puede calcular a partir de las frecuencias absolutas (ni) o de las frecuencias relativas (pi) (recordemos que las frecuencias relativas tambin las llambamos proporciones) Recordemos que pi = ni / n (esto lo vimos en el primer tema) Para frecuencias absolutas: _ X = niXi / ni Para frecuencias relativas: _ X = piXi En realidad da igual cual de los dos procedimientos escojamos, ya que ante una misma distribucin de frecuencias el resultado va a ser el mismo aunque se haga por la frmula de frecuencias absolutas o mediante la frmula de frecuencias relativas Ejemplo:

LA MEDIA ARITMTICA (X: suma de las puntuaciones dividida por el nmero de casos): ndice que toma en consideracin todas las puntuaciones registradas. Slo puede calcularse con variables cuantitativas. Para proceder a su clculo se toman en consideracin dos posibilidades: _ Para valores no agrupados en intervalos X = xi / n Ejemplo Obtener la Media Aritmtica de los siguientes valores: 4, 7, 8, 12, 6 _ X = xi / n (4 + 7 + 8 + 10 + 6) / 5 = 35 / 5 = 7 _ Donde: xi = n X 35 = (5 7) _ Para valores agrupados en intervalos X = (ni Xi) / n Ejemplo Dada la siguiente distribucin de frecuencias absolutas (ni) calcular la Media Aritmtica: X 10 - 12 79 46 1-3 Intervalos ni 10 100 60 30 N = 200 Xi 11 8 5 2 Punto medio Intervalos ni X i 110 800 300 60 ( ni Xi ) = 1. 270 _ X = (ni Xi) / n _ X = 1. 270 / 200 = 6,35

Ejemplo Dada la siguiente distribucin de frecuencias relativas o proporciones (pi) calcular la Media: X 10 - 12 79 46 1-3 Intervalos Xi 11 8 5 2 Punto medio Intervalos pi 10 / 200 = 0, 05 100 / 200 = 0, 5 60 / 200 = 0, 3 30 / 200 = 0, 15 Proporciones Xi pi 0, 55 4 1, 5 0, 3 ( Xi pi ) = 6,35 _ X = (Xi pi ) _ X = 6, 35 (resultado similar al anterior).

Propiedades de la media aritmtica 1. En una distribucin, la suma de las desviaciones de cada valor con respecto a su media es igual a cero. _ (Xi-X) = 0 Ejemplo Obtener las desviaciones con respecto a la media en la siguiente distribucin y comprobar que su suma es cero. li-1 - li 0 - 10 ni 1

10 - 20 2 20 - 30 4 30 - 40 3 Solucin: li-1 - li 0 - 10 ni 1 xi xi ni 5 5 -19 -9 +1 +11 -19 -18 +4 +33

10 - 20 2 20 - 30 4 30 - 40 3 n=10 La media aritmtica es:

15 30 25 100 35 105

Como se puede comprobar sumando los elementos de la ltima columna,

Para intervalos abiertos ( ms / menos) no es posible calcular la Media (no se puede obtener el punto medio). La media es un ndice apropiado para una distribucin simtrica. Si cada una de las puntuaciones de una distribucin (X) se multiplica por una constante (b) y se le suma otra constante (a), la media de las nuevas puntuaciones (Y) es igual a la media de las puntuaciones originales (X) multiplicada por la constante b ms la constante a:

Esto quiere decir que si cada uno de los valores antiguos (X) lo multiplicamos por un nmero cualquiera y le sumamos otro nmero, obtenemos nuevos valores (Y) pero con la misma proporcin anterior. Es decir, si tenemos dos valores: X=4 y X=8 y los multiplicamos por 10, tendremos Y=40 y Y=80, pero la proporcin se sigue manteniendo, el segundo valor sigue siendo el doble que el primero. LA MEDIANA - La utilizaremos cuando la distribucin sea muy asimtrica. - Los valores extremos no le afectan (a diferencia de la media aritmtica) ya que para su clculo slo se toman los valores que ocupan posiciones centrales. - Se puede calcular para todo tipo de variables, excepto cualitativas. La Mediana de una variable X, representada por Md, se define como el valor de la variable que divide la distribucin de frecuencias en dos partes iguales, conteniendo cada una el 50% de las observaciones. Clculo de mediana con pocos casos 1 - Se ordenan las puntuaciones n de mayor a menor 2 - Se Observa si el nmero de observaciones n es par o impar - Si es impar, la mediana es el valor de la posicin central - Si es par, la mediana es la media aritmtica de los dos valores centrales. Al ser muchos casos, los datos vienen presentados en intervalos. El intervalo en el que se encuentra la mediana se llama Intervalo crtico y se corresponde con aquel en el que la frecuencia absoluta acumulada na es igual o superior a n/2.

Li = Lmite exacto inferior del intervalo crtico n = Nmero de observaciones nd = Frecuencia absoluta acumulada por debajo del intervalo crtico nc = Frecuencia absoluta del intervalo crtico I = Amplitud del intervalo crtico

Casos especiales (pg 69-71) Si hemos entendido el caso anterior, esto es ms de lo mismo pero con un par de puntualizaciones) A) Cuando se trata de una distribucin de frecuencias pero los datos no estn agrupados en intervalos. Como los datos son unitarios, la amplitud (I) ser = 1 Es prcticamente lo mismo que el ejemplo anterior pero con I = 1 B) No se puede calcular la mediana cuando los datos estn agrupados en intervalos y existe un intervalo abierto en el que se encuentra la mediana. 3) La moda (la ms fcil de todas las medidas de tendencia central) - Se puede calcular para variables cualitativas y cuantitativas. - Se representa por Mo y se define como el valor o categora de la variable con mayor frecuencia absoluta.

- Si los datos estn agrupados en intervalos, la moda se puede calcular excepto si el intervalo modal coincide con el intervalo abierto.
VARIABLES NOMINALES (Categora o modalidad ms frecuente) Xi Solteras Casadas Divorciadas Viudas n! 25 50 15 10 100

Mo

VARIABLES ORDINALES (Grado o magnitud de la caracterstica ms frecuente) Es preciso ordenar previamente los valores para facilitar la lectura de las frecuencias.

Xi Psimo Regular Bueno Muy bueno Excelente

n! 5 15 25 45 10 100

Mo

VARIABLES CUANTITATIVAS (DE INTERVALO O RAZN) - Punto medio del intervalo con mayor frecuencia. - Cuando se trata de intervalos Punto Medio abiertos (intervalo superior o inferior sin lmite (o ms / o menos) la Moda no puede caer en uno de ellos.

Xi
3-5 6-8 9 - 11 12 - 14 15 - 17

ni
6 9 18 12 7

M0 = 10

Si la variable es cualitativa, la moda es la categora con la mxima frecuencia. - Si la variable es cuantitativa, la moda es el valor con la mxima frecuencia absoluta. - Si la variables es cuantitativa con datos en intervalos, se localiza el intervalo modal (intervalo con la frecuencia mxima) y la moda es el punto medio de dicho intervalo. Podemos tener distinto nmero de modas en la distribucin (1= unimodal) (2=bimodal) (3=trimodal); etc. Distribucin amodal = cuando no hay moda ya que todos los valores tienen la misma frecuencia absoluta. La eleccin de una medida de tendencia central - En primer lugar probaremos con la media aritmtica (menos en los casos en que la distribucin sea muy asimtrica, o el nivel de medida sea nominal u ordinal, o existan datos agrupados en intervalos con intervalos abiertos. - Si vemos que por alguna de estas razones la media aritmtica no funciona probaremos con la mediana. Sin embargo la mediana no podremos utilizarla cuando el nivel de la variable sea nominal o la mediana se encuentre en el intervalo abierto.

- Entonces, descartando las dos medidas anteriores, probaremos con la moda. Aunque no podremos calcularla si la distribucin es amodal o el intervalo abierto coincide con el intervalo modal. Hoy en da se recomienda calcular las 3 (siempre que se pueda). - Variables cualitativas: Solo podremos calcular la moda - Variables ordinales: moda y mediana - Variables cuantitativas: Podemos calcular las 3.
Tendencia central Moda Mediana Media Tipo de variable Cualitativo (nominal) (sexo, estado civil) Ordinal (cuasi-cuantitativa) Intervalo o razn Cuantitativa continua

2. MEDIDAS DE POSICIN La medida de tendencia central buscaba un indicador para representar a un conjunto de datos. En cambio, las medidas de posicin buscan un indicador para representar a un sujeto o a un dato en particular. Medidas de tendencia central: Nota media de un examen en una clase de 30 nios Medidas de posicin: Qu nota debe sacar un alumno para superar al 50% de compaeros? Las medidas o ndices de posicin (tambin llamados cuantiles), informan acerca de la posicin relativa de un sujeto con respecto a su grupo de referencia Percentiles Tambin llamados centiles, son los 99 valores de la variable que dividen en 100 partes iguales la distribucin de frecuencias. Percentil k (Pk ): Es un valor de la variable de inters que deja por debajo de s un porcentaje k de sujetos, donde k = 1,299 Ejemplo P40 = 25 (25 es la puntuacin en un examen) Quiere decir que los sujetos con X= 25 estn por encima del 40% de los sujetos. En los percentiles, la mediana coincide con el percentil 50 (es justo la mitad). Por esta razn el percentil lo calcularemos a partir de las frmulas para la mediana. Clculo de los percentiles Utilizaremos la misma frmula que la mediana pero sustituyendo nk/100 en lugar de n/2

Li = Lmite exacto inferior del intervalo crtico n = Nmero de observaciones nd = Frecuencia absoluta acumulada por debajo del intervalo crtico nc = Frecuencia absoluta del intervalo crtico I = Amplitud del intervalo Ejemplo numrico en la pgina 78. Tenemos que tener en cuenta que lo primero que hay que hacer es hallar el intervalo crtico mediante la frmula (nk/100) a diferencia de cmo lo hallbamos para la mediana que era mediante la frmula (n/2) Aparte de hallar el valor de los percentiles, tambin puede ocurrir que ya tengamos un valor y queramos saber qu posicin ocupa ese valor en la distribucin (es como lo de antes pero al revs, es decir, antes tena una posicin y quera hallar un valor. Ahora tengo un valor y quiero hallar una posicin. Por lo tanto la frmula cambia un poco.

Si el resultado de k es decimal se redondea. Cuartiles y deciles Cuartiles: 3 valores de la distribucin que dividen en 4 partes de igual frecuencia a la distribucin. Primer Cuartil (Q1) = Deja por debajo de s al 25% y por encima al 75% (Q1 = P25) Segundo Cuartil (Q2) = Deja por debajo de s al 50% y por encima al 50% (Q2 = P50 = Md) Tercer Cuartil (Q3) = Deja por debajo de s al 75% y por encima al 25% (Q3 = P75) Por lo tanto como cada cuartil se corresponde con un percentil, utilizaremos las frmulas de los percentiles para hallar cada cuartil. Deciles: Son 9 valores que dividen en 10 partes iguales a la distribucin. Se representan por D1, D2 D9 y al igual que los cuartiles, tambin se corresponden con cada percentil: D1 = P10 ; D2 = P20 etc Por lo tanto tambin utilizaremos las frmulas de los percentiles para calcular los deciles.

Ejemplo: Dada la siguiente distribucin de frecuencias, calcular los Percentiles 36, 50, 25 y 75.

Lmites Vi rt u al es d e X
103 108 97 102 91 96 85 90 79 84

Punto Medio Intervalo

ni = Frecuencias Absolutas

na = Frecuencias Acumuladas

105, 5 99, 5 93, 5 87, 5 81, 5

8 11 16 10 5

50 42 31 15 5

N = 50
Localizamos el Intervalo Crtico en el que se encuentra cada Percentil: P25 = (El 25% de 50 observaciones es 12,5); (k n / 100) (25 50 / 100) = 12, 5 P36 = (El 36% de 50 observaciones es 18); (k n / 100) (36 50 / 100) = 18 P50 = (El 50% de 50 observaciones es 25); (k n / 100) (50 50 / 100) = 25 P75 = (El 75% de 50 observaciones es 37, 5); (k n / 100) (75 50 / 100) = 37, 5 Aplicamos la frmula (Interpolacin): Pk = Li + {(k n / 100) nd / nc} I P25 = Intervalo (85 90) P25 = 84, 5 + [(25 50 / 100) 5 / 10] 6 = 89 P36 = Intervalo (91 96) P36 = 90, 5 + [(36 50 / 100) 15 / 16] 6 = 91, 625 P50 = Intervalo (91 96) P50 = 90, 5 + [(50 50 / 100) 15 / 16] 6 = 94, 25 P75 = Intervalo (97 102) P25 = 96, 5 + [(75 50 / 100) 31 / 11] 6 = 100 Las puntuaciones obtenidas se corresponden con el Percentil buscado y se interpretan sealando el porcentaje de puntuaciones que dejan por debajo. As, el P25 = 89 (la puntuacin 89 deja por debajo de s el 25% de las observaciones de la distribucin). Utilizando el mismo procedimiento se puede averiguar el Percentil que corresponde a una puntuacin dada: Utilizando la Interpolacin comprobamos el Percentil que corresponde a la puntuacin X = 100. K = [{(Pk - Li) nc / I} + nd / n] 100 X = 100; Intervalo (97 102) K = [{(100 - 96,5) 11 / 6} + 31 / 50] 100 = 75

Equivalencias de las medidas de posicin Deciles - Percentiles Cuartiles - Percentiles

D1 - P10 D2 - P20 D3 - P30 D4 - P40 D5 - P50 D6 - P60 D7 - P70 D8 - P80 D9 - P90

Q1 - P25 Q2 - P50 Q3 - P75

*NOTA IMPORTANTE:
La mejor forma de aprender a calcular deciles, cuartiles y percentiles es seguir estos dos vdeos en You Tube: http://www.youtube.com/watch?v=Ww0tPH_-31w http://www.youtube.com/watch?v=iqTPaS32Iz8

Estadsticos de posicin
Para una variable discreta, se define el percentil de orden k, como la observacin, Pk, que deja por debajo de si el de la poblacin. Esta definicin nos recuerda a la mediana, pues como consecuencia de la definicin es evidente que

Med= P50

En el caso de una variable continua, el intervalo donde se encuentra calcula buscando el que deja debajo de si al obtiene segn la relacin:

, se

de las observaciones. Dentro de l, Pk se

Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribucin, por lo que no puede considerarsele como una medida de tendencia central. Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como:

De forma anloga se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamao. Ms precisamente, definimos D1,D2, ..., D9 como:

Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominados estadsticos de posicin.
2.5.0.1 Ejemplo

Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus cuartiles. xi 0 1 2 3 4 5 ni 14 10 15 26 20 15 n=100 Solucin: Ni 14 24 39 65 85 100

1. Primer cuartil:

2. Segundo cuartil:

3. Tercer cuartil:

2.5.0.2 Ejemplo

Calcular los cuartiles en la siguiente distribucin de una variable continua: li-1 - li 0-1 1-2 2-3 3-4 4-5 ni 10 12 12 10 7 n=51 Solucin: 1. Primer cuartil Ni 10 22 34 44 51

2. Segundo cuartil:

3. Tercer cuartil

2.5.0.3 Ejemplo

Han sido ordenados los pesos de 21 personas en la siguiente tabla: Intervalos f.a. li-1 -- li 38 -- 45 45 -- 52 52 -- 59 59 -- 66 ni 3 2 7 3

66 -- 73

6 21

Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo nmero de observaciones. Solucin: Las cantidades que buscamos son los tres cuartiles: , y . Para calcularlos, le aadimos a la tabla las columnas con las frecuencias acumuladas, para localizar qu intervalos son los que contienen a los cuartiles buscados: li-1 -- li ni Ni 3 5

38 -- 45 3 45 -- 52 2

52 -- 59 7 12 59 -- 66 3 15 66 -- 73 6 21 21 y se encuentran en el intervalo 52--59, ya que N3=12 es la primera f.a.a. que supera a . est en 66--73, pues N5=21 es el primer Ni mayor que As se tiene que: . y

Obsrvese que

. Esto es lgico, ya que la mediana divide a la distribucin en

dos partes con el mismo nmero de observaciones, y , hace lo mismo, pues es deja a dos cuartos de los datos por arriba y otros dos cuartos por abajo.
2.5.0.4 Ejemplo

La distribucin de una variable tiene por polgono acumulativo de frecuencias el de la figura 2.6. Si el nmero total de observaciones es 50: 1. Elaborar una tabla estadstica con los siguientes elementos: intervalos, marcas de clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y frecuencias relativa acumulada. 2. Cuntas observaciones tuvieron un valor inferior a 10, cuntas inferior a 8 y cuntas fueron superior a 11. 3. Calcule las modas. 4. Determine los cuartiles.

Figura: Diagrama acumulado de frecuencias relativas.

Solucin: 1. En la siguiente tabla se proporciona la informacin pedida y algunos clculos auxiliares que nos permitirn responder a otras cuestiones. Intervalos ni Ni 0-5 5-7 7 - 12 12 - 15 2. Calculemos el nmero de observaciones pedido: fi Fi xi ai 2 1

10 10 0,2 0,3 2,5 5 25 35 0,5 0,7 10 50 0,2 1 6 5 40 0,1 0,8 9,5 5

2 12,5

13,5 7 3,33

10 + 25+3 = 38 observaciones tomaron un valor inferior a 10

10 + 25+1 = 36 observaciones tomaron un valor inferior a 8

50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11 3. Hay dos modas. Calculemos la ms representativa:

4. Cuartiles:

Tema 3 de Anlisis de datos resumen Medidas de variabilidad y asimetra UNED Curso 2012

Mariluz Lozano Gago

La variabilidad hace referencia al grado en que las puntuaciones se asemejan o diferencian entre s, o se aproximan o alejan de una medida de tendencia central como la media aritmtica. Se har especial nfasis en la varianza y en la desviacin tpica. MEDIDAS DE VARIABILIDAD La variabilidad o dispersin hace referencia al grado de variacin que hay en un conjunto de puntuaciones. Cuanto menor es la variabilidad en una distribucin, ms homognea es la muestra de sujetos en la variable que estamos midiendo. El caso extremo de mxima homogeneidad es que todos los valores seran iguales entre s y no habra variabilidad.

Para cuantificar la dispersin de los datos se distinguen 2 tipos de ndices: - Los que miden el grado en que las puntuaciones se asemejan o diferencian entre s: Amplitud total o rango y amplitud semi-intercuartil - Los que la dispersin de mide con respecto a alguna medida de tendencia central como la media aritmtica: Varianza y desviacin tpica. Amplitud total o rango La amplitud total, (AT) de un conjunto de puntuaciones es la distancia que hay en una escala numrica entre los valores que representan la puntuacin mxima y la puntuacin mnima. Cuando asumimos que trabajamos con variables continuas, la puntuacin mxima es el lmite exacto superior del intervalo mximo y la puntuacin mnima es el lmite exacto inferior del intervalo mnimo

AT = Xmax Xmin Sin embargo esta medida slo aporta datos de los valores extremos, pero no nos dice la poca o mucha dispersin que pueda existir en el resto de valores.

Varianza y desviacin tpica La medida de variabilidad tambin se puede basar en la distancia observada entre las puntuaciones y la media aritmtica.

Por lo tanto: - Una distribucin con poca variabilidad es aquella en la que la mayora de las puntuaciones estn muy prximas a la media. - Una distribucin con mucha variabilidad tiene sus puntuaciones muy alejadas del valor medio de la variable.

La varianza de un conjunto n de puntuaciones en una variable X denotada por S2 x, se define como el promedio de los cuadrados de las desviaciones de las puntuaciones con respecto a la media. Aunque supongo que a estas alturas todo el mundo lo sabr, pero estas frmulas estn en la Addenda y nos dejan tenerla con nosotros durante el examen.

Es importante darse cuenta de que , para el clculo de la varianza, primero se elevan al cuadrado las diferencias, y despus se obtiene el promedio de esas desviaciones al cuadrado.

Propiedades de la varianza y la desviacin tpica - Para calcularlas las dos requieren la utilizacin de todas las puntuaciones de la distribucin. - Las dos miden la variabilidad de los datos con respecto a la media aritmtica, por lo que slo deben aplicarse si estamos utilizando la media como medida central - Siempre son iguales o mayores que 0. - Si a una variable X se le suma o resta una constante a, la varianza y desviacin tpica de la variable original no se ven afectadas y siguen siendo las mismas. En cambio, cuando multiplicamos los valores de X por una constante b, la varianza queda multiplicada por la constante al cuadrado y la desviacin tpica por el valor absoluto de dicha constante.

Un primo hermano de la varianza y que se utiliza en inferencia estadstica es la cuasivarianza:

Coeficiente de variacin Se trata de un ndice de variabilidad relativa que no depende de las unidades de medida. _

CV = (SX/X) 100, sera el cociente entre la desviacin tpica y la media multiplicado por 100. Cuando comparamos dos conjuntos de puntuaciones obtenidas de la misma variable, tambin es necesario el coeficiente de variacin para comparar la dispersin de ambas distribuciones Amplitud semi-intercuartil (Q o rango semi-intercuartil) Como hemos dicho antes, este ndice se utiliza cuando la distribucin es muy asimtrica . Se define como la distancia media entre el tercer y el primer cuartil. No informa de la variabilidad del conjunto de puntuaciones sino del 50% de las mismas comprendidas entre el percentil 25 y el 75 de la distribucin. (dividiendo siempre este numerador por 2)

3. INDICE DE ASIMETRA DE PEARSON La asimetra es una propiedad de la distribucin de frecuencias que nos indica el grado en el que las puntuaciones de los sujetos se reparten por debajo y por encima de la medida de tendencia central. El ndice de Pearson es un ndice numrico que cuantifica el grado de asimetra de una distribucin. _ AS= X - Mo / Sx, cociente de la diferencia entre la media y la moda en el numerador, y la desviacin tpica en el denominador. - Este ndice es adimensional (no tiene unidades de medida) y se aplica a distribuciones unimodales. - Cuando la distrubicin es simtrica, la media y la moda coinciden, por lo que el numerador se anula y el valor del ndice (As) es = 0.

- En distribuciones con asimetra positiva, la media es mayor que la moda, por lo tanto AS ser mayor que 0. (recordamos que asimetra positiva se produce cuando la mayor cantidad de puntuaciones se concentran en la parte baja de la tabla) - En distribuciones con asimetra negativa, la media es menor que la moda, por lo tanto AS ser menor que 0. (la asimetra negativa se produce cuando la mayor cantidad de puntuaciones se sita en la parte alta de la tabla)

4. PUNTUACIONES TPICAS Hasta ahora hemos visto puntuaciones directas (nota de un sujeto en un test), sin embargo estas puntuaciones nos dan poca informacin ya que no sabemos si se trata de un valor alto o bajo, ya que esto depende del promedio del grupo. Si a una puntuacin directa Xi le restamos la media de su grupo obtenemos una puntuacin diferencial (xi) _ xi = Xi X Propiedades de las puntuaciones diferenciales - Su media es cero: _ x=0 - La varianza de las puntuaciones diferenciales es igual a la varianza de las puntuaciones directas:

Sin embargo, dos puntuaciones diferenciales idnticas pueden tener un significado muy diferente en funcin de la media y de la varianza de las distribuciones de las que proceden. Para solucionar este problema tenemos las puntuaciones tpicas que nos permiten no slo comparar las puntuaciones de un sujeto en dos variables distintas sino tambin comparar dos sujetos distintos en dos pruebas o variables distintas.
Sin embargo, dos puntuaciones diferenciales idnticas pueden tener un significado muy diferente en funcin de la media y de la varianza de las distribuciones de las que proceden. Para solucionar este problema tenemos las puntuaciones tpicas que nos permiten no slo comparar las puntuaciones de un sujeto en dos variables distintas sino tambin comparar dos sujetos distintos en dos pruebas o variables distintas. _

zx = x / Sx = X X / Sx Al proceso de obtener puntuaciones tpicas se llama tipificacin. Por ello estas puntuaciones tambin se llaman puntuaciones tipificadas. Propiedades de las puntuaciones tpicas

Tema 4 de Anlisis de datos resumen ANLISIS CONJUNTO DE VARIABLES UNED Curso 2012

Mariluz Lozano Gago

Este tema se centra en el estudio conjunto de dos variables. Dos variables cualitativas - Tabla de datos - Tabla de contingencia - Diagrama de barras - Tabla de diferencias entre frecuencias empricas y tericas - Calculo de coeficiente X2 - Clculo del coeficiente de contingencia Dos variables cuantitativas - Tabla de datos conjuntos - Diagrama de dispersin - Clculo de covarianza - Clculo del coeficiente de correlacin de Pearson Adems Si dos variables cuantitativas estn relacionadas linealmente utilizaremos la recta de regresin. CONCEPTOS PREVIOS Asociacin y/o relacin entre dos variables: Dos variables estn relacionadas entre s cuando ciertos valores de una de las variables se asocian con ciertos valores de la otra variable.

RELACIN ENTRE DOS VARIABLES CUALITATIVAS _ LA PRUEBA CHI CUADRADO (2) _

Permite determinar si dos variables estn o no relacionadas. Se fundamenta en la comparacin de las frecuencias conjuntas empricas u observadas (ne) y las frecuencias conjuntas tericas o esperadas (nt), en el caso de que ambas variables sean independientes (no relacionadas). Uno de los problemas que plantea este ndice es que es difcil de interpretar.

Se tratara de ver la diferencia entre las frecuencias empricas y las tericas. Hay que comparar ambas tablas, pues (la tabla de frecuencias tericas se har con la frmula indicada ut supra). - Es importante quedarnos con el dato de que la suma de las filas y las columnas de esta tercera tabla siempre es igual a 0, si sale otra cosa es que algo hemos hecho mal. Una vez que tenemos la tabla debemos interpretarla: La interpretacin que hace el libro se basa en analizar los valores positivos (8) como fuente de informacin. (parece ser que los valores negativos no nos aportan informacin) .As tenemos un 8 en S-V y en No-M. Por lo tanto concluiremos que los varones tienen mayor tendencia a padecer estrs (S-V) y las mujeres tiene menos tendencia a padecer estrs (No-M).

Y ahora Calculamos un estadstico X2

Para calcular el estadstico no hace falta informacin nueva, ya que extraemos todos los nmeros de las tablas anteriores.

Sin embargo este estadstico nos da poca informacin porque desconocemos su lmite superior. Slo sabemos que si nos da valor 0 no hay relacin entre las dos variables. Sin embargo si nos da un valor cualquiera como por ejemplo 10,78 no sabemos que interpretar ya que el lmite podra ser 20, 50 , 100 etc y lo desconocemos. Para resolver este problema se calcula algo que s que sabemos sus lmites y es el ndice o Coeficiente de Contingencia, C. (da valores entre 0 y 1)

Su aplicacin, por ende, una vez calculado chi cuadrado, es bien sencilla. Adems, en el caso en que el n de filas de la tabla de contingencia o tabla de doble entrada sea igual al nmero de columnas, vamos a ajustar ms su valor mximo, con la siguiente frmula.

Adems del Coeficiente de Contingencia tenemos tambin que calcular su mximo (para posteriormente poder comparar uno con otro )

Siguiendo el ejemplo del libro, el Coeficiente de contingencia nos da 0,312 y su mximo 0,707. Por lo tanto el coeficiente de contingencia est prcticamente a la mitad de su mximo y por ello diremos que la relacin entre las dos variables es de tipo medio. Para concluir: Caractersticas del Coeficiente C - Tiene valores entre 0 y 1 - Cuando C = 0 diremos que no existe relacin entre ellas - C = 1 nunca se puede dar - Cuanto mayor es C, mayor es la relacin entre las dos variables y viceversa - Cuando utilicemos C para comparar la relacin entre dos variables cuyos datos tenemos en dos tablas de contingencia diferentes, tenemos que vigilar que tienen el mismo nmero de filas y de columnas. De lo contrario los valores de C no permiten una comparacin vlida. - Cuando existe un valor elevado de C, no podemos afirmar con rotundidad que una de las variables es causa de la otra, ya que puede haber una tercera variable que est relacionando a ambas. - Cuando la tabla de contingencia tiene igual nmero de filas que de columnas, podemos estimar un valor mximo que alcanzar C.

CORRELACIN ENTRE DOS VARIABLES CUANTITATIVAS

Nos presentan una tabla de datos conjuntos Lo primero que hacemos es elaborar el diagrama de dispersin o nube de puntos Una vez realizado el diagrama y tan slo observndolo, podemos decir que existe una relacin lineal en las variables X e Y. Es decir, a valores mayores de X correspondern valores mayores de Y y viceversa. Una vez llegados a este punto calculamos 2 ndices que nos permiten ponerle nmeros a todo esto que llevamos analizado:

Cuando la tabla presenta frecuencias, en el numerador de la fraccin se multiplica finalmente por las mismas, tal que as:

Si el signo de la covarianza es positivo, diremos que existe relacin lineal directa. Si el signo de la covarianza es negativo, diremos que existe relacin lineal inversa. Sin embargo la covarianza tiene un problema y es que no conocemos su rango (de la misma manera que con el estadstico X2 no sabamos su lmite superior y tenamos que

calcular el coeficiente de contingencia) , por lo tanto para la covarianza calcularemos algo llamado Coeficiente de Correlacin de Pearson (rxy)

Propiedades del coeficiente de Correlacin de Pearson - Toma valores comprendidos entre -1 y +1 - Cuando vale 0 no existe relacin lineal entre X e Y - Cuando vale exactamente +1 o -1 diremos que una variable es una transformacin lineal de la otra - Cuanto mayor es el valor absoluto del coeficiente nos est indicando que la relacin lineal entre las dos variables es ms fuerte. - Cuando el signo es positivo, indica que a valores mayores de la variable X, tienden a corresponder valores mayores de la variable Y y a valores menores de la variable X tienden a corresponder valores menores de la variable Y. Es una relacin directa. - Cuando el signo es negativo, indica que a valores mayores de la variable X, tienden a corresponder valores menores de la variable Y, y a valores menores de la variable X tienden a corresponder valores mayores de la variable Y. Es una relacin inversa.

Pero qu pasa cuando tenemos valores intermedios como por ejemplo 0,55? En ese caso no podemos afirmar que ese valor indica correlacin alta o baja ya que depender del tipo de datos que estemos analizando - Ser baja si se trata de dos tests similares que estemos aplicando a los mismos sujetos o si tenemos pocos sujetos - Ser alta si se trata de tests bastante diferenciados o si tenemos muchos sujetos. REGRESIN LINEAL

Fuente: http://www.vitutor.com/estadistica/bi/recta_regresion.html

Cuando existe relacin lineal podemos utilizar la recta de regresin para efectuar pronsticos de los valores de una variable a partir de otra variable.

Propiedades de las puntuaciones pronosticadas y de los errores

Tema 5 de Anlisis de datos resumen NOCIONES PROBABILIDAD BSICAS DE

UNED Curso 2012

Mariluz Lozano Gago

Conceptos previos. - Un experimento aleatorio es un proceso que se puede repetir indefinidamente en las mismas condiciones, cuyo resultado no se puede predecir con certeza. - Un espacio muestral es el conjunto de todos los resultados posibles de un experimento aleatorio y se representa como E. (E = Universo o poblacin del experimento) Lanzar un dado: E = {1, 2, 3, 4, 5, 6}; Lanzar una moneda: E = {cara, cruz) -Los sucesos son los distintos resultados de un experimento aleatorio (subconjunto del espacio muestral) Tipos de sucesos: _ Elementales o Simples (implican un solo resultado del espacio muestral E). Lanzar un dado: Obtener un tres (elemental o simple) A = {3} _ Compuestos (implican dos o ms resultados del espacio muestral). Obtener un nmero par (compuesto) A = {2, 4, 6} Los sucesos tambin se pueden clasificar atendiendo a las siguientes caractersticas: _ Suceso Seguro _ Siempre se verifica (Lanzar un dado y obtener puntuacin menor que siete) _ Suceso imposible _ Nunca se verifica (conj. vaco ). (Lanzar un dado y obtener diez puntos) Operaciones con sucesos: Unin de sucesos A B = P (aparezca A aparezca B ambos a la vez) = P (A U B) Interseccin de sucesos A y B = P (aparezca A y aparezca B) = P (A B). Cuando no contiene ningn elemento, los sucesos son incompatibles o excluyentes y no pueden ocurrir simultneamente. Complementario de A _ Subconjunto formado por los sucesos que no pertenecen a A _ (No A)

Ejemplo:

Lanzamiento de un dado............

DEFINICIN DE PROBABILIDAD Se consideran tres definiciones. En cualquiera de las tres, la probabilidad se cuantifica como un nmero comprendido entre 0 y 1 _ 0 para el suceso imposible // 1 para el suceso seguro // cualquier otro suceso, asignando un nmero entre 0 y 1, en funcin de la cuanta de su probabilidad de ocurrencia. DEFINICIN CLSICA (LAPLACE / A PRIORI): P (A) = nA / N _ La probabilidad de un suceso A es el cociente entre el nmero de casos favorables y el nmero de casos posibles (suponemos que todos los sucesos tienen la misma probabilidad de ocurrencia _ Equiprobabilidad) El gran problema es aplicarla a sucesos cuya condicin de equiprobabilidad no est garantizada. Una salida es aplicar la Definicin Estadstica. DEFINICIN ESTADSTICA (RICHARD VON MISES / A POSTERIORI): P (A) = lim N_ nA / N _ Lmite al que tiende la frecuencia relativa de aparicin de un suceso A cuando el nmero de ensayos (N) tiende a infinito. Von Mises (cuando se realiza un experimento aleatorio un nmero suficiente de veces, la frecuencia de aparicin de un determinado suceso tiende a aproximarse a un valor constante que es la probabilidad de aparicin de ese suceso) Al igual que la anterior tampoco es una definicin satisfactoria. A veces no es posible, ni prctico, repetir un experimento aleatorio un gran nmero de veces (no es posible aproximarse a infinito). Por ello los matemticos cambiaron el rumbo de su pensamiento, lo que origin la Definicin Axiomtica. DEFINICIN AXIOMTICA (KOLMOGOROV) _ Dado un espacio muestral E, llamamos probabilidad de un suceso A, designado P (A) a un nmero real que asignamos al suceso A, tal que cumple los siguientes axiomas (afirmaciones que se aceptan sin demostracin):

TEOREMAS DE PROBABILIDAD: Los Teoremas de Probabilidad permiten calcular probabilidades de sucesos que renen una serie de condiciones (dependientes,

independientes, mutuamente excluyentes,...). La aplicacin de los teoremas ms importantes de la probabilidad de sucesos requieren distinguir, previamente, entre las caractersticas de dichos sucesos: TEOREMA DE LA SUMA: Permite resolver preguntas del tipo _ Cul es la probabilidad de que aparezca un suceso o el otro? La letra (o) implica alternativa entre dos opciones (unin de sucesos). (A B) Sucesos mutuamente excluyentes _ P (A U B) = P (A B) = P (A) + P (B) Los sucesos mutuamente excluyentes o incompatibles no pueden ocurrir simultneamente. La aparicin de uno excluye al otro (obtener cara y cruz en el mismo lanzamiento P (A U B) = (conjunto vaco ) = 0. Problema ejemplo _ En una bolsa hay 15 bolas rojas y 10 verdes. Extraemos una bola de la bolsa. Cul es la probabilidad de que sea roja o verde _ P (Roja) = 15 / 25 y P (Verde) = 10 / 25. Se trata de sucesos excluyentes (si es roja no puede ser verde) P (Roja U Verde) = P (Roja Verde) = (15 / 25) + (10 / 25) = 25 / 25 = 1 (A B) Sucesos simultneos _ P (A U B) = P (A) + P (B) P (A C) Los sucesos simultneos o compatibles son los que pueden ocurrir a la vez (ejemplo: ser hombre y conducir) _ P (A U B) (conjunto vaco ). Problema ejemplo _ A los 70 aos la probabilidad de ser miope es 0,3, la de tener cataratas es 0,15 y la de ser miope y tener cataratas es 0,1. La probabilidad de ser miope o tener cataratas a esta edad sera: Ser miope (M) y Tener cataratas (C) son sucesos compatibles (simultneos) y su probabilidad de ocurrencia conjunta es 0,1 _ P (M U C) = P (M) + P (C) P (M C) = 0,3 + 0,15 0,1 = 0,35 TEOREMA DEL PRODUCTO (PROBABILIDAD CONDICIONADA P (A/B): La aparicin de uno de los sucesos depende de la aparicin del otro. Dados dos sucesos (A y B), se llama probabilidad de A condicionada por B, a la interseccin, dividida por la probabilidad de la condicin B y viceversa: P (A / B) = P (A B) / P (B) Supuesto P (B) 0 P (B / A) = P (A B) / P (A) Supuesto P (A) 0 (A y B) Sucesos dependientes _ P (A B) = P (A) P (B / A) Por tanto la probabilidad de que se presenten simultneamente P (A B) se obtiene despejando el numerador del teorema del producto. En las extracciones sin reposicin los sucesos son siempre dependientes.

Explicacin de este teorema segn el ejemplo: Para dos sucesos A y B, la probabilidad de que ocurra B supuesto A (o sea, supuesto que ha sucedido A), es igual a la probabilidad de la interseccin entre ambos sucesos A y B partido por la probabilidad de A, si a partir de ah, despejamos la probabilidad de la interseccin A-B, obtenemos que es igual a la probabilidad de A por la probabilidad de B supuesto A (siempre y cuando la probabilidad de A sea distinta a cero) Ejemplo: Una caja con 3 bolas azules o 3A y 3 bolas rojas o 3R, si no hay reposicin, probabilidad de obtener roja en la primera extraccin= R1 y azul en la segunda= A2? En el grfico se explica la aplicacin de la frmula. Pero si los sucesos son independientes, entonces la probabilidad de que ocurra A supuesto el suceso B es igual a la probabilidad del suceso A (lo mismo con B) Por tanto la probabilidad de la interseccin de ambos sucesos es igual al producto de sus probabilidades. Ejemplo: Qu probabilidad hay lanzando una moneda de obtener cara en el segundo lanzamiento tras obtener o bien obteniendo a la vez cara en el primer lanzamiento? Se aplicara entonces este producto de las probabilidades del suceso 1 y suceso 2 que estudiamos. PROBABILIDAD CONDICIONADA Y TEOREMA DE BAYES A este teorema se llega partiendo de la probabilidad de A supuesto B y de la probabilidad de B supuesto A. El teorema de Bayes nos permite calcular la probabilidad

condicionada , la probabilidad de A supuesto B en funcin de la probabilidad de B supuesto A.

Si unimos estas dos expresiones:

Vamos a aplicar lo visto a travs del siguiente ejemplo. Enunciado del ejemplo:

Todos estos supuestos los representamos en el siguiente diagrama de rbol con sus respectivos complementarios (= probabilidad de no responder favorablemente al tratamiento) :

El supuesto nos pide la probabilidad de N supuesto F, aplicando el teorema de Bayes...

Entonces, la probabilidad de N supuesto F sera igual a ...

a) Elegido al azar un enfermo depresivo, cul es la probabilidad de que se haya recuperado con el tratamiento? b) Elegido un enfermo depresivo al azar que se haya recuperado, cul es la probabilidad de que no haya sido tratado mdicamente con anterioridad? c) Elegido un enfermo al azar, cul es la probabilidad de que haya sido tratado mdicamente y no se haya recuperado con el tratamiento psicolgico? d) Elegido un enfermo al azar, cul es la probabilidad de que haya sido tratado mdicamente? e) Elegido un enfermo al azar resulta que ha sido tratado mdicamente con anterioridad, cul es la probabilidad de que se recupere con el tratamiento psicolgico?: Solucionario:

Tema 6 de Anlisis de datos resumen DISTRIBUCIONES PROBABILIDAD DISCRETAS DE

UNED Curso 2012 Mariluz Lozano Gago

INTRODUCCIN:

Concepto de variable aleatoria = como una funcin que asigna un nmero real, y slo uno, a cada uno de los resultados de un experimento aleatorio. Funcin de probabilidad de la variable aleatoria X = es la probabilidad de que dicha variable aleatoria tome un determinado valor x minscula. Funcin de distribucin = probabilidad de de la variable aleatoria X tome un valor igual o inferior a un determinado valor x minscula. = probabilidades acumuladas Representacin grfica = diagrama de barras

Media o esperanza matemtica de la variable = sumatorio de cada uno de los valores que toma la variable por su correspondiente probabilidad Varianza= sumatorio de cada uno de los valores que toma la variable menos su media al cuadrado por su funcin de probabilidad.

Donde n es el nmero de ensayos y p la probabilidad de xito

Tngase en cuenta que n es el n de ensayos, x el de aciertos, p la probabilidad de xitos y q de fracasos.

Ejemplo: lanzamos una moneda al aire 3 veces

Donde la probabilidad de que la variable X tome valores inferiores a 4 sera igual a la probabilidad de que sea 0 ms que sea 1 ms que sea 2 ms que sea 3, lo que numricamente se traduce en que 12 que es el nmero de preguntas o ensayos sobre 0 multiplicado por la probabilidad de aciertos que es 0,25 elevada al nmero inferior o denominador multiplicada por la probabilidad de fracasos que es 0,75 elevada a su vez a la diferencia entre numerador y denominador de la expresin numrica entre parntesis (y as sucesivamente) Una forma mucho ms cmoda que la anterior de resolver el ejercicio es con las tablas:

En forma clsica sera:

Una forma alternativa de resolver este problema sera la siguiente:

Tema 7 de Anlisis de datos resumen DISTRIBUCIONES PROBABILIDAD CONTINUAS DE

UNED Curso 2012

Mariluz Lozano Gago

LA DISTRIBUCIN NORMAL (la ms popular) (un caso particular: la tipificada que tiene de media 0 y varianza 1, es muy til y est recogida en tablas) Tambin veremos la aproximacin de la distribucin binomial a la normal.

Donde pi es 3,1416, un valor constante, y e es la base de los logaritmos neperianos, o sea, tambin un valor constante = 2,718. Cules son las caractersticas bsicas de la distribucin normal?

El rango oscila entre menos infinito e infinito. Es simtrica en torno a la media. LA DISTRIBUCIN NORMAL TIPIFICADA: Se tratara de manejar las tablas III y IV, previa transformacin de las puntuaciones directas en tpicas: cmo se hace esta transformacin? La tipificacin consiste en restar la media a una variable X y dividir su resultado por su desviacin tpica, y a esta variable se llama Z (y as nos ahorramos el clculo integral). La distribucin de la variable Z tiene media igual a 0 y varianza igual a 1, y esta propiedad se cumple siempre. A esta distribucin tambin se le llama 0,1, o distribucin normal tipificada.

La semisuma de cada par de valores de esta distribucin simtrica es siempre igual a la media, o sea, 55+145/2 = 100, 70+130/2=100, 85+115/2=100. TABLAS DE DISTRIBUCIN NORMAL La 3 recoge los valores negativos de Z, de -3,59 a 0 y la 4 recoge los positivos: desde 0 a 3,59 Por ejemplo, hallar la probabilidad de que Z sea menor o igual que -0,25. Primero nos vamos al valor 0, 2 y luego seguimos viendo hasta llegar al 0,05. El resultado es 0,4013. Lo vemos grficamente junto con otro ejemplo, tenindose en cuenta que cuando se buscan probabilidades de que Z sea mayor que... hay que restar la misma previamente de 1, como detalla la imagen ut infra.

Obsrvese que si queremos hallar la probabilidad de Z est entre menos 0,25 y 0,5, hay que calcular ambas probabilidades con la tabla y luego restarlas como indica la frmula tercera de la imagen:

APLICACIONES BSICAS DE LA DISTRIBUCIN NORMAL.

Lo veremos con el siguiente ejemplo.

Recordar una vez ms que Z, o sea, = la puntuacin tpica, es igual al valor de la variable menos la media partido por la desviacin tpica. El resultado es Z=0, pero no de puede calcular directamente de la tabla, por lo que hay que buscar menor que 0 y restarla de 1. Para saber cuntos alumnos, pues hay 2500 en total, hay que multiplicar dicho total por la proporcin resultante, en este caso, 0,5. Y si nos preguntan... Y cul es el percentil 75 de la distribucin? Es una puntuacin directa que deja por debajo de s el 75% de los casos, se resolvera de este modo:

No vemos en la tabla directamente el 0,75, por tanto tenemos que buscar lo que ms se acerque, o sea, el 0,7486 (mirando en el interior de la tabla damos con esta probabilidad). Finalmente se despeja el percentil 75 de la frmula de la desviacin tpica. Aproximacin de la binomial a normal, ejemplo de la moneda ( ejercicio resuelto 7.21)

Otro ejemplo:

La coincidencia entre ambas aproximaciones ser mayor cuanto ms grande sea N LA DISTRIBUCIN CHI CUADRADO. (Donde n es el n de grados de libertad o gl)

(Cuando la probabilidad es de que sea mayor que, hay que restar como siempre de la unidad, ojo, sera el resultado de la derecha) LA DISTRIBUCIN T DE STUDENT

La media y la varianza dependeran de los grados de libertad.. TABLA 7 de la distribucin F slo recoge las probabilidades ms importantes:

DISTRIBUCIN F: propiedad recproca

La distribucin normal

Tema 8 de Anlisis de datos resumen ESTIMACIN

UNED Curso 2012

Mariluz Lozano Gago

PROCESO ESTADSTICO PARA INFERIR UN PARMETRO EN 5 PASOS GENERALES (como la media o la proporcin, a partir de un estadstico muestral) Primer paso: especificar la poblacin de inters (dado que el procedimiento permite realizar inferencias nicamente a la poblacin de la que procede la muestra) Segundo paso: obtener la muestra (=conjunto de elementos investigados), su tamao ser un factor a tener cuenta. Tercero: medir variable de inters a todos los elementos de la muestra. Cuarto: se realiza un anlisis descriptivo de los datos para detectar errores y hacer una descripcin detallada de la muestra. Quinto: Uso de las herramientas de inferencia. (Desde la media y proporcin de la muestra se pretende saltar a toda la poblacin) En este tema utilizaremos los intervalos de confianza a estos efectos MUESTREO: CLASES

DISTRIBUCIN MUESTRAL DE LA MEDIA, TEOREMAS:

Un sencillo ejemplo para entender el concepto:

INTERVALO DE CONFIANZA para la media. Aspectos bsicos: Cuando estimamos la media de la poblacin a partir de una muestra podemos cometer un error de estimacin, por eso debe fijarse un error de estimacin mximo con una alta probabilidad, o sea, con una probabilidad 0,95. Tngase en cuenta esta frmula: Primero: El error de estimacin mximo sera igual al valor Z de la distribucin normal que depende del nivel de confianza, por el error tpico de estimacin que es igual a sigma dividida por la raz cuadrada de N En segundo lugar: Se resta y suma el error de estimacin mximo a la media de la muestra, obtenemos as un intervalo de confianza con unos lmites inferior y superior: Llamamos intervalo de confianza al rango de valores comprendidos entre dichos lmites Y llamamos nivel de confianza a la probabilidad 1 menos alfa de que el intervalo de confianza incluya al parmetro.

Cmo se resuelven los ejercicios con nivel de confianza 0.95?

Hay que buscar en la tabla de distribucin normal el valor de Z que deja por debajo de s el 97,5 de los casos que es 1,96. PASOS PARA LA APLICACIN DE INTERVENCIN DEL NIVEL DE CONFIANZA.

En la estimacin por intervalos hay que determinar el tamao mximo de la muestra con carcter previo, lo vemos en este ejemplo:

Explicacin: Queremos saber tamao muestra para estimar por intervalos, error de estimacin mximo 1segundo, desviacin tpica 3, y para un nivel confianza 0,95 Z = 1,96 segn la tabla IV y la nica incgnita sera N que hay que despejarla de la ecuacin. N= 35. Eso significa= si extraemos una muestra de 35 nios, y les medimos el tiempo de reaccin en una tarea de discriminacin, la estimacin del tiempo de reaccin medio tendr un error mximo de 1 segundo para un nivel de confianza de 0,95. CLCULO DEL INTERVALO DE CONFIANZA. Partiendo del caso anterior N=35, desarrollndolo y obteniendo un tiempo de reaccin medio (que ser de 4 segundos) Entre qu lmites estar el tiempo de reaccin medio de la poblacin? Sumamos y restamos el error de estimacin mximo a la media obtenida en la muestra, lmite inferior de 3 y superior de 5, conclusin: el tiempo de reaccin medio estara entre 3 y 5 segundos. Si se desconoce la desviacin tpica de la poblacin, usaremos la cuasi-desviacin tpica, habr que usar la T de Student con N menos 1 grado de libertad ( a medida que N crece se aproxima a la normal)

Empezamos con el tamao de muestra (similar al caso de la media). Dado que la variable es dicotmica: curados/no curados, la varianza es igual a pi por 1 menos pi. Como se desconoce la proporcin poblacional pi, tomamos pi=0,5. Porque as la varianza es mayor que con cualquier otro valor de pi (as no infravaloraremos el tamao de la muestra)

Anda mungkin juga menyukai