Por lo tanto una muestra es una parte representativa de la poblacin y puede seleccionarse mediante muestreo aleatorio o no aleatorio. La muestra es aleatoria si los elementos que la forman se seleccionan mediante mtodos basados en el azar; y es no aleatoria si sus elementos se seleccionan segn el criterio de algunas personas de acuerdo con unas reglas fijadas de antemano. Las investigaciones hechas a partir de muestras, reciben el nombre de encuestas. Mixtas: la observacin mixta es la combinacin de las dos anteriores y se utiliza cuando en el estudio estadstico se observan varios caracteres, aquellos considerados como bsicos; se estudian exhaustivamente y el resto mediante muestras.
Segn la referencia temporal, las observaciones pueden ser: - Transversales: si se obtienen los distintos elementos para el mismo instante o intervalo de tiempo, en este caso, el tiempo no va unido explcitamente a la observacin. Un ejemplo sera el salario de un tipo determinado de obrero en distintas fbricas. - Temporales o longitudinales: si se obtienen al considerar un perodo de tiempo como poblacin, cuyos elementos seran los distintos intervalos de tiempo que se toman como unidad (das, aos...) y as obtenemos una observacin para cada uno de dichos intervalos. Obtenemos as pues lo que llamamos una serie temporal. Cada observacin temporal se puede referir a todo intervalo de tiempo tomado como unidad, en cuyo caso el carcter (la variable) expresa flujos o corrientes o bien refirindose a un instante del intervalo tomado como unidad, en cuyo caso el carcter (la variable) expresa stocks o niveles. Ejemplos del 1 caso: (flujos) es el nmero de pantalones vendidos por un comercio anualmente en los ltimos diez aos <- POBLACIN Ejemplo del 2 caso: (stocks) seran el nmero de trabajadores que acuden al mes a su trabajo en una determinada empresa. POBL= los meses que se consideren ELEM= cada uno de los meses CARACT= n trabajadores La estadstica descriptiva es la rama de la estadstica dedicada a describir las caractersticas existentes en un conjunto de datos. La estadstica inductiva o inferencia estadstica es el conjunto de mtodos y tcnicas estadsticos cuya funcin es generalizar las observaciones de una muestra para estimar las caractersticas de la poblacin. Los caracteres de los elementos de una poblacin se dividen en dos tipos: - Cuantitativos: a los que vamos a llamar VARIABLES; son aquellos que se describen mediante nmeros (estatura, nmero de hermanos). Las distintas formas (los distintos nmeros) que presenta una variable, recibe el nombre de VALORES. Segn el nmero de valores distintos que pueda tener una variable, distinguimos entre: - Variables discretas: si toman un nmero finito o infinito numerable de valores distintos Variable continua: son las que pueden tomar todos los valores de algn intervalo de la recta real (nmeros reales) Caracteres cualitativos: a los que llamamos ATRIBUTOS; son los que se describen mediante palabras (color de los ojos, nacionalidad) A cada una de las formas en las que se presenta un atributo se la llama MODALIDAD. -
Estadsticas de datos agrupados: son las que constan de muchas observaciones y la variable toma muchos valores distintos. Lo que se hace ahora es agrupar en unos cuantos intervalos llamados CLASES, los distintos valores de la variable. La siguiente estadstica corresponde al nmero de plazas de 140 establecimientos hoteleros. Plazas De 0 100 100 200 200 300 400 500 500 600 600 800 800 - 1000 N de establecimientos hoteleros 25 37 12 22 21 18 5 140
Esta estadstica difiere de las anteriores en que las primeras contienen toda la informacin recogida de los elementos de la poblacin. Sin embargo en las ltimas se ha perdido parte de la informacin primitiva ya que ha habido un agrupamiento de las observaciones en clases. Este agrupamiento da lugar a los llamados ERRORES DE AGRUPAMIENTO. Las distribuciones de datos agrupados originan los siguientes problemas: a) Fijar el nmero de clases que deben tomarse. Este debe ser el suficiente para que no se pierda excesiva informacin primaria y para que la estadstica resulte manejable y exprese fielmente las caractersticas de la variable. b) La manera de expresar en la tabla los lmites de los intervalos de modo que no originen error alguno. c) La amplitud de los intervalos, si es posible, se recomienda que sea constante ya que es ms fcil el tratamiento analtico de la estadstica. Las variables se designan con letras maysculas: X, Y, Z, T, X1, X2 Los valores de la variable se designan con la misma letra que la variable pero en minscula: x1, x2, x3, x4 Si la variable X la observamos en n elementos, vamos a notar con X1,X2,Xk a los K valores distintos de la variable n = 30 N Plazas N de Casas Rurales k=6 2 6 3 7 4 5 5 5 6 5 7 2 6 30 Y por n1 nk sus correspondientes frecuencias. n1 + n2+nk = n Cuando trabajamos con datos agrupados, llamamos L i-1 - Li a la clase i-sima. Xi = marca de clase => es el punto medio de un intervalo.
Xi = L i-1 - Li
2
Estadsticas derivadas Dada la distribucin de frecuencia (x1,n1 ) i= 1k n1.+nk = n o ( L i-1 - Li, n1), llamamos frecuencia (absoluta) acumulada del valor x1 ( o del intervalo L 1 - Li )al nmero de
observaciones menores o iguales que icho valor (o dicho intervalo) y la representamos por N1
Xi
1 3 5 6
Li
2 3 6 4
Ni
2 5 11 15
fi
2/15 3/15 6/15 4/15
Fi
2/15 5/15 11/15 15/15 n1= ni n2 = n1 +n2 n3 = n1+n2+n3 ni = n1+n2+ni
n
F1 +f2.fk = n1 + n2 .. +nk = n1++nk = n = 1 n n n n n Llamamos frecuencia relativa acumulada del valor Xi o (L i-1 - Li,) a la proporcin de frecuencia acumulada por los valores menores o iguales a Xi o (L i-1 - Li,) y la representamos por Fi = f1+ f2+---fi = n1 + n2 .. +ni = n1++ni = n n n n
Ni n
Fk = f1+f2+fk= 1 Si la frecuencia relativa la multiplicamos por 10, obtendremos los correspondientes porcentajes : Pi = fi x 100 = ni x 100 n
Xi
1 3 5 6
Li
2 3 6 4
Ni
2 5 11 15
fi
Fi
pi
Pi
13.3 33.3 73.3 100
Todo lo que hemos visto a partir de la tabulacin, excepto las frecuencias y porcentajes acumulados, se puede aplicar al estudio de un atributo.
Xi
Azul 3 Verde 2 Marrn10 Negro 1 26
Li
3/26 2/26
pi
3/26 x100
Representaciones grficas.
La representacin grfica de los datos contenidos en una tabla estadstica tiene como finalidad la referencia visual del conjunto para servir de punto de partida al anlisis estadstico.
Se construye poniendo en el eje de abscisa los distintos valores de la variable y en el de ordenadas, la correspondiente frecuencia. Cada frecuencia se visualiza mediante una barra.
7 6 5 4 3 2 1 0
El diagrama de escalera: (o polgono de frecuencias acumuladas) Se construye levantando sobre cada valor de la variable, una altura igual a su frecuencia acumulada y uniendo stas mediante trozos horizontales.
La ordenada correspondiente al mayor valor es n y la ordenada correspondiente a cualquier valor x nos indica, el nmero de observaciones correspondientes a valores menores o iguales que x (minscula). Representaciones de datos agrupados:
Partimos de la distribucin de frecuencia (Xi , Ni ) i = 1.k ni++nk =n y la representamos en : El histograma: Se construyen levantando sobre cada intervalo un rectngulo de rea proporcional a la frecuencia de dicho intervalo. Hay 2 casos: - Cuando la amplitud es constante: en este caso, la altura del rectngulo de base L i-1 - Li, la representamos por hi y es igual a ni.
L i-1 - Li
25-50 50-75 75-100 100-125 125-150
ni 7 3 6 4 2
Si las amplitudes no son todas iguales (amplitud no constante), la altura de cada recta, es la frecuencia del intervalo correspondiente partido por su amplitud. Hi = ni ai
L i-1 - Li
14-16 16-20 20-24 24-36
ni 55 47 32 26
En este caso, hi representa la densidad de frecuencia del intervalo, es decir, la frecuencia que le corresponde a cada unidad de medida en el intervalo.
El polgono de frecuencia: Se forma uniendo mediante trozos de recta, los puntos medios de las bases superiores de los rectngulos de histograma. Se empieza a la izquierda o un poco antes de Lo y se termina un poco despus o a la
derecha de L k , de tal forma que el rea comprendida entre el polgono y el eje de abscisas sea igual a la suma de las reas de los rectngulos del histograma.
superior de cada intervalo una ordenada igual a su frecuencia acumulada y uniendo dichas ordenadas mediante trozos de recta. Esta grfica es consecuencia de suponer en cada intervalo las observaciones; stas se distribuyen de manera uniforme. N de frecuencias realizadas menores que 20 L i-1 - Li ni hi = ni/ai Ni 4-16 55 4.58 55 16-20 47 11.75 102 => 55+147 20-24 32 8 134 => 102+32 24-36 26 2.17 160=> 134+160
Diagrama de sectores: nos sirve tanto para variables como para atributos. Consiste
en una circunferencia dividida en sectores, de tal forma que el ngulo de cada sector es proporcional a la frecuencia del valor o intervalo de la variable o de la modalidad del atributo. Ejemplo: grfico que recoge el nmero de extranjeros que viven en un pas de la UE y vamos a analizar su procedencia: Datos n extranjeros PAISES UE 50 OTROS PAISES UE 45 NORTE AFRICANOS 40 OTROS 5 Tamao = 1.400.000 Carcter = procedencia Modalidad = pases UE, otros, norte y resto
Nmero de extranjeros
OTROS 3%
PAISES UE 36%
Cartograma: sirve tanto para variable como para atributo y se utiliza cuando los
elementos son de carcter geogrfico, entonces , los distintos elementos se representan en un mapa y en cada uno de ellos se pone el valor de la variable o de la modalidad del atributo. Diagrama de rectngulo: este tipo de grfica se utiliza slo cuando estudiamos un atributo y est formado por rectngulos de la misma base y altura proporcionales o iguales a la frecuencia de las distintas modalidades. Los rectngulos van separados.
Cuando la frecuencia va en orden decreciente, este tipo de grficos recibe el nombre de DIAGRAMA PARETO
Cuando los datos estn agrupados, es decir, cuando tenemos una distribucin (L i-1 - Li), no podemos calcular la media aritmtica. Lo que hacemos es dar una aproximacin de ella suponiendo que todas las observaciones de un intervalo corresponden a su marca de clase, entonces:
La media aritmtica tiene como ventaja que para su clculo, se utilizan todos los valores de la distribucin que se define de forma objetiva y que es nica para cada distribucin. El inconveniente que presenta es que es una medida muy sensible a los valores extremos, con lo cual, puede ser poco representativa, si hay mucha dispersin entre los datos. Vamos a determinar X a partir de las frecuencias relativas f1.fk
Si Xm, XM son el menos y el mayor valor observado de la variable X respectivamente, entonces Xm < X < XM
Si a todos los valores de la variable les sumamos una constante a, la media aritmtica que da sumada por esa constante, es decir, la media es variable ante cambios de origen
Si todos los valores los multiplicamos por una contante b, la media aritmtica queda multiplicada por dicha constante, por lo tanto la media aritmtica es variante ante cambios de escala
Si de un conjunto de datos obtenemos dos o ms disjuntos (cuando no tienen elementos en comn), la media total se relaciona con la media aritmtica de dicho subconjunto.
Media cuadrtica: la notamos con la C y se define como la raz cuadrada que resulta al
dividir la suma de las observaciones al cuadrado entre el nmero de stas
Donde Xi son los distintos valores de la variable, si la distribucin est hecha con datos sin agrupar, o las marcas de clase, si los datos estn agrupados;
Este tipo de medida se utiliza para variables que toman valores positivos y negativos cuando no queremos tener en cuenta los signos.
Mediana: (Me) una vez ordenados los datos en orden creciente o decreciente, la mediana es el valor de la variable no necesariamente observable que ocupa el lugar central, es decir, que deja a un lado y a otro el mismo nmero de observaciones
Cuando tenemos una distribucin con datos agrupados del tipo (L i-1 - Li, ni),i=
1..k/nink=n no podemos determinar exactamente la mediana ya que no conocemos las observaciones que hemos realizado. La aproximacin que damos en este caso para la mediana es la siguiente; sea (L i-1 - Li,) el intervalo cuya frecuencia absoluta acumulada es inmediatamente mayor a n/2 y supongamos que los datos se encuentran distribuidos dentro del de manera uniforme, entonces consideramos para la mediana el siguiente valor: Me = L i-1 - Li Ni x ai Ni
Dentro de las ventajas, es una medida de clculo sencilla y de fcil interpretacin; y otra es que en su clculo no intervienen todos los valores de la distribucin, pues slo influyen los valores centrales y por lo tanto, se puede determinar si no conocemos alguno de los valores extremos. El inconveniente, en su determinacin es que no intervienen todas las observaciones. Moda: (Mo) => es el valor o son los valores de la variable que ms veces se repiten. La moda no tiene por qu ser nica. Las distribuciones reciben el nombre de UNIMODALES, BIMODALES, TRIMODALES, etc, dependiendo de que tengan 1, 2,3modas.
En el caso de una distribucin de datos agrupados L i-1 - Li es el intervalo modal, si es el de mayor frecuencia, entonces, el valor aproximado que damos para la moda es el siguiente: Mo = L i-1 - Li Ni x ai Ni Si la amplitud no es constante L i-1 - Li, es un intervalo modal, s es de los de mayor altura y en este caso, la aproximacin que damos para la moda es: Mo = hi-1 + hi+1 x ai
hi-1 + hi+1
Si la moda est en el primer intervalo, es decir, en Lo-L1, lo consideraremos como un intervalo cerrado: [ Lo-L1 ] Mo=L1 La ventaja de esta medida es que tiene un clculo sencillo y es fcil de interpretar; adems, se puede obtener en atributos. El inconveniente, es que para su determinacin, no intervienen ni todos los valores de la variable, ni todas las frecuencias.
IV.Medidas de Posicin.
Vamos a analizar los CUANTILES. Una vez agrupados los datos, los cuantiles, son los valores de una variable que dividen a la distribucin en partes iguales, es decir, en intervalos que contienen el mismo nmero de observaciones. Los CUARTILES son los 3 valores de la variable (no necesariamente observables) que dividen a la distribucin en tres partes y las notamos como Q1, Q2 y Q3.En el caso de datos agrupados, la aproximacin que damos para Q1 es la siguiente:
DECILES: (Dr; r= 19) Una vez ordenados los datos, los 9 valores de la variable (no necesariamente observables) que dividen a la distribucin en 10 partes iguales. En el caso de datos agrupados, cada uno de ellos contiene un 10% de las observaciones.
PERCENTILES: una vez ordenados los daros, son los 99 valores de la variable (no necesariamente observables) que dividen a la distribucin en 100 partes iguales. En el caso de datos agrupados, cada uno de ellos contiene el 1% de las observaciones.
Si ninguna frecuencia acumulada coincide con rn/4, es inmediatamente mayor a dicho valor, entonces, Qr=Xi .La misma regla se sigue para determinar los deciles y los percentiles tomando como referencia rn/10 y rn/100 respectivamente.
Es una medida absoluta cuyas medidas son las de la variable al cuadrado. (Pongo en el subndice de que distribucin se trata)=> Desarrollando los cuadrados y haciendo las correspondientes cuentas, se comprueba que la varianza es =
PROPIEDADES DE LAVARIANZA: 1) Varianza mayor que 0 = 0 2) Varianza igual a 0 = cuando y slo cuando la variable es constante 3) La varianza es invariable ante cambios de origen
Llamamos desviacin tpica o desviacin estndar y la representamos por Sx, a la raz cuadrada positiva =
Una medida absoluta de dispersin, cuyas medidas son las de la variable. PROPIEDADES DE LA DESVIACON TPICA: 1) S 0 2) S = 0 X es constante 3) => es invariable 4) Una desviacin ni una varianza pueden ser negativas. VARIABLE TIPIFICADA Dada la variable se define la variable tipificada de X=Z como la variable que se obtiene al hacer los siguientes cambios de origen y de escala = Las variables tipificadas sirven para medir la posicin relativa (con respecto a la correspondiente poblacin) de los valores de distintas variables. Ejemplo: Si un alumno saca 84 en geografa y 9 en estadstica, en cul de las 2 asignaturas obtuvo mejor calificacin con respecto a la clase si sabemos que la nota media en geografa es de 76 y la desviacin tpica es de 1 ?
Una medida de dispersin relativa que adems nos va a servir para comparar la relativodad de distintas medias es el coeficiente de variacin de Pearson Dada la variable X con media
MEDIDAS DE ASIMETRA La idea intuitiva de distribucin simtrica es : decimos que una distribucin de frecuencias es simtrica si sobre su diagrama de barras o histograma se puede trazar una lnea vertical de tal forma que al doblar por ella la figura, ambas coinciden. Si esto no ocurre, diremos que la distribucin es asimtrica. Para distribuciones unimodales y campaniformes, la medida de la asimetra la vamos a dar mediante el coeficiente de simetra de Pearson (Ap) que se define: Para una variable X con media : y moda
Ap<0 = distribucin asimtrica a la izquierda o negativa. Ap=0 = distribucin simtrica Ap>0 = distribucin asimtrica a la derecha o positiva. Es una medida relativa, por lo tanto, no solo nos sirve para conocer el tipo de asimetra que presenta una distribucin, sino que nos sirve para comparar la intensidad de la asimetra en distintas distribuciones. MEDIDAS DE DESIGUALDAD: CURVA DE LORENZ E NDICE DE GINI
Las medias de desigualdad, miden el grado de desigualdad existente en el reparto del total de la variable, entre los elementos de la poblacin.
La desigualdad es mnima o no existe cuando todos los elementos reciben la misma parte del total de la variable. Y es mxima cuando el total de la variable recibe slo un elemento de la poblacin. La curva ( de desigualdad) de Lorenz es la curva que se obtiene al representar en el eje de ordenadas los pares (Pi, Qi) donde= Es el tanto por cierto que acumula el valor de la variable Xi
En el caso de equidistribucin o de equidad o de desigualdad mnima, en ese caso Pi=Qi para todo i=1k
ndice de Gini -> Analiza la desigualdad de una distribucin numrica (G). Se define como el coeficiente del rea de Lorenz (rea de la superficie limitada por la diagonal del cuadrado correspondiente y la curva de Lorenz) entre el rea del tringulo de hipotenusa, la diagonal del cuadrado.
Cuando trabajemos con porcentajes = A= Si trabajamos con proporciones = A= G=0 => la curva de Lorenz es igual a la hipotenusa del tringulo (hay equidistribucin) G=1 => desigualdad mxima, slo un elemento s e lleva el total de la variable Para el clculo: G=
G=
Valores atpicos: son aquellos de la distribucin que se alejan significativamente del resto de la distribucin. Consideramos valores atpicos, los valores de la variable que estn fuera del intervalo delimitado por los lmites admisibles.
Relacin entre los ndices en serie y en cadena: Dados los ndices en cadena IC1,IC2 ...ICt correspondientes a una serie temporal( X0,,X1...Xt) podemos obtener de la siguiente manera:
II.Tasas de Variacin.
La tabla anterior recoge las ventas en 102 trimestrales de un artculo en un gran almacn para los aos 06/07 a) determinar el incremento porcentual entre el primer trimestre06 y el cuarto del 06 b) el incremento en las ventas entre el II y el IV trimestre del 07 c) determinar los incrementos intertrimestrales de las ventas para 2006 d) determinar la variacin interanual del precio para el segundo trimestre
Las tasas de variacin nos indican los porcentajes de variacin de una variable con respecto a un valor dado. Para obtener las tasas de variacin o incrementos porcentuales entre 2 perodos de la serie, nos basamos en los ndices simples ( I -100) Si queremos obtener las tasas de variacin entre los perodos, nos basamos en los ndices en cadena. (IC-100) Si tenemos dos series temporales correspondientes a dos aos donde la unidad temporal es inferior al ao, tambin podemos realizar comparaciones interanuales para un perodo determinado a partir del ndice correspondiente. La tasa media de crecimiento acumulativo: nos indica el porcentaje de crecimiento acumulativo que ha habido en el perodo considerado. Dadas t observaciones (X1,Xt) la tasa media de crecimiento acumulativo es : K=
A veces, nos interesa cambiar la base de los ndices ya calculados. Este procedimiento se hace de igual forma que lo hemos hecho cuando enlazamos series de nmeros ndices.