Anda di halaman 1dari 22

ESTADSTICA

TEMA 1: OBSERVACIN Y PRESENTACIN DE LOS DATOS


1.- Introduccin y conceptos bsicos
La palabra estadstica se suele utilizar bajo dos significados: Como coleccin de datos numricos: es el significado ms comn. Sin embargo no toda informacin numrica constituye una estadstica para que s lo hagan los datos, han de formar un conjunto coherente establecido de forma sistemtica segn algn criterio de ordenacin. Ejemplos de estadsticas se pueden encontrar en las publicaciones destinadas a su divulgacin como las hechas por el Instituto Nacional de Estadstica (INE) o el Instituto de Estudios Tursticos o distintos ministerios o instituciones privadas. Como ciencia: en este sentido, la estadstica estudia el comportamiento de los fenmenos de masas. Como toda ciencia busca las caractersticas generales de un colectivo y prescinden las particulares. Podemos decir que la estadstica es la ciencia que estudia los fenmenos de masas para hallar en ellos las regularidades del comportamiento colectivo, regularidades que sirven no solo para describir el fenmeno sino para hacer predicciones. Toda investigacin estadstica est referida a un conjunto de entidades, dicho conjunto recibe el nombre de POBLACIN. Las entidades que componen una poblacin reciben el nombre de ELEMENTOS y estos pueden ser: - Una entidad SIMPLE: - > personas - Una entidad COMPLEJA: - > familias Llamamos a TAMAO DE LA POBLACIN al nmero de elementos que la forman y llamamos CARACTRES a las propiedades que poseen los elementos de la poblacin. Con la terminologa introducida podemos decir que la estadstica es la ciencia que estudia el comportamiento de los caracteres de una poblacin. Segn el nmero de elementos observados; la observacin puede ser: - Exhaustiva: si observamos a TODOS los elementos de la poblacin; los estudios basados en ese tipo de observacin reciben el nombre de CENSOS. - Parcial: si slo se observa una parte de la poblacin. Esto puede ser porque la poblacin sea excesivamente grande o porque el tiempo requerido para observar todos los elementos sea mayor que el deseado o cuando el coste de la observacin total sea mayor que los recursos disponibles o cuando la observacin de los elementos de la poblacin supone su destruccin. Segn el mtodo de seleccin, la parte observada puede ser: - Superpoblacin - Muestra La parte seleccionada es una superpoblacin cuando los elementos que la componen renen unas caractersticas especiales que no se presentan en el resto de elementos. La investigacin, utilizando su poblacin, es til cuando no todos los elementos tienen la misma importancia. La parte seleccionada es una muestra s los elementos que la componen no renen ninguna caracterstica esencial que los distinga del resto. -

Por lo tanto una muestra es una parte representativa de la poblacin y puede seleccionarse mediante muestreo aleatorio o no aleatorio. La muestra es aleatoria si los elementos que la forman se seleccionan mediante mtodos basados en el azar; y es no aleatoria si sus elementos se seleccionan segn el criterio de algunas personas de acuerdo con unas reglas fijadas de antemano. Las investigaciones hechas a partir de muestras, reciben el nombre de encuestas. Mixtas: la observacin mixta es la combinacin de las dos anteriores y se utiliza cuando en el estudio estadstico se observan varios caracteres, aquellos considerados como bsicos; se estudian exhaustivamente y el resto mediante muestras.

Segn la referencia temporal, las observaciones pueden ser: - Transversales: si se obtienen los distintos elementos para el mismo instante o intervalo de tiempo, en este caso, el tiempo no va unido explcitamente a la observacin. Un ejemplo sera el salario de un tipo determinado de obrero en distintas fbricas. - Temporales o longitudinales: si se obtienen al considerar un perodo de tiempo como poblacin, cuyos elementos seran los distintos intervalos de tiempo que se toman como unidad (das, aos...) y as obtenemos una observacin para cada uno de dichos intervalos. Obtenemos as pues lo que llamamos una serie temporal. Cada observacin temporal se puede referir a todo intervalo de tiempo tomado como unidad, en cuyo caso el carcter (la variable) expresa flujos o corrientes o bien refirindose a un instante del intervalo tomado como unidad, en cuyo caso el carcter (la variable) expresa stocks o niveles. Ejemplos del 1 caso: (flujos) es el nmero de pantalones vendidos por un comercio anualmente en los ltimos diez aos <- POBLACIN Ejemplo del 2 caso: (stocks) seran el nmero de trabajadores que acuden al mes a su trabajo en una determinada empresa. POBL= los meses que se consideren ELEM= cada uno de los meses CARACT= n trabajadores La estadstica descriptiva es la rama de la estadstica dedicada a describir las caractersticas existentes en un conjunto de datos. La estadstica inductiva o inferencia estadstica es el conjunto de mtodos y tcnicas estadsticos cuya funcin es generalizar las observaciones de una muestra para estimar las caractersticas de la poblacin. Los caracteres de los elementos de una poblacin se dividen en dos tipos: - Cuantitativos: a los que vamos a llamar VARIABLES; son aquellos que se describen mediante nmeros (estatura, nmero de hermanos). Las distintas formas (los distintos nmeros) que presenta una variable, recibe el nombre de VALORES. Segn el nmero de valores distintos que pueda tener una variable, distinguimos entre: - Variables discretas: si toman un nmero finito o infinito numerable de valores distintos Variable continua: son las que pueden tomar todos los valores de algn intervalo de la recta real (nmeros reales) Caracteres cualitativos: a los que llamamos ATRIBUTOS; son los que se describen mediante palabras (color de los ojos, nacionalidad) A cada una de las formas en las que se presenta un atributo se la llama MODALIDAD. -

2.- Presentacin de los datos: distribuciones de frecuencias y representaciones grficas.


Para realizar una investigacin estadstica observamos en los elementos, los caracteres u objetos de estudio. Lo ms frecuente es que obtengamos una gran masa de datos que requieran para su presentacin un proceso de condensacin que haga destacara los rasgos ms sobresalientes, aunque ello implique una prdida de parte de la informacin inicialmente recogida. La operacin de condensar las observaciones se denomina TABULACIN y le resultado de esa tabulacin es una tabla estadstica o simplemente estadstica; la cual contiende de forma ordenada y sistemtica un conjunto de datos. La forma habitual de presentar una tabla estadstica consiste en dar el nmero de veces que se presentan los distintos valores de la o las variables o las distintas modalidades del o los atributos. A este nmero de veces se le llama FRECUENCIA ABSOLUTA. Por este motivo a las estadstica as obtenidas se les llama DISTRIBUCIONES DE FRECUENCIA. Llamamos ESTADSTICAS PRIMARIAS a las que se obtienen directamente de las observaciones y ESTADSTICAS DERIVADAS a las que se obtienen de las primarias despus de realizar alguna operacin aritmtica. Estadsticas de una variable: La manera de obtener una tabla estadstica de una sola variable depende de: a) El nmero de observaciones efectuadas. b) El nmero de valores distintos que tome la variable. De la conjuncin de estos dos factores resultan las ESTADSTICAS DE DAROS NO AGRUPADOS y LAS ESTADSTICAS DE DATOS AGRUPADOS - Estadsticas de datos NO agrupados: consideramos dos casos: a) Cuando hay pocas observaciones, la estadstica se obtiene anotndolas. b) Cuando tenemos muchas observaciones y la variable toma pocos valores distintos. Para presentar la estadstica, ponemos en una primera columna y de manera ordenada (normalmente en un orden creciente) los distintos valores de la variable y en una segunda columna correspondindose con la primera, la frecuencia de cada valor. Ejemplo: nmero de habitantes de 30 casas rurales. 2 4 3 6 5 4 3 2 3 5 6 6 5 4 3 3 3 2 4 6 2 3 2 4 5 5 7 6 72 N habitantes Frecuencia => n de casas rurales que tienen x n d habitantes. 2 6 3 7 4 5 5 5 6 5 7 2 30 Poblacin: casas rurales. Elementos: casas rurales. Tamao: 30 Variable: n d habitaciones.

Estadsticas de datos agrupados: son las que constan de muchas observaciones y la variable toma muchos valores distintos. Lo que se hace ahora es agrupar en unos cuantos intervalos llamados CLASES, los distintos valores de la variable. La siguiente estadstica corresponde al nmero de plazas de 140 establecimientos hoteleros. Plazas De 0 100 100 200 200 300 400 500 500 600 600 800 800 - 1000 N de establecimientos hoteleros 25 37 12 22 21 18 5 140

Esta estadstica difiere de las anteriores en que las primeras contienen toda la informacin recogida de los elementos de la poblacin. Sin embargo en las ltimas se ha perdido parte de la informacin primitiva ya que ha habido un agrupamiento de las observaciones en clases. Este agrupamiento da lugar a los llamados ERRORES DE AGRUPAMIENTO. Las distribuciones de datos agrupados originan los siguientes problemas: a) Fijar el nmero de clases que deben tomarse. Este debe ser el suficiente para que no se pierda excesiva informacin primaria y para que la estadstica resulte manejable y exprese fielmente las caractersticas de la variable. b) La manera de expresar en la tabla los lmites de los intervalos de modo que no originen error alguno. c) La amplitud de los intervalos, si es posible, se recomienda que sea constante ya que es ms fcil el tratamiento analtico de la estadstica. Las variables se designan con letras maysculas: X, Y, Z, T, X1, X2 Los valores de la variable se designan con la misma letra que la variable pero en minscula: x1, x2, x3, x4 Si la variable X la observamos en n elementos, vamos a notar con X1,X2,Xk a los K valores distintos de la variable n = 30 N Plazas N de Casas Rurales k=6 2 6 3 7 4 5 5 5 6 5 7 2 6 30 Y por n1 nk sus correspondientes frecuencias. n1 + n2+nk = n Cuando trabajamos con datos agrupados, llamamos L i-1 - Li a la clase i-sima. Xi = marca de clase => es el punto medio de un intervalo.

Xi = L i-1 - Li
2

a1 = L i-1 - Li => es la amplitud de de la i-sima clase.

Con datos agrupados x1 n1 x2 n2 . . . . . . xk nk

Con datos no agrupados L 0 - Li n1 L 1 - Li n2 . . . . . . L k1 - Lk nk

Ambas son estadsticas Primarias

Estadsticas derivadas Dada la distribucin de frecuencia (x1,n1 ) i= 1k n1.+nk = n o ( L i-1 - Li, n1), llamamos frecuencia (absoluta) acumulada del valor x1 ( o del intervalo L 1 - Li )al nmero de
observaciones menores o iguales que icho valor (o dicho intervalo) y la representamos por N1

Xi
1 3 5 6

Li
2 3 6 4

Ni
2 5 11 15

fi
2/15 3/15 6/15 4/15

Fi
2/15 5/15 11/15 15/15 n1= ni n2 = n1 +n2 n3 = n1+n2+n3 ni = n1+n2+ni

n1.+nk = n Llamamos frecuencia relativa de Xi o (L i-1 - Li,) a la proporcin de frecuencia


correspondiente a dicho valor (= o a dicho intervalo) A dicha frecuencia la notamos por fi = n1 = su valor est entre 0 > fi <1

n
F1 +f2.fk = n1 + n2 .. +nk = n1++nk = n = 1 n n n n n Llamamos frecuencia relativa acumulada del valor Xi o (L i-1 - Li,) a la proporcin de frecuencia acumulada por los valores menores o iguales a Xi o (L i-1 - Li,) y la representamos por Fi = f1+ f2+---fi = n1 + n2 .. +ni = n1++ni = n n n n

Ni n

Fk = f1+f2+fk= 1 Si la frecuencia relativa la multiplicamos por 10, obtendremos los correspondientes porcentajes : Pi = fi x 100 = ni x 100 n

Xi
1 3 5 6

Li
2 3 6 4

Ni
2 5 11 15

fi

Fi

pi

Pi
13.3 33.3 73.3 100

0.133 2/15 13.3 0.2 5/15 20 0.4 11/15 40 0.267 1 26.7

Pi = porcentaje acumulado; Pi = fi x 100 = ni x 100 Pi= p1 +-. pi n Pk= 100

Todo lo que hemos visto a partir de la tabulacin, excepto las frecuencias y porcentajes acumulados, se puede aplicar al estudio de un atributo.

Xi
Azul 3 Verde 2 Marrn10 Negro 1 26

Li
3/26 2/26

pi
3/26 x100

Representaciones grficas.
La representacin grfica de los datos contenidos en una tabla estadstica tiene como finalidad la referencia visual del conjunto para servir de punto de partida al anlisis estadstico.

Representacin de estadsticas con datos no agrupados:


Partimos de la distribucin (Xi , Ni ) i = 1.k ni++nk =n La primera representacin es el Diagrama de Barras.

Se construye poniendo en el eje de abscisa los distintos valores de la variable y en el de ordenadas, la correspondiente frecuencia. Cada frecuencia se visualiza mediante una barra.
7 6 5 4 3 2 1 0

El polgono de frecuencia: Se obtiene uniendo mediante trozos de ordenadas el diagrama de barras.

El diagrama de escalera: (o polgono de frecuencias acumuladas) Se construye levantando sobre cada valor de la variable, una altura igual a su frecuencia acumulada y uniendo stas mediante trozos horizontales.

La ordenada correspondiente al mayor valor es n y la ordenada correspondiente a cualquier valor x nos indica, el nmero de observaciones correspondientes a valores menores o iguales que x (minscula). Representaciones de datos agrupados:
Partimos de la distribucin de frecuencia (Xi , Ni ) i = 1.k ni++nk =n y la representamos en : El histograma: Se construyen levantando sobre cada intervalo un rectngulo de rea proporcional a la frecuencia de dicho intervalo. Hay 2 casos: - Cuando la amplitud es constante: en este caso, la altura del rectngulo de base L i-1 - Li, la representamos por hi y es igual a ni.

L i-1 - Li
25-50 50-75 75-100 100-125 125-150

ni 7 3 6 4 2

Si las amplitudes no son todas iguales (amplitud no constante), la altura de cada recta, es la frecuencia del intervalo correspondiente partido por su amplitud. Hi = ni ai

L i-1 - Li
14-16 16-20 20-24 24-36

ni 55 47 32 26

hi 55/12 = 458 47/4 = 1175 32/4=8 26/12= 217

En este caso, hi representa la densidad de frecuencia del intervalo, es decir, la frecuencia que le corresponde a cada unidad de medida en el intervalo.

El polgono de frecuencia: Se forma uniendo mediante trozos de recta, los puntos medios de las bases superiores de los rectngulos de histograma. Se empieza a la izquierda o un poco antes de Lo y se termina un poco despus o a la
derecha de L k , de tal forma que el rea comprendida entre el polgono y el eje de abscisas sea igual a la suma de las reas de los rectngulos del histograma.

no podemos terminar en 4 y terminar en 36; un poco antes y un poco despus!

El polgono de frecuencia acumulada: se construye levantando sobre el extremo

superior de cada intervalo una ordenada igual a su frecuencia acumulada y uniendo dichas ordenadas mediante trozos de recta. Esta grfica es consecuencia de suponer en cada intervalo las observaciones; stas se distribuyen de manera uniforme. N de frecuencias realizadas menores que 20 L i-1 - Li ni hi = ni/ai Ni 4-16 55 4.58 55 16-20 47 11.75 102 => 55+147 20-24 32 8 134 => 102+32 24-36 26 2.17 160=> 134+160

Diagrama de sectores: nos sirve tanto para variables como para atributos. Consiste

en una circunferencia dividida en sectores, de tal forma que el ngulo de cada sector es proporcional a la frecuencia del valor o intervalo de la variable o de la modalidad del atributo. Ejemplo: grfico que recoge el nmero de extranjeros que viven en un pas de la UE y vamos a analizar su procedencia: Datos n extranjeros PAISES UE 50 OTROS PAISES UE 45 NORTE AFRICANOS 40 OTROS 5 Tamao = 1.400.000 Carcter = procedencia Modalidad = pases UE, otros, norte y resto

Nmero de extranjeros
OTROS 3%

NORT. AFRIC. 29%

PAISES UE 36%

OTROS PAISES UE 32%

140- 50 360-X GRADOS DE CIRCUNFERENCIA

Cartograma: sirve tanto para variable como para atributo y se utiliza cuando los
elementos son de carcter geogrfico, entonces , los distintos elementos se representan en un mapa y en cada uno de ellos se pone el valor de la variable o de la modalidad del atributo. Diagrama de rectngulo: este tipo de grfica se utiliza slo cuando estudiamos un atributo y est formado por rectngulos de la misma base y altura proporcionales o iguales a la frecuencia de las distintas modalidades. Los rectngulos van separados.

60 50 40 30 20 10 0 paises UE otros paises UE notr. Afric. otros Serie 1 Columna1 Columna2

Cuando la frecuencia va en orden decreciente, este tipo de grficos recibe el nombre de DIAGRAMA PARETO

Fuentes estadsticas oficiales del sector turstico Completar con el libro!

TEMA 2 : ANLISIS DESCRIPITIVO DE UNA VARIABLE


I. Promedio y medidas de posicin.
Lo que pretendemos en esta leccin es resumir en unas pocas medidas la distribucin de frecuencia, fijando la atencin en sus caractersticas. Comenzamos con los promedios y medidas de posicin. La media aritmtica es el nmero que se obtiene al dividir la suma de todas las observaciones entre el nmero de ellas. Es un valor de la variable no necesariamente observado y por lo tanto tiene las mismas unidades que la variable. SI estamos estudiando la variable x, la media aritmtica, la notaremos como X

Supongamos que de la variable X hemos las observaciones x1, x2xn X =


Supongamos que en una distribucin de frecuencia con datos no agrupados:

Cuando los datos estn agrupados, es decir, cuando tenemos una distribucin (L i-1 - Li), no podemos calcular la media aritmtica. Lo que hacemos es dar una aproximacin de ella suponiendo que todas las observaciones de un intervalo corresponden a su marca de clase, entonces:

La media aritmtica tiene como ventaja que para su clculo, se utilizan todos los valores de la distribucin que se define de forma objetiva y que es nica para cada distribucin. El inconveniente que presenta es que es una medida muy sensible a los valores extremos, con lo cual, puede ser poco representativa, si hay mucha dispersin entre los datos. Vamos a determinar X a partir de las frecuencias relativas f1.fk

II.Propiedades de la media aritmtica:


Si Xm, XM son el menos y el mayor valor observado de la variable X respectivamente, entonces Xm < X < XM
Si a todos los valores de la variable les sumamos una constante a, la media aritmtica que da sumada por esa constante, es decir, la media es variable ante cambios de origen

Si todos los valores los multiplicamos por una contante b, la media aritmtica queda multiplicada por dicha constante, por lo tanto la media aritmtica es variante ante cambios de escala

Si de un conjunto de datos obtenemos dos o ms disjuntos (cuando no tienen elementos en comn), la media total se relaciona con la media aritmtica de dicho subconjunto.

Media cuadrtica: la notamos con la C y se define como la raz cuadrada que resulta al
dividir la suma de las observaciones al cuadrado entre el nmero de stas

Donde Xi son los distintos valores de la variable, si la distribucin est hecha con datos sin agrupar, o las marcas de clase, si los datos estn agrupados;

Este tipo de medida se utiliza para variables que toman valores positivos y negativos cuando no queremos tener en cuenta los signos.

Mediana: (Me) una vez ordenados los datos en orden creciente o decreciente, la mediana es el valor de la variable no necesariamente observable que ocupa el lugar central, es decir, que deja a un lado y a otro el mismo nmero de observaciones

Cuando tenemos una distribucin con datos agrupados del tipo (L i-1 - Li, ni),i=
1..k/nink=n no podemos determinar exactamente la mediana ya que no conocemos las observaciones que hemos realizado. La aproximacin que damos en este caso para la mediana es la siguiente; sea (L i-1 - Li,) el intervalo cuya frecuencia absoluta acumulada es inmediatamente mayor a n/2 y supongamos que los datos se encuentran distribuidos dentro del de manera uniforme, entonces consideramos para la mediana el siguiente valor: Me = L i-1 - Li Ni x ai Ni

Dentro de las ventajas, es una medida de clculo sencilla y de fcil interpretacin; y otra es que en su clculo no intervienen todos los valores de la distribucin, pues slo influyen los valores centrales y por lo tanto, se puede determinar si no conocemos alguno de los valores extremos. El inconveniente, en su determinacin es que no intervienen todas las observaciones. Moda: (Mo) => es el valor o son los valores de la variable que ms veces se repiten. La moda no tiene por qu ser nica. Las distribuciones reciben el nombre de UNIMODALES, BIMODALES, TRIMODALES, etc, dependiendo de que tengan 1, 2,3modas.

En el caso de una distribucin de datos agrupados L i-1 - Li es el intervalo modal, si es el de mayor frecuencia, entonces, el valor aproximado que damos para la moda es el siguiente: Mo = L i-1 - Li Ni x ai Ni Si la amplitud no es constante L i-1 - Li, es un intervalo modal, s es de los de mayor altura y en este caso, la aproximacin que damos para la moda es: Mo = hi-1 + hi+1 x ai

hi-1 + hi+1

Si la moda est en el primer intervalo, es decir, en Lo-L1, lo consideraremos como un intervalo cerrado: [ Lo-L1 ] Mo=L1 La ventaja de esta medida es que tiene un clculo sencillo y es fcil de interpretar; adems, se puede obtener en atributos. El inconveniente, es que para su determinacin, no intervienen ni todos los valores de la variable, ni todas las frecuencias.

III.Visin Conjunta de la Mediana y Moda.


1) En el caso de distribuciones campaniformes, unimodales y simtricas (o ligeramente asimtricas), en este caso, la media aritmtica y la moda coinciden (o si es ligeramente asimtrica) son prcticamente iguales. Por lo tanto, sera indiferente elegir cualquiera de ellas; Pero si tuviramos que quedarnos con una, elegiramos la media, por sus propiedades algebraicas y por su estabilidad en el muestreo. 2) Si la distribucin es unimodal campaniforme y con frecuencia asimtrica, tiene la forma de o de

3) Si la distribucin tiene forma de

ninguna de las medidas es representativa.

IV.Medidas de Posicin.
Vamos a analizar los CUANTILES. Una vez agrupados los datos, los cuantiles, son los valores de una variable que dividen a la distribucin en partes iguales, es decir, en intervalos que contienen el mismo nmero de observaciones. Los CUARTILES son los 3 valores de la variable (no necesariamente observables) que dividen a la distribucin en tres partes y las notamos como Q1, Q2 y Q3.En el caso de datos agrupados, la aproximacin que damos para Q1 es la siguiente:

DECILES: (Dr; r= 19) Una vez ordenados los datos, los 9 valores de la variable (no necesariamente observables) que dividen a la distribucin en 10 partes iguales. En el caso de datos agrupados, cada uno de ellos contiene un 10% de las observaciones.

PERCENTILES: una vez ordenados los daros, son los 99 valores de la variable (no necesariamente observables) que dividen a la distribucin en 100 partes iguales. En el caso de datos agrupados, cada uno de ellos contiene el 1% de las observaciones.

En estadstica, con datos sin agrupar, Qr se determina:

Si ninguna frecuencia acumulada coincide con rn/4, es inmediatamente mayor a dicho valor, entonces, Qr=Xi .La misma regla se sigue para determinar los deciles y los percentiles tomando como referencia rn/10 y rn/100 respectivamente.

V. Medidas de dispersin y asimetra.


Dispersin: medida que cuantifique la separacin entre los valores de la variable y respecto a la media. Son las llamadas medidas de dispersin. a) Recorrido: dada la variable x, se define el recorrido de la distribucin o variable (R) como la diferencia entre los valores mayor (XM) y menor (Xm) R= XM-Xm b) Rango intercuartlico: nos indica la longitud del intervalo que contiene el 50% de las observaciones centrales RQ= Q3-Q1 c) Recorrido interdeclico: nos mide la amplitud del intervalo que contiene el 80% de as observaciones centrales. RD=D 9-D 1 Hasta ahora, las medidas de dispersin estudiadas, no han tenido en cuenta la media aritmtica. Las medidas de dispersin que vamos a estudiar y que su la tienen en cuenta sin la varianza, la desviacin tpica y el coeficiente de variacin de Pearson. Dada la distribucin de frecuencia , se define la varianza de al distribucin y la notamos y se define como: -

Es una medida absoluta cuyas medidas son las de la variable al cuadrado. (Pongo en el subndice de que distribucin se trata)=> Desarrollando los cuadrados y haciendo las correspondientes cuentas, se comprueba que la varianza es =

PROPIEDADES DE LAVARIANZA: 1) Varianza mayor que 0 = 0 2) Varianza igual a 0 = cuando y slo cuando la variable es constante 3) La varianza es invariable ante cambios de origen

4) La varianza es variable ante cambios de escala

Llamamos desviacin tpica o desviacin estndar y la representamos por Sx, a la raz cuadrada positiva =

Una medida absoluta de dispersin, cuyas medidas son las de la variable. PROPIEDADES DE LA DESVIACON TPICA: 1) S 0 2) S = 0 X es constante 3) => es invariable 4) Una desviacin ni una varianza pueden ser negativas. VARIABLE TIPIFICADA Dada la variable se define la variable tipificada de X=Z como la variable que se obtiene al hacer los siguientes cambios de origen y de escala = Las variables tipificadas sirven para medir la posicin relativa (con respecto a la correspondiente poblacin) de los valores de distintas variables. Ejemplo: Si un alumno saca 84 en geografa y 9 en estadstica, en cul de las 2 asignaturas obtuvo mejor calificacin con respecto a la clase si sabemos que la nota media en geografa es de 76 y la desviacin tpica es de 1 ?

Una medida de dispersin relativa que adems nos va a servir para comparar la relativodad de distintas medias es el coeficiente de variacin de Pearson Dada la variable X con media

En el ejemplo anterior, cul de las dos notas medias es ms representativa?

MEDIDAS DE ASIMETRA La idea intuitiva de distribucin simtrica es : decimos que una distribucin de frecuencias es simtrica si sobre su diagrama de barras o histograma se puede trazar una lnea vertical de tal forma que al doblar por ella la figura, ambas coinciden. Si esto no ocurre, diremos que la distribucin es asimtrica. Para distribuciones unimodales y campaniformes, la medida de la asimetra la vamos a dar mediante el coeficiente de simetra de Pearson (Ap) que se define: Para una variable X con media : y moda

Ap<0 = distribucin asimtrica a la izquierda o negativa. Ap=0 = distribucin simtrica Ap>0 = distribucin asimtrica a la derecha o positiva. Es una medida relativa, por lo tanto, no solo nos sirve para conocer el tipo de asimetra que presenta una distribucin, sino que nos sirve para comparar la intensidad de la asimetra en distintas distribuciones. MEDIDAS DE DESIGUALDAD: CURVA DE LORENZ E NDICE DE GINI

Las medias de desigualdad, miden el grado de desigualdad existente en el reparto del total de la variable, entre los elementos de la poblacin.

La desigualdad es mnima o no existe cuando todos los elementos reciben la misma parte del total de la variable. Y es mxima cuando el total de la variable recibe slo un elemento de la poblacin. La curva ( de desigualdad) de Lorenz es la curva que se obtiene al representar en el eje de ordenadas los pares (Pi, Qi) donde= Es el tanto por cierto que acumula el valor de la variable Xi

Es el porcentaje del total de la variable que acumula el valor de la variable i o el intervalo

En el caso de equidistribucin o de equidad o de desigualdad mnima, en ese caso Pi=Qi para todo i=1k

ndice de Gini -> Analiza la desigualdad de una distribucin numrica (G). Se define como el coeficiente del rea de Lorenz (rea de la superficie limitada por la diagonal del cuadrado correspondiente y la curva de Lorenz) entre el rea del tringulo de hipotenusa, la diagonal del cuadrado.

Cuando trabajemos con porcentajes = A= Si trabajamos con proporciones = A= G=0 => la curva de Lorenz es igual a la hipotenusa del tringulo (hay equidistribucin) G=1 => desigualdad mxima, slo un elemento s e lleva el total de la variable Para el clculo: G=

G=

Valores atpicos: son aquellos de la distribucin que se alejan significativamente del resto de la distribucin. Consideramos valores atpicos, los valores de la variable que estn fuera del intervalo delimitado por los lmites admisibles.

TEMA 3 : NMEROS NDICES SIMPLES.


Los ndices simples o elementos, son medidas estadsticas que estudian las fluctuaciones de una sola variable respecto a uno de sus valores que se toma como referencia. Cuando se aplican a series temporales, tenemos los ndices en serie ( o ndices simples ) y los ndices en cadena. Al perodo en el que se hace la observacin que se toma como referencia se le denomina perodo o tiempo base y se iguala a 100. Y la situacin que queremos comparar se llama perodo o tiempo actual. Los nmeros ndices indican los porcentajes de variacin de la variable respecto al valor en el perodo base Sean Xo,Xt los valores de la variable X en los perodos base y actual respectivamente. Se define el correspondiente ndice en serie y lo notamos Al siguiente coeficiente Mediante estos porcentajes, eliminamos la unidad de medida, por lo que podemos hacer comparaciones entre distintas variables. Por otra parte, la eleccin de la situacin inicial, condiciona el resultado de la comparacin; por lo tanto, dicho punto de referencia ha de ser normal, lo ms adecuado posible a los objetivos perseguidos. Estos ndices nos sirven para estudiar las fluctuaciones de una sola variable, comparando en trminos de porcentajes, cada valor con el valor del perodo anterior. El proceso es anlogo ante los ndices en serie, pero ahora el perodo base es mvil. El ndice en cadena para el perodo t En la siguiente tabla aparece en el precio de un artculo para los aos 1998-2004

Relacin entre los ndices en serie y en cadena: Dados los ndices en cadena IC1,IC2 ...ICt correspondientes a una serie temporal( X0,,X1...Xt) podemos obtener de la siguiente manera:

II.Tasas de Variacin.
La tabla anterior recoge las ventas en 102 trimestrales de un artculo en un gran almacn para los aos 06/07 a) determinar el incremento porcentual entre el primer trimestre06 y el cuarto del 06 b) el incremento en las ventas entre el II y el IV trimestre del 07 c) determinar los incrementos intertrimestrales de las ventas para 2006 d) determinar la variacin interanual del precio para el segundo trimestre

Las tasas de variacin nos indican los porcentajes de variacin de una variable con respecto a un valor dado. Para obtener las tasas de variacin o incrementos porcentuales entre 2 perodos de la serie, nos basamos en los ndices simples ( I -100) Si queremos obtener las tasas de variacin entre los perodos, nos basamos en los ndices en cadena. (IC-100) Si tenemos dos series temporales correspondientes a dos aos donde la unidad temporal es inferior al ao, tambin podemos realizar comparaciones interanuales para un perodo determinado a partir del ndice correspondiente. La tasa media de crecimiento acumulativo: nos indica el porcentaje de crecimiento acumulativo que ha habido en el perodo considerado. Dadas t observaciones (X1,Xt) la tasa media de crecimiento acumulativo es : K=

III. Nmeros ndices complejos.


Los ndices complejos o compuestos se utilizan para resumir las fluctuaciones de un conjunto de variables relacionadas desde algn punto de vista. Se clasifican en NO PODERADOS Y PONDERADOS segn les demos la misma importancia o distinta importancia respectivamente, a las variables analizadas.

IV. Enlace y cambio de base.


A veces, en la prctica, no tenemos una nica serie de ndices, si no que para un mismo fenmeno, poseemos varias series de ndices ( de distintas bases ) lo que nos impide seguir la trayectoria temporal del fenmeno en el perodo considerado. Para resolver este problema, lo que haremos ser obtener una nica serie de nmeros ndices correspondientes a dio perodo, esto lo hacemos enlazando las series que tenemos mediante cambios de base.

A veces, nos interesa cambiar la base de los ndices ya calculados. Este procedimiento se hace de igual forma que lo hemos hecho cuando enlazamos series de nmeros ndices.

V. ndices de Precios: IPC, IPCA , PH: pregunta del libro pg203

VI. Deflacin de una serie de valores monetarios.


La inflacin es un fenmeno que altera el poder adquisitivo o poder de compra del dinero. El efecto de la inflacin sobre los precios hace que un ndice apropiado de precios sirva para: a) Cuantificar la propia inflacin b) Para eliminar el efecto inflacionista sobre las variables expresadas en unidades de cada perodo (en unidades o valores monetarios a precios corrientes) con la finalidad de que tales unidades resulten homogneas en el tiempo (valores reales o valores a precios constantes). De tal forma que para cada ao las unidades monetarias tengan el mismo poder adquisitivo. La operacin consistente en homogeneizar el valor del dinero se llama deflacin o deflacin estadstica. El ndice de precio utilizad para realizarlo recibe el nombre de deflaccionador. y la operacin a realizar es :

TEMA 4 : ANLISIS CONJUNTO DE UNA VARIABLE.


I. Presentacin de los datos.
Hay dos formas: 1) Supongamos que en una poblacin se estudian simultneamente las variables X e Y ( o la variable bidimensional xy). La distribucin genrica de X, Y o la distribucin conjunta genrica de x,y la notamos como : Xi,Yj,Nij) i= 1.r j= 1.s Donde son los valores de X,Y respectivamente y decir, el nmero de xi de X y el valore de yi de Y Una forma de disponer los datos es en una tabla de es la frecuencia absoluta del par Xi,Yi, es

Anda mungkin juga menyukai