Anda di halaman 1dari 53

1.

ESTADISTICA BASICA
1.1 INTRODUCCION
En general, e independientemente de la tarea que se realice, los investigadores de fenmenos de toda ndole se ven ante la necesidad de obtener conclusiones a partir del anlisis mucha informacin. Del correcto estudio de dicha informacin, dependen decisiones de la ms variada gama. La estadstica, a partir del uso de herramientas que van desde el lgebra elemental, hasta el clculo diferencial, logra la sistematizacin de dicha informacin de tal manera de hacer fcilmente distinguible aspectos que de otra manera podran pasar inadvertidos; De lo anterior surge la explicacin del por qu la estadstica como disciplina forma parte de la formacin integral de infinidad de profesiones y oficios en la actualidad. En economa el anlisis de informacin para la determinacin de demandas, elasticidades, la cuantificacin de las variables macroeconmicas y muchos otras, recibe el nombre de Econometra. En sociologa, y antropologa se estudian los llamados mtodos y tcnicas de la investigacin social. En fin, el mbito de aplicacin de la estadstica es prcticamente infinito tanto en las ciencias sociales como las exactas. Antes de seguir avanzando es necesario puntualizar algunas definiciones bsicas que nos acompaarn de aqu en adelante Estadstica: Es aquella disciplina cientfica que se preocupa de obtener, ordenar y sistematizar informacin de tal forma que esta se transforme en un insumo til para la toma de decisiones. De lo anterior se desprende el campo de accin prcticamente infinito que caracteriza a la estadstica. Universo: coleccin de toda la posible informacin que caracteriza a un fenmeno determinado, tambin suele llamarse Poblacin En estadstica el concepto universo o poblacin tiene mltiples interpretaciones: un conjunto infinito de observaciones para una variable determinada, o bien, un conjunto finito de muchas (prcticamente infinitas) observaciones. Bajo condiciones ideales, a cualquier observador le gustara contar con todas las observaciones que componen el universo, para poder observar el comportamiento de una caracterstica relevante, o sea realizar un Censo. Esto es perfectamente factible siempre y cuando se trate de poblaciones o universos manejables; En general las poblaciones son de grandes dimensiones, por lo que se vuelve muy difcil en trminos prcticos, (sin mencionar aspectos econmicos), la medicin de la
1

variable relevante en todos los elementos que componen el universo. Para ello existe la alternativa de tomar proporciones ms pequeas del universo de tal manera de hacerlas mas manejables

Muestra: s ubconjunto que componen una poblacin

representativo

de

las

observaciones

Si la muestra esta adecuadamente seleccionada, es de esperar que las conclusiones obtenidas a partir de ella, puedan extrapolarse a toda la poblacin, lo que evidentemente implica ahorro de tiempo y recursos valiosos.

1.2 ATRIBUTOS Y VARIABLES


Una investigacin puede dedicarse a estudiar el comportamiento de una caracterstica no medible o cualitativa de un objeto. En dicho caso esa caracterstica en estadstica se denomina atributo. Si por el contrario la propiedad del objeto es susceptible de ser cuantificada, Dicha propiedad toma el nombre de variable. Variable: ntimamente ligado con la definicin matemtica de variable, en estadstica variable es cualquier caracterstica de un objeto de estudio susceptible de ser cuantificada Puesto que prcticamente cualquier caracterstica de los objetos puede ser medida, la definicin de variable es muy amplia, de tal manera que es prudente clasificar los distintos tipos de variables; enunciemos las clasificaciones mas utilizadas a) Variables Discretas y continuas Una variable discreta es aquella que no admite valores intermedios entre los distintos valores de la variable. Por ejemplo si se realiza una encuesta entre las familias de un barrio cualquiera, que intente cuantificar el nmero de integrantes de cada una, la variable podr adoptar valores como 2, 3, 4, etc. Sin embargo no es posible que una familia est integrada por 2,5 personas, de tal manera que sin duda alguna el nmero de integrantes de cada familia es una variable discreta. Las variables continuas si admiten valores intermedios, como es el caso de la variable estatura. Por ejemplo si se realiza una encuesta de estaturas en una sala de clases, identificando a un individuo con 170 cms. y otro con 171, siempre es posible, al menos tericamente, y si se cuenta con una regla lo suficientemente exacta, encontrar a un individuo que posea una estatura intermedia. De hecho, si se comparan las estaturas en millonsima de centmetros, ser extremadamente difcil encontrar a dos personas con exactamente el mismo porte, an en cursos grandes.
3

b) Las variables y el tiempo Si una variable determinada no se ve influenciada en absoluto por el transcurso del tiempo, decimos que dicha variable tiene un carcter atemporal o no ordinal. Por ejemplo. si se realiza un estudio de coeficiente intelectual CI en un grupo de personas, el orden de precedencia, en que se aplique el test a los individuos, no incide en los resultados del mismo, de tal manera que para este grupo, el coeficiente intelectual es una variable atemporal. Cuando una variable modifica su comportamiento en momentos distintos, dicha variable tiene un comportamiento temporal u ordinal. Un caso tpico por ejemplo lo constituyen todos los ndices econmicos y financieros: IPC, IPPM, IGPA, ISPA, etc. estos ndices deben ser siempre ser considerados en relacin con el momento en que fueron medidos. En pocas palabras, no sirve de nada conocer una variacin del IPC, sin saber de que mes se trata. c) Una o muchas variables Cuando en el marco de una investigacin se estudia el comportamiento de una sola variable por separado, se dice que el estudio es unidimensional. El citado ejemplo de la investigacin de los coeficientes intelectuales es un caso claro de estudio unidimensional Pero no siempre las investigaciones toman en cuenta el comportamiento de una sola variable , sino que a veces interesa conocer como se comporta una variable en conjunto con otra u otras (simultneamente). En dicho caso se habla de estadsticas multidimensionales. Si en la misma investigacin sobre el coeficiente intelectual, tomamos en cuenta el grado de escolaridad de los investigados, el nivel de caloras que consume a diario, etc. estaremos ante una investigacin de tipo multidimensional.

1.3 AGRUPACION DE DATOS


Tal como lo dice su definicin, la estadstica se preocupa de la ordenacin y sistematizacin de datos, para poder apoyar el proceso de toma de decisiones; La forma en que se ordenan los datos vara de acuerdo al tipo de variable de que se trata. Estudiaremos a continuacin la ordenacin de datos de variable discreta.
4

a) Estadsticas de variable discreta Para estudiar la agrupacin en el caso de las variables discretas, analicemos el siguiente ejemplo. Preocupada por las metas planteadas por el nuevo Gobierno, la Ministra de salud se decide a investigar el nmero de pacientes diarios que atiende la atencin primaria en la actualidad. Para ello, la Ministra solicita al Jefe de la Direccin Regional Sur del Ministerio, le entregue la informacin con respecto a las atenciones bsicas que presta el Hospital Stero del Ro. El funcionario le despacha la siguiente informacin:
40 41 39 40 37 39 40 42 42 37 44 38 43 41 45 45 35 35 37 45 43 38 42 40 42 42 45 35 45 41 43 41 41 37 45

El total de observaciones de la variable es de 35, y se simboliza con la letra n; en el ejemplo n = 35 Tal como fueron enviados los datos, no prestan mucha utilidad para efectos de poder tomar las decisiones necesarias, que permitan eliminar las colas en los consultorios. Es necesario ordenar la informacin. Cada uno de los nmeros escritos en la tabla representa el nmero de pacientes atendidos en un da cualquiera, o sea, representan un valor para la variable, siendo el total 35 (35 das). Por convencin le asignaremos a esta variable la letra X. X= nmero de pacientes atendidos en un da determinado Cada una de las 35 observaciones ser designada por xi ( X minscula), de tal manera que x1 debe leerse como la i-sima observacin de la variable X. En el ejemplo x1=40, lo que quiere decir que el primer da de observacin se atendi a 40 pacientes Paralelamente, estas observaciones estn presentadas sin ninguna ordenacin de precedencia. Disponerlas de menor a mayor ser el siguiente paso:
35 37 35 37 35 38 37 38 37 39

39 41 42 43 45

40 41 42 43 45

40 41 42 43 45

40 41 42 44 45

40 41 42 45 45

Ordenados los datos, es fcil formular las siguientes conclusiones: La variable asume un total de 9 valores El menor valor es 35 y el mayor 45

Cada uno de los valores que adopta la variable recibe el nombre de clase, y se denota m; en este caso m=9, por haber nueve valores distintos de la variable. Sin embargo todava se pueden disponer los datos de mejor manera; para ello construiremos el cuadro de distribucin de frecuencias para esta variable.
Val Frecue Frecuen Frecu Frecu ores de lancias cias relativas encias encias variable absolutas absolutas relativas Xi ni hi Ni Hi X1= n1= 3 h1= N1= 3 H1= X2= n2= 0 h2= 0 N2= 3 H2= X3= n3= 4 h3= N3= 7 H3= X4= n4= 2 h4= N4= 9 H4= X5= n5= 2 h5= N5= H5= X6= n6= 4 h6= N6= H6= X7= n7= 5 h7= N7= H7= X8= n8= 5 h8= N8= H8= X9= n9= 3 h9= N9= H9= X10= n10= 1 h10= N10= H10= X11= n11= 6 h11= N11= H11= 1 ni = hi = 1

La primera columna de esta tabla contiene los valores que adopta la variable o clases; si bien es cierto en ninguno de los 35 das se atendieron 36 pacientes, para efectos de la correcta tabulacin la tabla debe contener esta clase. La segunda columna de la tabla recibe el nombre de frecuencias absolutas; Estas frecuencias corresponden a las repeticiones que tiene cada valor de la variable para el ejemplo. La frecuencia absoluta de la
6

primera clase es de 3. Lo anterior debe interpretarse como que durante 3 das se atendi a 35 pacientes; La nomenclatura de frecuencia absoluta es ni. Como el lector deber suponer, la suma de todas las frecuencias absolutas debe ser igual al nmero de observaciones n. Cualquier frecuencia absoluta tiene las siguientes propiedades 0 ni n ni = n Por otro lado, en el marco de una investigacin, muchas veces es mejor presentar la informacin en trminos porcentuales. Para ello se calcula la tercera columna, la que recibe

El nombre de columna de frecuencias relativas. La frecuencia relativa expresa porcentualmente, la importancia de cada clase en relacin con el total de las observaciones de la variable; cada frecuencia relativa se calcula utilizando la siguiente frmula: As, se puede afirmar que 8,57% de los das el consultorio atiende 35 consultas. Las siguientes son propiedades de las frecuencias relativas: hi = 1 0 hi 1 Otra pregunta que suele surgir, al analizar datos, es cuantas de las observaciones son menores o mayores que un determinado valor de la variable; para ello se calcula la columna de frecuencias absolutas acumuladas. La frecuencia absoluta acumulada de una clase determinada se calcula sumndole a su frecuencia absoluta, las frecuencias absolutas de todas las clases anteriores. En el ejemplo, la frecuencia absoluta acumulada de la 4 clase es 9, y que proviene de la suma de su frecuencia (2) absoluta mas todas las anteriores (3, 0, 4). SI a la Ministra de salud le interesara saber en cuantos das se atendi al menos a 40 pacientes, slo debe remitirse a la tabla y observar la frecuencia absoluta acumulada de ese valor de la variable, en el ejemplo es 15. La frecuencia relativa acumulada se calcula con el mismo razonamiento con que se calcula la frecuencia absoluta acumulada, con la diferencia de que para ella se utilizan las frecuencias relativas.
7

b) Estadsticas de variable continua Como Ud. ya podr intuir, las variables continuas tambin requieren de ser ordenadas, para ser adecuadamente analizadas; El Ministerio de educacin realiza un estudio para determinar el monto de las subvenciones anuales entregados a colegios de Santiago. Para ello selecciona una muestra de 40 de ellos; los montos por subvencin son los que a continuacin de se detallan (expresados en millones de pesos)

8 7 1 1 9 1 1 1

9 8 1 1 7 1 1 1

1 9 1 1 8 1 1 1

6 7 1 1 9 1 1 1

7 1 1 1 7 1 1 1

La tabla de distribucin de frecuencias para esta muestra, es bsicamente la misma. La diferencia fundamental radica en que dada la gran cantidad de valores que adopta una variable continua, es prudente definir intervalos para efectos prcticos. De otra manera, y dada la naturaleza de las variables continuas, esta tabla podra tener 1 infinitas clases (infinitas lneas)
Inte rvalos Marcas Frecue Frecuen Frecu Frecu de clase ncias cias relativas encias encias absolutas absolutas relativas Xi-1Xi ni hi Ni Hi 66,5 1 0,025 1 0,025 77,5 5 0,125 6 0,15 88,5 3 0,075 9 0,225 99,5 4 0,1 13 0,325 1010,5 5 0,125 18 0,45 1111,5 7 0,175 25 0,625 1212,5 5 0,125 30 0,75 1313,5 7 0,175 37 0,925 1414,5 3 0,075 40 1 ni = hi = 1

Antes de continuar, enunciemos algunas reglas o indicaciones a considerar para la correcta tabulacin de datos en intervalos:

a) Buscar el menor y mayor valor de la variable en las observaciones b) Escoger una amplitud de intervalo adecuada; la amplitud de los intervalos se denota por la letra c; Esta amplitud debe ser la misma, en la medida de lo posible para todos los intervalos c) Para efectos de facilitar la tabulacin, debe procurarse que el lmite inferior de los intervalos sea un nmero entero.

La interpretacin de las columnas de esta tabla es la misma que para la tabla de distribucin de frecuencias de la variable discreta. La nica diferencia la constituyen la primera y la segunda columnas. La primera columna tiene el encabezado Xi-1-Xi
En el caso de las variables discretas, tambin puede tabularse la informacin en intervalos; Sin embargo la tabulacin en intervalos se justifica sobre todo en la ordenacin de datos de variables continuas, puesto que los valores que esta puede tomar son infinitos.
1

Xi-1 representa la nomenclatura del lmite inferior del intervalo isimo X1 representa la nomenclatura del lmite superior de cada intervalo La segunda columna recibe el nombre de columnas de marcas de clase. Esta columna se calcula debido a que las tablas de distribucin de frecuencias que poseen intervalos, no existe un solo valor que represente la clase. La marca de clase es el punto medio de un intervalo. Para ello se suman los lmites de cada intervalo (redondeando el nmero superior), y dividiendo la suma por 2. DISTRIBUCIN DE FRECUENCIAS. Definicin.La Distribucin de Frecuencias se trata de organizar cierta informacin en clases o categoras donde se determina el nmero de datos que pertenecen a cada uno de ellos o como un arreglo tabular de datos que muestren sus respectivas frecuencias. Donde se puede generar dos tipos de distribuciones las cuales son: Distribuciones de frecuencias de Variables Discretas Distribuciones de frecuencias de Variable Continuas

Distribuciones de Frecuencias de Variables Discretas.


9

En este tipo de distribuciones es considerado en funcin al tipo de variable con el cul se est trabajando, es decir, se considerar a todas las variables como variables discretas, por ejemplo: Cantidad de objetos vendidos Nmero de alumnos de la clase. Numero de clientes en una tienda. Nmero de accidentes en una autopista. Cantidad de libros en una biblioteca. Piezas defectuosas de un determinado lote recibido. Al generar la distribucin de frecuencias se deber tomar en cuenta intervalos determinados, por ejemplo: La variable discreta ser: que en este caso ser el nmero de

errores que existe en una cierta cantidad de libros.

N errores

de

N pginas

de

0 1 2 3 4 5 Es tambin posible analizar el nmero tienda en una determinada hora N clientes 15 18 25 . . 61 de

2 4 6 13 20 35 de clientes que entran a una

Hora de atencin 09:0011:00 11:0013:00 13:0015:00 . . 20:0022:00

10

Distribucin de frecuencias variables continuas En la distribucin de Variables Continuas es en la que se asumen valores reales, es decir se trabaja con: El peso de alumnos en una clase La utilidad de las empresas en el ramo metalrgico El tiempo de duracin de un transformador El tiempo de duracin de una carrera Este tipo de distribucin es el ms usual en la estadstica Recomendaciones Para realizar esta distribucin se debe seguir una serie de recomendaciones que son: Ordenar los datos en forma creciente o decreciente para su respectivo anlisis Escoger al azar la cantidad de datos A la diferencia del Valor Mximo menos el Valor Mnimo se le llama Rango Determinar el nmero de intervalos de la clase Rango Es la diferencia de entre el mximo valor y el mnimo.

Nmero de intervalos de clase Para hallar el nmero de intervalos de la clase se siguen tres reglas fundamentales. Se utiliza la regla de Sturges que nos dice que el nmero de intervalos de clase es el numero entero ms prximo a la relacin: Donde n es la cantidad de observaciones que hay, por ejemplo si en curso A hay 20 alumnos, en el curso B hay 34 y en el curso C hay 46 alumnos n tomara el valor de n=20+34+46 de modo que n =100. Ya una vez calculado el nmero de intervalos de clase, el resultado se debe redondear bajo las normas de redondeo. Recorrido El recorrido es la diferencia del valor mximo y el valor mnimo mas uno +1 Se utiliza el uno si se trabaja con nmero enteros y si se trabaja con variables continuas no se considera el nmero 1. Valor o magnitud de la clase que es la divisin del recorrido con el nmero de intervalos de clase
11

Se debe redondear el resultado al mismo nmero de cifras significativas que los datos observados Luego de hallar todos los datos anteriores se genera un segmento donde se determina valores de cada intervalo de clase y se expresa de la siguiente forma:

Es importante sealar que si X k+1 es menor a xn o si el mximo valor determina es menor al mximo valor obtenido en forma experimental, se debe incrementar el valor de la magnitud de la clase c considerando el numero de cifras significativas de los datos observados, hasta que el mximo valor determinado se mayor al mximo valor obtenido en forma experimental Excedente Una ves que X k+1 cumpla la condicin se halla el excedente. El excedente es la diferencia entre el valor mximo determinado y el valor mximo obtenido se expresa de la siguiente forma

Luego se analiza el excedente, es decir si el excedente es par, se divide entre 2 y el segmento se recorrer hacia la izquierda en una magnitud equivalente a e/2, y si el excedente es impar, se buscara la simetra y el segmento se recorrer hacia la izquierda en el menor nmero determinado.

De este segmento generado se genera la distribucin de frecuencias Distribucin de frecuencias Son todos los datos experimentales distribuidos simtricamente respecto a los valores mximo y mnimo de los datos obtenidos en forma experimental Intervalos Conte Frecuencia de clase o fi
12

Y 1 Y 2 Y 3 Y 4 Y 5 . . Yk k+1-i i i i i i

Y 2Y 3Y 4Y 5Y 6. . Y

n1 n2 n3 n4 n5 . . nk

f1 f2 f3 f4 f5 . . fk

Donde i es la unidad. Conteo Consiste en colocar la cantidad de valores o datos que pertenecen a cada categora, clase o intervalo de clase, que corresponder al valor de la frecuencia de los intervalos de clase. Frecuencia fi Es la cantidad de valores que pertenecen a cada intervalo de clase o categora. Para cada caso los datos dentro del intervalo de clase deben ser distribuidos uniformemente. Limites verdaderos de clase. Se determina el valor medio entre el prime y segundo intervalo de clase luego se determina el valor medio entre el segundo y el tercer intervalo, hasta terminar con todos los intervalos de modo tal que se los denomina lmites verdaderos de clase se expresa de la siguiente forma: Limites verdaderos de clase(L.V.C) Y 1Y 2 Y2Y 3 Y 3Y 4 Y 4Y 5 . . . . YKYK+1 [) Frecuencia fi f1 f2 f3 f3 . . fk

13

Histograma de frecuencia Es la representacin grfica de la distribucin de frecuencias lo cual se lo realiza utilizando los ejes coordenados, donde en el eje de la x o abscisas se colocan los limites verdaderos de la clase y al eje de la y se colocan las frecuencias fi

L.V.C Marcas de clase Las marcas de clase son los valores representativos de cada intervalo de clase, osea el valor medio de los Limites Simples de Clase o Limites verdaderos de clase y se lo denota como Xi Marcas de Clase Xi frecuencia fi X1 f1 X2 f2 X3 f3 . . . . Xk fk Polinomio de Frecuencias Es la representacin grafica de la frecuencia fi Vs las marcas de clase, tiene las mismas caractersticas que el histograma de frecuencias pero esta vez en el eje x se coloca las marcas de clases Xi y en el eje de la y la frecuencia fi

fi

Xi

14

Distribucin de Frecuencias Relativas Es la cantidad de valores que se encuentra en cada intervalo de clase respecto a la cantidad total de valores observados como: Limites Frecuen Verdaderos de Clase cia fr % Y Y (F1/n)*10 1 2 0=fr1 Y Y (F2/n)*10 2 3 0=fr2 Y Y (F3/n)*10 3 4 0=fr3 . . . . . . . . . Y Y (Fk/n)*10 KK+1 0=frk [ ) Histograma de Frecuencias Relativas Es la representacin grafica de los Limites Verdaderos de Clase Vs la Frecuencia fr% y tiene las mismas caractersticas que las anteriores, solo que esta vez en el eje y se coloca la fr% y lo mismo en el eje de la x se coloca los L.V.C

%fr

L.V.C
15

Distribucin de Frecuencias relativas con Marcas de clase Marcas de Frecue Clase Xi ncia fr X1 fr1 X2 fr2 X3 fr3 . . . . Xk fr k Polinomio de frecuencias relativas % fr

Xi Distribucin de Frecuencias acumuladas menor que La distribucin acumulada de frecuencias sirve para conocer el total de las observaciones que existen desde la primera clase hasta una categora determinada, como:

Datos menores que Datos menores que Datos menores que

observados observados observados

Y1 Y2 Y3 . . Yk+1

Frecuencia Acumulada fa1. fa2. fa3. . . fa k.


16

Polinomio de Frecuencias Acumuladas menores que fa

L.V.C Distribucion de Frecuencias Acumuladas mayor que Frecuencia Acumulada Datos observados Y1 fa1. mayores que Datos observados Y2 fa2. mayores que Datos observados Y3 fa3. mayores que . . . . Yk+1 fa k.

Polinomio de Frecuencias Acumuladas mayor que fa

17

L.V.C

Distribucin de Frecuencias Acumuladas relativas mayor que Frecuencia Acumulada Relativa fa r1. fa r2. fa r3. . fark. mayor

Datos observados mayores que Datos observados mayores que Datos observados mayores que +1 que % fa r

Y1 Y2 Y3 . Yk

Polinomio de Frecuencias Acumuladas relativas

L.V.C Distribucin de Frecuencias Acumuladas relativas menor que Frecuencia Relativa Y fa1. 1 observados 2 observados Y fa3.
18

Acumulada

Datos menores que Datos menores que Datos

observados

fa2.

menores que

3 . . Y . . fa k.

k+1 Polinomio de Frecuencias Acumuladas relativa menor que % fa r

L.V.C

19

1.4 REPRESENTACION GRAFICA DE DATOS


En pro de la consecucin de su objetivo, la estadstica descriptiva, utiliza representaciones grficas del comportamiento de las variables que le interesa investigar. Un grfico no es mas que la representacin pictrica de un conjunto de datos. La idea es que las personas que observan un grfico, puedan obtener rpidamente las conclusiones pertinentes, y as poder tomar correctas decisiones Por sus caractersticas en este apunte slo haremos referencia a un reducido nmero de grficos. El lector podr encontrar una cantidad mayor de representaciones en un diario, revista, o bien en programas computacionales como Excel, Q-pro, E-views, etc.

a) Representacin de variable discretas A continuacin se presentan los grficos que representan las frecuencias absolutas (izquierda), y relativas (derecha), para la distribucin de la variable Nmero de pacientes atendidos anteriormente tratada.
n hi i 6 5 4 3 2 1
0,1714

0,1429

0,1143

0,0857

0,0571

0,0286

0 43 44 45

35 Xi

36

37

38

39

40

41

42 43 44

0 45

35 Xi

36

37

38

39

40

41

42

En ambos casos el grfico resultante es una lnea que recibe el nombre de poligonal. Para la construccin de polinomiales deben tomarse en cuenta las siguientes recomendaciones: En el eje vertical se grafican las frecuencias absolutas y relativas respectivamente, respetando siempre la escala con que se trabaja. (de uno en uno en el caso de las frecuencias absolutas. En el eje horizontal se representan los valores de la variable; observe que debido a que el mnimo valor de la variable es 35, el grfico comienza en ese punto. Lo anterior se puede hacer siempre y cuando se deje expresado un salto en la escala, mediante dos rayas ( ).
20

En el grfico siempre debe presentarse el valor =, tanto para la variable como para las frecuencias. En los ejes siempre debe escribirse la magnitud que se est representando (valores de la variable, frecuencias relativas, frecuencias absolutas, etc.

21

Siguiendo estas recomendaciones, se puede esperar que las personas que observan el grfico den una adecuada interpretacin a los datos representados. Como puede observarse, ambas polinomiales son exactamente iguales, de tal manera que es posible representarlas en un mismo grfico como sigue:
ni 6 5 4 3 2 1 hi 0,1714 0,1429 0,1143 0,0857 0,0571 0,0286

35

36

37

38

39

40

41

42

43

44

45

Xi

El nico cambio en este grfico, es que a la derecha se agregan los valores de las frecuencias relativas Las frecuencias absolutas acumuladas y relativas acumuladas se representan en su propio grfico
Ni 35 30 25 20 15 10 5 X 0 Hi 1 0,8571 0,7143 0,5714 0,4286 0,2857 0,1429
i

35 36 37 38 39

40

41 42 43 44 45

La lnea resultante es una poligonal siempre ascendente, que recibe el nombre de ojiva. b) Representacin de variable continua La representacin grfica de variable de tipo continua implica algunas variaciones. La mas importante de ellas radica en el hecho de que estos datos se tabulan en intervalos, por lo que la representacin grfica vara; Utilicemos el ejemplo de las subvenciones:

Como puede observarse, cuando los datos se encuentran tabulados en intervalos, el grfico resultante es de barras. La base de cada barra corresponde a los lmites de cada intervalo. Es interesante sealar, que es posible tambin construir poligonales y ojivas. Para ello slo basta con unir los puntos medios de cada barra (marcas de clase). Otro aspecto de mucha importancia radica en el hecho de que si se trata con poblaciones lo suficientemente grandes, y se tabulan los datos con intervalos pequeos, la poligonal u ojiva resultante tiende a suavizarse, formando prcticamente curvas.
ni ni

Curva normal

Xi

Xi

Estas curvas son de gran importancia en estadsticas, ya que en la prctica son funciones, y como tales permiten describir probabilidades de que la variable tenga un valor determinado, mediante el uso de integrales. Ms adelante nos adentraremos ms en el estudio de ellas y sus usos.

1.5 ESTADIGRAFOS DE POSICION


Prosiguiendo en nuestro esfuerzo por obtener conclusiones a partir del anlisis de datos, analizaremos ahora la posibilidad que brindan las estadsticas de poder resumir el comportamiento de una variable, a partir del clculo de ciertos valores de la misma. Estadgrafos: Es un comportamiento de la misma valor de la variable que resume el

En estadstica es posible distinguir dos tipos de estadgrafos: Estadgrafos de posicin Estadgrafos de dispersin

Veamos en detalle ahora que significan, y como se trabaja con cada uno de ellos y para ello repasemos el ejemplo del nmero de personas atendidas a diario en el Hospital Stero del Ro. A pesar de que se ya se ha avanzado notablemente al ordenar los datos mediante la tabla de distribucin de frecuencias, es necesario seguir caracterizando a la distribucin de dicha variable. Por ejemplo sera interesante determinar un nmero (expresado en unidades de la variable), que permita describir el valor en torno al cul se concentran las observaciones. Esa cifra es un buen dato a tomar en cuenta para las decisiones que permitan acabar con las colas y las largas esperas de los usuarios. Definamos entonces a los estadgrafos de posicin. Estadgrafos de posicin: Valor de la variable que indica una tendencia central en el comportamiento de la misma Son muchos los estadgrafos de posicin que trabajaremos a continuacin con el ms conocido de ellos. A) MEDIA ARITMETICA La media aritmtica, promedio o simplemente media, es el estadgrafo de ms comn utilizacin. Su clculo es bastante conocido: la suma de todos los valores de la variable, dividida por el nmero total de observaciones. De todos los estadgrafos de posicin la media es el mas estable de todos, si se calcula para diferentes muestras de una misma poblacin. La frmula de comn uso para el clculo de la media es la suma de los valores de la variable dividida por el total de observaciones, es decir: se utilizan;

El problema principal que implica la utilizacin de esta frmula, radica en el hecho de que al haber una gran cantidad de observaciones, se hace muy sencillo cometer errores en la suma de las observaciones, de tal manera que se hace necesario un camino alternativo para su clculo. Para ello utilizaremos la tabla de distribucin de frecuencias, mediante la siguiente frmula:

=
Multiplicando los valores de la variable, por su respectiva frecuencia, y posteriormente sumando los productos se obtiene el promedio de la variable. Recordemos la distribucin de frecuencias de las atenciones diarias del Hospital Stero del Ro.

Recuerde que esta es una variable discreta. El resultado obtenido podra crear confusin puesto que 40,71 personas es una cifra inverosmil. Sin embargo se acepta esta notacin para efectos del clculo de estadgrafos Otra frmula para el clculo de la media surge a partir de un pequeo despeje; Recuerde usted que las frecuencias relativas (hi), se calculan dividiendo la frecuencia absoluta de una clase (ni), por el total de observaciones (n), por lo tanto:

As volviendo al ejemplo, las frecuencias relativas:

calculemos

el

promedio

utilizando

El promedio obtenido por esta forma no es exactamente el obtenido mediante la primera frmula. Ello se debe solamente a un problema de aproximacin en los decimales. Los dos promedios obtenidos son exactamente iguales al promedio que se obtiene a partir de los datos no tabulados. La obtencin del promedio mediante este segundo mtodo es de extremada importancia, ya que implica que un promedio puede ser obtenido sin conocer el tamao de la poblacin relevante, conociendo tan slo la importancia relativa (el porcentaje) de cada valor de la variable. Analicemos ahora que ocurre cuando se tabula datos en intervalos, para lo cual recurriremos al ejemplo de las subvenciones de colegios anteriormente expuesto. El promedio para datos no tabulados puede ser calculado de la misma manera que se calcul para los pacientes del Hospital. La diferencia en el clculo de la media para este ejemplo est a partir de la tabulacin de los datos. Al tabularse en intervalos, la frmula de la media debe ser reinterpretada, debido a que en cada intervalo hay infinitos valores para la variable. Es necesario entonces buscar un valor que represente a cada intervalo. Ese valor no es otro que la marca de clase. en la tabla:

Observe que el promedio obtenido en esta ocasin es levemente diferente al promedio para datos no tabulados (10,95 millones). Esta diferencia se debe a que la tabulacin de un conjunto de datos en intervalos implica necesariamente una prdida de la exactitud en relacin con los datos originales. Por ejemplo saber que el intervalo que va de 6 a 6,99 tiene una frecuencia absoluta de 5 no permite conocer que valor exacto tienen las 5 observaciones incluidas en dicho intervalo. La solucin a este problema es la tabulacin en mayor cantidad de intervalos de menor amplitud cada uno, de los datos originales. Sin embargo es evidente que la cantidad de intervalos implica mayor trabajo (o por lo menos una tabla de distribucin de frecuencias mas grande). El lector deber buscar la mejor relacin entre exactitud y eficiencia.

Propiedades de la media aritmtica Dada la importancia y el uso extendido que tiene la media aritmtica como indicador de tendencia central de comportamiento de las variables, es necesario estudiar algunas de sus propiedades mas importantes. 1La media aritmtica de una variable ms (o menos) una constante a es igual a la media aritmtica de la variable ms la constante; en trminos algebraicos:

2- La media aritmtica de una variable por una constante a, es igual a la media aritmtica de la variable multiplicada por la constante

Estas dos propiedades son de vital importancia porque en la prctica nos simplifican clculos y por supuesto ahorran tiempo; Retomando el ejemplo de las subvenciones, suponga que el Ministerio de Educacin decide aumentar 2 millones de pesos la subvencin de cada colegio; La nueva tabla de distribucin de frecuencias es la siguiente:

Al sumar dos millones de pesos a cada subvencin, evidentemente cambian los lmites de cada intervalo (aumentan dos unidades), y en consecuencia cada marca de clase tambin aumenta en dos unidades; Es fcil observar que la nueva media aritmtica (13,03millones) es exactamente igual a la antigua (11,03 millones), ms la contante (2 millones). El lector podr realizar el mismo experimento para demostrar la segunda propiedad de la media. Detengmonos un momento y observemos el nuevo que representa el comportamiento de la variable (su poligonal):
ni 7 6 5 4 3 2 1 0 hi 0,175 0,150 0,125 0,100 0,075 0,050 0,025 Xi
6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 15,5 16,5

grfico

La nueva poligonal a partir del aumento en dos millones es exactamente igual a la anterior, slo que est desplazada hacia la derecha. Esto sucede en el caso en que a cada valor de la variable se le sume una constante. En el caso de que la variable sea multiplicada por una constante se produce algo distinto, que analizaremos con mas detalle cuando estudiemos los estadgrafos de dispersin. Una tercera propiedad de la media surge como corolario de las dos anteriores 3- La media aritmtica de una constante a es exactamente igual a la misma constante 4- El promedio de las desviaciones (restas) de cada observacin con respecto a su media es igual a 0; Definamos la variable Z tal qu: z = Xi As, cada valor de esta nueva variable, no es ms que la resta o diferencia entre cada valor de la variable y su media aritmtica. Calculemos el promedio de las z, a partir de la antigua tabla de distribucin de frecuencias.

Con ello se comprueba la propiedad sealada. 4- La suma de los cuadrados de las desviaciones respecto a un origen de trabajo es mnima, si este es la media aritmtica. Analizaremos la importancia de esta propiedad en el futuro cuando estudiemos los estadgrafos de dispersin.

5- La media de una muestra es igual a la media ponderada de la media de las submuestras, cuyas ponderaciones son los tamaos de las submuestras, en lgebra:

=
En trminos generales(para ms de dos submuestras):

=
Para conocer el alcance de esta propiedad, veamos el siguiente ejemplo: El ao 99 egresaron dos A y B, el curso A se compone de 20 personas y egres con un promedio 5,2, el B tiene 10 alumnos y su promedio fue 4,7. El promedio de la promocin en su conjunto es:

Esta propiedad se utiliza frecuentemente en el manejo de datos; A continuacin daremos uso a algunas de las propiedades recin mencionadas, para explicar dos mtodos de clculo abreviados para el clculo de la media. Mtodos de clculo abreviado para la media aritmtica

1- Primer mtodo abreviado: Consiste en restar a todos los valores una cantidad constante, trabajar con el residuo, y posteriormente agregar la constante. Se trata de escoger un valor de la variable como origen de trabajo, restarlo de cada observacin calcular el promedio de estos residuos y posteriormente sumar el origen de trabajo al promedio.

En la frmula zi es una variable definida como cada observacin (o marca de clase) menos el valor escogido como orgen de trabajo. Debe tenerse presente que si utiliza como orgen de trabajo a la media

aritmtica, esta variable arrojar como promedio 0.; En el ejemplo de las subvenciones, utilicemos como orgen de trabajo el valor 10

11,03 millones es el mismo promedio calculado con anterioridad. Se puede utilizar como origen de trabajo cualquier valor de la variable (a excepcin de la misma media), y el resultado obtenido ser el mismo

2- Segundo mtodo abreviado: Si se trabaja con unta tabla de distribucin de frecuencias con intervalos de igual amplitud se puede expresar las desviaciones como mltiplos de la amplitud de los intervalos (c). Al igual que en el primer mtodo abreviado, se escoge un origen de trabajo y se calcula una nueva variable ui que corresponde al nmero de clases entre cada xi o marca de clase y el valor seleccionado como origen de trabajo, de la siguiente manera:

Y la media:

=
De esta forma la media es igual al origen de trabajo ms c por el promedio de la variable ui. Revisemos nuevamente el ejemplo de las subvenciones, utilizando como orgen de trabajo el valor 9,5

De nuevo hemos obtenido el mismo valor conocido. Lo mismo puede suceder si se utiliza cualquier otra marca de clase. Hasta ahora hemos estudiado la media aritmtica y sus propiedades, pero no necesariamente el promedio es el valor que mejor resume el comportamiento de la variable. Uno de los ejemplos mas notorios en tal sentido es el ingreso percpita. Este valor que sirve como referencia sobre la riqueza de un pas, se calcula dividiendo al producto interno bruto de un ao, por el nmero de habitantes del mismo. La idea es conocer una cantidad de dinero que sea representativa de lo que gana cada habitante de un pas. El ingreso percpita funciona bien en la medida en que la distribucin de ingresos sea homognea, lo que no se cumple bien en pases como Chile. En trminos generales la media aritmtica no resume bien a las distribuciones que tienen valores extremos de la variable que distorsionan su comportamiento. Para ello necesitamos conocer otro estadgrafo.

B) MEDIANA (Me) La mediana o valor mediano de un conjunto de datos corresponde a un valor de la variable que supera a lo sumo a la mitad de las observaciones y que a la vez es superada a lo sumo por la otra mitad, una vez ordenados los datos en forma creciente o decreciente. Por definicin, la mediana divide a la poblacin o muestra que se est investigando en dos partes iguales, con igual nmero de observaciones cada una.

Imaginemos por ejemplo que nos interesa conocer la mediana de las estaturas de 5 personas; Las estaturas son las siguientes expresadas en centmetros y ordenadas de menor a mayor. 150 154 160 166 168

Por definicin la mediana es aquel valor de la variable que supera como mximo a la mitad de las observaciones y que al mismo tiempo es superado por la mitad de las observaciones como mximo. La mitad de 5 (el total de observaciones) es 2,5. Comenzamos a contar de izquierda a derecha y el primer lugar que supere a 2,5 corresponder a la media. En este caso es el tercer valor, por lo tanto la mediana de estas observaciones es 160 centmetros. Este valor debe ser interpretado como sigue: la mitad de las personas mide menos de 160 cms. y la otra mitad mide mas. La situacin se complica levemente si trabajamos con un nmero par de observaciones. Suponga que se agrega una nueva persona a esta muestra de 5, esta distribucin presentara dos medianas (dos valores que son superados y superan como mximo a la mitad de las observaciones). La solucin para ello es calcular el promedio de los dos valores que cumplen con los requisitos de la mediana. El problema se complica un poco cuando se trata de datos tabulados. Es evidente que la mediana est contenida en uno de los intervalos de la tabla. Retomemos nuevamente el ejemplo de las subvenciones de los colegios. Esta vez ocuparemos la columna de frecuencias absolutas acumulados: ni Ni 1 1 5 6 3 9 4 13 5 18 7 25 5 30 7 37 3 40 ni = hi = 1 40 = n = 100% Lo primero que debe hacerse, al igual que con los datos no tabulados, es dividir la poblacin en dos. En el ejemplo la mitad de las observaciones es 20. El primer intervalo cuya frecuencia absoluta acumulada supera a la mitad de las observaciones es el intervalo donde est la mediana, o dicho de otra forma es el intervalo mediano. En la tabla el intervalo mediano es el que va de 11 a 11,99 millones. Para continuar el clculo utilizaremos la siguiente frmula: Xi67891011121314-

Me=
Esta frmula que parece compleja en la prctica es muy sencilla de utilizar. De hecho todos los datos que indica la frmula estn contenidos en la tabla de distribucin de frecuencias: xj-1 Lmite inferior del intervalo mediano cj Amplitud del intervalo mediano n Nmero de observaciones Nj-1 Frecuencia absoluta acumulada del intervalo anterior al intervalo mediano nj Frecuencia absoluta del intervalo mediano Despejando en la frmula:

Me= 11 + 1 *

= 11.2857 millones

La interpretacin de la mediana es la misma que para los datos no tabulados; en el ejemplo La mitad de los colegios reciben menos de 11,2857 millones y la otra mitad recibe ms de ello El lector podr preguntarse porque si se puede encontrar un valor de la variable que divida a la poblacin en dos partes iguales, no se puede tambin dividirse a la poblacin en 4, 5, 10 o infinitas partes de igual tamao cada una. Esta preguntara quedar completamente resuelta a continuacin.

Fractilas Fractilas es el nombre que reciben las divisiones de la poblacin en partes iguales. Las primeras fractilas que estudiaremos reciben el nombre de cuartilas. Tal como su nombre lo indican las cuartilas dividen a la poblacin en 4 partes iguales, cada una de las cuales poseen la cuarta parte de las observaciones o 25%; Si es necesario dividir a la poblacin en 4 partes iguales, es necesario hacer 3 cortes. Cada corte es una cuartila, a la que denominaremos en letras como Qi. Q1 es el primer corte que separa al 25% de las observaciones con menor valor de la variable del 75% mayor. Q2 por construccin es exactamente igual

que la mediana. Por ltimo Q3 separa al 25% mas alto del 25% restante, la siguiente figura representa lo aqu expresado.

Para el clculo de cada una de las cuartilas se utiliza la misma frmula que para la mediana, con algunas pequeas diferencias.

Para calcular la primera cuartla, es necesario identificar el intervalo en el cual se acumula el 25% de las observaciones, dividiendo el total de observaciones por cuatro. El Primer intervalo cuya frecuencia absoluta acumulada supere este valor, es el intervalo en donde se encuentra Q1. En el ejemplo la cuarta parte de las observaciones es 10, y el primer intervalo que supera este valor en su frecuencia absoluta acumulada es el cuarto que va de 9 a 9,99; lo dems es tan sencillo como el despeje en la frmula reemplazando los datos de la misma manera que se hace con la mediana. = 9.25 millones Este resultado debe interpretarse de la siguiente manera 9,25 millones es la subvencin recibida por el colegio que ms recibe del 25% de los colegios con menor subvencin. Q3 se calcula de manera anloga utilizando el intervalo cuya frecuencia absoluta acumulada supere las 30 observaciones (el 75% de 40). Eso ocurre en el intervalo que va de 13 a 13,99; reemplazando:

= 13 millones Q3 significa que13 millones es la subvencin recibida por el colegio que menos dinero recibe del 25% de los colegios que reciben mayor cantidad de recursos. Observe adems que Q3 coincide exactamente con el lmite inferior del intervalo; ello se produce debido a que la frecuencia acumulada anterior a la del intervalo donde est Q3 coincide con el 75% de las observaciones. De nuevo puede pensarse en que es posible dividir a la poblacin en todava ms partes iguales por ejemplo en cien partes. SI se hace eso cada una de las 100 partes recibe el nombre de percentila. Por definicin la percentila 50 corresponde exactamente a la mediana y al valor de la 2 cuartila. De la misma manera P25 (la percentila25), es igual a Q1 y P75 es igual a Q3. A manera de ejemplo calcules calculemos la percentila 35, P35.

En primer lugar se busca al intervalo cuya frecuencia absoluta acumulada supere al 35% de las observaciones (14). Esto ocurre en el intervalo que va desde 10 a 10,99. Observe que en la frmula lo nico que cambia en relacin con las cuartilas es el la fraccin (35*n)/100. De hecho es lo nico que cambia si se desea calcular cualquiera otra de las percentilas. Reemplazando:

= 102 Millones La interpretacin de este resultado es el colegio que mejor subvencin recibe del 35% de los colegios con pero subvencin tiene una subvencin de 10,02 millones. Antes de finalizar con el estudio de la mediana es necesario enunciar su defecto mas importante: Cuando una de las observaciones cambia de valor, no necesariamente eso modifica el valor de la mediana. De hecho slo la cambiara si es que la nueva observacin excediera el valor de la mediana original. De tal manera que existe una suerte de insensibilidad de la mediana a ciertos cambios en los valores de la variable

C) MODA (Mo) La mediana es el tercer estadgrafo de posicin que estudiaremos. Su determinacin es muy sencilla: La moda de un conjunto de observaciones es aquel valor de la variable que se repite mas veces. En otras palabras es el valor de la variable que tiene mayor frecuencia absoluta. Esto es sencillo de determinar en datos no tabulados. En datos tabulados en intervalos es necesario hacer una pequea observacin: la Moda es la marca de clase del intervalo con mayor frecuencia absoluta. En el ejemplo de las subvenciones existen dos intervalos con frecuencia mxima (7). En este caso se dice que la distribucin es Bimodal y las modas son 11,5 y 13,5. Evidentemente puede haber varias frecuencias mximas iguales en una misma tabla. Se dice entonces que esas distribuciones son multimodales. Por extensin tambin se puede hablar de los valores con menor frecuencia absoluta. Dichos valores (si es que hubiere mas de uno con frecuencia mnima) reciben el nombre de antimodas. Antes de pasar al siguiente estadgrafo de posicin, enunciaremos la siguiente propiedad en relacin con los tres estadsticos recin estudiados: Los valores de la media, mediana y moda sern exactamente iguales siempre y cuando se trate de una distribucin simtrica de una sola punta; en las distribuciones perfectamente simtricas con mas de una punta solo sern la media y la mediana; observe los siguientes grficos:

Ala izquierda hay una distribucin perfectamente simtrica de una sola punta. En ella la media la mediana y la moda son iguales. En cambio a la derecha hay una Distribucin perfectamente simtrica de tres puntas y por lo tanto tres modas (ambas con la misma frecuencia). pero la media y la mediana son exactamente iguales.

D) MEDIA GEOMETRICA (Mg) La media geomtrica es un estadgrafo de posicin que se utiliza para describir tendencias centrales en variables que tienen tasas de crecimiento relativamente constantes. Ello sucede con variables como la poblacin, el PIB, y muchos otros. Tambin se utiliza para conocer el valor medio de un conjunto de porcentajes mensuales, anuales, etc. La media geomtrica de un conjunto de n observaciones se define como la raz de ndice n del producto de las observaciones. es decir:

Utilicemos un pequeo ejemplo: La poblacin de Chile en 1982 era 12 millones y en 1992 totaliz 14,6 millones. Encuentre la poblacin media del perodo y la tasa anual de crecimiento. Para calcular la poblacin media del perodo utilizaremos la media geomtrica. Despejando en la frmula:

Observe que el valor obtenido es menor que el de el promedio (13,3 millones). En este caso la media geomtrica resume mucho mejor el comportamiento de la variable puesto que en la prctica la poblacin tiene un crecimiento a una tasa constante. Observe el siguiente grfico:

La media aritmtica se encuentra en el punto 82 y el 92. Ambas lneas comienzan y terminan donde mismo, pero si se pudiera realizar un censo diario durante esos diez aos, la resta resultante se asemejara mas una exponencial que a una recta. La tasa de crecimiento anual de la poblacin a la que en primera instancia definiremos como i, se calcula mediante la frmula:

Reemplazando

= 0,0198 Esta es en definitiva la tasa de crecimiento anual. El crecimiento total del perodo es de 21,67%, es el producto de crecimientos de 1,98% cada ao que en el fondo es una media geomtrica

1.6 ESTADIGRAFOS DE DISPERSION


No siempre todas las respuestas con respecto al comportamiento de una variable quedan resueltas por el slo hecho de determinar algunos de los estadgrafos de posicin que recin hemos estudiado. La verdad sea dicha, queda mucho trabajo aun para caracterizar adecuadamente a cualquier distribucin de frecuencias. Para seguir caracterizando adecuadamente al comportamiento de las variables, concentraremos nuestra atencin en la idea de la dispersin. La dispersin dice relacin con la concentracin (o desconcentracin) de los valores de la variable con respecto a un valor central. Acabamos de conocer varios indicadores de tendencia central de la variable. Cualquiera de los estadgrafos de posicin, puede ser utilizado para determinar la concentracin de las dems observaciones de la variable con respecto a l. En este texto cuantificaremos dispersiones 2 en relacin con la media aritmtica.

A) VARIANZA 2 Una idea que surge para cuantificar las dispersiones con respecto a la media es restar a cada valor de la variable la media aritmtica previamente calculada y posteriormente calcular un promedio de esas diferencias; Veamos un pequeo ejemplo: Las notas obtenidas en una prueba por un curso de 5 personas son las siguientes: 2 3 4 5 6

El promedio de notas es 4. Si restamos este valor de cada una de las notas obtenemos lo siguiente: -2 -1 0 1 2

La suma de estas diferencias es 0, lo cual es consistente con las propiedades de la media enunciadas cuando explicamos a este estadgrafo. Este problema se supera si elevamos los valores de la variable al cuadrado. As los nmeros negativos se vuelven positivos y obtenemos lo siguiente:

=2

Tenga presente que los estadgrafos que estudiaremos en este texto son slo una parte de los mltiples estadgrafos de dispersin susceptibles de ser calculados. Considere por ejemplo el promedio de las desviaciones con respecto a la Mediana. Este ltimo estadgrafo recibe el nombre de desviacin mediana.

Este valor, que no es ms que un promedio de desviaciones con respecto a la media elevadas al cuadrado, recibe el nombre de varianza, nuestro primer estadgrafo de dispersin. La frmula para el clculo de la varianza es la siguiente:

para datos no tabulados

para datos tabulados

Varianza: Es el promedio de las diferencias cuadrticas de cada valor de la variable y su respectiva media aritmtica. Si comparamos dos distribuciones en relacin con sus varianzas, diremos que la mas dispersa o desconcentrada es aquella cuya varianza es mayor. Analicemos en extenso la varianza a partir de otro ejemplo: Las siguientes tablas de distribucin de frecuencias representan los ingresos recibidos por persona en dos pueblos (expresados en miles de pesos), en cada uno de los cuales habitan 200 personas:
CIUDAD B xi-1-xi 0-99,9 100-199,9 200-299,9 300-399,9 400-499,9 500-599,9 600-699,9 700-800

CIUDAD A xi-1-xi 0-99,9 100-199,9 200-299,9 300-399,9 400-499,9 500-599,9 600-699,9 700-800

ni 15 25 42 48 30 20 13 7

ni 38 30 21 23 25 20 25 18

Calculemos entonces el promedio y la varianza de los ingresos para cada una de estas dos ciudades, comenzando con la ciudad A:
xi 99,9 199,9 299,9 399,9 499,9 599,9 699,9 800 xi-10100200300400500600700xi 50 150 250 350 450 550 650 750 ni 15 25 42 48 30 20 13 7 xi*ni 750 3750 1050 1680 1350 1100 8450 5250 xi-x -300 -200 -100 0 100 200 300 400
2

0 0 0 0

x) 0 0 0

0 0 0 00

(xi9000 x)2*ni 4000 000 1000 000 00 0 1000 4000 00 9000 00 1600 000 000

(xi1350 1000 4200 0 3000 8000 1170 1120

200 00

70.0 0.000

6.16

La media de los ingresos es:

Observe que las unidades de la varianza son pesos al cuadrado. Ello ocurre porque para su clculo es necesario elevar los valores de las diferencias al cuadrado. En general nadie esto es una dificultad ya que hablar de pesos al cuadrado no tiene ningn sentido prctico. La solucin es calcular la raz cuadrada de la varianza. Este valor calculado es el segundo estadgrafo de posicin que estudiaremos y se llama desviacin estndar.

A primera vista tanto la varianza como la desviacin estndar no tienen mucho sentido. Es necesario indicar que estos dos estadgrafos cobran relevancia a la hora de hacer comparaciones entre distribuciones distintas. Para ello evidentemente calcularemos el valor de la media, la varianza y la desviacin estndar de los ingresos en la ciudad B:

Observe en primer lugar que las medias son relativamente similares, puesto que la diferencia entre ambas ciudades es de slo de $8.500. Sin embargo, tanto la varianza y la desviacin estndar son mayores para la ciudad B. En definitiva el hecho de que la varianza y la desviacin estndar mayores para la ciudad B, indican que existe una mayor desconcentracin de los ingresos con respecto a la media en esta ciudad. Concluimos que la varianza (y la desviacin estndar evidentemente) sern mayores para aquellas distribuciones que presentan una mayor dispersin con respecto a su media. Expresado lo anterior, queda aun mas en evidencia (al menos por ahora) el hecho de que la varianza y la desviacin estndar se utilizan para comparar distribuciones. Consientes de lo anterior fijemos nuestra atencin en lo siguiente: A partir de la frmula de la varianza se pueden hacer una serie de simplificaciones, puesto que el trmino entre parntesis est elevado al cuadrado. Utilizando las propiedades del cuadrado de un binomio. En consecuencia se llega a la conclusin de que la varianza de una variable, es igual a un promedio de cuadrados, menos el cuadrado de la media. Comprobemos la frmula recin obtenida para la ciudad A:
xi 99,9 199,9 299,9 399,9 499,9 599,9 699,9 800 xi-10100200300400500600700xi 50 150 250 350 450 550 650 750 ni 15 25 42 48 30 20 13 7 200
2

0 0 00 00 00 00 00

x *n x i 2500 3750 2250 0 5625 6250 00 2625 000 1225 5880 2025 000 6075 3025 000 6050 000 4225 5492 5625 500 3937 500 30.6 60.000

Tal como predijimos el valor de la varianza obtenido por este mtodo es exactamente igual al obtenido anteriormente para la ciudad A.

B) Coeficiente de Variacin Si nuestro objetivo final es comparar distribuciones a partir de su variabilidad, es necesario describir la relacin existente entre la desviacin estndar y la media aritmtica de una distribucin. Para ello se utiliza el 3 estadgrafo de dispersin cuyo nombre es Coeficiente de Variacin (CV), o bien Coeficiente de Dispersin (CD). Su frmula es:

Observe nuevamente que el coeficiente de dispersin es mayor en aquella distribucin ms desconcentrada; Observe tambin que el coeficiente de dispersin no tiene unidades, por lo que es especialmente til para comparar distribuciones en que las variables estn expresadas en distintas unidades. Por ejemplo la variabilidad entre ingresos expresados en pesos e ingresos expresados en dlares. Con esto completamos la tarea de caracterizar una distribucin a partir de la dispersin de las observaciones con respecto a su media aritmtica. Pero la caracterizacin de una distribucin no termina ac.

MEDIDAS DE CONCENTRACION
Las medidas de concentracin son valores representativos, se trata de valores que generan una representacin de un conjunto de datos obtenidos en un determinado experimento. Las medidas de concentracin son las siguientes: Media Aritmtica

La media aritmtica de un conjunto de nmeros, x1, x2, x3 ,x4..xn se denota por la siguiente: de modo que la ecuacin para hallar la media aritmtica es

la media aritmtica es igual a la suma de todos sus valores entre la cantidad de valores n= a la cantidad de valores que se estn sumando si los nmeros estn organizados en una distribucin de frecuencias la media aritmtica seria la siguiente:

Donde la suma de las frecuencias es equivalente a la cantidad total de valores observados, Se puede usar cualquiera de las dos ecuaciones para hallar la media aritmtica Propiedades La Suma Algebraica de las Desviaciones de un conjunto de nmeros, respecto de su Media Aritmtica, es siempre igual a cero. La Mediana. Es un valor representativo y se lo puede determinar como el valor que se encuentra en el centro de una serie de valores, siendo estos ordenados en forma creciendo o decreciente. Si la cantidad que se analiza de los valores es par, la mediana ser el valor medio de los dos valores que se encuentra en el centro de esa serie de valores Ejemplo: 12, 25 , 34 , 55, 60, 75, 90, 95, 98, 100, 112 La cantidad de valores es =11, es impar de modo que la mediana es el numero del medio La mediana = 75 Si se analiza la distribucin de frecuencia la mediana se calcula de la siguiente forma:

Lm: Es el lmite verdadero de clase inferior de la Clase mediana. La Clase Mediana es aquel intervalo donde su frecuencia acumulada es Equivalente a la mitad de los valores observados.

n/2: La mitad de los datos observados. fl: Frecuencia acumulada por debajo de la Clase Mediana, tambin se podra decir que es igual a la suma de las frecuencias hasta el limite de fm. fm: Frecuencia de la Clase Mediana. c: La magnitud del intervalo de clase

La Moda La Moda es un conjunto de nmeros obtenidos en forma experimental, es aquel valor que ocurre con mayor frecuencia. Ejemplo: el valor mas frecuente de los siguientes nmeros es: 12, 25, 28, 28, 55, 60, 75, 90, 95 Moda = 28 La moda puede no existir o incluso no ser la nica en caso de existir. En una Distribucin de Frecuencias La Moda se determina de la siguiente forma:

Lm: Limite real inferior o limite verdadero de clase inferior de la Clase Modal. Clase Modal. Es aquel intervalo de clase que tiene Mayor Frecuencia. : : C: Es la diferencia de la frecuencia de la Clase Modal sobre la frecuencia de la clase Contigua Inferior. Es la diferencia de la frecuencia de la Clase Modal sobre la frecuencia de la clase Contigua Superior. Magnitud del Intervalo de clase

La Media Geomtrica La media Geomtrica se denota como G, de un conjunto de nmeros x1, x2, x3,.xn, es la raz ensima del producto de estos numero de modo que la ecuacin es la siguiente: Donde se simplifica:

Cuando la cantidad de valores que se esta analizando son muy grandes y los valores altos. Entonces se utiliza la propiedad de logaritmos de la siguiente manera:

Simplificando se llega a:

La Media Armnica La media armnica, lo denotamos como H de un conjunto de nmeros x1, x2, x3, xn, es la recproca de la Media Aritmtica de los reciproco de esos Nmeros. de modo que su ecuacin es la siguiente

Media Cuadrtica Es un conjunto de nmeros x1, x2 ,x3, x4, xn, la formula para hallar la Media Cuadrtica se halla de la siguiente forma

Cuartil Si a una serie de datos se colocasen en orden creciente de acuerdo a su magnitud, el valor medio que divide al conjunto de datos en dos partes iguales es la Mediana. De ese modo los valores que dividen a los datos son cuatro partes iguales, a estos valores se les denomina Cuartiles y se los escribe como Q1, Q2 y Q3.sus nombres son Primer Cuartil, Segundo Cuartil y Tercer Cuartil como se dijo al comienzo el segundo cuartil corresponde al valor de la mediana

Decil Para los deciles se utiliza el mismo principio de los valores que dividen a los datos observados en diez partes iguales de modo que se los denomina deciles y se los representa de la siguiente forma: D1, D2, D3,D4,D5,D6,D7,D8, D9. Como en el caso del Q2 corresponde al valor de la mediana el D5.

Percentil De la misma forma la cantidad de valores que dividen a este conjunto de datos son cien partes iguales y son representadas de la siguiente formar: P1, P2, P3, P4,P99. Como se mostr en el cuartil Q2 y en el decil D5, el percentil P50 corresponder al valor de la Mediana y los Percentiles P25, P75 corresponder al Q1 y Q3 respectivamente.

MEDIDAS DE DISPERSIN
Se trata de las medidas que nos permiten determinar el grado de variacin se tiene con los datos que se estn trabajando respecto a una medida referencial Desviacin Media Es el promedio de desviacin de cada valor respecto de la Media Aritmtica. Si se cuenta con una serie de valores como por ejemplo x1, x2, x3,xn, la desviacin de cada uno de los valores seria ,. de modo que el promedio de todas las desviaciones va a ser:,

Si se trabaja con una distribucin de frecuencias seria de la siguiente forma

Donde n es la suma de las frecuencias Desviacin Estndar

Se determina cuando se tiene un conjunto de nmeros por ejemplo: x1, x2, x3,xn, se denota por y se define como la Media Cuadrtica de las deviaciones de cada valor respecto a la Media Aritmtica:

Si se trabaja con una distribucin de frecuencias la ecuacin es de la siguiente forma:

Donde n seria la sumatoria de sus frecuencias. La Varianza Es el cuadrado de la Desviacin Estndar y se denota con para hallar la Varianza es la siguiente: , la ecuacin

Si se trabaja con una distribucin de frecuencias la ecuacin seria la siguiente:

Como se dijo anteriormente n seria la sumatoria de todas las frecuencias. Rango El rango es una medida de dispersin tomando en cuenta la diferencia del valor mximo con el valor mnimo

Rango SemiIntercuartilico Es la diferencia entre el tercer cuartil y el primero entre 2, la ecuacin es la siguiente

Rango SemiPersentil Es la desviacin entre el percentil 10 y el percentil 90 entre dos se podra hallar el Rango Semi Percentil con otros percentiles pero con el percentil 10 y 90 nos da una mayor aproximacin que con los otros su ecuacin es la siguiente

Se lo llama Rango de Percentiles. Coeficiente de variacin

Donde la desviacin absoluta es la desviacin estndar es la media

, y el promedio

, a la desviacin relativa se la denomina como coeficiente de

variacin y se lo denota por V su ecuacin es la siguiente: Pero se la expresa en forma de porcentaje de modo que la ecuacin seria la siguiente