Anda di halaman 1dari 15

Muestreo y Estadstica Descriptiva

(Apunte escrito por Osvaldo Ferreiro y Javiera Desormeaux)


I. Conceptos y Tcnicas de Muestreo

Para entender el trabajo de la Estadstica, es necesario entender su sentido y carcter.


Para algunos, la Estadstica es la ciencia que estudia la variabilidad, es decir, el cambio
entre los datos. Vivimos en un mundo lleno de variabilidad, donde las diferentes
medidas toman diferentes valores para diferentes personas y elementos. Dichas
personas y elementos son integrantes de Poblaciones o Muestras.
Todo estudio estadstico est finalmente referido a una Poblacin. Sin embargo, es
muy comn no poder obtener los valores de la poblacin completa (hacer un buen
censo), como desearamos, y nos tenemos que conformar con obtener una buena
muestra. Es importante aclarar, desde ya, que tener una buena muestra es mejor (en
realidad, mucho mejor) que tener un mal censo.
Como la gran mayora de los estudios estadsticos estn basados en muestras, es
necesario estudiar los mtodos o metodologas para la seleccin de muestras. Una vez
que sabemos cmo obtener buenas muestras, tenemos entonces los datos ya sea
provenientes de un censo o de una muestra. Necesitamos as, extraer y resumir la
informacin contenida en ellos. Esto es tarea de la Estadstica Descriptiva (tambin
llamada a veces Anlisis de datos).
Si hemos estado trabajando en base a un censo, al realizar los estudios de Estadstica
Descriptiva hemos terminado el estudio estadstico. Desgraciadamente es muy poco
habitual que podamos contar con un buen censo, sino solamente con los datos
correspondientes a una muestra (generalmente de menos de un 1% de la poblacin de
inters). En tales casos, es necesario aplicar tcnicas de la Inferencia Estadstica para
poder extender los resultados de la muestra a la poblacin. Desde ya es importante
sealar que pasar los resultados de la muestra directamente a la poblacin, prctica que
resulta muy habitual tanto en organizaciones, gobierno y especialmente en los medios
de comunicacin, es inapropiada y puede llevar a conclusiones errneas.
Muestreo
Antes de entrar en el estudio de las metodologas de muestreo, debemos conocer qu es
una POBLACION y una MUESTRA.
Definiciones:
-

Poblacin: conjunto de elementos sobre los cuales interesa obtener conclusiones


en un estudio
Muestra: subconjunto de elementos de la poblacin, el cual es realmente
observado

Habitualmente necesitamos tomar una muestra representativa de la poblacin bajo


estudio. Nos preguntamos en qu consiste dicha condicin. En una primera

verbalizacin del concepto diramos que una muestra representativa es aqulla que
contiene una parte de todos los elementos esenciales de la poblacin. No obstante, como
se puede apreciar, esta definicin no parece precisa. Una forma ms precisa para hablar
del tema es sealar que una muestra es representativa de la poblacin en estudio si logra
capturar (contener) la variabilidad en ella.
Lo ideal es que las muestras sean tomadas con participacin del azar (muestras
aleatorias). Las razones para ello son de dos tipos: las muestras posibles son
muchsimas ms de las que nos imaginamos (y por ello debemos ayudarnos del azar
para dar posibilidad a todas ellas), y los seres humanos siempre tenemos preferencias
que ejercemos incluso inconscientemente. Al ejercer nuestras preferencias, que en otras
ocasiones puede ser razonable y preferible, en el caso de la seleccin de una muestra
representativa resulta inconveniente pues ms bien nos conduce a la seleccin de una
muestra sesgada.
Metodologas de Muestreo
Es muy conveniente que el muestreo sea aleatorio, es decir, con participacin del azar.
A modo de ejemplo, los precios y rendimientos de las acciones de la bolsa varan al
azar, de igual manera que el comportamiento de los electrones, tomos y molculas es
aleatorio, es decir, no nos permiten predecir con certeza qu es lo que va a pasar, sino
que slo podemos determinar la probabilidad de que algo especfico ocurra.
En realidad, podemos distinguir dos tipos de azar: Azar Catico y Azar con
Regularidad. El primer caso corresponde a la situacin en que todas las posibilidades
pueden suceder con igual chance (ms adelante le llamaremos probabilidad) y, en
consecuencia, no hay ninguna forma cientfica de predecir el resultado a ocurrir pues no
existe resultado ms probable. En esta situacin, tampoco podemos aprender de
repeticiones pasadas del experimento o fenmeno aleatorio (con participacin del
azar).
Distinto es el caso cuando se trata de azar con regularidad. A diferencia de los juegos
de azar, que para que sean justos en su mayora corresponden a azar catico, las
situaciones de la vida ordinaria y profesional son, en una inmensa mayora,
correspondientes al segundo tipo mencionado. As, existen resultados de mayor chance
de aparicin que otros y hay base cientfica para realizar una prediccin, aunque por
tratarse de un fenmeno o experimento aleatorio, no puede estar excente de posibilidad
de error.
Para mayor explicacin, el azar catico se refiere a que no hay razn alguna para elegir
un resultado determinado, en otras palabras, slo se tienen preferencias o tincadas. Un
caso interesante es el llamado juego del LOTO que se juega en Chile, organizado por la
Polla Chilena de Beneficiencia. En dicho concurso, en su versin ms simple, el
participante necesita seleccionar 6 nmeros de entre los primeros 39 enteros positivos (1
a 39). Como aprenderemos a determinar ms adelante, existen 3.262.623 selecciones
posibles de seis nmeros. Cada una de ellas tienen la misma chance (probabilidad) de
ser seleccionada en el momento del sorteo. No obstante, la mayor parte de los
concursantes creen, equivocadamente, que las selecciones sin nmeros seguidos tiene
mayor chance de ganar. Este error proviene del hecho de que salen usualmente
selecciones sin nmeros repetidos pero ello se debe a que eswte tipo de combinaciones

son muchsimas ms (tambin aprenderemos a comprobarlo!). Los participantes suelen


escoger un cartn de nmeros separados; suponiendo que la apuesta fue acertada, el
premio se reparte habitualmente entre varios jugadores dado que muchos personas
apostaron por nmeros separados. En la prctica, maximiza la probabilidad de llevarse
un premio muy grande un concursante que apostara a una combinacin que no
excluyese nmeros consecutivos. En este juego, hay en realidad dos probabilidades
distintas actuando:
1. Probabilidad de que una determinada seleccin de seis nmeros resulta
efectivamnete ganadora. Esta probabilidad es la misma para todos las
selecciones posibles (1/3.262.623).
2. Probabilidad de ganar como nico ganador, en caso de acertar la combinacin
ganadora. Esta probabilidad es distinta, como hemos comentado previamente,
segn las opiniones (no cientficas) prevalecientes en el pblico.
La primera de estas dos probabilidades est asociada al concepto de azar catico; en
cambio, la segunda tiene claras componentes de azar con regularidad.
Tipos de Muestreo (Aleatorio)
Como hemos sealado previamente, es muy relevante que las muestras sean aleatorias o
al menos pseudo-aleatorias. Este ltimo caso corresponde a una situacin en que no hay
de nuestra parte un sorteo formal para seleccionarm los elementos de una muestra
aleatoria, pero se puede pensar, con bastante confianza, que la naturaleza provee de
una muestra aleatoria al materializar los elementos de la muestra. Un ejemplo de ello es
la utilizacin de los pacientes que sufren una determinada enfermedad y que han sido
internados o consultado en un hospital o clnica durante un perodo. Dicho conjunto de
pacientes puede ser visto como una muestra pseudo-aleatoria de la poblacin de
pacientes de la enfermedad y de caractersticas (socioeconmicas, tipo de alimentacin,
etc.) similares a los que llegan a dicho centro de atencin de salud. Es usual que este
ltimo tema pueda presentar una dificultad, pues existe la tentacin de considerar al
grupo como una muestra pseudo-aleatoria de la poblacin de pacientes del pas. En
dicho caso, no se est fallando tanto con la seleccin de la muestra, sino ms bien con la
identificacin de la poblacin a que est referida.
De acuerdo a lo sealado en el prrafo precedente, los cuatro tipos de muestreo que
veremos a continuacin, se denominan aleatorios y luego sus caractersticas
especficas.
1. Muestreo Aleatorio Simple (M.A.S)
El M.A.S ocurre cuando toda muestra posible de n elementos seleccionados de entre N
tiene igual chance de ser seleccionada. Esto implica que cada elemento de la poblacin
de N elementos tiene igual probabilidad de participar en la muestra seleccionada.
Grficamente, un Muestreo Aleatorio Simple se puede representar de la siguiente
manera: de una poblacin de tamao N se obtiene de forma aleatoria una muestra de
tamao n donde todos los elementos tienen la misma probabilidad de ser
seleccionados (1/N)

Considerando una
poblacin
de
tamao (finito) N
seleccin de una
muestra de tamao
considerando
como
muestras
distintas aqullas
difieran en al

y la
n, y

que
menos un elemento, se tiene:
El nmero de muestras en un M.A.S se define:
N
N!
=
n n!( N n)!

, donde K! = K*(K-1)*(K-2)**2*1

Ejemplo: Con N=6 y n=4


6!
= 15 muestras posibles
4!2!

2. Muestreo Aleatorio Estratificado (M.A.E)


El M.A.E ocurre cuando la poblacin se puede dividir en estratos. Los estratos son
grupos que se presumen ms homogneos que la poblacin en general, es decir, que
presentan una menor variabilidad, o son subgrupos de comportamientos muy diferentes.
El M.A.E viene de una M.A.S en cada estrato y se renen en la muestra total. Los
estratos se pueden formar en base a variables estratificadoras, tales como: gnero,
comuna, nivel educacional, nivel socioeconmico, etc.
Es muy habitual que el M.A.E sea proporcional: ocurre cuando cada estrato
representa en la muestra la misma proporcin que en la poblacin. Se busca que la
muestra sea representativa de la poblacin.
Tenemos una poblacin de N elementos, formada por K estratos, de tamaos
N1 , N 2 ,..., N k , respectivamente. En el M.A.E escogemos n elementos, con n1 , n2 ,..., nk
elementos de los repectivos estratos; entonces el nmero de muestras posibles es:

N1 N 2
Nk
n n ... n
1
2
k
Para el caso proporcional, el nmero de muestras posibles corresponde a:

n1
n
n
n
= 2 = ... = k =
N1 N 2
Nk N

Grficamente, un Muestreo Aleatorio Estratificado se representa de la siguiente manera:


se divide a una poblacin de tamao N en distintos estratos. Luego, en cada estrato se
selecciona una muestra de tamao n a travs de un muestreo aleatorio simple. Por
ejemplo, se divide a la poblacin segn el grupo socioeconmico y luego se seleccionan
hogares (muestra representativa) de cada grupo.

La figura muestra una poblacin formada por dos estratos, de los que se obtiene una
M.A.S de elementos de cada uno
Ejemplo: cuntas muestras posibles hay? Sern las mismos que en el caso del M.A.S?
Por qu?
Supongamos que en una poblacin de 175 personas, las mujeres (M) y los hombres (H)
pueden ser de estatura alta (A) o estatura baja (B). Podemos considerar 4 estratos: MA,
HA, MB y HB, con tamaos respectivos nmero de personas integrantes- 60, 70, 20,
25. Imaginemos una muestra aleatoria estratificada aproximadamente proporcionalde n=12 personas, con tamaos respectivos por estrato de 4, 5, 1 y 2 personas. La figura
ilustra la situacin:

MA
60
(4)

HA
70
(5)

MB
20
(1)

HB
25
(2)

60
70
N de formas de elegir 4 MA: ; N de formas de elegir 5 HA:
4
5
20
25
N de formas de elegir 1 MB: ; N de formas de elegir 2 HB:
1
2
60
N de formas de elegir la m.a.e.: .
4

20
.
1

70
.
5

25
= 3,5 1016
2

Las muestras de diferentes estratos son independientes y por ello los nmeros de
muestras correspondientes a estratos distintos se multiplican.
El nmero de muestras aleatorias estratificadas es distinto al nmero de muestras
aleatorias simples. Esto es porque en una primera instancia se definen los estratos y
luego se extrae una M.A.S de cada estrato; entonces por contruccin, el nmero de
muestras aleatorias estratificadas es ms pequeo que para el caso de las simples.

3. Muestreo Aleatorio Sistemtico


Para un Muestreo Aleatorio Sistemtico se debe tener un orden de los elementos de la
poblacin, como por ejemplo la edad.
Consideremos que la poblacin tenga N elementos y que se necesita escoger una
muestra aleatoria de tamao n. Se puede definir el paso del muestreo como:

N
k=
n
(Esto

es

la

parte

entera

del

cuociente

[5, 4 ] = 5;[12, 2 ] = 12;[3, 6 ] = 4; [7,1] = 8 )

N
,
n

ejemplos:

Definido el paso k, se sortea un valor entero l entre 1 y k. As, se observan los


valores de rdenes l, l+k, l+2k,, l+(n-1)k. De all el nombre de muestreo (aleatorio)
sistemtico.
Se puede tener k muestras sistemticas diferentes.
Ejemplo:
Para una poblacin de 30756 elementos y debiendo obtener una muestra aleatoria
estratificada de 250 elementos, tenemos

N 30576
k= =
= [122, 304 ] = 122 (paso)
n 250
Se obtienen 250 grupos de 122 elementos cada uno; seleccionaremos una ficha de cada
grupo, correspondiente al mismo orden dentro del grupo correspondiente. Ejemplo:
siempre seleccionamos la ficha N L en cada uno de los 122 grupos. El nmero L
debiera haber sido seleccionado al azar entre los enteros 1 y 122.
El paso de seleccin del muestreo aleatorio sistemtico se calcula como la divisin entre
el tamao de la poblacin y el tamao de la muestra, tomndose la parte entera del
resultado. Luego se hace un sorteo (que es aleatorio) y se elige un nmero para ser
observado en cada grupo. Ejemplo: seleccionamos el 36 en cada grupo de 122 fichas. Es
equivalente a observar las fichas de rdenes 36, 36+122, 36+122+122, etc. De all el
nombre de paso que recibe la constante k. Podemos seleccionar tambin 122 muestras
distintas.

4. Muestreo Aleatorio por Conglomerados.


En este caso se supone una poblacin dividida en grupos (que llamaremos
conglomerados), los que suponemos con la misma variabilidad que la poblacin en
general (usualmente a diferencia de los estratos). En este tipo de muestreo, se sortea un
determinado nmero de conglomerados, los que son observdos completos.
Siendo C el nmero de conglomerados en la poblacin y e el nmero de conglomerados
en la muestra, Cuntas muestras posibles podemos tener?

C
C!
=
e e!(c e)!

ESTADISTICA DESCRIPTIVA

Ahora ya tenemos observada una poblacin o una muestra (situacin muchsimo ms


habitual), habiendo observado una importante cantidad de datos y, por lo tanto, lo que
haremos es analizar los datos para entender la informacin que ellos portan.
En realidad, no nos interesan los datos en s mismos. Lo que nos interesa realmente es la
informacin contenida en ellos. Cmo podemos definir la informacin en los datos? Es
suficiente que nos hagamos la pregunta: Qu aprendemos de los datos? La respuesta a
esta pregunta ser la informacin que podremos utilizar en el anlisis.
Cuando uno tiene una poblacin y selecciona una muestra, se obtienen datos que
provienen de las variables observadas.
Definicin:
Variable: Medida que cambia, es decir, que puede tomar diferentes valores o
condiciones.
Podemos distinguir tres tipos de variables: Nominal, Ordinal e Intervalar. Estos tres
tipos de variables reflejan distintos tipos de informacin, en orden creciente de la
riqueza de la informacin que contienen.
Tomemos el caso de una encuesta donde usualmente hay diferentes tipos de variables y
niveles.
-

Variables de Tipo Nominal:


En este nivel, slo se pueden clasificar los datos en clases o categoras. Es el
nivel que tiene menor riqueza de informacin. Ejemplos: nombre, ciudad de
residencia, nacionalidad, lenguaje materno, gnero, raza, carrera que estudia,
estado civil, comuna donde vive, etc.

Variables de Tipo Ordinal:


En este nivel, adems de poder clasificar los datos de la poblacin o de la
muestra en clases o categoras, stas tienen un orden en relacin a la intensidad
de la variable. Ejemplos:

Preguntas con alternativas como: muy de acuerdo, neutral, en


desacuerdo;
Nivel de educacin formal con alternativas: ninguno, educacin bsica
incompleta, educacin bsica completa, educacin media incompleta,
educacin media completa, educacin superior incompleta y educacin
media completa;
Nivel socioeconmico.

En una variable ordinal podemos clasificar y ordenar, pero no podemos


cuantificar las diferencias entre valores.
-

Variables de Tipo Intervalar:


En este nivel, adems de clasificar y ordenar, podemos cuantificar las diferencias
de intensidad entre un elemento y otro (de la muestra o poblacin). Ejemplos de
variables intervalares: edad, peso, temperatura, calificacin en un curso, nmero
de hermanos, nmero de cuadras de distancia del domicilio a la universidad, etc.
Las variables intervalares pueden ser de dos tipos, de razn y no de razn:

o De razn: Cuando se pueden establecer cuocientes o razones entre sus


valores. Tiene un cero absoluto. Ejemplos: nmero de hijos, edad.
o No de razn: slo se puede establecer diferencias pero no razones, ya
que no hay un cero absoluto sino que relativo. Ejemplos: temperatura en
C, calificaciones en Chile (con nota mnimo 1,0)
Las variables intervalares pueden ser discretas y continuas:

o Discretas: pueden tomar slo valores aislados. Ejemplo: nmero de


hijos, calificaciones.
o Continuas: toman valores en intervalos. Ejemplo: peso, edad,
temperatura, tiempo en la espera.
Cuando tenemos datos de variables, podemos calcular las frecuencias y la distribucin
de frecuencias.
-

Frecuencia Absoluta de una Categora: nmero de elementos de la categora


Frecuencia Relativa de una Categora: nmero de elementos de la categora
dividido por el nmero total de elementos.

Representacin Grfica de la Distribucin de Frecuencias


-

Nivel Nominal: grfico de torta, grfico de barra (sin orden en las clases o
categoras, no existe jerarqua por estar antes o despus de alguna clase, es
arbitrario)

Nivel Ordinal: grfico de barra (en variables ordinales con orden el cual es
determinado por la variable. Ejemplo: el nivel educacional)

Nivel intervalar: Histograma.

HISTOGRAMA
El histograma es el clsico diagrama para representar la variabilidad en variables
intervalares. Considerando una variable X de tipo intervalar (de razn o no de razn), se
divide su recorrido efectivo en clases o subintervalos. Por ejemplo, si se tratase de la
Estatura (medida en mts.) en personas adultas, su recorrido efectivo podra considerarse
el intervalo [1.5 , 2.0]. En ese caso, podran tomarse las clases como los subintervalos:
[1.50 , 1.54) , [1.54 , 1.58) , [1.58 , 1.62) , [1.62 , 1.66) , [1.66 , 1.72) , [1.72 , 1.76) ,
[1.76 , 1.80) , [1.80 , 1.84) , [1.84 , 1.88) , [1.88 , 1.92) , [1.92 , 1.96) , [1.96 , 2.00]
Es decir, 12 subintervalos o clases. El nmero de clases no debe ser muy grande (por
ejemplo, mayor a 20), pues se pierde la visualizacin de la variabilidad en la
distribucin de frecuencias. El mismo fenmeno tiende a ocurrir en caso de que el
9

nmero de clase sea muy pequeo. De all que habitualmente se piense queel nmero de
clase debe ser entre 10 y 20. Tambin se puede tener que las primeras y/o ltimas clases
tengan muy poca frecuencia (por ejemplo, para la Estatura hay pocas personas de ms
de 1.90 mts.). En ese caso, se puede romper la igualdad de ancho de los subintervalos o
clases, quedando en total slo 11 de ellos, donde el ltimo ser [1.90 , 2.00].
Para cada subintervalo o clase se determina su frecuencia absoluta o nmero de
elementos en la clase; y tambin su frecuencia relativa o nmero de elementos en la
clase, dividido por el nmero total de elementos.
Se representa en el eje x la variable en estudio, con respecto a la cual se han definido
las clases, y en el eje y las frecuencias correspondientes o sus frecuencias relativas.
Sobre los intervalos de clase, se levantan rectngulos que representan las frecuencias
absolutas o relativas.
Mirando el histograma, se puede concluir el tipo de variacin que tiene la variable y si
hay indicios de valores extremos.

Ejemplo:
Se quiere analizar la efectividad que ha tenido una vacuna contra la influenza humana.
Aleatoriamente se obtienen 100 datos y los queremos organizar en un histograma con
10 barras, cada una con las efectividades A,B,C,D,E,F,G,H,I,J respectivamente. Las
efectividades estn medidas con una escala entre 0 y 1, donde el valor 0 se da cuando la
efectividad de la vacuna es nula y 1 cuando la vacuna es totalmente efectiva.
Las efectividades en cuestin son:
0,479
0,106
0,246
0,631
0,840
0,494
0,513
0,008
0,559
0,483

0,081
0,267
0,974
0,343
0,688
0,251
0,002
0,177
0,493
0,978

0,694
0,667
0,338
0,523
0,207
0,824
0,599
0,973
0,726
0,640

0,482
0,649
0,582
0,485
0,673
0,575
0,113
0,956
0,924
0,195

0,151
0,786
0,367
0,179
0,607
0,560
0,817
0,118
0,890
0,545

0,940
0,821
0,024
0,985
0,640
0,272
0,825
0,955
0,466
0,734

0,686
0,886
0,083
0,958
0,093
0,175
0,456
0,575
0,574
0,593

0,152
0,324
0,433
0,882
0,264
0,476
0,854
0,194
0,724
0,874

0,586
0,352
0,724
0,613
0,040
0,677
0,809
0,116
0,072
0,418

0,844
0,836
0,427
0,870
0,128
0,670
0,530
0,499
0,956
0,490

Para obtener el intervalo por efectividad (o clase), se debe calcular:


1) Mximo: 0,985
2) Mnimo: 0,002
3) Rango(Mximo-Mnimo): 0,983
4) Ancho de clase(Rango/5 clases): 0,098
As, los intervalos para cada clase son:

10

Efectividad
A
B
C
D
E
F
G
H
I
J

Intervalo
0,891-0,985
0,792-0,890
0,693-0,791
0,594-0,692
0,495-0,593
0,396-0,494
0,297-0,395
0,198-0,296
0,099-0,197
0-0,098

Una vez calculadas las frecuencias para cada clase se obtiene el siguiente histograma:
Histograma

Frecuencia

80
60
40
20
0
A

Efectividad

A modo de ejemplo, la clase D tiene una frecuencia de 70, es decir, hay 70 efectividades
con valores entre 0,594 y 0,692.

Medidas de Localizacin
Las medidas de localizacin dividen a la poblacin o muestra de manera proporcional y
nos informan sobre su distribucin.
Estas medidas puede ser de tipo central (media, moda y mediana) o de tipo no central
(cuartiles, deciles y percentiles).
Para las siguientes definiciones, suponemos n datos (poblacin o muestra), ordenados
de menor a mayor segn la intensidad de la caracterstica de inters. Los datos
originales los denotaremos como X1, X2, , Xn y los datos ordenados como X(1), X(2),
, X(n). Llamamos X(j) al dato de orden j.
Para determinar el cuantil n de orden q (0 q 1) para n datos, con r = q n , se
procede como sigue:
(1) Si r es decimal, entonces la medida de localizacin es el valor de orden siguiente a r,
es decir, X([r = qn ]+1) .

11

(2) Si r es entero, entonces la medida de localizacin es el promedio de los valores de


X(r = qn) + X(r +1)
rdenes (r) y (r+1):
2

As, podemos definir el cuantil de orden q, como:

Cuantiles: el cuantil de orden q es el valor que acumula hasta l una frecuencia


relativa acumulada equivalente a q (0 q 1) .
Cuartiles: Son los valores que dividen a la poblacin o muestra en cuartos. Son 3
valores que distribuyen los datos, ondenados de forma creciente, en tramos de igual
nmero de ellos , en los que cada uno concentra el 25% de los resultados. Por ejemplo,
el segundo cuartil corresponde al valor con 50% acumulado.
Deciles: Son los valores que dividen a la poblacin o muestra en dcimos. Son 9
valores que distribuyen los datos, odenados de forma creciente, en diez tramos de igual
tamao, en los que cada uno de ellos concentra el 10% de los resultados (q es mltiplo
de 0,1 para los deciles). Por ejemplo, el cuarto decil deja un 60% sobre l y un 40% de
los datos bajo l.
Percentiles: Son los valores que dividen a la poblacin o muestra en centsimos. Son
99 valores que distribuyen los datos, ordenados de forma creciente o decreciete, en cien
tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados (q es
mltiplo de 0,01para los percentiles). Por ejemplo: el percentil 32 deja 32% debajo de l
y 68% sobre l;
Mediana: La Mediana es el valor que divide a la poblacin o muestra en mitades. Por
ello, corresponde al segundo cuartil, al quinto decil y al cincuentavo percentil.
Ejemplo:
Supongamos que hay 430 datos que se quieren estudiar, por lo tanto n=430. Para
calcular el decil tres, se tiene que q=0,3 por lo tanto r = q n = 0, 3 430 = 129 . Dado
X(129) + X(130)
.
que 129 es un nmero entero, el valor del decil tres es D3 =
2
Para el cuartil dos el procedimiento es el mismo pero ahora q=0,4 por lo tanto
r = q n = 0, 4 430 = 172 . Dado que 172 es un nmero entero, el valor del cuartil dos
X(172) + X(173)
es Q2 =
2
Para el caso del tercer cuartil, q=0,75 por lo tanto r = q n = 0, 75 430 = 322, 5 . Dado
que 322,5 es un nmero impar, entonces el valor del cuartil tres es Q3 = X (323) . Ahora si
el nmero de datos aumenta a 432, entonces r = q n = 0, 75 432 = 324 . Dado que 324
X(324 ) + X(325)
es un numero entero, el valor del nuevo cuartil tres es Q3` =
2

12

Medidas de Tendencia Central


Como su nombre lo sugiere, las medidas de tendencia central tiene como principal objetivo
resumir en un valor que intenta ser representativo, el comportamiento principal o central de la
variable en estudio, reflejado en los datos existentes, sean provenientes de una poblacin o
muestra.
Las principales medidas de tendencia central que estudiaremos son la Media (Promedio),
Mediana y Moda.
Haciendo el anlisis por nivel de medicin, en orden creciente de calidad de informacin. Es
importante sealar desde ya que a medida que se sube de nivel de informacin, las medidas que
se pueden utilizar en niveles inferiores pueden siempre utilizarse en niveles superiores.

Nivel Nominal:
En el nivel Nominal, como solamente podemos clasificar los datos en clases o categoras, slo
podemos utilizar la moda o clase modal como medida de tendencia central.
Moda o Clase Modal: Valor que ms se repite en la muestra o poblacin. Se habla de Moda
Muestral y de Moda Poblacional.
Toda muestra y poblacin puede tener ms de una moda si dos o ms valores diferentes se
repiten igual nmero de veces.

Nivel Ordinal:
Adems de la posibilidad de utilizar la moda o clase modal, podemosusar la Mediana como
medida de tendencia central. Como ya sabemos, la Mediana es el valor que divide a la
poblacinn o muestra en mitades, segn la intensidad de la variable en estudio.

Nivel Intervalar:
En el nivel intervalar, tanto en los casos de razn o no de razn, podemos agregar la Media
(para poblaciones) y el Promedio (para muestras). Para ambos la definicin es equivalente,
siendo la suma de los datos dividida por el total de datos.

Xi
i =1

: Media (Poblacional). Se denota habitualmente mediante la letra griega .

X=

Xi
i =1

: Promedio (Muestral).

La media y el promedio (segn se trate de una poblacin o muestra) son buenos parmetros o

13

medidas de tendencia central, excepto cuando la poblacin o muestra presenta datos extremos
(muy grandes o muy pequeos). Los datos extremos influyen fuertemente en el vaor que toman
la Media y el Promedio, hacindolos poco representativos del comportamiento en general.
Por ejemplo, si para un grupo de seis alumnos de un curso las calificaciones en una actividad
fuesen:
3.7 , 3.0 , 3.6 , 3.4 , 3.8, 6.9
Su media o promedio sera 4.07 4.1 (aproximndolo a un decimal). Como en Chile
usualmente la calificacin que define la aprobacin de una actividad acadmica es 4.0, dicho
valor hara pensar en la aprobacin del grupo de alumnos; sin embargo, slo uno de los seis
alumnos ha aprobado la actividad. Esta distorsin se produce por la existencia del valor 6.9,
que es un valor extremo para estos datos.

Medidas de dispersin o variabilidad


El objetivo de estas medidas de dispersin es medir la variabilidad de un conjunto de
datos. Esto es posible hacerlo para los tres niveles de medicin: nominal, ordinal e
intervalar.

Nivel Nominal:
Podemos definir la tasa de variacin como v=1-fm, donde fm es la frecuencia relativa
modal. Si la moda incluyese el 40% de las observaciones, entonces fm=0,4 y v=0,6.
Significara que el 60% de los datos estn fuera de la clase modal.
La tasa de variacin muestra la proporcin de elementos fuera de la clase modal. Si la tasa de
variacin es ms grande, entonces hay una mayor variabilidad con respecto a la clase modal.
Entre qu valores puede encontrarse v? Dejamos al lector determnar que si por ejemplo, la
muestra tiene n datos, v puede tomar los valores ((n-1)/n), ((n-2)/n), , (1/n), 0.0 . Por qu
no puede tomar el valor 1.0?

Nivel Ordinal:
Unamedida de variabilidad que podemos usar aqu es el rango. El rango es la diferencia entre
el mximo valor y el mnimo valor de la muestra o poblacin. Tiene el problema que es muy
afectado por valores extremos, perdiendo a veces su capacidad de explicacin.
Una alternativa interesante est dada por los rangos restringidos. El rango intercuartil es la
diferencia entre el tercer y el primer cuartil (Q3-Q1) y el rango interdecil es el intervalo entre
el noveno y el primer decil (D9-D1). Estos rangos restringidos evitan el efecto de los valores
extremos.

14

disperso

concentrado

Q1

mediana

Q3

Nivel Intervalar:
En este nivel, las medidas de dispersin se calculan con respecto a la media y al
promedio segn se trate de una poblacin o de una muestra. Supongamos que se tiene
una poblacin de tamao N con
N

Media:

=
i =1

Xi
,
N

2 =

Varianza (poblacional):

1
N

( Xi ) 2 =
i =1

1
N

X
i =1

2
i

2 .

Si se selecciona una muestra de tamao n, su promedio y su varianza muestral sern los


estimadores o aproximadores de sus valores correspondientes de la poblacin:
n

Promedio (muestral):

=
i =1

Xi
n

y
Varianza muestral:

S2 =

2
1 n
1 n 2
n
( Xi X ) 2 =
Xi
X

n 1 i =1
n 1 i =1
n 1

El valor de la varianza estrictamente slo tiene interpretacin comparativa. Cuando una


variable slo toma valores mayores o iguales a cero, es til definir el coeficiente de
variacin:
- CV =

 Porcentaje de la media que representa la desviacin estndar.

- CV =

S
 cun importante es la variabilidad en relacin al promedio.
X

15

Anda mungkin juga menyukai