- La distribución de frecuencias
- Las medidas de tendencia central (media, mediana, moda)
- Las medidas de variación o dispersión (desviación medía, relativa y estándar)
1. DISTRIBUCIÓN DE FRECUENCIA
Una distribución de frecuencias es una relación entre determinadas características de las
variables o las unidades de observación y las veces (frecuencia) que ella aparece, que puede
expresarse en forma de tablas o de gráficos. Es importante en la investigación porque, los datos
obtenidos, antes y después del procesamiento estadístico (tablas de entrada y de salida) se suele
representar de esta manera. El conteo y la tabulación, analizados en el capítulo anterior en
relación con la medición, es una forma típica que adopta la distribución de frecuencias.
Desde el punto de vista conceptual, cada clase está asociada a cada uno de los diferentes valores
que puede tomar la variable.
EJMEPLO:
- Distribución numérica
Ejemplo 1:
A. Número de personas con hábito de fumar, agrupadas por la cantidad de cigarrillos que
consumen diariamente.
Tamaño de la muestra = 120
Criterio de agrupación= cantidad de cigarrillos consumidos diariamente
Entre las cuestiones a resolver en una distribución numérica, las más importantes son:
- Determinar la cantidad de clases
- Definir el tamaño del intervalo de cada clase
Las marcas de clase son los puntos medios entre los límites de los intervalos y se calculan
corno el promedio de ellas. Por ejemplo:
Clases abiertas son aquellas en las que no están definidos los limites mayor o menor del
intervalo. Se utilizan cuando representan valores mucho mayores o menores que los del
resto de la distribución o cuando se quiere disminuir la cantidad de clases. Se expresa
en forma de: "más de", "menos de", "mayor qué" y "menor qué". Por ejemplo:
a. Evitar la utilización de intervalos en los que coincidan los extremos de cada clase. Por
ejemplo:
En este caso. se produce una ambigüedad para el tratamiento de los extremos que debe
ser resuelta por el investigador porque afectar, de alguna manera, la validez de los
resultados.
EJEMPLO:
En ocasiones, puede resultar de interés conocer cuantas frecuencias se han acumulado hasta
determinada categoría. En ese caso estamos en presencia de distribuciones acumulativas, que
pueden ser utilizadas para frecuencias absolutas o relativas. De los datos anteriores, resultaría
la siguiente distribución:
Representación gráfica
Una forma alterna de presentar las distribuciones numéricas en forma gráfica son los polígonos
de frecuencia. Estos se confeccionan mediante la anotación de las frecuencias de clase en los
puntos medíos del intervalo correspondiente, uniéndolos por medio de líneas rectas.
En la práctica, se acostumbra agregar dos clases, una en cada extremo, de manera que los
valores lleguen hasta el punto '0" del 'Y'; pero, en este ejemplo, prescindimos de esas
consideraciones.
Distribuciones categóricas
Distribuciones categóricas son aquellas en las cuales datos se agrupan en categorías, de acuerdo
con algún criterio cualitativo.
EJEMPLO 4:
Número de personas con hábito de fumar, agrupados por distrito de residencia. Tamaño de la
muestra = 120.
Para la confección de distribuciones categóricas deben considerarse entre otros, los siguientes
aspectos:
- La clasificación debe estar precedida de la definición conceptual de las clases, para que
no haya dudas en cuanto a la inclusión de cada dato.
- Deben evitarse ambigüedades. Las clases deben ser excluyentes, es decir, ningún
elemento puede ser clasificado dos veces.
- Cuando existan categorías difíciles de clasificar, o frecuencias poco significativas para
algunas clases, se puede simplificar la distribución mediante la inclusión de la categoría
“otros”.
La distribución gráfica más usual, para las distribuciones categóricas es el “pie” o “pastel”.
Las medidas de tendencia central se utilizan para representar, con un solo estadígrafo, las
características relevantes de la variable o la clase. Las medidas de tendencia central más
utilizadas en la estadística son la media, la mediana y la moda.
La media
n: Cantidad de observaciones
EJEMPLO:
Cuando en una distribución numérica, las clases están expresadas en forma de intervalo debe
calcularse la marca de clase para poder determinar la media, como veremos en el próximo
ejemplo.
Cuando se trabaja con datos agrupados, es usual que la frecuencia de cada clase sea diferente.
En ese caso el procedimiento de cálculo es diferente.
EJEMPLO:
En este caso:
La fórmula para el cálculo de datos agrupados, tal como se ha visto en el ejemplo anterior es la
siguiente:
X´ = Marca de clase
F = Frecuencia de clase
Lo que se ha hecho en este caso es asignarle a cada marca de clase una importancia relativa
diferente, en el cálculo, de acuerdo con su frecuencia. En algunos casos, al promedio calculado
según este procedimiento se le denomina Media Ponderada.
La Mediana
La mediana (M) es la medida de tendencia central que se utiliza para describir el centro o medio
de una distribución o de un grupo de datos. Ella constituye el valor del renglón central, o la
media de los dos renglones centrales, cuando los valores se colocan en orden ascendente o
descendente.
Por ejemplo:
15 50 30 75 10 5 90
Para calcular la mediana primeramente habría que ordenarlos, lo cual haremos de forma
ascendente:
5 10 15 30 50 75 90
En el ejemplo anterior:
Por ejemplo:
5 12 18 24 48 72 74 82 96 10 000
la mediana se ubicaría entre los puestos 5° y 6° de la serie ((10 + 1 )/2 = 5,5), es decir, entre 48
y 72, siendo la medía de ambos; y, por tanto, la mediana igual a 60.
La principal desventaja de la mediana radica en que requiere del ordenamiento previo de los
datos, lo cual, en distribuciones muy grandes, puede ser trabajoso; pero, si se está procesando
la información por medios automatizados, el inconveniente puede considerarse Irrelevante.
En comparación con la media, si bien tiene la ventaja de la no afectación de los valores extremos,
resulta, en cambio, menos representativa que la distribución y, por tanto, menos confiable.
Ejemplo:
Tres miembros de un jurado, en una competencia de salto de trampolín de nueve metros, deben
calificar a los competidores sobre la base de los resultados de tres intentos, en una escala de 1
a 10 puntos. Las calificaciones otorgadas al saltador "A", por cada miembro del jurado en cada
uno de los tres saltos y los estadígrafos resultantes fueron los siguientes:
Como se puede apreciar, si los jurados hubiesen calificado utilizando la media como medida de
tendencia central sus calificaciones hubiesen sido consistentes pues es 8 en los tres casos, en
cambio de haber utilizado la mediana los tres serían diferentes (8,7 y 9).
La Moda
La moda se define como el valor de mayor frecuencia en la distribución; es decir, aquel que más
veces aparece. Por ejemplo:
La distribución puede tener varias modas o no tener ninguna. Por ejemplo, dadas las siguientes
series:
a) 2 5 5 6 7 9 9 12
b) 2 4 6 11 21 50 75 2000
La primera tiene dos modas: 5 y 9, (es bimodal); mientras que la segunda no tiene moda;
carecería de sentido decir que todas son modas porque tienen la misma frecuencia.
Las principales ventajas de la moda consisten en que no requieren de ningún cálculo, más allá
del conteo. Además, puede ser usada para datos cualitativos. Su principal desventaja radica en
que no siempre existe y puede, por otro lado, no ser única.
3. Medidas de Variación
Tal como se ha planteado en el acápite anterior, las medidas de tendencia central constituyen
técnicas estadísticas que tienen un carácter generalizador. Representan en un solo dato a todo
un conjunto de valores. Sin embargo, hemos visto como todos ellos tienen diferentes ventajas
y desventajas, en relación con la función que se les atribuye. Estos problemas se derivan,
fundamentalmente, de las desviaciones (distancias) que muestran las observaciones
individuales, respecto a ellos. Por tanto, para determinar la validez de la generalización, debe
conocerse también la variabilidad de los datos que se han utilizado para su cálculo.
A los indicadores estadísticos utilizados para calcular la dispersión de los datos, en torno a las
medidas de tendencia central, se les denomina medidas de variación. Las más conocidas son: la
amplitud, la desviación media, la desviación y la desviación estándar. En la mayoría de los casos,
ellas pueden ser calculadas para cualquier medida de tendencia central, pero, lo más usual es
su utilización con respecto a la media.
La amplitud
La amplitud se define como la diferencia entre el valor más alto y más bajo de la serie.
Por ejemplo:
5 12 18 24 48 72 74 82 96 100
La principal ventaja de la amplitud radica en que es fácil de calcular. Su desventaja principal está
dada por la no consideración de todos los valores de la serie; siendo, por tanto, poco
representativa de la misma. Por otra parte, la amplitud se ve muy afectada por los valores
extremos. Por ejemplo, si se variase el límite superior de la serie anterior, cambiando 100 por
1000, la amplitud pasaría a ser 995, es decir un valor que no refleja las características de la
mayoría de los datos.
La desviación (D) media se define como el promedio de las variaciones de los valores individuales
con respecto a su media. Dado que las desviaciones son positivas para los valores mayores que
la media y negativas para los menores, y la suma de ambos coincide, resulta evidente que, de
acuerdo con la definición anterior, la desviación media siempre seria 0. Para evitar este
inconveniente se trabaja con los valores absolutos de las desviaciones. De acuerdo con estas
consideraciones, la formulación matemática de la desviación media seria la siguiente:
Por ejemplo: