Anda di halaman 1dari 14

CAPÍTULO I: TÉCNICAS DE LA ESTADÍSTICA DESCRIPTIVA

En cualquier investigación que tenga algún nivel de análisis cuantitativo, el procesamiento de


los datos comienza con las técnicas que permiten describir y poner de manifiesto las principales
características de las variables, tomadas individualmente. Entre estas técnicas destacan:

- La distribución de frecuencias
- Las medidas de tendencia central (media, mediana, moda)
- Las medidas de variación o dispersión (desviación medía, relativa y estándar)

1. DISTRIBUCIÓN DE FRECUENCIA
Una distribución de frecuencias es una relación entre determinadas características de las
variables o las unidades de observación y las veces (frecuencia) que ella aparece, que puede
expresarse en forma de tablas o de gráficos. Es importante en la investigación porque, los datos
obtenidos, antes y después del procesamiento estadístico (tablas de entrada y de salida) se suele
representar de esta manera. El conteo y la tabulación, analizados en el capítulo anterior en
relación con la medición, es una forma típica que adopta la distribución de frecuencias.

Para la confección de una distribución de frecuencias debe determinarse:

- Tipo de clases en que se agruparán los datos.


- Cantidad de clases.
- Asignar los datos a cada clase y contarlos.

Desde el punto de vista conceptual, cada clase está asociada a cada uno de los diferentes valores
que puede tomar la variable.

EJMEPLO:

Pregunta de una encuesta para evaluar la calidad de la atención en el Hospital Municipal.

Total de Encuestados = 100

Distribución de Frecuencias resultante sobre la base de los datos anteriores:


Tipos de distribuciones de frecuencias

En estadística se distinguen dos tipos principales de distribuciones: numéricas y categóricas.

- Distribución numérica

Distribución numérica es aquella en la que el criterio de agrupación es una magnitud numérica.

Ejemplo 1:

A. Número de personas con hábito de fumar, agrupadas por la cantidad de cigarrillos que
consumen diariamente.
Tamaño de la muestra = 120
Criterio de agrupación= cantidad de cigarrillos consumidos diariamente

Entre las cuestiones a resolver en una distribución numérica, las más importantes son:
- Determinar la cantidad de clases
- Definir el tamaño del intervalo de cada clase

La cantidad de clases está determinada por los Objetivos de la investigación y por la


consideración de aquellos elementos de las variables que se pretende describir. Si estos
factores son indiferentes, la elección es arbitraria. Freund (1988) plantea que: "Para
enunciar una regla general pudiéramos decir que son pocas las ocasiones que requieren
el uso de menos de 6 clases o más de quince, pero se debe entender que esto es
solamente "lo correcto basado en la experiencia".
Se denomina tamaño del intervalo, a la distancia entre sus extremos, Por ejemplo:
El tamaño del intervalo, en ambos casos, es igual a 4.
Cuando en una distribución el tamaño de todos los intervalos es igual, estarnos en
presencia de intervalos iguales.
Para definir el tamaño del intervalo (tamaño de un Intervalo de clase o intervalo de
clase), debernos considerar que las operaciones matemáticas pueden realizarse con
mayor facilidad y confiabilidad con intervalos de igual tamaño; por lo que, en la medida
de lo posible, debe utilizarse esa alternativa; sin embargo, también puede trabajarse
con intervalos desiguales, sólo que se requiere mayor número de operaciones.

Las marcas de clase son los puntos medios entre los límites de los intervalos y se calculan
corno el promedio de ellas. Por ejemplo:

Clases abiertas son aquellas en las que no están definidos los limites mayor o menor del
intervalo. Se utilizan cuando representan valores mucho mayores o menores que los del
resto de la distribución o cuando se quiere disminuir la cantidad de clases. Se expresa
en forma de: "más de", "menos de", "mayor qué" y "menor qué". Por ejemplo:

Otras reglas importantes:

a. Evitar la utilización de intervalos en los que coincidan los extremos de cada clase. Por
ejemplo:

En este caso. se produce una ambigüedad para el tratamiento de los extremos que debe
ser resuelta por el investigador porque afectar, de alguna manera, la validez de los
resultados.

b. Asegurar que todos los datos puedan ser incluidos en la distribución.


En el Ejemplo 1 habría que definir, por ejemplo, las reglas de aproximación para los
encuestados que fuman: 5.5 cigarrillos, 10.5, etc. Es decir, hay que definir las reglas de
inclusión de las observaciones, que pueden estar entre los extremos, mayor y menor,
de dos intervalos sucesivos.
Una distribución numérica se puede expresar en porcentajes y, en ese caso, se
denominan distribuciones porcentuales.

EJEMPLO:

En ocasiones, puede resultar de interés conocer cuantas frecuencias se han acumulado hasta
determinada categoría. En ese caso estamos en presencia de distribuciones acumulativas, que
pueden ser utilizadas para frecuencias absolutas o relativas. De los datos anteriores, resultaría
la siguiente distribución:

En este caso la interpretación de los datos se realizaría de la siguiente manera: 12,50% de la


población fuma entre 1 y 10 cigarrillos; 83.34% de la población fuma entre 1 y 25 cigarrillos; etc.

Representación gráfica

Si el objetivo de la distribución es describir el comportamiento del objeto, de manera que


condense la información, pueden utilizarse representaciones gráficas, las cuales deben
transmitir el mensaje, en ocasiones, de forma más rápida y comprensible.
La representación gráfica más utilizada, para las distribuciones numéricas, es el histograma. En
este gráfico, las clases se sitúan en el eje horizontal y las frecuencias en el eje vertical. La figura
resultante es un rectángulo, cuya base está dada por los intervalos de clase y, su altura, por las
frecuencias. Los histogramas no son recomendables para clases abiertas. Si nos encontramos en
presencia de clases de este tipo es preferible transformarlas a cerradas, según el criterio del
investigador. En el caso de que los intervalos no sean iguales, pueden obtenerse ideas
equivocadas del fenómeno, pues, el área de los rectángulos es desigual y, aunque esta magnitud
no tiene representatividad estadística, para este caso, la percepción visual puede ocasionar
interpretaciones falsas. Es por este, entre otros motivos, que debe tratarse de trabajar,
preferiblemente, con intervalos iguales.

Una forma alterna de presentar las distribuciones numéricas en forma gráfica son los polígonos
de frecuencia. Estos se confeccionan mediante la anotación de las frecuencias de clase en los
puntos medíos del intervalo correspondiente, uniéndolos por medio de líneas rectas.
En la práctica, se acostumbra agregar dos clases, una en cada extremo, de manera que los
valores lleguen hasta el punto '0" del 'Y'; pero, en este ejemplo, prescindimos de esas
consideraciones.

Distribuciones categóricas

Distribuciones categóricas son aquellas en las cuales datos se agrupan en categorías, de acuerdo
con algún criterio cualitativo.

EJEMPLO 4:

Número de personas con hábito de fumar, agrupados por distrito de residencia. Tamaño de la
muestra = 120.
Para la confección de distribuciones categóricas deben considerarse entre otros, los siguientes
aspectos:

- La clasificación debe estar precedida de la definición conceptual de las clases, para que
no haya dudas en cuanto a la inclusión de cada dato.
- Deben evitarse ambigüedades. Las clases deben ser excluyentes, es decir, ningún
elemento puede ser clasificado dos veces.
- Cuando existan categorías difíciles de clasificar, o frecuencias poco significativas para
algunas clases, se puede simplificar la distribución mediante la inclusión de la categoría
“otros”.

La distribución gráfica más usual, para las distribuciones categóricas es el “pie” o “pastel”.

2. MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central se utilizan para representar, con un solo estadígrafo, las
características relevantes de la variable o la clase. Las medidas de tendencia central más
utilizadas en la estadística son la media, la mediana y la moda.

La media

Se representa mediante el símbolo “X”. Se calcula mediante la siguiente expresión:


Donde:

x: Valor de las observaciones individuales

n: Cantidad de observaciones

EJEMPLO:

Cálculo de la edad promedio de los miembros de un grupo.

Edad promedio = (25+30+35+20+20) /5 = 26 años es la edad promedio del grupo.

Entre las principales características de la media, vale destacar:

- Es fácil de entender su significado.


- Es fácil de calcular.
- Siempre existe.
- Toma en cuenta todos los valores individuales.

Cuando en una distribución numérica, las clases están expresadas en forma de intervalo debe
calcularse la marca de clase para poder determinar la media, como veremos en el próximo
ejemplo.

Cuando se trabaja con datos agrupados, es usual que la frecuencia de cada clase sea diferente.
En ese caso el procedimiento de cálculo es diferente.

EJEMPLO:
En este caso:

X = 20.7 cigarrillos consume como promedio la población encuestada.

La fórmula para el cálculo de datos agrupados, tal como se ha visto en el ejemplo anterior es la
siguiente:

X = Media para datos agrupados

X´ = Marca de clase

F = Frecuencia de clase

Lo que se ha hecho en este caso es asignarle a cada marca de clase una importancia relativa
diferente, en el cálculo, de acuerdo con su frecuencia. En algunos casos, al promedio calculado
según este procedimiento se le denomina Media Ponderada.

La Mediana

La mediana (M) es la medida de tendencia central que se utiliza para describir el centro o medio
de una distribución o de un grupo de datos. Ella constituye el valor del renglón central, o la
media de los dos renglones centrales, cuando los valores se colocan en orden ascendente o
descendente.
Por ejemplo:

Dados los siguientes valores:

15 50 30 75 10 5 90

Para calcular la mediana primeramente habría que ordenarlos, lo cual haremos de forma
ascendente:

5 10 15 30 50 75 90

Dado que hay 7 valores el 42 serla la mediana, en este caso 30.

El número de orden que ocupa la mediana en la distribución se calcula mediante la siguiente


fórmula:

En el ejemplo anterior:

la mediana se ubica en el 4º lugar de la serie.

Si la cantidad de valores (n) es impar, como en el caso planteado, entonces la mediana es un


valor real de la distribución; sí n es par entonces se define como la medía de los dos valores
centrales y, por tanto, no es un valor real de la distribución.

Por ejemplo:

Dada la siguiente serie de valores:

5 12 18 24 48 72 74 82 96 10 000

la mediana se ubicaría entre los puestos 5° y 6° de la serie ((10 + 1 )/2 = 5,5), es decir, entre 48
y 72, siendo la medía de ambos; y, por tanto, la mediana igual a 60.

Entre las principales ventajas de la mediana podemos mencionar:

- Siempre existe y puede calcularse para cualquier conjunto de datos numéricos.


- Es fácil de calcular.
- Es única.
- No es afectada fácilmente por los valores extremos, En el ejemplo anterior, podemos
observar, que resulta indiferente que el dato mayor sea muy superior a los restantes,
pues no la afecta. La media en cambio sería igual a 1043, es decir, un valor muy por
encima de la mayoría de las observaciones, que es el resultado de la influencia exclusiva
de uno de los extremos.
- Puede ser calculada, incluso en distribuciones con clases de intervalos abiertos (a no ser
que la mediana caiga precisamente dentro de ese intervalo).

La principal desventaja de la mediana radica en que requiere del ordenamiento previo de los
datos, lo cual, en distribuciones muy grandes, puede ser trabajoso; pero, si se está procesando
la información por medios automatizados, el inconveniente puede considerarse Irrelevante.

En comparación con la media, si bien tiene la ventaja de la no afectación de los valores extremos,
resulta, en cambio, menos representativa que la distribución y, por tanto, menos confiable.

Ejemplo:

Tres miembros de un jurado, en una competencia de salto de trampolín de nueve metros, deben
calificar a los competidores sobre la base de los resultados de tres intentos, en una escala de 1
a 10 puntos. Las calificaciones otorgadas al saltador "A", por cada miembro del jurado en cada
uno de los tres saltos y los estadígrafos resultantes fueron los siguientes:

Como se puede apreciar, si los jurados hubiesen calificado utilizando la media como medida de
tendencia central sus calificaciones hubiesen sido consistentes pues es 8 en los tres casos, en
cambio de haber utilizado la mediana los tres serían diferentes (8,7 y 9).

La Moda

La moda se define como el valor de mayor frecuencia en la distribución; es decir, aquel que más
veces aparece. Por ejemplo:

En la serie 2 2 2 4 6 7 7, la moda seria 2, pues aparece


tres veces; el resto aparece sólo una vez.

La distribución puede tener varias modas o no tener ninguna. Por ejemplo, dadas las siguientes
series:

a) 2 5 5 6 7 9 9 12

b) 2 4 6 11 21 50 75 2000

La primera tiene dos modas: 5 y 9, (es bimodal); mientras que la segunda no tiene moda;
carecería de sentido decir que todas son modas porque tienen la misma frecuencia.

Las principales ventajas de la moda consisten en que no requieren de ningún cálculo, más allá
del conteo. Además, puede ser usada para datos cualitativos. Su principal desventaja radica en
que no siempre existe y puede, por otro lado, no ser única.
3. Medidas de Variación

Tal como se ha planteado en el acápite anterior, las medidas de tendencia central constituyen
técnicas estadísticas que tienen un carácter generalizador. Representan en un solo dato a todo
un conjunto de valores. Sin embargo, hemos visto como todos ellos tienen diferentes ventajas
y desventajas, en relación con la función que se les atribuye. Estos problemas se derivan,
fundamentalmente, de las desviaciones (distancias) que muestran las observaciones
individuales, respecto a ellos. Por tanto, para determinar la validez de la generalización, debe
conocerse también la variabilidad de los datos que se han utilizado para su cálculo.

A los indicadores estadísticos utilizados para calcular la dispersión de los datos, en torno a las
medidas de tendencia central, se les denomina medidas de variación. Las más conocidas son: la
amplitud, la desviación media, la desviación y la desviación estándar. En la mayoría de los casos,
ellas pueden ser calculadas para cualquier medida de tendencia central, pero, lo más usual es
su utilización con respecto a la media.

La amplitud

La amplitud se define como la diferencia entre el valor más alto y más bajo de la serie.

Por ejemplo:

Dada la siguiente serie de valores:

5 12 18 24 48 72 74 82 96 100

la amplitud sería: 100 - 5 = 95

La principal ventaja de la amplitud radica en que es fácil de calcular. Su desventaja principal está
dada por la no consideración de todos los valores de la serie; siendo, por tanto, poco
representativa de la misma. Por otra parte, la amplitud se ve muy afectada por los valores
extremos. Por ejemplo, si se variase el límite superior de la serie anterior, cambiando 100 por
1000, la amplitud pasaría a ser 995, es decir un valor que no refleja las características de la
mayoría de los datos.

La desviación promedio o desviación media

La desviación (D) media se define como el promedio de las variaciones de los valores individuales
con respecto a su media. Dado que las desviaciones son positivas para los valores mayores que
la media y negativas para los menores, y la suma de ambos coincide, resulta evidente que, de
acuerdo con la definición anterior, la desviación media siempre seria 0. Para evitar este
inconveniente se trabaja con los valores absolutos de las desviaciones. De acuerdo con estas
consideraciones, la formulación matemática de la desviación media seria la siguiente:
Por ejemplo:

La desviación relativa (D,) es la expresión de la desviación aritmética, en porcentaje, con


respecto a la media. En el ejemplo anterior, sería igual a 2.75/15 (%), es decir, 18%. Este valor
significa que las observaciones individuales varían, como promedio, en un 18%, con respecto a
la media.

La desviación promedio para la media ponderada se calcula según la siguiente expresión:

En la mayoría de las fuentes incluidas en la bibliografía, la expresión “Σfi” se sustituye por el


término "n", por lo que la fórmula queda de la siguiente manera:

En el ejemplo del acápite anterior, la desviación media se calcularía de la siguiente forma:

Anda mungkin juga menyukai