Anda di halaman 1dari 62

CURSO DE ESTADÍSTICA DESCRIPTIVA

LICENCIADO:

ALVYN LLOYD DIAZ T.

2017
INTRODUCCIÓN A LA ESTADÍSTICA Y SU
APLICACIÓN GENERAL
I. GENERALIDADES

1. Definición y objetivo de la Estadística:


La ESTADÍSTICA o datos numéricos son casi tan antiguas
como las sociedades humanas. Desde muy antiguo se han
producido censos, relaciones, catastros, etc., que contienen
información sobre aspectos demográficos, económicos o de otra
índole. Se sabe, por ejemplo, que en el año 2000 A.C., existían
en China informaciones de este tipo. El nacimiento de Cristo
está relacionado con un empadronamiento. Los árabes
compilaron ciertas estadísticas en la Península Ibérica allá por
el año 727. En la época de los Reyes Católicos (Siglo XV), de
Felipe II (Siglo XVI), etc., se levantaron censos bastantes
completos. Merece mencionar el llamado “Censo del Marquéz
de la Ensenada” (1748) que contiene nutrida información
correspondiente a la época que vivió Fernando VI. El archivo
de Indias (Sevilla) contiene numerosas estadísticas
económicas. Por otra parte el Imperio Incásico precolombino
conservaba sus estadísticas en un sistema de cordeles
anudados (quipus).

No es sino en tiempos relativamente recientes cuando el


hombre ha comprendido la importancia de recoger y registrar
datos relativos a los fenómenos del Universo, de la necesidad
de ampliar los conocimientos para llegar a la Teoría Moderna de
la Estadística que se ido desarrollando en el trascurso de
nuestro siglo.
Existen diversas acepciones sobre la palabra ESTADÍSTICA,
pero en términos generales se considera como el sistema o
método científico que trata de los datos obtenidos al
contar o medir las propiedades de las poblaciones y
demás aspectos del mundo externo.

Su objetivo es el de presentar una descripción numérica sucinta


y un análisis objetivo de las características de los fenómenos
estudiados.

La ESTADÍSTICA o método estadístico, comprende las fases de


la Recolección, Elaboración, Presentación, Análisis e
Interpretación de datos numéricos.
En general, se reconocen dos grandes campos de la Estadística:
a) El campo que se limita a describir y analizar una serie de
datos, sin llegar a conclusiones o a generalizar con respecto
a un grupo mayor, denominándosele ESTADÍSTICA
DEDUCTIVA O DESCRIPTIVA.
b) El campo que trata de llegar a conclusiones válidas acerca
de un grupo mayor o Universo en base a la información
obtenida de un grupo menor o muestra, denominándosele
ESTADÍSTICA INDUCTIVA O INFERENCIAL.

El uso de métodos estadísticos es indispensable en casi toda


investigación, de tal suerte que en la actualidad es un hecho
indiscutible que el campo de aplicación de la Estadística se ha
ampliado cada día más.

Hoy día la Economía, Sociología, la Salud Pública, la Educación,


etc., apoyan el objeto de sus investigaciones en la Estadística.
2. Dato Estadístico:
Al ocuparnos de los diversos aspectos del trabajo estadístico,
comenzamos por preguntarnos a que se le denomina ¿“ Dato
Estadístico”?. En su forma original no es más que “hechos
referentes a un grupo de unidades, susceptibles de ser
contados o apreciados numéricamente”. Podemos por
ejemplo, estar preocupados por el número de fábricas
dedicadas a la producción de un determinado producto, a las
personas empleadas, a los salarios que devengan, etc., todos
constituyen datos estadísticos.

Cada unidad posee peculiaridades, características o atributos.


Alguna de ellas son susceptibles de medida en tanto que otras
reciben una descripción de tipo adjetivo.

La diferencia entre unidad y dato estadístico es que la Unidad


se refiere a un fenómeno particular y el Dato a un fenómeno
de masa.

3. Serie Estadística:
La Serie Estadística presenta o mide la variación de un
fenómeno particular en relación con los cambios de otro.
Ejemplo:

Mes Pacientes
Admitidos
Enero ................................... 150
Febrero ................................ 135
Marzo .................................. 185

4. Clasificación de Datos:
La clasificación está determinada por las características
poseídas por las unidades individuales. Estas características se
pueden dividir en dos grupos:

1) Descriptivas o estadísticas de atributos, susceptibles de ser


medidas cualitativamente.
2) Las que podríamos llamar numéricas o estadísticas de
variables, por ser susceptibles de apreciación cuantitativa.

Las escalas que se emplean en la clasificación estadísticas de la


información son las siguientes:

a) Escala Cualitativa: Cada unidad o elemento es


clasificado de acuerdo a una cualidad, atributo o
característica que no se expresa numéricamente.
Ejemplos:

Sexo: Masculino, femenino.


Estado Civil: Soltero, casado, viudo, etc.
Colores: Rojo, blanco, verde, etc.

b) Escala Cuantitativa: Cada unidad es medida en


una escala numérica y de esta medición resulta
un número. Ejemplo:
Edad: 1, 2, 3, etc., años de edad
Peso: 60, 61, 62, etc., Kilos de peso
Defunciones: 1, 2, 3, 4, etc. Defunciones
Esta escala cuantitativa puede ser de dos tipos:
1) Continua: Entre dos medidas es posible
intercalar mediciones intermedias. Ejemplo:
Entre 60 kilos y 61 es posible medir 60.1, 60.2,
60.3, etc.
2) Discontínua: La escala de medición no
tiene subdivisiones entre ciertos valores.
Ejemplo: Número de hijos: 1, 2, 3, 4, etc., no es
posible ningún valor menos que un hijo.

c) Escala Cronológica: Se presenta numéricamente


un hecho en períodos sucesivos para analizar
como varía este hecho con el tiempo. (Serie
Cronológica). Ejemplo:

Casos de Muerte por Difteria: Años 1973-75

Años Casos
1973 6
1974 5
1975 4

d) Escala Geográfica: La distribución geográfica es


esencialmente de tipo cualitativa, pero se le
considera una clasificación independiente. Se
presentan numéricamente los cambios de un
fenómeno clasificado de acuerdo a la división
político – Administrativa (Provincia, Distrito,
Corregimiento, Cantón, Estado, etc.).
5. Conceptos de Incidencia y Prevalencia:
Cuando se realiza una investigación de cualquier tipo y
determinamos lo que ocurren al momento o fecha en que se
realiza, estamos indicando la Prevalencia, es decir, de una
impresión estática o fotográfica de lo que ocurre en la fecha o
momento determinado.

Pero si en lugar de realizar la investigación en la población de


un momento dado, se examina a un grupo durante un período,
estamos investigando la Incidencia.

Los conceptos de Prevalencia e Incidencia se emplean con


mucha frecuencia en Salud Pública, particularmente en el
campo de la Epidemiología y así se habla de Tasa de
Prevalencia y Tasa de Incidencia de una enfermedad,
respectivamente.
II. FASES A SEGUIR EN TODA INVESTIGACIÓN ESTADISTICA

a. Elaboración del Plan General.


1. Recopilación: b. Formulación de la Preguntas, hechura de la
boleta y uso de la misma.
c. Selección de la Muestra (si no ha de ser
completa).

d. Crítica de la Boleta
2. Elaboración: e. Codificación
f. Tabulación de los Datos

g. Incorporar el Dato al Texto


3. Presentación: h. Arreglo Semi-Tabular
i. Cuadros
j. Gráficas

4. Análisis e Interpretación.
Primera Fase – RECOPILACIÓN

Aspectos Generales:

La recopilación de los datos tiene una importancia extraordinaria, pues


el valor de cualquier conclusión o análisis dependerá en forma
substancial de la calidad e integridad de los datos. Ninguna “técnica
estadística” por elegante que ella sea, puede ser capaz de reemplazar
un material insuficiente o recolectado en mala forma.

a. Fuente: En líneas generales, la información se puede recoger de


dos maneras:

1) Una a través de datos ya recogidos y a veces publicados.


2) La otra manera consiste en la recolección personal de la
información, caso por caso, o bien investigando en un sector o
área en un momento determinado.

En el primer caso, la recolección de datos es subsidiaria. Se ha utilizado


una fuente indirecta o secundaria; y en el segundo, la fuente es directa
o primaria, ya que la recolección de los datos constituye un fin en si
misma.

Esta última forma es indudablemente la mejor porque se obtendrán


aquellos datos realmente de valor, se logrará que la información sea
más exacta y más de acuerdo con los objetivos del trabajo o la
investigación. Sin embargo, tiene sus inconvenientes, pues es costoso
en dinero y abarca mucho tiempo; aparte de que existe entrenar
personal para la obtención de los datos.
b. Métodos de Recopilación:

1) Registro: Es el acto de comunicar ciertos hechos o


acontecimientos en forma permanente y contínua a una autoridad
administrativa. Ejemplo claro de este mecanismo de recolección
son el registro de los hechos vitales y los registros médicos que se
llevan en los hospitales.

2) Censo: Enumeración total de un fenómeno (población,


viviendas, explotaciones agropecuarias, etc.), mediante el cual se
obtienen todas las características deseadas, utilizando una boleta.
Por lo general se realiza con largo período de tiempo entre uno y
otro (cada 2, 5, ó 10 años).

3) Encuesta Muestral: Investigación de ciertos aspectos en


forma parcial, es decir, empadronando solo una parte de las
unidades que forman el todo, mediante un formulario. Algunas
veces se realizan en forma periódica y a intervalos más o menos
cortos (anual, semestral, mensual), en en otras ocasiones se
realizan en forma esporádica para obtener información de carácter
especial.

Generalmente al recopilar la información, ya sea a través de una


encuesta muestral o un censo, se requiere de la entrevista. La misma
se define como una conversación entre el entrevistador y el entrevistado
con un propósito definido. El entrevistador debe dominar y entender los
conceptos de la investigación. La entrevista puede resultar un fracaso si
este desconoce las “técnicas de la entrevista”, tales como su
preparación, captar la confianza del entrevistado, mantener el control de
ella dirigiendo la conversación.
En los tres métodos de recopilación mencionados, dependiendo de la
situación, es factible obtener la información, solicitándola a través del
correo por carta, nota, formulario, etc.

c. Medios para Recopilar la Información:

Los medios más frecuentemente usados de que se valen las oficinas de


estadísticas para recopilar la información son:
1) Libro de Registros: Es el instrumento utilizado para anotar
ciertos hechos o acontecimientos en forma permanente y continua,
generalmente llevados en oficinas públicas.
2) Boleta o Formulario: Cuando se va ha realizar una
investigación, luego de especificar que información se necesita, se
procederá a hallar esa información. Algunas veces se puede conseguir
datos ya existentes. Sin embargo, con frecuencia sucede que no toda la
información requerida puede lograrse de dicha forma, y habrá que
proceder a obtenerla mediante una boleta especial que incluya todas las
preguntas que interesan.

Un formulario está compuesto por una serie de preguntas con espacios o


casillas en blanco para las respuestas que deben se llenadas, ya sea por
el entrevistador o por el mismo informante.

El formulario tiene una importancia fundamental en la recolección del


material, pues en el estará contenida toda la información que se busca,
por lo tanto su diseño adquiere un valor insospechado.
Los formularios pueden ser utilizados por entrevistas personales, por
correo o por teléfono. El elegir entre estas opciones dependerá en gran
medida del tipo de información a obtener y por el tipo de informante.

En su diseño tienen que participar todas las personas que harán uso de
él en diversas formas, especialmente el estadístico que valoriza su
contenido e importancia.

Al decidir sobre la inclusión de un “rubro” determinado es conveniente


plantearse las siguientes preguntas: ¿Es la información pedida
realmente importante y sirve de veras a algunos propósitos de la
información buscada?, ¿Es posible obtener el dato con facilidad y
exactitud razonable? y por último ¿Se usará efectivamente la
información pedida?. La respuesta a estas preguntas y otras que
pueden surgir al momento de diseñar el formulario, no indicará si la
inclusión de un determinado “rubro” está justificada.

En la estructura de un formulario, es conveniente considerar su tamaño


para fines de manipulación y archivo, su uso constante, esporádico o
momentáneo para determinar la calidad del papel a usar, el empleo del
papal de color con el fin de facilitar su ubicación y uso. Todos estos
detalles y otros más que no se exponen para no hacer tan extensa la
descripción, son de un valor inapreciable.

El formulario debe procurarse que sea llenado a máquina. Si se hace a


mano la letra debe ser clara que permita ser leída por los demás.

Los tipos de formularios como se puede suponer son de la misma forma


más variada dado sus múltiples usos. Una forma compleja de
formulario lo constituye el empleado en los Censos.
Diseño de Formulario:

El formulario es un documento impreso con espacios en blanco para la


inserción de información. Su objetivo es facilitar el trabajo. Es un
recurso utilizado para lograr uniformidad y sencillez al registrar,
transmitir, informar y analizar los datos obtenidos en cualquier
programa o investigación llevada a cabo por una Oficina Estadística.

La uniformidad en el método de someterle formulario facilita el manejo,


clasificación y archivo. Los formularios se preparan por regla general en
la Oficina Central que tiene bajo su responsabilidad la compilación de las
Estadísticas.

Considerando la importancia del formulario, tanto para asegurar una


respuesta fidedigna y completa por parte de los informantes, como para
facilitar las labores consecutivas, deben tenerse presente en la
preparación del modelo de formulario, ciertos principios o
consideraciones básicas.

1) Debe procurarse que el formulario sea fácil de llenar: El


contenido del formulario debe abarcar únicamente, los tópicos
estrictamente necesarios. Las preguntas deben redactarse de
modo que aseguren datos comparables en el futuro o con los
recopilados anteriormente. Debe haber uniformidad en la
terminología y asegurarse que los datos que se desean pedir estén
disponibles en las “fuentes” correspondientes.

Conviene evitar un aspecto complicado y recargado del formulario,


de tal manera que sea fácil para el declarante que suministra los
datos, así como para el que tendrá verificarlos y comprobar si
todas las preguntas han sido contestadas.

El tamaño del formulario debe ser en tal forma que reduzca el


desperdicio de papel al mínimo. Al limitar el tamaño debe
considerarse los requisitos impuestos por las máquinas de la
oficina en que serán llenados, archivos, cubiertas o tapas para
encuadernación, sobres y otros equipos comúnmente usados para
formularios.
2) El formulario debe ser flexible: Se entiende que al redactar
le cuestionario deben preverse cambios que puedan ser
necesarios.

3) Debe evitarse el exceso de detalles: Por lo general, ni los


fondos ni el personal disponible en las Oficinas Estadísticas son
suficientes para efectuar todas las investigaciones que se
consideran convenientes. Por lo tanto, los tópicos que se
investigarán deben clasificarse por su orden de importancia y
utilidad práctica. Para este fin conviene establecer un régimen de
prioridades según los medios que disponga. En consecuencia, el
contenido del formulario debe decidirse teniendo en cuenta por un
lado, la importancia de los problemas que se pretende investigar
y, por otro si los resultados compensarán los gastos. Del mismo
modo, deben evitarse en los formularios datos que no podrán
posteriormente elaborarse o utilizarse.

4) La terminología utilizada debe ser uniforme: Es muy


importante que la terminología y las definiciones sean uniformes y
entendidas con facilidad. Además, debido al gran interés que
existe en la comparabilidad internacional de las Estadísticas,
conviene que al preparar los términos y definiciones que se tengan
en cuenta, en la medida de lo posible.

5) Las instrucciones deben ser claras: Es probable que no


exista una fórmula ideal para redactar las instrucciones. Sin
embargo, sí pueden indicarse alguna de las cosas que es preciso
evitar al preparar el formulario. Una de ellas es que esas
instrucciones resulten excesivamente largas. Deben, por lo tanto,
ser concisas.

Las instrucciones pueden hacerse en hojas separadas o


imprimirlas al dorso. Conviene también, incluir instrucciones
sobre cuestiones tan elementales como el lugar donde debe
devolverse el formulario.

Una práctica efectiva y recomendable consiste en la inclusión de


un sobre timbrado dirigido a la Oficina encargada de la reunión de
los formularios.

Si las instrucciones están en hojas separadas conviene pegarlas al


formulario para evitar que se extravíen.
6) El formulario debe ser fácil de codificar: Si el formulario es
muy grande, es conveniente, diseñarlo de manera que permita la
perforación de las tarjetas para la tabulación mecánica con un
mínimo de codificación.

Si los datos se van a tabular a máquina conviene dejar espacio en


el mismo formulario para la codificación.

Puede usarse también el sistema de la información pre-codificada.


En este caso el dato pasa directamente a las tarjetas de tabulación
mecánica.

7) El formulario debe ser fácil de tabular: Implica el orden de


los tópicos a fin de prever el método de tabulación que se piensa
usar.

8) Identificación del formulario: Debe asignarse una


identificación al formulario, la cual puede hacerse por medio de la
entidad de donde proviene o que envía el formulario.

9) Reproducción del formulario: Como la sucesión de las


preguntas y la representación del formulario son de gran
importancia, debe prepararse un modelo de formulario
cuidadosamente revisado para la reproducción.

Es conveniente obtener varias pruebas antes de hacer la impresión


definitiva.

El estadístico debe recomendar en la prueba las alteraciones


convenientes (tipo de letra, color de la tinta, espesor de las líneas,
etc.).

Respecto al número de formularios que se deben reproducir, ello


dependerá de su uso. Sin embargo, es conveniente agregar una
cantidad prudencial, generalmente una tercera parte a fin de suplir
las pérdidas por causas imprevistas.

10) Manejo de los formularios: El procedimiento de distribución


de los formularios para la recopilación de los datos puede
efectuarse directamente a través del correo por la Oficina de
Estadística Central. También puede lograrse la participación de
autoridades intermedias estableciendo oficinas locales de
distribución.
En cuanto al envió de los formularios debidamente llenados
también puede hacerse por correo o a través de Oficinas
intermedias como la que se ha indicado.

a) Lista de Control: Es un instrumento indispensable


para el control de la distribución y recibo de los formularios.
Estos registros deben ser independientes. En base a la lista
de control de recibo es posible conocer el alcance e
integridad y por consiguiente, el valor de los datos
recogidos.

b) Notas Recordatorias: Para el funcionamiento eficiente


de la Oficina de Estadística, es esencial un control cuidadoso
de la devolución oportuna de los formularios. Es
conveniente establecer algún sistema para insistir en el
envió de los formularios, si ello no se produce
oportunamente. Este control puede comprender las etapas
siguientes:

1) Nota recordatoria
2) Carta
3) Circular junto con el formulario en
blanco
4) Telegrama

Los telegramas suelen causar impresión al informante


respecto a la urgencia de la respuesta y con ellos se
consigue numerosas y rápidas contestaciones.

d) Clase de Recolección; Enumeración Completa vs Muestra

La selección del método de observación o recolección de los datos


estadísticos depende de la naturaleza de los fenómenos que se desean
medir. Básicamente, los métodos de recolección constituyen dos
grandes grupos:

a) El método exhaustivo que comprende la medición de la


totalidad de las unidades que forman un colectivo (Censo).
Por colectivo entendemos al conjunto de unidades que
componen a un todo llamado universo, teniendo cada una de
estas las características objeto de estudio.
b) El método representativo, que solo examina una parte de las
unidades de un colectivo, teniéndose presente que estas
unidades representan a ese colectivo. Los resultados
obtenidos en esta forma se expanden, generalizándose al
universo, que representan. Se distinguen los métodos de
evaluación, sondeo, y el de muestreo.
Se emplea el método representativo cuando el estudio
exhaustivo no es factible, o no se desea profundizar en el
examen de todas las unidades del universo. Además, por
razones de oportunidad o de economía.

Al plantear los objetivos de una investigación estadística es


necesario definir el área que abarca dicha investigación. Se
investigarán a todas las explotaciones agrícolas del país? Se
empadronarán a todos los establecimientos industriales? Es
necesario conocer la opinión de todos los socios de la
cooperativa acerca del Supermercado?

Definida el área que se desea abarcar, que en la teoría de


muestreo se denomina universo e indistintamente población,
es necesario decidir si se realizará un empadronamiento de
todas las unidades que componen a este universo (Censo) o
una parte de éste (muestra) debidamente escogida.

El Censo de Población y Vivienda del 2000 que cubrió a


todas las unidades existentes en el país, constituye un
ejemplo de cobertura completa del universo. La Encuesta
de Mano de Obra que realiza en forma continua la Sección
de Población y Vivienda, constituye un ejemplo de muestra
que sólo investiga una parte del país (universo) para
estudiar algunas características generales y económicas de
éste.

El uso de una parte para representar al todo, constituye un


procedimiento fundamental en el trabajo estadístico, en el
cual se aplican los conceptos matemáticos de probabilidad
en la fase de recolección, elaboración, presentación, análisis
e interpretación de datos cuantitativos.

e) Nociones Sobre Muestreo Estadístico

¿Qué se entiende por Muestra?


Según F. Yates (1960) muestreo se define como la “selección
de parte de un agregado (conjunto) de elementos para
representar a la totalidad del agregado”. Lo básico en esta
definición descansa en la palabra “representar”. El objeto del
muestreo es el de hacer inferencias correctas acerca del
agregado, que sólo puede justificarse si la parte
seleccionada, la muestra, es una verdadera
representación del universo en una escala más pequeña
que éste.

Existen dos tipos de muestreo: El muestreo probabilístico y el


muestreo no probabilístico, llamado intencional o dirigido
también.

En la selección dirigida, la muestra queda restringida a


unidades que el estadístico considere especialmente típicas de
la población o ventajosas para su investigación. Este tipo de
investigación puede rendir buenos resultados cuando el
universo y por ende la muestra, es pequeña.

El propósito principal del término muestreo probabilístico es el


de eliminar el factor subjetivo en la selección de las unidades
de muestreo. La teoría de probabilidad permite medir el grado
de precisión de los datos inferidos al universo con base en una
parte representativa de éste. Es decir, que es factible
cuantificar la diferencia entre el valor estimado mediante la
muestra y el valor verdadero del universo denominado
parámetro. Esta diferencia se denomina error de muestreo,
que no debe confundirse con el concepto de error de uso
frecuente que significa equivocación.

A tal propósito, al planear la recolección de informaciones


estadísticas mediante el método de muestreo, debe tenerse
presente los siguientes aspectos fundamentales:

1) Cada unidad del universo tiene una probabilidad de


selección conocida distinta de cero de ser seleccionada
en la muestra.
2) El método de selección de la muestra debe ser
consistente con la condición arriba señalada en que
cada unidad de muestreo tenga una probabilidad
conocida de selección. Esta selección sólo puede
cumplirse rigurosamente mediante ciertos métodos de
selección al azar. El concepto de azar en sentido
práctico, se cumple mediante el uso de tablas de
números aleatorios o casuales.
Términos de uso frecuente en muestreo

Unidad de Análisis: Es la unidad para la cual deseamos obtener


informaciones estadísticas; es la unidad de la cual vamos a
obtener los datos u observaciones que necesitamos en una
investigación estadística o en una encuesta. En encuesta de tipo
usual, pueden ser personas, viviendas, establecimientos
comerciales o industriales, explotaciones agrícolas, etc. Se utiliza
también la palabra elemento como sinónimo de unidad de análisis.

Población o Universo: Es el conjunto completo de todas las


unidades de análisis cuyas características se van a medir u
observar. El concepto de población en la terminología estadística
es prácticamente un sinónimo de agregado y no se refiere
necesariamente a habitantes o a un colectivo de organismos
vivientes. Supongamos que nos interesa investigar mediante una
muestra, una serie de características tales como edad, sexo,
ocupación, salario devengado, nivel de escolaridad y otras, en las
personas que trabajan en la CAJA DE SEGURO SOCIAL. La unidad
de análisis sería, en esta investigación, el funcionario de la Caja de
Seguro Social y la población en estudio sería el conjunto o el total
de empleados de la Caja de Seguro Social.

Probabilidad: La definición clásica de probabilidad es la


siguiente: “la probabilidad de ocurrencia de un hecho o evento es
igual al número de casos favorables al hecho entre le número de
casos posibles”. Por ejemplo, al tirar un dado la probabilidad de
que salga el “seis” es 1/6; al tirar una moneda, la probabilidad de
que salga “sello” es 1/2. Si en un grupo de 10 personas
(A,B,C,D,E,F,G,H.I.J) se desea escoger una persona al azar, la
probabilidad de que se escoja “B” es 1/10.

Sector de estudio o dominio de estudio

Se refiere a las subdivisiones del universo para las cuales la muestra


proporciona estimaciones con un grado de precisión aceptable.
Ejemplo: en la Encuesta General Agropecuaria el universo está
representado por la República de Panamá donde habita la población no
indígena, constituyendo cada provincia un sector de estudio, es decir,
que se obtendrán estimaciones de características agropecuarias al nivel
provincial cuya suma se refiere al universo.
Tamaño del universo: Es el agregado de unidades con las
características de interés cuyo total se representa con la
letra “N”.

Tamaño de muestra: El tamaño de la muestra,


representado por “n”, está constituido por el número total
de unidades seleccionadas de las “N” unidades.

Cálculo del tamaño de la muestra:


Población infinita:

n = p * q * δ2
E2

n = número buscado de elementos de la muestra


δ = nivel de confianza elegido (2 o 3 sigmas)
p = tanto por ciento estimado
q=1–p
E = error de estimación permitido

Población finita:

n= p * q * N * δ2
E2 * (n-1) + δ2 *p*q

n = número de elementos de la muestra


δ = nivel de confianza elegido (2 o 3 sigmas)
p = tanto por ciento estimado
q=1–p
E = error de estimación permitido
N = número de elementos del universo

Unidad de muestreo: Es la unidad que va a ser sujeta a


selección. La unidad de muestreo varía según el tipo de
investigación que se realiza: pueden ser de los mismos
elementos de la población, por ejemplo personas, fincas
agrícolas, establecimientos de salud, etc., o pueden ser
conglomerados o grupos de elementos de la población, por
ejemplo, bloques, manzanas, áreas limitadas físicamente en
el terreno, etc. A este tipo de muestreo que la unidad de
selección la constituyen unidades de áreas se le conoce
como “Muestreo de áreas”.
Fracción de muestreo: Se llama fracción de muestreo a la
relación que existe entre el tamaño de la muestra (n) y el
tamaño del universo (N). Esto es n/N. Ejemplo: en la
Encuesta General Agropecuaria de un total de 5,299
segmentos se escogieron 616, la fracción de muestreo en
este caso es 616/5,299 .

Marco: Constituido por todas las informaciones existentes


del universo y que se utilizan para definir las unidades de
muestreo. Ejemplo: El directorio actualizado de los
establecimientos industriales, comerciales y de servicios
constituyen el marco para las encuestas sobre los mismo
aspectos.

La teoría de muestreo distingue tres métodos básicos de selección de


muestra.

 Selección al azar simple: Es un método para seleccionar “n”


unidades de muestreo de “N” unidades del universo de manera tal
que todas las unidades tengan una igual probabilidad de ser
seleccionadas y que la selección de cada una de ellas sea
independiente de las demás. Esta definición de selección al azar
simple se deriva de la definición más general que da igual
probabilidad de ser seleccionada a cada una de las posibles
muestras de tamaño “n” que se pueden obtener del universo “N”.
 Selección sistemática: Puede definirse como una muestra al
azar simple en la cual la selección de la primera unidad al azar
determina las otras unidades de muestreo escogidas. Para
facilitar la selección se divide el total de unidades del universo en
grupos de igual tamaño cuyo número depende del cuociente que
resulte de dividir a “N” (tamaño del universo) por “n” (tamaño
esperado de la muestra). Mediante los números aleatorios se
selecciona la primera unidad de muestreo, cuya posición en el
primer grupo determina las otras unidades escogidas, es decir, la
muestra queda constituida por otras unidades que ocupen la
misma posición dentro de cada grupo formado.

 Selección estratificada: Con el propósito de reducir la


variabilidad y por ende, la varianza, error estándar, antes de
efectuar la selección se escoge la muestra mediante la selección al
azar simple o sistemática. Podemos definir la muestra
estratificada como la selección independiente de unidades dentro
de cada estrato, entendiéndose por estrato a un grupo de
unidades más o menos homogéneas.
Ventajas de la aplicación del método de muestreo

a. Bajo costo. La obtención de información de una fracción de


unidades del universo requiere un presupuesto menor que la
enumeración de todas las unidades del universo.
b. Acelera el proceso de inferencia estadística. Como solo se
procesa una parte del universo, la información recopilada se
elabora, analiza e interpreta en menor tiempo que un recuento
completo.
c. Selección de personal calificado. El reclutamiento de
empadronadores permite escoger los mejores enumeradores,
dado a que el número de unidades necesarias en la recolección es
menor.
d. Mayor alcance. El estudio de un número reducido de unidades
permite la obtención de mayor información de estas.
e. Mayor precisión. La muestra expandida ofrece resultados de
mejor calidad, dado el control que se ejerce en las diferentes
etapas: Selección de personal, control del error de muestreo en la
selección, factibilidad de estudio de cada unidad, etc.
f. Medición del grado de precisión y eficiencia de la metodología
muestral empleada. La aplicación de la teoría de probabilidad
permite evaluar los resultados de la muestra y obtención de la
información para el mejoramiento de los futuros diseños.
g. La única posibilidad lógica de investigación. En muchas
situaciones, el examen de las unidades de muestreo exigen su
destrucción o inutilización. Ejemplo: los bombillos eléctricos. Es
evidente que resulta absurdo tener que quemar a todos los
bombillos eléctricos de una fábrica para obtener su duración
media de vida.
A pesar de las ventajas del muestreo, existen situaciones en las cuales
no se recomienda el uso del muestreo. Por ejemplo:

a. Cuando se quiere un inventario para cada una de las unidades del


universo.
b. Cuando se requiere información estadísticas para subdivisiones
pequeñas del universo.
c. Cuando el tamaño del universo es pequeño.
d. Cuando la o las características, objeto de investigación tienen un
representación muy pequeña en el universo.
e. Cuando el universo es pequeño y la variabilidad muy alta.
f. Carencia de un muestrista. La complejidad de un diseño de
muestra exige muchas veces el asesoramiento de un especialista
en la materia.

Diseño y análisis de la muestra


En el diseño y análisis de una muestra se siguen los siguientes pasos
generales de toda investigación estadística.

1. Establecimiento de los objetivos de la investigación.


2. Definición del universo.
3. Determinación de las características que se medirán.
4. Determinación de los métodos de enumeración
5. Definición de la unidad de muestreo.
6. Selección de la muestra.
7. Recolección de las Estadísticas.
8. Elaboración de los datos.
9. Estimación, análisis e interpretación.
10. Enunciados de experiencias para futuras investigaciones.
Segunda Fase – ELABORACIÓN

Aspecto general
¿Qué es la elaboración? – su naturaleza y su alcance
1. La elaboración entraña un proceso de transformación, mediante el
cual “los datos” (materia prima) son cambiados o transformados a
una forma más útil o adecuada para su utilización.
2. Las masas de datos estadísticos recolectados en censos,
encuestas, etc., son generalmente tan voluminosos, diversos y
amplios que a menos que sean clasificados y resumidos de alguna
manera resultan incomprensibles o inútiles para le propósito para
el cual se recolectan. Para fines administrativos y de análisis lo
que se necesita es la información en forma tabulada, que muestre
los fenómenos de características similares.
3. El proceso de elaboración comienza desde la etapa del
planeamiento y diseño del formulario, puesto que estos tienen
relación directa con los objetivos finales. El equipo y método de
elaboración deben quedar decididos de antemano; el diseño del
formulario es también muy importante para la eficiencia y la
economía de la elaboración. El costo y volumen de trabajo que
involucre la elaboración es factor importante en el planeamiento
de la investigación.
4. El proceso de elaboración comprende varías fases, algunas de las
cuales pueden realizarse separada o conjuntamente, según la
naturaleza de los datos o investigación con que se está
trabajando. Las operaciones básicas en la elaboración son las
siguientes: Crítica, Codificación y Tabulación.
a. Crítica: Consiste en el análisis de los documentos con el fin
de eliminar los errores y verificar la exactitud e integridad
de las respuestas. Con esto se intenta reparar las omisiones
y eliminar las inconsistencias, ya sea recurriendo al
informante o haciendo deducciones de otras informaciones
contenidas en el documento. Se trata de que la información
quede completa y legible.
i. Al recibir el material del campo se procede a
establecer el registro de control antes de iniciar la
crítica y verificar si el material se ha recibido
completo, y que puede iniciarse su elaboración.
ii. Los errores pueden ser de distintos tipos:
1. Falta de respuesta
2. Respuesta deficiente
3. Ilegibilidad de las anotaciones
4. Respuestas anotadas incorrectamente
(transposición de cifras)
iii. Por lo general, los errores obedecen a alguna o varias
de las siguientes causas:
1. Planeamiento y preparación defectuosa de la
encuesta.
2. Cuestionario e instrucciones deficientes.
3. Personal entrevistador y técnica de entrevista
insatisfactoria.
iv. Por más cuidado que se tenga al iniciar una
investigación es inevitable que se cometan errores,
por lo que la crítica es necesaria y útil, no solamente
para corregir hasta donde sea factible los errores de la
recolección, sino también para evaluar los
cuestionarios, instrucciones y organización.
La crítica comienza con la clasificación (agrupamiento de documentasen
un número de clases mutuamente excluyentes y se efectúa mediante las
siguientes etapas:
1. Control de omisiones: Debe verificarse que las respuestas
estén completas. Si los datos que faltan son importantes, la
boleta o formulario debe enviarse al campo para ser
completados. La crítica se facilita cuando existen autoridades
intermedias que intervienen en la tarea de reunir y revisar los
documentos estadísticos, ya que ellas pueden obtener la
información más rápida y fácilmente.
2. Control de errores o inconsistencias: Deben analizarse las
respuestas dadas, para estar seguros de que no encierran
contradicciones. Este control se basa en principios de sentido
común como son:
a. Controlar que las cantidades o cifras que corresponden a
ciertas preguntas son mayores o menores que las cifras
que se esperan en otras características, siendo conocida
la relación entre las mismas.
b. Los componentes de una partida deberán, al sumarse,
coincidir con el total.
c. Exclusión de ciertas características.
d. Preguntas pendientes, las cuales solamente se formulan
si se satisfacen otras ciertas condiciones.

b. Codificación:
¿Qué es la Codificación?: es una traducción. Consiste en
expresar mediante claves o símbolos determinados con
anterioridad, una serie de conceptos correspondientes. La
codificación convierte casi todas las anotaciones hechas en el
cuestionario a claves o códigos “numéricos o alfabéticos”
convenientes para su tabulación.

c. Tabulación: Representa la ordenación sistemática de las


unidades en categorías predeterminadas útiles y lógicas, en un
plan de clasificación y el recuento de las unidades en categoría.
Constituye el medio por el cual la información estadística se
agrupa y se ordena en forma apropiada para la presentación en
cuadros estadísticos.
Los métodos de elaboración de datos pueden ser simples o
complejos, dependiendo ello de los datos básicos de que
disponga.
La elección del método de elaboración que vaya a emplearse,
deberá basarse en un análisis del trabajo de que se trate,
tomando en cuenta el factor tiempo, los factores que
determinan su costo y los medios de que se disponga.
Tercera Fase – PRESENTACIÓN

Aspecto General:
Los datos estadísticos pueden ser representados en las siguientes
formas:
a. Incorporarse a un párrafo del texto: Consiste en combinar
cifras y texto. No es un sistema muy eficaz ya que es
necesario leer o por lo menos registrar todo el párrafo antes de
que se pueda comprender el significado de todo el conjunto.
Sin embargo, existe la ventaja de que el lector puede dirigir la
atención hacia determinadas cifras haciéndolas resaltar.
b. Colocarse en arreglo semi-tabular: Cuando en un estudio se
van a usar solamente unas cuantas cifras, puede dividirse el
texto enumerándose los datos.
c. Ponerse en forma tabular (Cuadros estadísticos):
1. ¿Qué es un cuadro estadístico?: Es un arreglo ordenado
de los datos recogidos de tal manera que responden a
ciertos objetivos. El cuadro estadístico constituye un medio
mediante le cual se logra la comprensión del significado e
importancia de los datos recogidos.
La presentación de los datos en un cuadro estadístico no
agrega un nuevo significado a las cifras; solo hace que éstos
sean fáciles de describir, analizar e interpretar.
a. Importancia: Necesidad de hacer conocer la información
estadística a quienes la emplean. Necesidad de
presentarla de un modo adecuado, destacando los hechos
importantes. En otras palabras, vender la información
estadística.
b. Objetivos: El cuadro estadístico no es un fin en sí
mismo, sino que conduce a un fin y es demostrar un
conjunto de relaciones de hechos que se desean indicar
con los datos recogidos.
Estos datos se pueden presentar de acuerdo a diversos
criterios: de distribución de frecuencias, relación con el
tiempo, de correlación, etc.
El cuadro estadístico estará correcto en el sentido de que
favorezca la claridad de las distintas asociaciones y
responda a una o varias preguntas formuladas con
respecto al material recogido.
La presentación de datos en un cuadro estadístico puede
ser vista entonces como un problema de arreglo lógico de
relaciones lógicas, a través de medios que permitan
alcanzar nuestro objetivo. Por lo tanto, la condición más
importante para el diseño de un cuadro estadístico es la
definición adecuada, esto es, definir o delimitar el hecho o
situación que será presentado en el cuadro. Esto
involucra un proceso de planificación.

2. Tipos de cuadros estadísticos: En general son de dos


tipos:
a. Cuadros generales o de referencia: Tienen por
objeto presentar un grupo de información de manera
amplia y detallada y que en realidad constituye un
verdadero depósito de información. El material de
estos cuadros se puede ordenar ya sea en orden
alfabético, geográfico, cronológico, magnitud,
convencional, etc.
b. Cuadros de textos: Son cuadros mucho más
reducidos que presentan solo algunos de los datos de
los cuadros generales. Su construcción es
relativamente simple, se preparan con el propósito
de mostrar unos cuantos hechos correlacionados.
Este tipo de cuadro acompaña con frecuencia el texto
de un estudio y por ello se les designa también con
el nombre de cuadros de texto, en los que la
información se ha resumido de la siguiente manera:
1. Eliminación de datos de importancia menor.
2. Agrupamiento de datos.
3. Transformación del orden original.
4. Agregando o sustituyendo otras medidas de
computación tales como porcentajes, tasas, etc.

3. Construcción de un cuadro estadístico: La construcción


de un cuadro estadístico es un hecho aparentemente
sencillo, sin embargo en la práctica es necesario tener
presente una serie de hechos íntimamente relacionados con
el objetivo de él. Cada cuadro estadístico tiene una forma
propia, pero aún así está adaptado más o menos a ciertas
convenciones.
Recomendaciones Generales:
a. Tener claros los propósitos del cuadro estadístico. Es
decir, conocer la pregunta o preguntas que se
desean destacar.
b. Determinar los tipos de datos que se van a presentar
o correlacionar.
c. Determinar la existencia de métodos alternativos de
presentación de los datos.
d. Decidir las escalas de clasificación y determinar su
prioridad de importancia para su ubicación.
e. Ordenar las categorías de acuerdo a una secuencia
apropiada, para los objetivos del cuadro (alfabético,
geográfico, magnitud, progresión histórica o
cronológica, etc.).
4. Componentes de un cuadro:
i. Titulo: La redacción del título debe expresar con
claridad el contenido del cuadro. Debe contestar en
forma ordenada: ¿Qué son datos? ¿Dónde se han
obtenido? ¿Cómo se han clasificado? y ¿Cuándo
han sido obtenidos? Se recomienda que este sea
breve; pero no se debe sacrificar claridad por
brevedad.
Ejemplo: Superficie de las exportaciones en la
República, según tamaño y clase de aprovechamiento:
año 1975.
¿Qué?......... Superficie de las exportaciones.
¿Dónde?.... en la República.
¿Cómo?..... Según su tamaño y clase de
aprovechamiento.
¿Cuándo?... Año 1975.

ii. Encabezados de las columnas: Estos son los que


aparecen en la parte superior del cuadro en forma de
casilleros en los cuales se colocan los títulos
correspondientes a cada columna.

iii. Columna matriz: En la columna matriz, en la primera


columna de la izquierda se colocan las categorías de
los datos que constituirán el cuerpo del cuadro. El
arreglo de las categorías o clasificaciones estará
determinada por la naturaleza de los datos
estadísticos que se presentan. Estas clasificaciones
pueden hacerse de la siguiente manera:

a. Orden cronológico: Se refiere a cifras relativas a


un fenómeno determinado en diversos periodos.
Ejemplo:
Año y mes
1972……………………………………………………………………………………………………….
1973……………………………………………………………………………………………………….
1974……………………………………………………………………………………………………….
Enero ……………………………………………………………………………………………
Febrero ………………………………………………………………………………………..
Marzo ……………………………………………………………………………………………
Etc. ……………………………………………………………………………………………

b. Orden geográfico: (Distribución por lugar)


Provincia y distrito
Bocas del Toro…………………………………………………………………………………….
Bocas del Toro….…………………………………………………………….
Bastimentos..………………………………………………………………….

c. Orden alfabético:
Artículo y descripción
Total………………………………………………………………………….
Babilla………………………………………………………………………………………….
Entraña……………………………………………………………………………………….
Falda……………………………………………………………………………………………
Etc. …..………………………………………………………………………………………..
d. Orden de magnitud (Según tamaño o cantidad)
Clase de accidente Total
Colisión………………………………………………. 1,636
Atropello……………………………………………. 121
Vuelco.………………………………………………. 55

e. Orden convencional:
Cuentas
Activo…………………………………………….
Estado de caja……………………………………………………………………….
Moneda panameña………………………………………………………….
Dinero extranjero……………………………………………………………

iv. Cuerpo del cuadro: Esta constituido por los espacios


que forman las filas y las columnas. El trazado interno
debe ser dado únicamente por las líneas verticales.
Las frecuencias que se anoten deben hacerse en forma
ordenada (los miles debajo de los miles, las centenas
debajo de las centenas, etc.), a fin de evitar
dificultades en su lectura.
Totales: Los totales forman parte tanto de la columna
matriz como del cuerpo del cuadro. Los totales deben
rayarse con una línea igual que los sub-totales.
Tipografía: Se recomienda el uso de tipos negros para
algunos hechos que se desean destacar.
Llamadas: Se utilizan cuando es necesario
llamar la atención sobre alguna parte del
contenido del cuadro.
Notas al calce: Cuando se hace un cuadro en
algunos casos es necesario ciertas explicaciones
del título, columna o cifra y las cuales deben
hacerse en la parte inferior a la página que
corresponde o pueden acumularse al final del
cuadro cuando éste consta de varias páginas.
Fuente: Se usa para indicar el origen de la
información y debe colocarse después de las
llamadas o últimas notas al calce si las hay.
d. Expresarse gráficamente
Generalidades: Para la objetivación de un estudio estadístico
no basta la adecuada presentación del material numérico, sino
que además, es necesario un gráfico o diagrama que ayude a
facilitar su comprensión. Todo gráfico es la expresión de los
números proporcionados por los cuadros estadísticos. Por lo
mismo, el gráfico nunca podrá reemplazar al cuadro estadístico
y sólo debe aceptarse como un complemento de aquel.

Objetivos de los gráficos:


 Presentar en forma visual, los hechos más importantes
de la información en estudio en la forma más clara,
simple y fidedigna.
 Permitir una mejor y fácil comprensión de los hechos
numéricos relevantes. Muchas veces aclara un
problema complejo.
 Su propósito más útil es ahorrar tiempo y esfuerzo en
el análisis de cuadros estadísticos.
 Presenta en forma clara ciertas correlaciones entre los
datos que en los cuadros no se aprecian fácilmente.

Aun cuando las representaciones gráficas se diferencian claramente, no


existe acuerdo entre los autores respecto a los diferentes tipos de
gráficos. La clasificación que se indica a continuación es la más usada
para distinguir los gráficos:
1. Curvas o diagramas lineales (Sistemas de coordenadas)
a. Series cronológicas (tendencia secular, variaciones
estaciónales, etc.)
b. Distribución de frecuencias.
c. Frecuencias acumulativas, etc.
2. Gráfico de barras (Comparación de una dimensión)
a. Cifras absolutas (simple o subdividido).
b. Cifras relativas (simple o subdividido).
3. Diagrama de área (Comparación de dos dimensiones).
Gráfico circular (Comparar los componentes entre sí y con el
todo).
4. Diagrama de volumen (comparación en tres dimensiones).
a. Histograma (simple o ajustado) Gráfica de silueta.
b. Gráfico de correlación o diagrama de dispersión.
c. Monogramas.
d. Pictogramas.
5. Gráfico en escala semilogarítmica (interesa mostrar el cambio
relativo y no el cambio absoluto).
6. Gráfico geográfico (mapa estadístico) y (comparar cantidades
según ubicación de valores).

1. Gráfico de barras: Es adecuado para representar distribuciones


de frecuencias en las que se trate de características cualitativas. Por
ejemplo: distribución de las diferentes provincias de un país. También
se emplea para la representación de fenómenos que ofrecen períodos de
igual magnitud. Por ejemplo: Series cronológicas.

2. Gráfico de barra 100%: Representa los porcentajes de algunas


variaciones con respecto a un mismo fenómeno. Se utiliza cuando
interesa comparar las partes en que se divide un todo.

3. Gráfico circular: Constituye otra forma efectiva de representar


las partes en que se divide un todo. Se utiliza este tipo de gráfico para
representar distribuciones de frecuencias en que la característica es
cualitativa.

Cuarta Fase – ANALISIS E INTERPRETACION DE DATOS

De la precisión de las fases anteriores, así como de las operaciones y


razonamiento a que se llegue en esta fase, dependerá la validez de
nuestras conclusiones.

1. Medidas de intensidad: Se refiere a ciertas relaciones que se


efectúan con el fin de medir la magnitud o intensidad de un conjunto de
observaciones. Las más comunes son:

a). RAZON: Es la relación que existe entre dos números o


magnitudes positivas. Esta relación se establece con el propósito de
comparar una cifra con otra. La cifra que se desea comparar se llama
cifra de interés y la cifra de referencia (cifra con la que se compara)
es la base.

Si la cifra de interés es “A” y la base de comparación es “B” entonces


la razón se expresa de la siguiente forma:
r=A/B
Ejemplo: Suponga que queremos saber cuál es la razón de la
población de 15 a 24 años de Belice con respecto a la de Panamá de
la misma edad. Entonces A=28, B=556.

r = A / B = 28 / 556 = 0.0504

Como este valor no es fácil de interpretar, entonces lo podemos


pasar a porcentaje, multiplicándolo por 100 a:

0.0504 * 100 = 5.04%

y decimos que la población de Belice de edades entre 15 y 24 años,


representa un 5% de la de Panamá.

b). PROPORCIONES: Se llama proporción a la igualdad entre


dos razones. Si se tiene que la expresión a/b es igual a la expresión
c/d, la proporción quedará definida por la igualdad siguiente:

a/b = c/d

Donde b y c se les llama medios y a y d extremos. Estadísticamente,


una proporción se define como un tipo especial de razón en
que el numerador del quebrado es la frecuencia de una
categoría y el denominador es el total de unidades.
Si x es el número de unidades que posee cierto atributo y z es el
número de unidades que no poseen atributo se advierte que: x + z =
N

Dos proporciones son complementarias cuando su suma es igual a


la unidad: p + q = N donde p=x/N y q=z/N

c). PORCENTAJES: El porcentaje suele significar una parte de cada


ciento de un conjunto, o sea, es la multiplicación por 100 de una
proporción.

La fórmula para el cálculo de porcentajes sería la siguiente:

Porcentaje (%) = Y / N * 100

Generalmente, los porcentajes de dan hasta el primer lugar decimal


(Ejemplo: 30.0, 14.8, etc.), lo cual significa que en el cálculo real la
división se continua hasta el cuarto lugar decimal.

Ejemplo: 14,000 / 53,400 * 100 = 0.2622 * 100 = 26.2%

d). TASAS:
 Es un tipo especial de razón en donde el numerador corresponde
al número de algún tipo particular de eventualidad que ocurre,
dentro de un periodo unitario de tiempo y el denominador es el
número de unidades relacionadas con las eventualidades
ocurridas.
 Casi siempre mide la probabilidad de ocurrencia de un hecho.
 Esta razón suele ser multiplicada por potencias de 10,
generalmente por 100 o por 1,000.
 Las tasas, siempre implican el concepto de cambio y por
consiguiente, de tiempo ya que el cambio debe ser medido a lo
largo de un periodo de tiempo.

Tasas o Porcentaje de cambio o por ciento de la tasa de


variación: Expresa el crecimiento positivo o negativo de un fenómeno.
P = (B – A) / A * 100
P = ((B/A) – 1) * 100
Donde P = porcentaje de cambio
A = dato más antiguo (base de comparación)
B = dato más reciente

Ejemplo: Si las consultas médicas atendidas por la Caja de Seguro


Social ascendieron a 126,888 en 1955 y a 206,294 en 1961, el
porcentaje de cambio, se obtiene así:

((206,294 / 126,888) – 1) * 100 = 62.6%

Tasa Bruta de Natalidad: Es la relación por división entre el total de


nacidos – vivos en un periodo dado (generalmente un año) y la
población media del mismo periodo, multiplicado por mil.
b = Tasa bruta de natalidad
b = (Nacimientos / Población media) * 1,000

DISTRIBUCIÓN DE FRECUENCIAS
En el análisis estadístico a que se refieren los datos pueden ser
clasificados de acuerdo a ciertas características. De este modo, de
acuerdo con su característica los datos pueden clasificarse en una escala
CUALITATIVA O CUANTITATIVA.

a) Frecuencia Absoluta (yi): A continuación se presenta un


cuadro cuyos datos se han clasificado en una escala cualitativa.

Cuadro 1
MATRICULA DE LA UNIVERSIDAD DE PANAMA, POR
FACULTAD: AÑO ESCOLAR 1960
FACULTAD (xi) ALUMNOS (yi)
TOTAL 3,915
Administración Pública y Comercio 730
Ciencias Naturales y Farmacia 814
Derecho y Ciencias Políticas 227
Filosofía, Letras y Educación 1,551
Ingeniería y Arquitectura 516
Medicina 77

En el cuadro anterior, la Facultad que se matricularon los estudiantes es


la característica y el número de estudiantes pertenecientes a una
determinada característica, en este caso Facultad, es lo que se
denomina frecuencia absoluta (yi) o sencillamente, frecuencia.

La agrupación de los datos originales en clases, mostrando las


frecuencias correspondientes a cada clase es lo que se llama una
distribución de frecuencias.

Se desea señalar una distribución de frecuencias cuya característica sea


cuantitativa. Para ello se dispone de los siguientes datos originales (x i):
Cuadro 2
NOTA DE 60 ALUMNOS EN UN EXAMEN DE ESTADÍSTICAS
(Nota máxima = 100, mínima = 0)

28 36 22 11 62 45 51 69 25 20
74 97 58 53 74 82 84 78 19 07
65 26 40 62 64 54 48 74 24 59
46 64 56 71 50 46 79 52 68 66
00 82 86 60 73 80 43 86 08 58
15 41 04 53 09 67 88 65 70 38

La presentación de los datos en el cuadro 2 no permiten obtener una


información clara mediante el examen de los mismos; es difícil sacar
conclusiones, por ejemplo respecto a si esas notas son en general
buenas o malas.

La distribución de frecuencias que se presenta en el siguiente cuadro de


las notas de los 60 alumnos del Examen de Estadística no proporciona
información en forma rápida y precisa.

Cuadro 3
DISTRIBUCIÓN DE FRECUENCIAS DEL CUADRO 2
LIMITES DE CLASE (NOTAS) FRECUENCIAS (ALUMNOS)
(x’h – x’j) (yi)

TOTAL 60

00 - 09 5
10 – 19 3
20 – 29 6
30 – 39 2
40 – 49 7
50 – 59 10
60 – 69 11
70 – 79 8
80 – 89 7
90 – 99 1

En el Cuadro 3, la característica cuantitativa es la nota del alumno. Las


frecuencias son cada uno de los grupos de alumnos que obtuvieron
determinadas notas. Se puede apreciar que sólo hubo un estudiante
con nota entre 90 y 99 y que sólo 27 estudiantes obtuvieron notas de
60 o más, etc.

b) Intervalos de Clase: Se llama intervalos de clase (x’ h – x’j) a la


amplitud de una clase en una distribución de frecuencias cuya
característica es cuantitativa. En el cuadro 2, cada uno de los grupos
de notas es una clase y el intervalo de la misma es su amplitud. Así
el intervalo de las clases 0 – 9, 10 – 19, .........., 90 – 99 es de 10
unidades. Generalmente los intervalos de clases son de igual
amplitud. Ahora bien, la amplitud de los intervalos de clase a usar
al tabular un determinado conjunto de datos dependerá de la
naturaleza de estos últimos y del uso que se le quiera dar. Los
intervalos de clase no deben ser muy amplios de manera que
contengan observaciones de magnitud bastante variables ni muy
pequeñas que revelen demasiado detalle para poder obtener una idea
clara de los aspectos importantes del fenómeno que se estudia. Por
lo general, las condiciones de que los intervalos de clase no sean ni
muy amplios ni muy reducidos se satisface cuando el número de
clase oscila entre 10 y 25 aproximadamente.

Las características cuantitativas pueden ser continuas o


discontinuas, según puedan o no tomar cualquier valor en un
intervalo determinado. Así, si una característica es continua en un
intervalo, dado dos valores en ese intervalo, tan parecidos como se
quiera, siempre habrá otro valor entre esos dos que podría ser
tomado por la característica.
Se define como valor central o marca de clase el punto medio de
un intervalo de clase (xi). En el cuadro 3 los valores centrales de
las clases son sucesivamente “4.5, 14.5, 24.5, 34.5, 44.5, 54.5,
64.5, 74.5, 84.5 y 94.5.

c) Frecuencias Relativas (fi): Son el resultado de la división de


cada una de las frecuencias absolutas por el total de frecuencias
(suma de las frecuencias absolutas). Así, una distribución con t
clases y con frecuencias absolutas, y 1, y2, y3, ....., yt. Las frecuencias
relativas serán respectivamente,

f1 = y1 / N; f2 = y2 / N; .................; ft = yt /N

donde N = y1 + y2 + y3 + ................. + yt
El valor de una frecuencia relativa está entre cero y uno, es decir:
0 < ti < 1 donde i = 1,2,3,4, ......., t

De igual modo, la suma de todas las frecuencias relativas es igual a 1.

d) Frecuencias Acumuladas (Yi = Fi): Las frecuencias absolutas


acumuladas son el resultado de las sumas sucesivas de las
frecuencias absolutas. Las sumas sucesivas de las frecuencias
relativas se conocen con el nombre de frecuencias relativas
acumuladas. Llamando y1, y2, y3, ...., yt a las frecuencias
absolutas acumuladas (Yi) pertenecientes a esas clases serían:

Y1 = y1
Y2 = y1 + y2
. .
. .
. .
Yt = y1 + y2 + y3 +.............+ yt
De igual modo, llamando f1, f2, f3, .........., ft a las frecuencias relativas
correspondientes a esas clases, las frecuencias relativas acumuladas (Fi)
serían:
F1 = f1
F2 = f1 + f2
. .
. .
. .
Ft = f1 + f2 + ………… + ft
La utilidad de las frecuencias acumuladas consiste en poder observar a
través de ellas el número o porcentaje de observaciones que son
mayores o menores que cierto número.
En el cuadro siguiente aparecen calculadas las frecuencias absolutas
relativas y acumuladas así como sus respectivas notaciones simbólicas
del ejemplo del cuadro 3.

Cuadro Nº5
DISTRIBUCIÓN DE FRECUENCIAS DE LAS NOTAS DE 60
ALUMNOS EN UN EXAMEN DE ESTADÍSTICAS

Frecuencias Frecuencias Frecuencias Frecuencias


Absolutas Absolutas Relativas Relativas
Punto
Clases Frecuencias Acumuladas Acumuladas Frecuencias Acumuladas Acumuladas
Medio
X’h – Absolutas Hacia Abajo Hacia Relativas Hacia Abajo Hacia
x’j (Yi) Arriba (Fi) Arriba
(xi)
(yi) (3) (Yi) Fi=yi/N (6) (Fi)
(1)
(2) (4) (5) (7)
0–9 4.5 5 5 60 0.08 0.08 1.00
10-19 14.5 3 8 55 0.05 0.13 0.92
20-29 24.5 6 14 52 0.10 0.23 0.87
30-39 34.5 2 16 46 0.03 0.26 0.77
40-49 44.5 7 23 44 0.12 0.38 0.74
50-59 54.5 10 33 37 0.17 0.55 0.62
60-69 64.5 11 44 27 0.18 0.73 0.45
70-79 74.5 8 52 16 0.13 0.86 0.27
80-89 84.5 7 59 8 0.12 0.98 0.14
90-99 94.5 1 60 1 0.02 1.0 0.02

Total N=60 1.00


MEDIDAS DE POSICIÓN O DE TENDENCIA CENTRAL

Para Analizar un conjunto de datos numéricos, lo primero que hay


que hacer es clasificarlos para evitar las complicaciones que nacen
del exceso de detalles y para poder hacer comparaciones con otros
conjuntos de datos. Se vieron también métodos de representación
gráfica que describen en parte la forma y posición de la distribución.
Esos métodos son útiles, pero básicamente cualitativos.

Las medidas de posición más usadas son: La Media Aritmética, La


Mediana, El Modo, La Media Geométrica, La Media Armónica y
los Cuantilos.

LA MEDIA ARITMÉTICA: es una de la medidas de posición que


más se emplean por su rápida y fácil obtención. Suele llamársele
también “promedio o media”, simplemente. Se define como la suma
de los valores de un conjunto de cantidades divididas por el número
de ellas. Tratándose de los valores X 1, X2, ....., XN su media
aritmética vendrá dada por la siguiente expresión:
_
X = (1/N)( xi); o sea la fórmula de la Media Aritmética Simple.
Es evidente que al calcular la media aritmética de un conjunto de
valores se puede obtener el mismo resultado así:

a) Se suman todos los valores y se dividen entre el número de


ellos.
b) Se multiplican cada uno de los valores diferentes por la
frecuencia con que ocurren, se suman luego esos productos y
se dividen entre el número de valores.

La media aritmética ponderada es el cálculo de la Media Aritmética en


una Distribución de Frecuencia:
_
X = 1/N (xiyi)

En una distribución de frecuencias en que la característica es


cuantitativa no se tienen de ordinario los datos originales con que se
hizo la distribución; los datos aparecen ya agrupados en clases. No se
puede saber, entonces, dónde dentro de cada clase ocurrió cada una de
las observaciones correspondientes a ella. Parece lógico, pues tomar el
punto medio de clase para representar a ésta, presumiéndose así que
todas las frecuencias de una clase corresponden al valor X i , que es
como se llama al punto medio. La Media Aritmética que se calcule en
esta forma será, por lo tanto una aproximación al valor correcto que se
obtendría al partir de los datos originales. Ello es así, porque como se
dijo, se hace el supuesto de que todas las observaciones de una clase
ocurrieron en el punto medio de esa clase. A continuación aparece la
forma cómo se calcula la Media Aritmética de las notas del Cuadro Nº5.

Cuadro Nº6
NOTAS DE 60 ALUMNOS EN UN EXAMEN DE ESTADÍSTICAS
CLASE FRECUENCIA PUNTO MEDIO DE
(Notas) (Alumnos) CLASE (xi yi)
xh - xj (yi) (xi)

00 – 09 5 4.5 22.5
10 – 19 3 14.5 43.5
20 – 29 6 24.5 147.0
30 – 39 2 34.5 69.0
40 – 49 7 44.5 311.5
50 – 59 10 54.5 545.0
60 – 69 11 64.5 709.5
70 – 79 8 74.5 596.0
80 – 89 7 84.5 591.5
90 – 99 1 94.5 94.5

Total N = 60 3,130.0

_
Usando la fórmula X = 1/N (xiyi) se tiene que:
_
X = (1/10)*(3,130.0) = 52.17 puntos.

Se nota que este resultado es una buena aproximación al valor


52.25 que se obtiene de los datos originales mediante la
fórmula:
_
X = 1/N (xi) = (1/60)*(3,135) = 52.25
puntos.

LA MEDIANA (Me): Es la medida de posición que le sigue en utilidad


a la media aritmética.

La mediana es el valor que divide una distribución de tal manera que


a sus lados queden un número igual de términos. Los de un lado
deben tener un valor mayor o igual que él.
Así, si se tiene una serie de valores de una variable, una vez
clasificados éstos por orden de magnitud, la mediana corresponde al
valor del término central de la serie, si el número de observaciones
es impar, o la media aritmética de los valores de los términos
centrales si el número de observaciones es par. Véase los siguientes
ejemplos ilustrativos:

Se desea calcular la mediana en la siguiente serie que consta de un


número impar de términos, nueve; (naranjas) 10, 7, 3, 13, 15, 10,
15, 5, 11. Clasificando estos por orden de magnitud, se tiene: 3, 5,
7, 10, 10, 11, 13, 15, 15.

Se puede observar que el valor perteneciente al término central


(quinto término), o sea 10 naranjas, corresponde a la mediana de
dicha serie.

La serie que aparece a continuación se compone de un número par


de términos, o sea ocho manzanas: 7, 4, 9, 20, 24, 14, 2, 15.
Ordenándolos según su magnitud, se presentarían: 2, 4, 7, 9, 14, 15,
20, 24.

La mediana de esta serie correspondería a la media aritmética de los


términos centrales (cuarto y quinto término) cuyos valores son 9 y
14. La mediana sería entonces:
(9 + 14) / 2 = 11.5
En general se determina la posición del término cuyo valor es la
mediana, por la fórmula:
Orden de ubicación de la Me = (N+1) / 2 . En la que N es el número
de términos de la serie.

La Mediana (Me) de una distribución de frecuencia

Cuando las observaciones se han agrupado en una distribución de


frecuencias y se trata de una característica cuantitativa continua, en
general, lo único que se puede determinar con exactitud es la clase que
contiene el valor de la mediana.

Cuando es deseable determinar el valor de la mediana en una


distribución de frecuencias se puede obtener una aproximación a su
verdadero valor suponiendo que en la clase que contiene el valor de la
mediana las observaciones se encuentran uniformemente distribuidas.
En el siguiente ejemplo se comprenderá mejor el procedimiento.

Cuadro Nº7
DISTRIBUCIÓN DE FRECUENCIAS DE LAS NOTAS DE 60 ALUMNOS EN
UN EXAMEN DE ESTADÍSTICAS
Frecuencia Absoluta
Limites de Clases Frecuencia Absoluta
Acumulada Hacia Abajo

00 – 09 5 5
10 – 19 3 8
20 – 29 6 14
30 – 39 2 16
40 – 49 7 23 (Yi –1)
50 – 59 10 33 (Yi)
60 – 69 11 44
70 – 79 8 52
80 – 89 7 59
90 – 99 1 60

TOTAL N = 60
El cuadro anterior es similar al Cuadro Nº3 con la excepción de que a
éste se le ha agregado la columna de las frecuencias acumuladas. De la
columna de las frecuencias acumuladas se nota que hay 33 alumnos con
notas menores de 60 y 23 con notas menores de 50. De acuerdo con la
definición de la mediana se desea un valor tal que 60/2 = 30 términos
tengan menores o iguales que él y 30 términos tengan valores mayores
o iguales que él. Puede apreciarse que la clase 50 – 59 contiene el valor
de la mediana, el valor central de la serie.

Bajo la presunción de que las observaciones se encuentran


uniformemente distribuidas en esa clase se puede obtener el valor de la
mediana por la regla de tres en la siguiente forma: En el intervalo de 10
unidades de la clase 50 – 59 hay 10 observaciones para que haya una
observación se necesitará 10/10 = 1 unidad y para que haya 7 (30 –
23) observaciones, se necesitará 7 veces más unidades. Esto es:

10/10 = x/7 : x = 10 (7/10) = 7

Así, la aproximación al valor de la mediana es el valor 50.0 + 7 = 57.0.


Nótese que 50.0 es en realidad el límite inferior de la sexta clase, o sea
la clase que encierra la mediana. El valor aproximado de la mediana
puede hallarse directamente utilizando la siguiente fórmula:

Me = Ai + {[(N / 2) – Yi - 1] / yi} *c

Ai = Límite inferior de la Clase que encierra la mediana.


(Algunos consideran Ai como el límite superior del intervalo de
clase anterior)
c = Intervalo de Clase
N = Suma de las frecuencias
Yi – 1 = Frecuencias acumuladas hasta el intervalo de clase
anterior.
yi = Frecuencia de la clase que encierra el valor de la mediana.

Aplicando esta fórmula en el ejemplo anterior (Cuadro Nº7) se tiene:

Me = 50.0 + {[(60 / 2) – 23] / 10} * 10 = 57.0 puntos

En los siguientes casos la mediana es más adecuada que la media


aritmética para caracterizar una serie de observaciones para dar idea de
la posición de la distribución.

a) Cuando existen valores excepcionalmente grandes o pequeños.


En estos casos, la media aritmética pierde su carácter típico pues
está demasiado influenciada por esos valores excepcionales.
b) Cuando se trata de una distribución en donde la primera o la
última clase o ambas, son abiertas.
c) Cuando se trata de observaciones no numéricas, pero que se
pueden ordenar, que se les puede dar un rango como las notas A,
B, C, D, E.

El Modo (Mo) de una distribución de frecuencias:


Es otra medida de posición que sirve para caracterizar en ciertos casos
una distribución, un conjunto de valores de una característica. Se le
puede utilizar cuando interesa el valor “típico, corriente o usual” de la
característica. En esta forma es útil en problemas de mercado toda vez
que al productor le interesa saber cuál es la calidad o el tiempo de
producto que usualmente es demandado por el público.
Se puede definir el modo de una serie de observaciones como el valor
de la característica que se repite más a menudo, es decir que ocurre con
más frecuencia. En forma más precisa es el valor de la característica en
el que la concentración de las observaciones es más densa. Puede
considerarse como el valor más típico de una serie de valores.

Consideremos los siguientes valores: 8, 2, 6, 6, 7, 12, 10, 8, 6, 6, 5, 4,


3, 1. El modo es el valor 6 ya que ocurre cuatro veces y ninguno de los
otros ocurre más de tres veces.

Cuando los valores de la característica se encuentran agrupados en una


distribución de frecuencias se puede determinar la clase modal o sea la
clase a que corresponde la concentración más densa de las
observaciones. En la distribución de las notas del Cuadro Nº7 la clase
modal es 60 – 69.
Hay distintos métodos para tratar de determinar a partir de una
distribución de frecuencias dónde dentro de la clase modal se encuentra
el valor modal o modo.

Mo = Ai + {D1 / [D1 + D2]} * c o sea


Mo = Ai + {(yi – yi-1) / [(yi – yi-1) + [(yi – yi+1)]} * c

Mo = Modo de la distribución.
Ai = Límite inferior de la clase modal
c = Intervalo de la clase modal
D1 = Diferencia absoluta entre la frecuencia de la clase modal y
la frecuencia de la clase anterior (prescindiendo del signo), es
decir / yi – yi-1/.
D2 = Diferencia absoluta entre la frecuencia de la clase modal yi
y la frecuencia de la clase siguiente yi+1, (prescindiendo del
signo) / yi – yi+1/.

Este método se basa en la idea de que si en la clase inmediata superior


a la clase modal hay más frecuencias que en la clase inmediata inferior
a la clase modal, parece probable que la mitad superior de la clase
modal contenga más observaciones que su mitad inferior. A este
método se le acostumbra llamarlo método de las diferencias.

Otro método para obtener el valor modal a partir de una distribución de


frecuencias es el siguiente:

Mo = Ai + {(yi+1) / [(yi+1) + (yi-1]} * c

Mo = Modo de la distribución
Ai = Límite inferior de la clase modal
c = Intervalo de la clase modal
yi+1 = Frecuencia de la clase siguiente a la modal.
yI-1 = Frecuencia de la clase anterior a la modal

Cuadro Nº8
DISTRIBUCIÓN DE LOS PESOS DE 511 ESCOLARES
PESO EN Kgs NUMERO DE ESCOLARES (yi)
TOTAL
18 menos de 20 1
20 menos de 22 1
22 menos de 24 12
24 menos de 26 29
26 menos de 28 71
28 menos de 30 114 = yi-1
30 menos de 32 128 = yi
32 menos de 34 91 = yi+1
34 menos de 36 46
36 menos de 38 17
38 menos de 40 1
a) Mo = 30 + {(128 – 114)/[(128 – 114) + (128 – 91)]} * 2 = 30 +
{14 / [14 + 37] * 2
Mo = 30.55 puntos.

b) Mo = 30 + {91 / (91 + 114)} * 2 = 30 + 0.89 = 30.89 puntos.

MEDIDAS DE DISPERSION

En lo expuesto anteriormente se habló de las medidas de posición que


sirven para caracterizar un conjunto de observaciones. Es decir, una
medida de posición, un solo valor, viene a representar toda una serie de
datos. Pero ese valor será más representativo del conjunto a que se
refiere, cuanto más concentrados estén los valores individuales a su
alrededor y lo será menos, cuanto más dispersos, más variables sean
dichos valores.

Es obvio entonces la importancia que tiene la dispersión de las


observaciones y es que el concepto de variación es fundamental en la
Estadística. Precisamente la no consideración de la dispersión es la
causa de usos equivocados de la estadística. Véase el siguiente caso:

La temperatura media anual de Boise Idaho es de 650.9 ºF. La


temperatura media anual de Seattle, Washington, es casi exactamente
la de Boise, 651.0 ºF. Sin embargo, estas dos cifras no bastan para
caracterizar este aspecto de las condiciones climáticas de dos ciudades.
En Boise la temperatura ha llegado a bajar hasta 28 grados y ha subido
hasta 121 grados. La temperatura más baja que se ha registrado en
Seattle ha sido de 3 grados y la más alta 98 grados. No cabe duda que
hay mayor variabilidad de temperatura en Boise que en Seattle.
A continuación se consideran algunas medidas de dispersión, algunas
maneras de medir el grado de variabilidad de una serie de
observaciones:

RECORRIDO (R): Es la medida de dispersión con que se


describe, de la forma más natural la variabilidad de una serie
de observaciones. Se define como la diferencia entre el valor
máximo y el valor mínimo de la serie. Así, para las notas del
Cuadro Nº2 el recorrido es: R = 97 pues la nota más alta fue
97 y la más baja 0.

R = x’jn – x’hi

Como primer paso para la descripción de la variabilidad de una


distribución el recorrido es útil por los límites de variación y por
su rapidez de cálculo. Sin embargo, el recorrido es a veces una
idea exagerada de la variabilidad de la serie por basarse
únicamente en los valores extremos de la distribución. Puede
suceder que todos los valores de las observaciones sean muy
homogéneos excepto dos de ellos, el mayor y el menor, y son
precisamente esos dos casos excepcionales los que se usan
para calcular el recorrido.

El recorrido es usado como medida de variabilidad en


aplicaciones de la estadística al control de calidad de productos
industriales. En este caso sus uso es adecuado, pues se trata
de grupos de un mismo número de observaciones y además el
número de observaciones en cada grupo es muy pequeño
(cinco observaciones, por ejemplo), por lo que el recorrido dice
así tanto sobre la variabilidad de las observaciones, como dirían
las observaciones mismas.

DESVIACIÓN MEDIA (D.M.): Antes de definir esta medida, se


definirá primero lo que es valor absoluto. Valor absoluto de un
número sin asociarle signo alguno y se indica por dos barras
verticales a ambos lados del número. Así:
/ -4 / = 4, / -3 / = 3, / 6 / = 6, / -0.84 / = 0.84

La desviación media de una serie de valores X 1, X2, X3, ......., Xn


se define como la media aritmética de los valores absolutos de
las desviaciones de los números respecto a la media aritmética:
_
D.M. = ( / Xi – X /) / N
_
Reemplazando el término Xi – X por di la fórmula se transforma

D.M. = ( / di /) / N

Obsérvese que de no utilizar los valores absolutos la suma de


las desviaciones sería igual a cero

 / di / = 0

Ejemplo: Hallar la desviación media de los números 2, 3, 6, 8, 11.


_
Media aritmética = X = 6
D.M. = ( /2 – 6/ + /3 – 6 / + /6 – 6/ + /8 – 6/ + /11 – 6/) / 5
D.M. = (4 + 3 + 0 + 2 + 5) / 5 = 2.8
Cuando los datos están ordenados en una distribución de
frecuencias, la desviación media se obtiene por:
k
D.M.= (  /di / yi) / N
i=1
_
En el término / di / = / xi - X /, xi es el punto medio de la clase
y k el total de clases en la distribución.

La desviación media para la distribución de las notas del Cuadro


Nº2 se obtiene como sigue:

Cuadro Nº9
(Datos del Cuadro Nº3)
Desviaciones con Valor Absoluto
respecto a la de las
PUNTO
CLASE Frecuencias Media Aritmética Desviaciones sin Columna 4
MEDIO
(Notas) Absolutas _ signos Ponderada
x’h – x’j (xi – X)=(di) / di / / di / yi
(xi)
(yi) (3) (4) (5)
(1)
(2)
00 – 09 4.5 5 -47.7 47.7 238.5
10 – 19 14.5 3 -37.7 37.7 113.1
20 – 29 24.5 6 -27.7 27.7 116.2
30 – 39 34.5 2 -17.7 17.7 35.4
40 – 49 44.5 7 -7.7 7.7 53.9
50 – 59 54.5 10 2.3 2.3 23.0
60 – 69 64.5 11 12.3 12.3 135.3
70 –79 74.5 8 22.3 22.3 178.4
80 – 89 84.5 7 32.3 32.3 226.1
90 – 99 94.5 1 42.3 42.3 42.3
k
TOTAL  N = 60 1,212.2
I=1

k _
D.M. = (1 / N)  /xi – X/ yi o sea
i=1
k
D.M. = (1 / N)  /di / yi = (1 / 60) (1,212.2) = 20.2 puntos.
i=1

VARIANZA (Vx): Para evitar el inconveniente que presenta el


hecho de que la media aritmética de las desviaciones de las
observaciones con respecto a la media aritmética es cero y para
evitar la inconveniencia de trabajar con valores absolutos,
parece natural usar como medida de dispersión, la media de los
cuadrados de esas desviaciones. Esa media de cuadrados que
estará expresada en unidades que son el cuadrado de las
originales, se les denomina VARIANZA (V x). Sin embargo, es
más lógico tomar la raíz cuadrada de esa media y así obtener
una media de dispersión expresada en las mismas unidades
que se refiere los datos originales.

DESVIACIÓN STANDARD ( x): La desviación standard o


desviación típica (x) es precisamente eso, la raíz cuadrada
positiva de la media aritmética de los cuadrados de las
desviaciones de las observaciones con respecto a la media
aritmética. (Raíz cuadrada de la varianza)
_______________
x = √ ( I/N) (Xi – )2 o sea que la desviación
standard es x = √ Vx
_
Donde  = X.
Ejemplo: La desviación standard de los datos
originales (años) 5, 6, 3, 4, 7, donde
__
X = 5 es.
_____________________
______________________
x =√1/5 [(5-5)2 + (6-5)2 + (3-5)2 + (4-5)2 + (7-5)2]

___________________ __
x = √1/5 (1 + 4 + 1 + 4 = √2 = 1.4142 años

Cuando los datos se encuentran ordenados en una distribución


de frecuencias, la desviación standard es:
_________________
x = √ ( I/N) (xi – )2 yi ;
_
donde  = x.

DATOS DEL CUADRO Nº3


Desviaciones Desviaciones
Desviaciones con respecto a de la columna
Clase Punto Frecuencias con respecto a la media al 4 ponderadas
Medio absolutas la media cuadrado
X’h –x’j (xi) (yi) (xi - )=(di) (xi - )2=(di2) (xi - )2 yi
(1) (2) (3) (4) (5)
00– 09 4.5 5 -47.7 2,275 11,375
10– 19 14.5 3 -37.7 1,421 4,263
20– 29 24.5 6 -27.7 767 4,602
30– 39 34.5 2 -17.7 313 626
40– 49 44.5 7 -7.7 59 413
50– 59 54.5 10 2.3 5 50
60– 69 64.5 11 12.3 151 1,661
70– 79 74.5 8 22.3 497 3,976
80– 89 84.5 7 32.3 1,043 7,301
90– 99 94.5 1 42.3 1,789 1,789
Total  N = 60 36,056

Si calculamos primeramente la Varianza, tendremos que:

Vx = x2 = 1/N  (xi - )2 yi = 1/60 (xi – 52.2)2 yi

Vx = x2 = 1/N  (di)2 yi = 36,056 / 60 = 600.93


___
Por lo tanto, la desviación standard será igual a √ x2 o sea

______
x = √ 600.93 = 24.51 puntos

COEFICIENTE DE VARIACIÓN (C.V.)X : A menudo interesa


comparar dos o más series de observaciones en cuanto a su dispersión
en cuanto a la variabilidad de los datos en cada una de ellas. Para ello
se utiliza el Coeficiente de Variación , que es el cociente entre la
desviación estándar y la media aritmética de una serie. Se acostumbra
expresarlo como un porcentaje. Esta medida es muy útil en el
planeamiento de experimentos y encuestas para especificar la precisión
con que se desea obtener los resultados.

__
(C.V.)x = x / X (100)

Siguiendo con el ejemplo anterior tenemos que:

(C.V.)x = 24.51 / 52.17 (100) = 47.0%