En nuestro ejemplo la poblacin estar formada por los ingresos de la totalidad de familias de nuestra provincia. El
ingreso de cada familia constituye un dato. Nuestra poblacin ser finita y estar formada hoy por ms de 141.969
datos. Para determinar la naturaleza de este conjunto de datos, tomamos una muestra de familias y registramos sus
ingresos totales.
En general el fenmeno de inters se caracteriza por un conjunto de datos cuya obtencin es o bien fsicamente
imposible o requerira un gasto importante en tiempo y/o en dinero. Es decir
1) El estudio puede implicar la destruccin del elemento, como es el caso de ensayos destructivos: por
ejemplo, estudiar la vida media de una partida de focos, o la tensin de rotura de cables.
2) Los elementos pueden existir conceptualmente (en nuestra mente), pero no en la realidad. Por ejemplo
la poblacin de piezas defectuosas que producir una mquina.
3) Puede ser inviable econmicamente estudiar todos los elementos.
En estas ocasiones seleccionaremos para anlisis una porcin de la poblacin a la que llamaremos muestra.
En ocasiones se utilizan las palabras poblacin y muestra para representar los objetos (o personas) que se
someten a medicin. Luego, es importante distinguir entre los objetos medidos y las mediciones.
Reiterando, las palabras poblacin y muestra tienen dos significados, se pueden referir al conjunto de objetos sobre
el cual se hacen las mediciones o se puede referir a las mediciones. En una situacin especfica el significado que
se d a estos trminos ser obvio por el contexto en que se empleen.
Los experimentadores llaman unidades experimentales a los objetos medidos. El estadstico los llama elementos
de la muestra.
Por ejemplo podemos leer en los peridicos que tal encuesta est basada en una muestra de 1823 personas. En
este caso, es claro que las unidades experimentales (los elementos) que forman parte de la muestra son personas.
Probablemente cada persona se entreviste con respecto a un tema particular y la respuesta de esta persona
representa un dato. La coleccin de datos correspondientes a las personas representa una muestra de datos.
La mayor parte del tiempo nos referiremos a las mediciones hechas sobre las unidades experimentales (elementos
de la muestra). Si ocasionalmente usamos el trmino para referirnos a una coleccin de unidades experimentales,
el contexto de la discusin aclarar el significado.
Una tarea importante para el investigador es definir cuidadosa y completamente la poblacin antes de
recolectar la muestra. La definicin debe contener una especificacin de las mediciones que se van a
considerar y debe acompaarse con una descripcin de los elementos que sern incluidos, ya que estas
dos componentes estn interrelacionadas.
Un parmetro es una medida que se calcula para describir una caracterstica de una poblacin completa.
Un estadstico es una medida que se calcula para describir una caracterstica a partir de solo una muestra.
Aunque los mtodos de estadstica descriptiva son importantes para presentar y caracterizar la informacin, lo que
ha conducido a la amplia aplicacin de la estadstica en todos los campos de la investigacin moderna ha sido el
desarrollo de los mtodos de inferencia estadstica como resultado de la teora de la probabilidad.
INFERENCIA ESTADSTICA
El mpetu inicial para el planteamiento de las matemticas de la teora de la probabilidad provino de la investigacin
de los juegos de azar durante el Renacimiento. Se pueden localizar los fundamentos de la probabilidad hacia la
mitad del siglo XVII, en la correspondencia intercambiada entre el matemtico Pascal y el jugador Chevalier de
Mere. Estos desarrollos y otros elaborados por matemticos como Bernoulli, De Moivre y Gauss fueron los
precursores de la materia de la inferencia estadstica. Sin embargo no ha sido hasta principios del siglo XX que
estadsticos como Pearson, Fisher, Gosset, Neyman, Wald y Tukey iniciaron el desarrollo de los mtodos de
inferencia estadstica, los cuales tienen una muy amplia aplicacin en diversidad de campos en la actualidad.
Se puede definir la INFERENCIA ESTADSTICA como los mtodos que hacen posible la estimacin de una
caracterstica de una poblacin, o la toma de una decisin con respecto a una poblacin, con base
nicamente en resultados muestrales.
La necesidad de los mtodos de Inferencia Estadstica proviene de la necesidad del muestreo. Al volverse muy
grande una poblacin, por lo general resulta demasiado costoso, lento y complicado obtener informacin de la
poblacin completa. Las decisiones con respecto a las caractersticas de la poblacin se deben basar en la
informacin contenida en una muestra de esa poblacin. La teora de la probabilidad proporciona el vnculo,
determinando la probabilidad de que los resultados provenientes de la muestra reflejen los resultados que se
obtendran de la poblacin.
Se pueden observar con claridad estas ideas en el ejemplo de una encuesta poltica. Si el encuestador desea
estimar el porcentaje de votos que un candidato obtendr en una eleccin especfica, no entrevistara a cada uno
de los millares (o inclusive millones) de votantes. Ms bien, seleccionara una muestra de los votantes. Con base en
la muestra, obtendra conclusiones acerca de la poblacin total de votantes. A estas conclusiones se les asociara
un planteamiento de probabilidad que especifique la esperanza o la confianza que se tiene de que los resultados de
la muestra reflejen la verdadera conducta de los votantes de toda la poblacin.
DATOS
Organizacin y Resumen
Procesamiento
Tablas, grficas, medidas descriptivas
Interpretacin
Los
datos,
son de una
poblacin o de una
muestra?
Muestra
Inferencia Estadstica
Poblacin
Conclusiones
acerca de la poblacin
3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
DESCRIPCION DE DATOS
Descripcin estadstica de una variable
Tipos de datos
El mximo principio fundamental en estadstica es el de la variabilidad. En efecto, si el mundo fuera
perfectamente predecible y no mostrara variabilidad, no habra razn de estudiar estadstica. Por ello nosotros
tambin descubriremos la nocin de variables y consideraremos diferentes clasificaciones de las variables.
Tambin exploraremos la nocin de distribucin de un conjunto de datos de una variable particular.
Una variable es cualquier caracterstica que vare de una unidad experimental a otra en el conjunto de
unidades experimentales de inters.
Dado un conjunto de datos de una variable X, la estadstica descriptiva estudia procedimientos para sintetizar la
informacin que contienen. Los tipos de variables que consideraremos son:
a) Variables cualitativas, categricas o atributos: no toman valores numricos y describen cualidades.
Estn definidas por las clases o categora en que se dividen. (Los datos son atributos, caractersticas o
propiedades categricas que identifican o describen a un sujeto. Describen diferencias en tipo o clase
indicando la presencia o ausencia de una caracterstica o propiedad). Por ejemplo clasificar una pieza
como aceptable o defectuosa, clasificar a las personas segn el sexo: femenino o masculino, clasificar
a las personas por la nacionalidad, categora de alumno de la UNJu: activo pleno, activo simple o pasivo, etc. A las dos primeras variables se las denomina dicotmicas pues solo tienen dos categoras excluyentes.
b) Variables numricas o cuantitativas: Toman valores numricos y se clasifican en discretas y continuas.
Una variable es discreta si su conjunto de valores posibles es finito o se puede enumerar en una sucesin infinita (una en la que hay un primer nmero, un segundo nmero, etc.). Corresponden en general
a contar el nmero de veces que ocurre un suceso. Por ejemplo cantidad de hijos por familia de los
alumnos de la Facultad de Ingeniera de la UNJu., cantidad de envases defectuosos producidos por da
en una fbrica, etc.
Una variable es continua si toma valores en intervalo de la recta real, corresponden a medir magnitudes continuas (tiempo, longitud, etc.). Por ejemplo el peso (en gramos) de los recin nacidos en el Hospital San Roque en el mes de enero de 2010.
Las variables numricas discretas producen datos numricos que, por lo general, surgen de un proceso de
conteo; en tanto que las variables numricas continuas toman valores numricos que surgen de un proceso de
medicin.
Escalas de Medicin
En su sentido ms amplio, los datos recopilados se miden de alguna manera. Por ejemplo hasta los datos
cuantitativos discretos pueden considerarse como producto de un proceso de medicin mediante conteo
Los cuatro niveles de medicin ampliamente reconocidos son del ms dbil al ms fuerte: escala nominal,
escala ordinal, escala de intervalo y escala de razn.
Los datos que se obtienen para una variable cualitativa se miden en una escala ya sea nominal u ordinal.
Escala Nominal: Si los datos observados se clasifican en distintas categoras que no implican orden se tiene
un nivel de medicin nominal. Por ejemplo en el caso de la variable sexo, si una persona es hombre, no puede
ser mujer. No hay cantidad de gnero, solo la condicin de ser hombre o mujer
Otros ejemplos son ocupacin, religin, color de cabello, partido poltico de una persona.
No existe orden entre las categoras lo cual no significa que no se puedan identificar.
Los nmeros o smbolos asignados a los objetos no tienen ms significado cuantitativo que indicar la presencia
o ausencia del atributo o caracterstica bajo investigacin.
La escala nominal es la forma ms dbil de medicin.
Escala Ordinal: Si los datos que se observan se clasifican en categoras distintas en las que existe algn
orden, se obtiene un nivel de medicin ordinal. Las variables pueden ser ordenadas o clasificadas con escalas
ordinales en relacin a la cantidad del atributo posedo. Cada categora puede ser comparada con otra en
trminos de una relacin de mayor que o menor que. Ejemplo: Nivel de educacin alcanzado por un
determinado grupo de personas: la persona que tiene 6to grado est ms capacitada que la que tiene 2do
grado. La categora de los hoteles se mide por estrellas, desde 1 estrella hasta 5 estrellas. El Hotel que tiene 3
estrellas tiene menos categora que el que tiene 4 estrellas. La escala ordinal es una forma un tanto ms
fuerte de medicin, porque dice que una observacin que se clasifica en una categora posee ms la
propiedad que se mide que alguna otra observacin que se registra en otra categora.
Por lo general se supone que los datos que se obtienen para una variable cuantitativa se miden en escalas de
intervalo o de razn, que constituyen los niveles ms elevados de medicin porque permiten discernir no slo
cul de los valores es el mayor, sino por cunto.
Escalas de Intervalo y de razn: Las escalas de intervalo y de razn proporcionan el nivel ms alto de medida
de precisin, permitiendo realizar casi todas las operaciones matemticas. Estas dos escalas tienen unidades
constantes de medida, de tal forma que las diferencias entre dos puntos adyacentes de cualquier parte de la
escala son iguales. La nica diferencia real entre las escalas de intervalo y las de razn es que las de intervalo
tienen un punto cero arbitrario, mientras que las escalas de razn tienen un punto cero absoluto.
Las escalas de intervalo ms familiares son las escalas de temperatura Celsius y Fahrenheit. Ambas tienen un
punto cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura, dado que podemos
registrar temperaturas por debajo del punto cero de esa escala. Por lo tanto, no es posible decir que un valor
cualquiera situado en un intervalo de la escala es un mltiplo de cualquier otro punto de la escala. Por ejemplo,
si un da se registra 30C, no se puede decir que sea dos veces ms caluroso que un da con 15C, porque
sabemos que 30C en una escala diferente como Fahrenheit, equivale a 86F. De la misma forma, 15C en
Fahrenheit corresponden a 59F. Aunque 30C es dos veces 15C, no se puede afirmar que el calor de 86F
sea dos veces el calor de 59F porque usando diferentes escalas el calor no es dos veces mayor, esto es, 59F
2 86F.
Las escalas de razn representan la forma superior de medida de precisin dado que poseen las ventajas de
todas las escalas inferiores ms un punto de cero absoluto. Con las medidas de escala de razn se permiten
todas las operaciones matemticas. Ejemplo: cuando la temperatura se mide a partir de un cero absoluto, como
en la escala Kelvin, la temperatura est dada en una escala de razn, puesto que , si se duplica la temperatura,
en realidad se duplica la velocidad promedio de las molculas que componen la sustancia. Otro ejemplo es el
peso que tenemos en las balanzas comunes utilizan estas escalas, dado que tienen un punto de cero absoluto y
que pueden ser expresados en trminos de mltiplos cuando se relaciona un punto con otro de la escala; por
ejemplo 100 kilos es dos veces ms pesado que 50 kilos.
Nmero de habitantes
561.078
1.190.944
3.346.107
12.947.286
18.045.415
absoluta correspondiente a esa categora dividida por el nmero total de observaciones N. La suma total de las
frecuencias relativas es igual a 1.
Simbolizaremos la frecuencia absoluta correspondiente a la categora i con f i , luego la frecuencia relativa se
calcular como fi / N.
Las frecuencias relativas se expresan como porcentajes al multiplicarlas por 100.
En el ejemplo se tiene:
Nmero de
habitantes
561.078
Proporcin de
habitantes
0,031
Porcentaje de
habitantes
3,8%
1.190.944
3.346.107
12.947.286
18.045.415
0,066
0,185
0,717
1,000
6,2%
21,3%
68,6%
100,0%
Tabla 3
Categoras o atributos
Frecuencias
Frecuencias relativas
A1
f1
f1 /N
100 f1 /N %
A2
f2
f2/N
100 f2/N %
A3
f3
f3/N
100 f3/N %
Ak
fk
fk/N
100 fk/N %
100%
REPRESENTACIONES GRFICAS
EL GRFICO DE BARRAS
Las Distribuciones de Frecuencias de Datos Categricos pueden representarse grficamente por medio de un
Grfico de Barras.
Un grfico de barras es fcil de construir y puede ser interpretado fcilmente por personas que no tienen una
mente orientada hacia las grficas.
El grfico presenta las posibles categoras y sus frecuencias de aparicin
Figura 1
es cierto no solamente para las grficas de barras sino tambin para cualquier otro tipo de grficas en las
cuales deben compararse magnitudes absolutas.
La impresin percibida si se comienza por algn valor mayor que cero cambia totalmente La informacin
contenida en el lote de datos
FIGURA 2
EL GRFICO DE TORTAS
Para dibujar grficos de torta se puede utilizar un comps o un transportador para dibujar el crculo y definir los
sectores convenientes. Como el crculo tiene 360 se puede utilizar el transportador para dividir la torta en
rebanadas en base a los porcentajes deseados. Por ejemplo, en la Figura 3, el 18 % de los argentinos que
trabajaban en 2010 son trabajadores por cuenta propia. Por ello, se calcula el 18% de 360, para ello se
multiplica 360 0,18 = 64,8 y se marcan los aproximadamente 65resultantes con el transportador. Despus
se conectan los puntos correspondientes con el centro, formando una rebanada que incluye el 18% del rea.
Siguiendo este procedimiento se puede construir la grfica completa.
FIGURA 3
Se presenta tambin la grfica de tortas correspondiente a los resultados del Censo 2001.
Poblacin de 14 aos o ms ocupada, por categora ocupacional.
Ao 2001
Trabajador familiar
4%
Patrn
6%
Trabajador por
cuenta propia
21%
Obrero o empleado
69%
EL GRFICO DE PUNTOS
Cuando se construya el grfico de puntos se sugiere lo siguiente.
1. Las lneas de puntos se deben acomodar en forma horizontal, tal como se observa en la figura 4,
adyacentes a las diversas categoras de la variable que se estudia.
2. El espacio entre las lneas punteadas (es decir, entre categoras) debe ser igual.
3. Se deben incluir las escalas horizontales con el conteo de la frecuencia en la parte baja del cuadro; o, por
otra parte, se deben incluir en la parte superior de los porcentajes. Los ejes se deben identificar en forma
clara.
4. La grfica debe tener Ttulo. Si son necesarias, las notas de pi de pgina y las fuentes deben aparecer en
la grfica, junto con cualquier clave necesaria para su interpretacin.
Figura 4
El propsito de las tres grficas es mostrar los datos en forma precisa y clara. Estas figuras pretenden mostrar la misma
informacin respecto a las categoras de empleo de los trabajadores argentinos de 14 o ms aos.
En particular algunas investigaciones recientes sobre percepcin de grficos, sugieren que la grfica de puntos
presenta la informacin de la mejor manera, en tanto que la grfica de torta es el tipo ms deficiente. No
obstante, la seleccin de una grfica especfica sigue siendo una actividad muy subjetiva y, con frecuencia,
depende de las preferencias estticas del investigador.
N de familias
/////
/////////////////
///////////////
/////////////////////
//////////////
//
///
//
N de
familias
Proporcin de
familias
Porcentaje de
familias
Porcentaje
acumulado
1
2
3
4
5
6
7
8
5
17
14
21
13
2
3
2
77
0,06
0,22
0,18
0,27
0,17
0,03
0,04
0,03
1,00
6%
22%
18%
27%
17%
3%
4%
3%
100%
6%
28%
46%
73%
90%
93%
97%
100%
N=
Figura 5
Figura 6
las principales caractersticas de los datos y de esta manera se compensa el hecho de que al agrupar los datos
se pierde alguna informacin inicial referente a las observaciones individuales.
Al construir una tabla de Distribucin de Frecuencias, se debe prestar atencin a lo siguiente:
Seleccionar el nmero adecuado de clases para cada tabla.
Obtener un intervalo de clase apropiado para cada clase.
Seleccionar los lmites de las clases que definen los intervalos, de manera que cada observacin se
clasifique sin ambigedad en una sola clase.
Son muchas las formas de seleccionar los lmites de las clases. Cada paquete estadstico usa para ello su
propio algoritmo, el cual difiere de un paquete a otro. Si se usan varios paquetes para graficar un conjunto de
datos dado con su tcnica por defecto, los histogramas pueden variar levemente en el nmero de clases
seleccionadas y en los valores de los lmites de las clases. La forma general del histograma sera la misma en
todos ellos.
Amplitud de los intervalos
Si los intervalos de clase son de la misma longitud, Cmo elegir la amplitud h de los intervalos de
clase?
Hay una vieja frmula para ello; si N es el tamao del lote, se trata de hallar el nmero de intervalos k
que satisfaga la relacin
N ~ 2
( k - 1)
k ~ 1 + 3,322 log N
Frmula de Sturges
(1)
Hay tambin una regla emprica para determinar el nmero de intervalos de clase
Nmero de Clases
Menos de 25
5o6
25 50
7 14
Ms de 50
15 - 20
Generalmente, este procedimiento deja una amplitud que no es conveniente para su uso y nuevamente se debe
utilizar el sentido comn para elegir la amplitud -normalmente cercana a la que se obtiene con la ecuacin (1)que sea ms conveniente-.
Una vez determinado el nmero de clases, determinamos la amplitud h de cada clase, simblicamente
h = RANGO / k ,
esto es
xMXIMO XMNIMO
k
(2)
solamente en pesos. Cuando ste es el caso, el punto medio de la primera clase sera [(30 + 39)/2] = $34,50. Y
as sucesivamente.
Si los datos se expresan hasta los centavos, los lmites anteriores no resultarn claros. Sin embargo, si se
establecen los lmites en la forma de $30,00-$39,99, $40,00-$49,99, no habr duda de saber en que clase cae
cada elemento. En este caso, el punto medio de la primera clase es [(30,00 + 39,99)/2] = $34,995, o para
cualquier propsito $35, y as sucesivamente.
Los lmites $30-menos de $40, $40-menos de $50 son claros; sin embargo, sin informacin adicional no es
posible determinar los puntos medios con precisin. Si no se proporciona informacin adicional, el punto medio
de la primera clase se considera como [(30 + 40)/2] = $35, y as sucesivamente.
Intervalos de Clase
Definimos cada clase o categora mediante un intervalo de clase expresado en la forma
xi - h/2
,
xi + h/2
El punto medio xi es la marca de clase. Como ya dijimos este valor es el centro del intervalo que define la clase
y es el valor numrico representativo de los datos de la clase.
x i - h / 2 es el lmite inferior de la clase y x i + h / 2 es el lmite superior de la clase.
Una manera de determinar la clase definida por x i sera:
Desde xi - h/2 inclusive, hasta menos de xi+ h/2,
esto es, el intervalo [x i - h / 2 , x i + h / 2)
Diremos que el dato v j pertenece a esta clase si y solo si x i - h/2 v j < x i + h/2 .
Como vemos, en cada intervalo de clase se incluye al lmite inferior.
Nota: Otra alternativa al definir los lmites de las clases para garantizar que ningn dato caiga en un lmite de
clase, es definir los lmites de manera tal que incluyan un decimal ms que los datos.
Ejemplo: Los contenidos de nicotina, en miligramos, de 40 cigarrillos de una cierta marca se registraron de la
siguiente manera:
1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68
1,51 1,64 0,72 1,69 1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37
1,75 1,69
Se desea obtener conclusiones sobre la distribucin de los datos.
En primer lugar determinamos el nmero k de intervalos de clase. Aplicamos la frmula de Sturges
k 1 + 3,322 log 40 = 6,322 ,redondeamos k 7 clases
Teniendo en cuenta que x mximo = 2,55 y el xmnimo = 0,72, tomamos la amplitud de cada intervalo h, usando la
2,55 0,72
0,261 0,30
ecuacin (2) : h
7
La distribucin de frecuencias para el ejemplo se presenta en la Tabla 5.
Marca de Clase
N de
cigarrillos
0,75
1,05
1,35
1,65
1,95
2,25
2,55
2
1
4
15
11
5
2
40
Proporcin
Porcentaje
de cigarrillos de cigarrillos
0,050
0,025
0,100
0,375
0,275
0,125
0,050
1,000
5,0%
2,5%
10,0%
37,5%
27,5%
12,5%
5,0%
100,0%
Se clasificaron las observaciones en cada una de las clases y se determinaron as las frecuencias absolutas.
Las frecuencias relativas nos da la proporcin de observaciones en cada clase.
La informacin que proporciona una distribucin de frecuencias para este tipo de agrupamiento de datos es ms
fcil de entender si se presenta en forma grfica mediante un diagrama que se llama Histograma y es debido a
Karl Pearson.
HISTOGRAMA
Un histograma es un conjunto de rectngulos cada uno de los cuales representa un intervalo de agrupacin o
clase. La base de cada rectngulo coincide con el intervalo de clase, y la altura se determina de manera que su
rea sea proporcional a la frecuencia respectiva (o frecuencia relativa o frecuencia relativa porcentual) de cada
clase.
La variable de inters se grafica sobre el eje horizontal, el eje vertical representa el nmero, proporcin o
porcentaje de observaciones para cada intervalo de clase, dependiendo de si el histograma especfico es,
respectivamente, un histograma de frecuencias, un histograma de frecuencias relativas o un histograma
porcentual.
Se presenta un histograma de frecuencia asociado a la distribucin de frecuencias de la Tabla 5.
Figura 7
14
12
11
10
N de cigarrillos
8
6
5
4
2
4
2
2
1
0
,6 - ,9
,9 - 1,2
1,2 - 1,5
1,5 - 1,8
1,8 - 2,1
2,1 - 2,4
2,4 - 2,7
De la tabla y el histograma puede concluirse que los contenidos de nicotina de los 40 cigarrillos se concentran
entre los 1,5 miligramos y 2,1 miligramos, ms precisamente el 65% de las observaciones centrales, toman
valores de 1,5 mg hasta menos de 2,1 mg. Solo dos cigarrillos (un 5%) tienen un contenido de nicotina superior
a 2,4 mg.
Los histogramas pueden proporcionar mucha informacin respecto a la estructura de los datos.
La Figura 8 presenta varios casos tpicos.
Figura 8(a)
El histograma (a) presenta una distribucin asimtrica que es tpica de los datos econmicos, y en general de
mediciones de renta, poblacin, consumo de electricidad,tamao de empresas, etc
Figura 8(b)
El Histograma (b) muestra una distribucin simtrica que aparece en muchos procesos de fabricacin al estudiar la
distribucin de una caracterstica medible.
Figura 8(c)
Figura 8(d)
El histograma (c) aparece al mezclar elementos de varias poblaciones, cada uno de ellos con una distribucin
tipo (b), lo que produce una distribucin con gran variabilidad. En el lmite, si las distribuciones individuales
estn muy separadas, podemos encontrarnos una situacin como la descrita por el histograma (d) donde se
apuntan ms claramente ambas distribuciones (por ejemplo resistencia de piezas de distintos materiales en
cuanto a dureza).
Figura 8(e)
El caso (e) presenta una distribucin truncada, que aparecer, por ejemplo, al someter a piezas a un control de
calidad que tiene lmite de especificaciones A y B
Figura 8(f)
Finalmente la distribucin (f) es muy asimtrica y surge al estudiar tiempos entre averas, entre llegadas, entre
accidentes, etc.
Sin embargo, cuando se comparan dos o ms conjuntos de datos, no es posible construir los diversos histogramas
en la misma grfica, porque la superposicin de los rectngulos dificulta su interpretacin. Para estos casos en
necesario construir polgonos porcentuales o de frecuencias relativas.
POLGONOS
Al igual que con los histogramas, cuando se elaboran polgonos se grafica sobre el eje horizontal la variable de
inters, en tanto que el eje vertical representa o simboliza el nmero, proporcin o porcentaje de observaciones de
cada intervalo de clase.
El polgono porcentual se forma haciendo que el punto medio de cada clase represente los datos de esa clase y
despus conectando la secuencia de sus respectivos porcentajes de clase.
En la siguiente Figura 9 se muestra el polgono porcentual de los contenidos de nicotina de 40 cigarrillos.
Construccin de polgonos
Se debe tener presente que el polgono es una representacin de la forma de una distribucin particular. Como el
rea bajo la distribucin porcentual (la totalidad de la curva) debe ser del 100%, es necesario conectar los puntos
medios primero y ltimo con el eje horizontal, para abarcar el rea total de la distribucin observada. En la figura 9
se logra esto conectando el primer punto medio observado con el punto medio de una clase ficticiamente
precedente 0,45 mg que tiene 0,0% de observaciones y conectando el ltimo punto medio observado con el punto
medio de una clase ficticiamente siguiente 2,85 mg que tiene 0,0% de observaciones.
Se ilustra el procedimiento para construir el polgono de frecuencia de la Figura 9.
FIGURA 9
Ntese tambin que cuando se construyen polgonos o histogramas, el eje vertical debe mostrar el cero verdadero
u origen para no distorsionar o representar equivocadamente el tipo de datos. Sin embargo, no es necesario que
2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO
el eje horizontal especifique el punto cero de la variable de inters. Por razones de esttica el rango de la variable
debe constituir la principal porcin de la grfica y, cuando no se incluye el cero, resulta apropiado incluir fracturas
en el eje.
Como los puntos medios consecutivos se conectan mediante segmentos de recta, en ocasiones la apariencia del
polgono es irregular. Si se acercaran ms los lmites exactos de clase de las distribucin de frecuencia ( y, de esta
manera se aumentara el nmero de clases de la distribucin) se suavizara la irregularidad de las lneas.
Porcentaje de cigarrillos
5,0%
2,5%
10,0%
37,5%
27,5%
12,5%
5,0%
0,0%
As se observa que el 0,0% de los cigarrillos tienen un contenido de nicotina inferior a 0,60 mg, el 5% son inferiores
a 0,90 mg, y as sucesivamente, hasta que el total (100,0%) de los cigarrillos tienen un contenido de nicotina inferior
a 2,70 mg.
Es posible que los intervalos de clase de igual amplitud no sea una eleccin atinada si un conjunto de datos se
extiende a un lado u otro. En la figura 12 se ilustra un diagrama de puntos de tal conjunto de datos. Con una
cantidad pequea de clases de igual amplitud se obtienen casi todas las observaciones que caen en solo algunas
clases. Si se utiliza una gran cantidad de clases del mismo ancho, muchas tienen frecuencia cero, tal como puede
apreciarse en la Figura 13.
FIGURA 13
Una segunda eleccin es usar algunos intervalos ms anchos cerca de observaciones extremas e intervalos ms
reducidos en la regin de alta concentracin.
Para construir un histograma para datos continuos, con intervalos de clase de ancho desiguales, despus de
determinar las frecuencias y las frecuencias relativas, se calcula la altura del rectngulo con la frmula:
(3)
Las alturas de los rectngulos que resultan se denominan densidades, y la escala vertical es la escala de
densidad. Esto tambin funciona cuando los intervalos de clase tienen el mismo ancho.
Tambin se utiliza para datos discretos.
La siguiente tabla presenta la distribucin de frecuencias para intervalos de clase de distinto ancho.
Tabla 8: Distribucin de frecuencias del N de ciclos de tensin a la ruptura para 100 muestras de hilo
Intervalos de Frecuencia Frecuencia
clase
relativa
[0 , 50)
8
0,08
[50, 100)
13
0,13
[100, 150)
11
0,11
[150 , 200)
21
0,21
[200 , 300)
26
0,26
[300 , 400)
12
0,12
[400 , 500)
4
0,04
3
[500 , 600)
0,03
2
[600 , 900)
0,02
100
N=
1,00
Densidad
0,0016
0,0026
0,0022
0,0042
0,0026
0,0012
0,0004
0,0003
0,0001
FIGURA 14
Cuando los anchos de clase son distintos, el hecho de no usar una escala de densidad, da como resultado una
figura con reas distorsionadas (FIG 15)
FIGURA 15
Es decir, el rea de cada rectngulo es la frecuencia relativa de la clase correspondiente. Adems, puesto que la
suma de las frecuencias relativas debe ser 1 (salvo en caso de redondeo) el rea total de los rectngulos en un
histograma de densidad es igual a 1. Siempre es posible trazar un histograma de manera que el rea sea igual a la
frecuencia relativa (esto tambin es vlido para un histograma de datos discretos, solo se usa la escala de
densidad).
Bibliografa
Probabilidad y Estadstica para Ingenieros Walpole, Myers y Myers. Sexta Edicin. Ed. Prentice Hall. 1999.
Probabilidad y Estadstica para Ingeniera y Ciencias William Mendenhall y Terry Sincih. Cuarta Edicin 1997.
Estadstica Bsica en Administracin. Conceptos y Aplicaciones Berenson y Levine. Prentice-Hall. Cuarta
Edicin 1992.
Probabilidad y Estadstica para Ingeniera y Ciencias Jay Devore. Sexta edicin. 2005
Estadstica Murray Spiegel. Serie Shaum
Estadstica Modelos y Mtodos. 1. Fundamentos Daniel Pea Snchez de Rivera- Alianza Editorial. 1986