Anda di halaman 1dari 21

APUNTES DE CLASE 17 de Marzo de 2015- Versin preliminar

Facultad de Ingeniera Universidad Nacional de Jujuy


ESTADISTICA - Introduccin
La ESTADSTICA actual es el resultado de la unin de dos disciplinas que evolucionaron independientemente hasta
confluir en el siglo XIX: la primera es el clculo de las probabilidades, que nace en el siglo XVII como teora
matemtica de los juegos de azar; la segunda es la Estadstica (o ciencia del estado, del latn Status) que estudia la
descripcin de datos, y tiene races ms antiguas. La integracin de ambas lneas de pensamiento da lugar a una
ciencia que estudia cmo obtener conclusiones de la investigacin emprica mediante el uso de modelos
matemticos.
La estadstica acta como disciplina puente entre los modelos matemticos y los fenmenos reales. Un modelo
matemtico es una abstraccin simplificada de una realidad ms compleja y siempre existir cierta discrepancia
entre lo observado y lo previsto por el modelo. La Estadstica proporciona una metodologa para evaluar y juzgar
estas discrepancias entre la realidad y la teora. Por lo tanto su estudio es bsico para todos aquellos que deseen
trabajar en ciencia aplicada (sea sta Tecnologa, Economa o Sociologa) que requiera el anlisis de datos y el
diseo de experimentos. La Estadstica es la "tecnologa" del mtodo cientfico experimental (Mood 1972).
Adems de su papel instrumental, el estudio de la Estadstica es importante para entender las posibilidades y
limitaciones de la investigacin experimental, para diferenciar las conclusiones que pueden obtenerse de los datos
de las que carecen de base emprica y, en definitiva, para desarrollar un pensamiento crtico y antidogmtico ante la
realidad.
Muchos ciudadanos ven a la Estadstica con una gran desconfianza: para unos es la ciencia en la que las
diferencias individuales quedan ocultas a travs de las medias (que se traduce en el dicho popular: La estadstica
es la ciencia que explica como si tu te comes dos pollos y yo ninguno, nos hemos comido uno cada uno por trmino
medio" y en la famosa frase de Bernard Show: " si un hombre tiene la cabeza en un horno y los pies en una nevera,
su cuerpo est a una temperatura media ideal"); para otros es la ciencia mediante la cual con grficos, tasa de
variacin y porcentajes, se manipula la opinin desde la publicidad, la tecnologa o la economa. Vivimos en la era
de la Estadstica y cada aspecto de la actividad humana es medido e interpretado en trminos estadsticos.
El nico antdoto para esta posible manipulacin y para participar efectivamente en la argumentacin pblica
basada en cifras y datos, consustancial a la vida democrtica, es un conocimiento bsico de los mtodos
estadsticos. En este sentido, una formacin en los conceptos estadsticos bsicos es necesaria para cualquier
ciudadano.
UN POCO DE HISTORIA
Histricamente se puede ubicar el crecimiento y desarrollo de la estadstica moderna gracias a dos fenmenos
separados: las necesidades de los gobiernos de recopilar informacin sobre sus ciudadanos y el desarrollo de las
matemticas en la teora de la probabilidad.
A lo largo de toda la historia registrada se han recopilado datos. En las civilizaciones egipcia, griega y romana, se
obtena informacin primordialmente con el propsito de cobrar impuestos y reclutar soldados. En la Edad Media,
era frecuente que las instituciones eclesisticas llevaran registros acerca ce nacimientos, muertes y
matrimonios. En Estados Unidos se mantenan diversos registros durante los tiempos coloniales y a principios de
1790, la Constitucin Federal de ese pas implant el levantamiento de un censo cada 10 aos. En la actualidad
esos datos se utilizan con diversos propsitos, incluyendo la distribucin de curules en el Congreso y al asignacin
de fondos federales. En Argentina se realizan los censos cada 10 aos, el ltimo se realiz en el ao 2001.
QUE ES LA ESTADSTICA MODERNA?
El contenido de la Estadstica Moderna incluye la recopilacin, presentacin y caracterizacin de la
informacin a fin de que auxilie tanto en el anlisis de los datos como en el proceso de toma de decisiones.
La rama de la estadstica que se dedica a la organizacin, sntesis y descripcin de conjuntos de datos es la
estadstica descriptiva.
La estadstica es la ciencia del razonamiento a partir de datos, luego una forma natural de iniciar nuestro
estudio es examinando que se entiende por el trmino dato.
Supongamos que nos interesa realizar un estudio sobre los ingresos ($) familiares en la provincia de Jujuy, es decir
el objetivo de nuestro estudio es obtener informacin sobre el ingreso total anual de todas las familias de la
provincia de Jujuy. (El ltimo censo del 2001 registr 141.969 unidades familiares para la provincia de Jujuy, y el
censo anterior de 1991 registr 115.776 familias.)
Podramos esperar que el ingreso total de cada familia dependa de factores tales como la cantidad de miembros
que trabajan en cada familia, las actividades que desempean, las antigedades en cada trabajo, etc. En general si
tomamos familias con caractersticas similares, los salarios anuales variarn.
Una poblacin consiste en la totalidad de observaciones en las cuales se est interesado.
1CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

En nuestro ejemplo la poblacin estar formada por los ingresos de la totalidad de familias de nuestra provincia. El
ingreso de cada familia constituye un dato. Nuestra poblacin ser finita y estar formada hoy por ms de 141.969
datos. Para determinar la naturaleza de este conjunto de datos, tomamos una muestra de familias y registramos sus
ingresos totales.
En general el fenmeno de inters se caracteriza por un conjunto de datos cuya obtencin es o bien fsicamente
imposible o requerira un gasto importante en tiempo y/o en dinero. Es decir
1) El estudio puede implicar la destruccin del elemento, como es el caso de ensayos destructivos: por
ejemplo, estudiar la vida media de una partida de focos, o la tensin de rotura de cables.
2) Los elementos pueden existir conceptualmente (en nuestra mente), pero no en la realidad. Por ejemplo
la poblacin de piezas defectuosas que producir una mquina.
3) Puede ser inviable econmicamente estudiar todos los elementos.
En estas ocasiones seleccionaremos para anlisis una porcin de la poblacin a la que llamaremos muestra.
En ocasiones se utilizan las palabras poblacin y muestra para representar los objetos (o personas) que se
someten a medicin. Luego, es importante distinguir entre los objetos medidos y las mediciones.
Reiterando, las palabras poblacin y muestra tienen dos significados, se pueden referir al conjunto de objetos sobre
el cual se hacen las mediciones o se puede referir a las mediciones. En una situacin especfica el significado que
se d a estos trminos ser obvio por el contexto en que se empleen.
Los experimentadores llaman unidades experimentales a los objetos medidos. El estadstico los llama elementos
de la muestra.
Por ejemplo podemos leer en los peridicos que tal encuesta est basada en una muestra de 1823 personas. En
este caso, es claro que las unidades experimentales (los elementos) que forman parte de la muestra son personas.
Probablemente cada persona se entreviste con respecto a un tema particular y la respuesta de esta persona
representa un dato. La coleccin de datos correspondientes a las personas representa una muestra de datos.
La mayor parte del tiempo nos referiremos a las mediciones hechas sobre las unidades experimentales (elementos
de la muestra). Si ocasionalmente usamos el trmino para referirnos a una coleccin de unidades experimentales,
el contexto de la discusin aclarar el significado.
Una tarea importante para el investigador es definir cuidadosa y completamente la poblacin antes de
recolectar la muestra. La definicin debe contener una especificacin de las mediciones que se van a
considerar y debe acompaarse con una descripcin de los elementos que sern incluidos, ya que estas
dos componentes estn interrelacionadas.
Un parmetro es una medida que se calcula para describir una caracterstica de una poblacin completa.
Un estadstico es una medida que se calcula para describir una caracterstica a partir de solo una muestra.
Aunque los mtodos de estadstica descriptiva son importantes para presentar y caracterizar la informacin, lo que
ha conducido a la amplia aplicacin de la estadstica en todos los campos de la investigacin moderna ha sido el
desarrollo de los mtodos de inferencia estadstica como resultado de la teora de la probabilidad.
INFERENCIA ESTADSTICA
El mpetu inicial para el planteamiento de las matemticas de la teora de la probabilidad provino de la investigacin
de los juegos de azar durante el Renacimiento. Se pueden localizar los fundamentos de la probabilidad hacia la
mitad del siglo XVII, en la correspondencia intercambiada entre el matemtico Pascal y el jugador Chevalier de
Mere. Estos desarrollos y otros elaborados por matemticos como Bernoulli, De Moivre y Gauss fueron los
precursores de la materia de la inferencia estadstica. Sin embargo no ha sido hasta principios del siglo XX que
estadsticos como Pearson, Fisher, Gosset, Neyman, Wald y Tukey iniciaron el desarrollo de los mtodos de
inferencia estadstica, los cuales tienen una muy amplia aplicacin en diversidad de campos en la actualidad.
Se puede definir la INFERENCIA ESTADSTICA como los mtodos que hacen posible la estimacin de una
caracterstica de una poblacin, o la toma de una decisin con respecto a una poblacin, con base
nicamente en resultados muestrales.
La necesidad de los mtodos de Inferencia Estadstica proviene de la necesidad del muestreo. Al volverse muy
grande una poblacin, por lo general resulta demasiado costoso, lento y complicado obtener informacin de la
poblacin completa. Las decisiones con respecto a las caractersticas de la poblacin se deben basar en la
informacin contenida en una muestra de esa poblacin. La teora de la probabilidad proporciona el vnculo,
determinando la probabilidad de que los resultados provenientes de la muestra reflejen los resultados que se
obtendran de la poblacin.
Se pueden observar con claridad estas ideas en el ejemplo de una encuesta poltica. Si el encuestador desea
estimar el porcentaje de votos que un candidato obtendr en una eleccin especfica, no entrevistara a cada uno
de los millares (o inclusive millones) de votantes. Ms bien, seleccionara una muestra de los votantes. Con base en
la muestra, obtendra conclusiones acerca de la poblacin total de votantes. A estas conclusiones se les asociara
un planteamiento de probabilidad que especifique la esperanza o la confianza que se tiene de que los resultados de
la muestra reflejen la verdadera conducta de los votantes de toda la poblacin.

2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

DATOS

Organizacin y Resumen

Procesamiento
Tablas, grficas, medidas descriptivas

Interpretacin

Los
datos,
son de una
poblacin o de una
muestra?
Muestra

Inferencia Estadstica
Poblacin

Conclusiones
acerca de la poblacin
3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

DESCRIPCION DE DATOS
Descripcin estadstica de una variable
Tipos de datos
El mximo principio fundamental en estadstica es el de la variabilidad. En efecto, si el mundo fuera
perfectamente predecible y no mostrara variabilidad, no habra razn de estudiar estadstica. Por ello nosotros
tambin descubriremos la nocin de variables y consideraremos diferentes clasificaciones de las variables.
Tambin exploraremos la nocin de distribucin de un conjunto de datos de una variable particular.
Una variable es cualquier caracterstica que vare de una unidad experimental a otra en el conjunto de
unidades experimentales de inters.
Dado un conjunto de datos de una variable X, la estadstica descriptiva estudia procedimientos para sintetizar la
informacin que contienen. Los tipos de variables que consideraremos son:
a) Variables cualitativas, categricas o atributos: no toman valores numricos y describen cualidades.
Estn definidas por las clases o categora en que se dividen. (Los datos son atributos, caractersticas o
propiedades categricas que identifican o describen a un sujeto. Describen diferencias en tipo o clase
indicando la presencia o ausencia de una caracterstica o propiedad). Por ejemplo clasificar una pieza
como aceptable o defectuosa, clasificar a las personas segn el sexo: femenino o masculino, clasificar
a las personas por la nacionalidad, categora de alumno de la UNJu: activo pleno, activo simple o pasivo, etc. A las dos primeras variables se las denomina dicotmicas pues solo tienen dos categoras excluyentes.
b) Variables numricas o cuantitativas: Toman valores numricos y se clasifican en discretas y continuas.
Una variable es discreta si su conjunto de valores posibles es finito o se puede enumerar en una sucesin infinita (una en la que hay un primer nmero, un segundo nmero, etc.). Corresponden en general
a contar el nmero de veces que ocurre un suceso. Por ejemplo cantidad de hijos por familia de los
alumnos de la Facultad de Ingeniera de la UNJu., cantidad de envases defectuosos producidos por da
en una fbrica, etc.
Una variable es continua si toma valores en intervalo de la recta real, corresponden a medir magnitudes continuas (tiempo, longitud, etc.). Por ejemplo el peso (en gramos) de los recin nacidos en el Hospital San Roque en el mes de enero de 2010.
Las variables numricas discretas producen datos numricos que, por lo general, surgen de un proceso de
conteo; en tanto que las variables numricas continuas toman valores numricos que surgen de un proceso de
medicin.
Escalas de Medicin
En su sentido ms amplio, los datos recopilados se miden de alguna manera. Por ejemplo hasta los datos
cuantitativos discretos pueden considerarse como producto de un proceso de medicin mediante conteo
Los cuatro niveles de medicin ampliamente reconocidos son del ms dbil al ms fuerte: escala nominal,
escala ordinal, escala de intervalo y escala de razn.
Los datos que se obtienen para una variable cualitativa se miden en una escala ya sea nominal u ordinal.
Escala Nominal: Si los datos observados se clasifican en distintas categoras que no implican orden se tiene
un nivel de medicin nominal. Por ejemplo en el caso de la variable sexo, si una persona es hombre, no puede
ser mujer. No hay cantidad de gnero, solo la condicin de ser hombre o mujer
Otros ejemplos son ocupacin, religin, color de cabello, partido poltico de una persona.
No existe orden entre las categoras lo cual no significa que no se puedan identificar.
Los nmeros o smbolos asignados a los objetos no tienen ms significado cuantitativo que indicar la presencia
o ausencia del atributo o caracterstica bajo investigacin.
La escala nominal es la forma ms dbil de medicin.
Escala Ordinal: Si los datos que se observan se clasifican en categoras distintas en las que existe algn
orden, se obtiene un nivel de medicin ordinal. Las variables pueden ser ordenadas o clasificadas con escalas
ordinales en relacin a la cantidad del atributo posedo. Cada categora puede ser comparada con otra en
trminos de una relacin de mayor que o menor que. Ejemplo: Nivel de educacin alcanzado por un
determinado grupo de personas: la persona que tiene 6to grado est ms capacitada que la que tiene 2do
grado. La categora de los hoteles se mide por estrellas, desde 1 estrella hasta 5 estrellas. El Hotel que tiene 3
estrellas tiene menos categora que el que tiene 4 estrellas. La escala ordinal es una forma un tanto ms

4CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

fuerte de medicin, porque dice que una observacin que se clasifica en una categora posee ms la
propiedad que se mide que alguna otra observacin que se registra en otra categora.
Por lo general se supone que los datos que se obtienen para una variable cuantitativa se miden en escalas de
intervalo o de razn, que constituyen los niveles ms elevados de medicin porque permiten discernir no slo
cul de los valores es el mayor, sino por cunto.
Escalas de Intervalo y de razn: Las escalas de intervalo y de razn proporcionan el nivel ms alto de medida
de precisin, permitiendo realizar casi todas las operaciones matemticas. Estas dos escalas tienen unidades
constantes de medida, de tal forma que las diferencias entre dos puntos adyacentes de cualquier parte de la
escala son iguales. La nica diferencia real entre las escalas de intervalo y las de razn es que las de intervalo
tienen un punto cero arbitrario, mientras que las escalas de razn tienen un punto cero absoluto.
Las escalas de intervalo ms familiares son las escalas de temperatura Celsius y Fahrenheit. Ambas tienen un
punto cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura, dado que podemos
registrar temperaturas por debajo del punto cero de esa escala. Por lo tanto, no es posible decir que un valor
cualquiera situado en un intervalo de la escala es un mltiplo de cualquier otro punto de la escala. Por ejemplo,
si un da se registra 30C, no se puede decir que sea dos veces ms caluroso que un da con 15C, porque
sabemos que 30C en una escala diferente como Fahrenheit, equivale a 86F. De la misma forma, 15C en
Fahrenheit corresponden a 59F. Aunque 30C es dos veces 15C, no se puede afirmar que el calor de 86F
sea dos veces el calor de 59F porque usando diferentes escalas el calor no es dos veces mayor, esto es, 59F
2 86F.
Las escalas de razn representan la forma superior de medida de precisin dado que poseen las ventajas de
todas las escalas inferiores ms un punto de cero absoluto. Con las medidas de escala de razn se permiten
todas las operaciones matemticas. Ejemplo: cuando la temperatura se mide a partir de un cero absoluto, como
en la escala Kelvin, la temperatura est dada en una escala de razn, puesto que , si se duplica la temperatura,
en realidad se duplica la velocidad promedio de las molculas que componen la sustancia. Otro ejemplo es el
peso que tenemos en las balanzas comunes utilizan estas escalas, dado que tienen un punto de cero absoluto y
que pueden ser expresados en trminos de mltiplos cuando se relaciona un punto con otro de la escala; por
ejemplo 100 kilos es dos veces ms pesado que 50 kilos.

ORGANIZACIN Y RESUMEN DE DATOS


ORGANIZACIN Y RESUMEN DE DATOS CATEGRICOS
En un estudio del mercado laboral de nuestro pas, nos interesa saber las distintas categoras ocupacionales de
los habitantes que trabajan. Podemos obtener informacin en el INDEC (Instituto Nacional de Estadsticas y
Censos de la Repblica Argentina) respecto al ltimo censo realizado en el ao 2010.
La presentacin de datos cualitativos suele hacerse indicando las clases o atributos o categoras consideradas
y sus respectivas frecuencias de aparicin como indica la TABLA 1.
Tabla 1
CATEGORA OCUPACIONAL
Trabajador familiar
Patrn
Trabajador por cuenta propia
Obrero o empleado
Total de poblacin ocupada

Nmero de habitantes
561.078
1.190.944
3.346.107
12.947.286
18.045.415

La variable es la categora ocupacional en el ao 2010 de cada argentino de 14 o ms aos. El trabajo lo


hacemos sobre la variable categora ocupacional y no sobre la persona, pues sobre cada persona hay
infinidad de datos: edad, sexo, nivel de educacin, provincia en la que reside, etc.
Las personas son las portadoras de los datos mientras que la categora ocupacional respectivas constituyen los
datos. La estadstica no estudia los portadores sino los datos.
En la primera columna de la tabla 1 estn las categoras consideradas por el INDEC (Instituto Nacional de
Estadsticas y Censos de la Repblica Argentina). En la segunda columna se registra el nmero de personas
que se clasifican en cada categora, es decir su frecuencia (o frecuencia absoluta).
Adems de las frecuencias absolutas, se pueden calcular las frecuencias relativas. La frecuencia relativa de una
categora es la proporcin de veces que ocurre dicha categora y se calcula como el cociente entre la frecuencia

5CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

absoluta correspondiente a esa categora dividida por el nmero total de observaciones N. La suma total de las
frecuencias relativas es igual a 1.
Simbolizaremos la frecuencia absoluta correspondiente a la categora i con f i , luego la frecuencia relativa se
calcular como fi / N.
Las frecuencias relativas se expresan como porcentajes al multiplicarlas por 100.
En el ejemplo se tiene:

Tabla 2: Clasificacin de la Poblacin de la Argentina de 14 aos o ms ocupada por categora


ocupacional. Ao 2010
CATEGORA OCUPACIONAL
Trabajador familiar
Patrn
Trabajador por cuenta propia
Obrero o empleado
Total de poblacin ocupada

Nmero de
habitantes
561.078

Proporcin de
habitantes
0,031

Porcentaje de
habitantes
3,8%

1.190.944
3.346.107
12.947.286
18.045.415

0,066
0,185
0,717
1,000

6,2%
21,3%
68,6%
100,0%

FUENTE: INDEC.Censo Nacional de Poblacin, Hogares y Vivienda 2010.


La tabla que recoge las categoras de la variable con sus frecuencias respectivas se denomina Distribucin de
frecuencias de la variable.
Resumiendo, se presenta en la Tabla 3 la distribucin de frecuencias de una variable cualitativa X

Tabla 3
Categoras o atributos

Frecuencias

Frecuencias relativas

Frecuencias relativas (en %)

A1

f1

f1 /N

100 f1 /N %

A2

f2

f2/N

100 f2/N %

A3

f3

f3/N

100 f3/N %

Ak

fk

fk/N

100 fk/N %

100%

A1, A2, , Ak, son las categoras


f1, f2, , fk son las frecuencias absolutas
N el tamao del lote de datos (que puede ser una poblacin o una muestra) es la cantidad de observaciones.
K es el nmero de categoras.
Los subndices i en las categoras Ai solo identifican las categoras, no las ordenan.
Las frecuencias eventualmente pueden ser 0. No pueden ser negativas ni fraccionarias.

6CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

REPRESENTACIONES GRFICAS
EL GRFICO DE BARRAS
Las Distribuciones de Frecuencias de Datos Categricos pueden representarse grficamente por medio de un
Grfico de Barras.
Un grfico de barras es fcil de construir y puede ser interpretado fcilmente por personas que no tienen una
mente orientada hacia las grficas.
El grfico presenta las posibles categoras y sus frecuencias de aparicin
Figura 1

Fuente: INDEC. Censo Nacional de Poblacin, Hogares y Viviendas 2010.

Pueden notarse varios aspectos en los grficos de barras:


Las magnitudes de las frecuencias se muestran mediante las longitudes de las diferentes barras, las que
se han trazado con referencia a una escala horizontal.
Se deben incluir las escalas y algunas indicaciones, ya que ayudan a la lectura de las grficas. Los valores
de la escala se muestran en la parte superior y tambin en la parte inferior. Se pueden unir o no mediante lneas constituyendo una retcula.
Las barras se identifican mediante ttulos en el taln de la grfica. El taln debe mantenerse tan pequeo
como sea posible, con el objeto de dejar espacio para la superficie de trazado de la grfica.
Las barras difieren solamente en longitud y no en ancho.
Se ha dejado un espacio entre las barras para que sea fcil identificarla mediante su ttulo.
Las barras han sido ordenadas por magnitud para facilitar el anlisis. El orden puede ser creciente o
decreciente. Si se incluye una categora "todas las dems" u "otras", generalmente se la muestra en la
barra ms baja, an cuando la posicin ms baja pueda no ser la apropiada, de acuerdo con la ordenacin
por magnitudes, esto resulta apropiado, puesto que este tipo de categoras casi siempre es una recopilacin de clases relativamente poco importantes.
El ttulo y las notas de pi de pgina o sobre las fuentes, cuando sean necesarias, forman parte del grfico.
Para respuestas categricas las barras se disean en forma horizontal (para respuestas numricas, en
forma vertical).
Importancia de la lnea cero:
Una grfica que ha sido diseada para mostrar magnitudes absolutas debe tener absolutamente definida la
lnea cero y una escala ininterrumpida. Es decir debe iniciarse en cero y continuar sin ninguna interrupcin. Esto

7CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

es cierto no solamente para las grficas de barras sino tambin para cualquier otro tipo de grficas en las
cuales deben compararse magnitudes absolutas.
La impresin percibida si se comienza por algn valor mayor que cero cambia totalmente La informacin
contenida en el lote de datos
FIGURA 2

EL GRFICO DE TORTAS
Para dibujar grficos de torta se puede utilizar un comps o un transportador para dibujar el crculo y definir los
sectores convenientes. Como el crculo tiene 360 se puede utilizar el transportador para dividir la torta en
rebanadas en base a los porcentajes deseados. Por ejemplo, en la Figura 3, el 18 % de los argentinos que
trabajaban en 2010 son trabajadores por cuenta propia. Por ello, se calcula el 18% de 360, para ello se
multiplica 360 0,18 = 64,8 y se marcan los aproximadamente 65resultantes con el transportador. Despus
se conectan los puntos correspondientes con el centro, formando una rebanada que incluye el 18% del rea.
Siguiendo este procedimiento se puede construir la grfica completa.
FIGURA 3

8CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

Se presenta tambin la grfica de tortas correspondiente a los resultados del Censo 2001.
Poblacin de 14 aos o ms ocupada, por categora ocupacional.
Ao 2001

Total de poblacin ocupada: 10.913.187

Trabajador familiar
4%
Patrn
6%
Trabajador por
cuenta propia
21%

Obrero o empleado
69%

Fuente: INDEC. Censo Nacional de Poblacin, Hogares y Viviendas 2001.

EL GRFICO DE PUNTOS
Cuando se construya el grfico de puntos se sugiere lo siguiente.
1. Las lneas de puntos se deben acomodar en forma horizontal, tal como se observa en la figura 4,
adyacentes a las diversas categoras de la variable que se estudia.
2. El espacio entre las lneas punteadas (es decir, entre categoras) debe ser igual.
3. Se deben incluir las escalas horizontales con el conteo de la frecuencia en la parte baja del cuadro; o, por
otra parte, se deben incluir en la parte superior de los porcentajes. Los ejes se deben identificar en forma
clara.
4. La grfica debe tener Ttulo. Si son necesarias, las notas de pi de pgina y las fuentes deben aparecer en
la grfica, junto con cualquier clave necesaria para su interpretacin.

Figura 4

El propsito de las tres grficas es mostrar los datos en forma precisa y clara. Estas figuras pretenden mostrar la misma
informacin respecto a las categoras de empleo de los trabajadores argentinos de 14 o ms aos.

En particular algunas investigaciones recientes sobre percepcin de grficos, sugieren que la grfica de puntos
presenta la informacin de la mejor manera, en tanto que la grfica de torta es el tipo ms deficiente. No
obstante, la seleccin de una grfica especfica sigue siendo una actividad muy subjetiva y, con frecuencia,
depende de las preferencias estticas del investigador.

9CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

ORGANIZACIN Y RESUMEN DE DATOS NUMRICOS NO AGRUPADOS


Todo lo planteado hasta aqu se aplica para presentar datos cuantitativos discretos cuando el nmero de
valores posibles es pequeo (menos de 10)
Ejercicio realizado en clase: Siendo de inters conocer el nmero de hermanos que componen las familias de
los alumnos que cursan Probabilidad y Estadstica, en distintos aos, se les pidi a los alumnos que anotaran
en el pizarrn el nmero de hijos que haban tenido sus respectivas madres, esto es el nmero de hermanos en
cada una de sus familias.
Los resultados que a continuacin se indican corresponden al ao 2007:
N de Hijos

N de familias

/////

/////////////////

///////////////

/////////////////////

//////////////

//

///

//

Esta informacin tambin puede ser resumida en una tabla de frecuencias


Tabla 4: DISTRIBUCIN DEL N DE HIJOS DE LAS FAMILIAS DE LOS ALUMNOS QUE CURSARON
ESTADSTICA EN LA FACULTAD DE INGENIERA DE LA UNJU EN EL AO 2007
N de Hijos

N de
familias

Proporcin de
familias

Porcentaje de
familias

Porcentaje
acumulado

1
2
3
4
5
6
7
8

5
17
14
21
13
2
3
2
77

0,06
0,22
0,18
0,27
0,17
0,03
0,04
0,03
1,00

6%
22%
18%
27%
17%
3%
4%
3%
100%

6%
28%
46%
73%
90%
93%
97%
100%

N=

Fuente: Encuesta realizada en clase de teora del 04/04/07


Una tabla de frecuencias para variables numricas es una tabla que asocia cada valor de la variable, con la
cantidad de veces que se observa dicho valor (frecuencia absoluta). Tambin se incorporan las frecuencias
relativas y las relativas porcentuales siguiendo el procedimiento especificado anteriormente. Otra frecuencia
importante para describir un conjunto es la frecuencia acumulada.
La frecuencia acumulada para un valor dado de la variable es la suma de las frecuencias (absolutas o
relativas) de los valores menores o iguales que el valor que se est considerando. Por ejemplo, en la tabla 4
se lee - en la lnea resaltada - que el 73% de las familias tienen un nmero de hijos menor o igual a 4.
Se presenta una grfica de barras verticales entre las que no se ha dejado espacio entre las barras. Esta grfica
se llama histograma y al utilizarla se est tratando a los datos como si fueran continuos. Posteriormente se
ver la utilidad de obrar as.

10CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

Figura 5

FUENTE: Encuesta realizada en clase de Estadstica en Abril 2007- Facultad de Ingeniera-UNJu


El grfico que se presenta a continuacin se conoce como grfico de bastones. La frecuencia se representa de
esta manera pues entre dos valores sucesivos de la variable, no existen valores intermedios.

Figura 6

FUENTE: Encuesta realizada en clase de Estadstica en Abril 2007- Facultad de Ingeniera-UNJu


El grfico permite rpidamente vizualizar donde se concentran los datos y como se dispersan.
Puede concluirse que la mayora de las familias, el 67%, tienen de 2 a 5 hijos. Hay pocas familias con muchos
hijos, el 10%, y solo el 6% con un hijo. El nmero ms frecuente de hijos es 4, hay 21 familias con 4 hijos.
ORGANIZACIN Y RESUMEN DE DATOS NUMRICOS AGRUPADOS
Distribucin de Frecuencias para DATOS AGRUPADOS
Cuando el nmero de valores posibles de una variable DISCRETA sea grande o cuando la variable sea
CONTINUA conviene agrupar los datos en clases o categoras. Para ello se acomodan los datos en grupos de
clases, es decir categoras, dividiendo en forma conveniente las observaciones. A este arreglo de datos en
forma de tabla se le denomina Distribucin de frecuencias, al igual que para datos categricos y numricos
discretos (cuando el nmero de valores posibles es pequeo).
Una Distribucin de Frecuencias para Datos Agrupados es una tabla resumen en la que se disponen los
datos divididos en grupos ordenados numricamente que se denominan clases o categoras.
Cuando se agrupan datos, o se los condensa en tablas de Distribucin de Frecuencias, es ms manejable y
significativo el proceso de anlisis e interpretacin de datos. En esa forma resumida es muy sencillo aproximar

11CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

las principales caractersticas de los datos y de esta manera se compensa el hecho de que al agrupar los datos
se pierde alguna informacin inicial referente a las observaciones individuales.
Al construir una tabla de Distribucin de Frecuencias, se debe prestar atencin a lo siguiente:
Seleccionar el nmero adecuado de clases para cada tabla.
Obtener un intervalo de clase apropiado para cada clase.
Seleccionar los lmites de las clases que definen los intervalos, de manera que cada observacin se
clasifique sin ambigedad en una sola clase.
Son muchas las formas de seleccionar los lmites de las clases. Cada paquete estadstico usa para ello su
propio algoritmo, el cual difiere de un paquete a otro. Si se usan varios paquetes para graficar un conjunto de
datos dado con su tcnica por defecto, los histogramas pueden variar levemente en el nmero de clases
seleccionadas y en los valores de los lmites de las clases. La forma general del histograma sera la misma en
todos ellos.
Amplitud de los intervalos
Si los intervalos de clase son de la misma longitud, Cmo elegir la amplitud h de los intervalos de
clase?

Hay una vieja frmula para ello; si N es el tamao del lote, se trata de hallar el nmero de intervalos k
que satisfaga la relacin
N ~ 2

De esta expresin resulta

( k - 1)

k ~ 1 + 3,322 log N

Frmula de Sturges

(1)

Redondeando al valor ms prximo obtenemos un valor de k.


La respuesta que se obtiene con la Regla de Sturges no es definitiva y se debe considerar nicamente como
una gua. El nmero de intervalos de clase especificado por la regla deber incrementarse o disminuirse por
conveniencia y para lograr una presentacin ms clara. Es decir, no hay reglas invariables en relacin con el
nmero de clases o la eleccin de las clases. Entre 5 y 20 clases son satisfactorias para la mayor parte de
conjuntos de datos. En general, mientras ms grande sea el nmero de observaciones en un conjunto de datos,
se deben usar ms clases.

Hay tambin una regla emprica para determinar el nmero de intervalos de clase

Nmero de observaciones en un conjunto de datos

Nmero de Clases

Menos de 25

5o6

25 50

7 14

Ms de 50

15 - 20

Generalmente, este procedimiento deja una amplitud que no es conveniente para su uso y nuevamente se debe
utilizar el sentido comn para elegir la amplitud -normalmente cercana a la que se obtiene con la ecuacin (1)que sea ms conveniente-.
Una vez determinado el nmero de clases, determinamos la amplitud h de cada clase, simblicamente
h = RANGO / k ,

esto es

xMXIMO XMNIMO
k

(2)

RANGO: es la distancia entre el valor mximo y el valor mnimo.


Lmites de las Clases - Marcas de clases
Otro problema ms es la seleccin de los lmites de las clases. Los clculos a partir de una distribucin de
frecuencias, a menudo hacen uso del punto medio de cada clase para representar todos los elementos
contenidos en la misma. El punto medio de una clase es el valor intermedio entre los dos lmites de la clase y se
conoce como marca de clase. As pues, el punto medio queda determinado por los dos lmites de la clase.
Con el objeto de efectuar los clculos que discutiremos en el prximo tema con tanta precisin como sea
posible, generalmente se sugiere que los lmites de clase se seleccionen en forma tal que el punto medio de
cada clase sea aproximadamente igual al promedio aritmtico de los elementos que caen dentro de esa clase.
En la mayora de los casos esa condicin se satisfar muy bien an cuando se d poca atencin a este principio
al establecer los lmites.
Al establecer los lmites de la clase debemos tener cuidado de no caer en ambigedades. Por ejemplo en el
caso de rentas, los lmites $30-$40, $40-$50 no son claros, debido a que no podemos estar seguros en cual de
las dos clases se incluye $40. Los lmites $30-$39, $40-$49 son claros, previsto que los datos se expresen
12CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

solamente en pesos. Cuando ste es el caso, el punto medio de la primera clase sera [(30 + 39)/2] = $34,50. Y
as sucesivamente.
Si los datos se expresan hasta los centavos, los lmites anteriores no resultarn claros. Sin embargo, si se
establecen los lmites en la forma de $30,00-$39,99, $40,00-$49,99, no habr duda de saber en que clase cae
cada elemento. En este caso, el punto medio de la primera clase es [(30,00 + 39,99)/2] = $34,995, o para
cualquier propsito $35, y as sucesivamente.
Los lmites $30-menos de $40, $40-menos de $50 son claros; sin embargo, sin informacin adicional no es
posible determinar los puntos medios con precisin. Si no se proporciona informacin adicional, el punto medio
de la primera clase se considera como [(30 + 40)/2] = $35, y as sucesivamente.
Intervalos de Clase
Definimos cada clase o categora mediante un intervalo de clase expresado en la forma
xi - h/2
,
xi + h/2
El punto medio xi es la marca de clase. Como ya dijimos este valor es el centro del intervalo que define la clase
y es el valor numrico representativo de los datos de la clase.
x i - h / 2 es el lmite inferior de la clase y x i + h / 2 es el lmite superior de la clase.
Una manera de determinar la clase definida por x i sera:
Desde xi - h/2 inclusive, hasta menos de xi+ h/2,
esto es, el intervalo [x i - h / 2 , x i + h / 2)
Diremos que el dato v j pertenece a esta clase si y solo si x i - h/2 v j < x i + h/2 .
Como vemos, en cada intervalo de clase se incluye al lmite inferior.
Nota: Otra alternativa al definir los lmites de las clases para garantizar que ningn dato caiga en un lmite de
clase, es definir los lmites de manera tal que incluyan un decimal ms que los datos.

Ejemplo: Los contenidos de nicotina, en miligramos, de 40 cigarrillos de una cierta marca se registraron de la
siguiente manera:
1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68
1,51 1,64 0,72 1,69 1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37
1,75 1,69
Se desea obtener conclusiones sobre la distribucin de los datos.
En primer lugar determinamos el nmero k de intervalos de clase. Aplicamos la frmula de Sturges
k 1 + 3,322 log 40 = 6,322 ,redondeamos k 7 clases
Teniendo en cuenta que x mximo = 2,55 y el xmnimo = 0,72, tomamos la amplitud de cada intervalo h, usando la
2,55 0,72
0,261 0,30
ecuacin (2) : h
7
La distribucin de frecuencias para el ejemplo se presenta en la Tabla 5.

Tabla 5: Distribucin de frecuencias del contenido de nicotina en 40 cigarrillos


Contenido de
Nicotina (en mg)
[0,60 , 0,90)
[0,90 , 1,20)
[1,20 , 1,50)
[1,50 , 1,80)
[1,80 , 2,10)
[2,10 , 2,40)
[2,40 , 2,70)
N=

Marca de Clase

N de
cigarrillos

0,75
1,05
1,35
1,65
1,95
2,25
2,55

2
1
4
15
11
5
2
40

Proporcin
Porcentaje
de cigarrillos de cigarrillos
0,050
0,025
0,100
0,375
0,275
0,125
0,050
1,000

5,0%
2,5%
10,0%
37,5%
27,5%
12,5%
5,0%
100,0%

Se clasificaron las observaciones en cada una de las clases y se determinaron as las frecuencias absolutas.
Las frecuencias relativas nos da la proporcin de observaciones en cada clase.
La informacin que proporciona una distribucin de frecuencias para este tipo de agrupamiento de datos es ms
fcil de entender si se presenta en forma grfica mediante un diagrama que se llama Histograma y es debido a
Karl Pearson.

13CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

HISTOGRAMA
Un histograma es un conjunto de rectngulos cada uno de los cuales representa un intervalo de agrupacin o
clase. La base de cada rectngulo coincide con el intervalo de clase, y la altura se determina de manera que su
rea sea proporcional a la frecuencia respectiva (o frecuencia relativa o frecuencia relativa porcentual) de cada
clase.
La variable de inters se grafica sobre el eje horizontal, el eje vertical representa el nmero, proporcin o
porcentaje de observaciones para cada intervalo de clase, dependiendo de si el histograma especfico es,
respectivamente, un histograma de frecuencias, un histograma de frecuencias relativas o un histograma
porcentual.
Se presenta un histograma de frecuencia asociado a la distribucin de frecuencias de la Tabla 5.

Figura 7

Histograma de los contenidos de nicotina en 40 cigarrillos


16
15

14
12

11

10

N de cigarrillos

8
6
5

4
2

4
2

2
1

0
,6 - ,9

,9 - 1,2

1,2 - 1,5

1,5 - 1,8

1,8 - 2,1

2,1 - 2,4

2,4 - 2,7

contenido nicotina (mg)

De la tabla y el histograma puede concluirse que los contenidos de nicotina de los 40 cigarrillos se concentran
entre los 1,5 miligramos y 2,1 miligramos, ms precisamente el 65% de las observaciones centrales, toman
valores de 1,5 mg hasta menos de 2,1 mg. Solo dos cigarrillos (un 5%) tienen un contenido de nicotina superior
a 2,4 mg.
Los histogramas pueden proporcionar mucha informacin respecto a la estructura de los datos.
La Figura 8 presenta varios casos tpicos.

Figura 8(a)

El histograma (a) presenta una distribucin asimtrica que es tpica de los datos econmicos, y en general de
mediciones de renta, poblacin, consumo de electricidad,tamao de empresas, etc

14CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

Figura 8(b)

El Histograma (b) muestra una distribucin simtrica que aparece en muchos procesos de fabricacin al estudiar la
distribucin de una caracterstica medible.
Figura 8(c)

Figura 8(d)

El histograma (c) aparece al mezclar elementos de varias poblaciones, cada uno de ellos con una distribucin
tipo (b), lo que produce una distribucin con gran variabilidad. En el lmite, si las distribuciones individuales
estn muy separadas, podemos encontrarnos una situacin como la descrita por el histograma (d) donde se
apuntan ms claramente ambas distribuciones (por ejemplo resistencia de piezas de distintos materiales en
cuanto a dureza).
Figura 8(e)

El caso (e) presenta una distribucin truncada, que aparecer, por ejemplo, al someter a piezas a un control de
calidad que tiene lmite de especificaciones A y B
Figura 8(f)

15CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

Finalmente la distribucin (f) es muy asimtrica y surge al estudiar tiempos entre averas, entre llegadas, entre
accidentes, etc.
Sin embargo, cuando se comparan dos o ms conjuntos de datos, no es posible construir los diversos histogramas
en la misma grfica, porque la superposicin de los rectngulos dificulta su interpretacin. Para estos casos en
necesario construir polgonos porcentuales o de frecuencias relativas.
POLGONOS
Al igual que con los histogramas, cuando se elaboran polgonos se grafica sobre el eje horizontal la variable de
inters, en tanto que el eje vertical representa o simboliza el nmero, proporcin o porcentaje de observaciones de
cada intervalo de clase.
El polgono porcentual se forma haciendo que el punto medio de cada clase represente los datos de esa clase y
despus conectando la secuencia de sus respectivos porcentajes de clase.
En la siguiente Figura 9 se muestra el polgono porcentual de los contenidos de nicotina de 40 cigarrillos.

Construccin de polgonos
Se debe tener presente que el polgono es una representacin de la forma de una distribucin particular. Como el
rea bajo la distribucin porcentual (la totalidad de la curva) debe ser del 100%, es necesario conectar los puntos
medios primero y ltimo con el eje horizontal, para abarcar el rea total de la distribucin observada. En la figura 9
se logra esto conectando el primer punto medio observado con el punto medio de una clase ficticiamente
precedente 0,45 mg que tiene 0,0% de observaciones y conectando el ltimo punto medio observado con el punto
medio de una clase ficticiamente siguiente 2,85 mg que tiene 0,0% de observaciones.
Se ilustra el procedimiento para construir el polgono de frecuencia de la Figura 9.
FIGURA 9

Ntese tambin que cuando se construyen polgonos o histogramas, el eje vertical debe mostrar el cero verdadero
u origen para no distorsionar o representar equivocadamente el tipo de datos. Sin embargo, no es necesario que
2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

el eje horizontal especifique el punto cero de la variable de inters. Por razones de esttica el rango de la variable
debe constituir la principal porcin de la grfica y, cuando no se incluye el cero, resulta apropiado incluir fracturas
en el eje.
Como los puntos medios consecutivos se conectan mediante segmentos de recta, en ocasiones la apariencia del
polgono es irregular. Si se acercaran ms los lmites exactos de clase de las distribucin de frecuencia ( y, de esta
manera se aumentara el nmero de clases de la distribucin) se suavizara la irregularidad de las lneas.

CURVAS DE FRECUENCIA SUAVIZADAS


Los datos recogidos pueden considerarse usualmente como pertenecientes a una muestra de una poblacin
grande. Ya que son posibles muchas observaciones sobre esa poblacin, es tericamente posible (para datos
continuos) escoger intervalos de clase muy pequeos y tener todava nmeros razonables de observaciones en
cada clase. As que cabe esperar que el polgono de frecuencias o el polgono de frecuencias relativas para una
gran poblacin tenga tantos pequeos segmentos que aparezca como casi una curva continua a las que nos
referiremos como curva de frecuencia o curva de frecuencias relativas respectivamente.
Es razonable esperar que dichas curvas tericas provengan de suavizar los polgonos de frecuencias o los
polgonos de frecuencias relativas de la muestra, la aproximacin es tanto ms exacta conforme aumenta el tamao
de la muestra. Por esta razn una curva de frecuencia se cita a veces como un polgono de frecuencias
suavizado
Por ejemplo si el histograma de la Figura 8-a basara en una muestra suficientemente grande podra suavizarse el
polgono de frecuencia y se obtendra el siguiente grfico.
Figura 10 : Polgono de Frecuencias Suavizado de las Rentas Familiares

DISTRIBUCIONES ACUMULADAS Y POLIGONOS ACUMULADOS


Otros mtodos tiles de presentacin de datos que facilitan el anlisis y la interpretacin, son las tablas de
distribuciones acumuladas y las grficas de polgonos acumulados. Ambas se pueden elaborar a partir de la tabla
de distribucin de frecuencias relativas o de frecuencias relativas porcentuales.
Una tabla de distribucin porcentual acumulada se construye aadiendo un intervalo de clase extra al final
Para el ejemplo de los contenidos de nicotina se calculan los porcentajes acumulados en la columna del menor
que, determinando el porcentaje de las observaciones que son inferiores a cada uno de los lmites inferiores.

Tabla 6: Distribucin Porcentual de los contenidos de nicotina para 40 cigarrillos


Contenido de
Nicotina (en mg)
[0,60 , 0,90)
[0,90 , 1,20)
[1,20 , 1,50)
[1,50 , 1,80)
[1,80 , 2,10)
[2,10 , 2,40)
[2,40 , 2,70)
[2,70 ,3,00)

Porcentaje de cigarrillos
5,0%
2,5%
10,0%
37,5%
27,5%
12,5%
5,0%
0,0%

Porcentaje de cigarrillos con contenido de nicotina


"menor que" el lmite inferior del intervalo de clase.
0,0%
5,0%
7,5%
17,5%
55,0%
82,5%
95,0%
100,0%

As se observa que el 0,0% de los cigarrillos tienen un contenido de nicotina inferior a 0,60 mg, el 5% son inferiores
a 0,90 mg, y as sucesivamente, hasta que el total (100,0%) de los cigarrillos tienen un contenido de nicotina inferior
a 2,70 mg.

3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

POLGONO PORCENTUAL ACUMULADO


Para construir un polgono porcentual acumulado (al que tambin se denomina OJIVA) se observa que,
nuevamente la variable de inters se grafica sobre el eje horizontal, en tanto que los porcentajes acumulados de la
columna menor que) se grafican sobre el eje vertical. En cada uno de los lmites inferiores se traza el valor del
porcentaje correspondiente (acumulado), a partir de la lista que aparece en la distribucin porcentual acumulada.
Despus se conectan esos puntos con segmentos de lnea recta.
A continuacin se presenta la tabla 7 que permite construir en forma simple el polgono porcentual acumulado
(ojiva) para los datos de la nicotina que se presenta en la Figura 11.
Tabla 7
Contenido de Nicotina (en
Porcentaje de cigarrillos
mg)
Menor que 0,6 mg
0,0%
Menor que 0,9 mg
5,0%
Menor que 1,2 mg
7,5%
Menor que 1,5 mg
17,5%
Menor que 1,8 mg
55,0%
Menor que 2,1 mg
82,5%
Menor que 2,4 mg
95,0%
Menor que 2,7 mg
100,0%
FIGURA 11: Ojiva del contenido de nicotina de 40 cigarrillos

CONSTRUCCION DE UN HISTOGRAMA CON INTERVALOS DE CLASE DE DISTINTO ANCHO


Ejemplo: En un estudio de ruptura por torsin durante el tejido de tela, se probaron 100 muestras de hilo. Se
determin el nmero de ciclos de tensin a la ruptura para cada muestra de hilo y se realiz con dichos datos un
histograma con clases de la misma amplitud. Se presenta tambin un diagrama de puntos de los 100 datos
obtenidos.
FIGURA 12: Grfico de puntos del nmero de ciclos de tensin a la ruptura para 100 muestras de hilo

Es posible que los intervalos de clase de igual amplitud no sea una eleccin atinada si un conjunto de datos se
extiende a un lado u otro. En la figura 12 se ilustra un diagrama de puntos de tal conjunto de datos. Con una
cantidad pequea de clases de igual amplitud se obtienen casi todas las observaciones que caen en solo algunas
clases. Si se utiliza una gran cantidad de clases del mismo ancho, muchas tienen frecuencia cero, tal como puede
apreciarse en la Figura 13.

4CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

FIGURA 13

Una segunda eleccin es usar algunos intervalos ms anchos cerca de observaciones extremas e intervalos ms
reducidos en la regin de alta concentracin.
Para construir un histograma para datos continuos, con intervalos de clase de ancho desiguales, despus de
determinar las frecuencias y las frecuencias relativas, se calcula la altura del rectngulo con la frmula:

Altura del rectngulo

frecuencia relativa de la clase


ancho del intervalo de clase

(3)

Las alturas de los rectngulos que resultan se denominan densidades, y la escala vertical es la escala de
densidad. Esto tambin funciona cuando los intervalos de clase tienen el mismo ancho.
Tambin se utiliza para datos discretos.
La siguiente tabla presenta la distribucin de frecuencias para intervalos de clase de distinto ancho.
Tabla 8: Distribucin de frecuencias del N de ciclos de tensin a la ruptura para 100 muestras de hilo
Intervalos de Frecuencia Frecuencia
clase
relativa
[0 , 50)
8
0,08
[50, 100)
13
0,13
[100, 150)
11
0,11
[150 , 200)
21
0,21
[200 , 300)
26
0,26
[300 , 400)
12
0,12
[400 , 500)
4
0,04
3
[500 , 600)
0,03
2
[600 , 900)
0,02
100
N=
1,00

Densidad
0,0016
0,0026
0,0022
0,0042
0,0026
0,0012
0,0004
0,0003
0,0001

El histograma de densidad est dado por la Figura 14

5CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

FIGURA 14

Cuando los anchos de clase son distintos, el hecho de no usar una escala de densidad, da como resultado una
figura con reas distorsionadas (FIG 15)
FIGURA 15

MAL - MAL MAL - MAL


Para anchos de clase iguales, el divisor es el mismo en cada clculo de densidad, y las operaciones aritmticas
adicionales solo dan como resultado una nueva escala del eje vertical (es decir, el histograma de frecuencias
relativas y el de densidad tienen la misma apariencia). Un histograma de densidades tiene una propiedad
interesante. Al multiplicar por el ancho de clase ambos lados de la frmula de la densidad, se obtiene
Frecuencia relativa

= (ancho de clase) (densidad)


= (ancho del rectngulo) (altura del rectngulo)
= rea del rectngulo

Es decir, el rea de cada rectngulo es la frecuencia relativa de la clase correspondiente. Adems, puesto que la
suma de las frecuencias relativas debe ser 1 (salvo en caso de redondeo) el rea total de los rectngulos en un
histograma de densidad es igual a 1. Siempre es posible trazar un histograma de manera que el rea sea igual a la

6CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

frecuencia relativa (esto tambin es vlido para un histograma de datos discretos, solo se usa la escala de
densidad).

Bibliografa
Probabilidad y Estadstica para Ingenieros Walpole, Myers y Myers. Sexta Edicin. Ed. Prentice Hall. 1999.
Probabilidad y Estadstica para Ingeniera y Ciencias William Mendenhall y Terry Sincih. Cuarta Edicin 1997.
Estadstica Bsica en Administracin. Conceptos y Aplicaciones Berenson y Levine. Prentice-Hall. Cuarta
Edicin 1992.
Probabilidad y Estadstica para Ingeniera y Ciencias Jay Devore. Sexta edicin. 2005
Estadstica Murray Spiegel. Serie Shaum
Estadstica Modelos y Mtodos. 1. Fundamentos Daniel Pea Snchez de Rivera- Alianza Editorial. 1986

7CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO

Anda mungkin juga menyukai