Anda di halaman 1dari 9

UNIDAD 3

DISTRIBUCIN DE FRECUENCIAS AGRUPADAS EN


INTERVALOS
Si los datos son continuos, es necesario manejarlos con el uso de una tcnica
denominada agrupamiento de una muestra, que consiste en definir las clases
mediante intervalos para que la presentacin de la informacin tenga sentido; esto
implica la prdida de cierta cantidad de informacin, pero contribuye a la
extraccin de informacin importante.
1. TABLAS DE FRECUENCIA
La definicin dada para una distribucin de frecuencias es vlida para datos que se
agrupen o no; es decir, aunque se agrupe se manejan los mismos conceptos de
frecuencias absoluta, relativa y porcentual.
Hay tres pasos aconsejables para definir las clases en una distribucin de
frecuencias agrupada en intervalos:
Determinacin de la cantidad de clases (k): Para ello debe emplearse cierto
criterio, de tal forma que pueda desarrollarse un diagrama razonable. En
general, se recomienda usar entre 5 y 15 clases, segn el tamao de la muestra
(a mayor tamao de muestra, ms clases); el nmero de clases debe ser
suficiente para mostrar la variabilidad en los datos, pero no demasiadas porque
no cumpliran el objetivo de resumir la informacin, ya que no se tendran
grandes ventajas respecto de los datos sin procesar ni muy pocas porque se
perdera gran cantidad de informacin.
El nmero de intervalos, k, a utilizar no est determinado de forma fija, pero se
debe tomar un k que permita trabajar cmodamente y ver bien la estructura de los
datos; como referencia se puede tomar una de los siguientes valores aproximados:
Por ejemplo si el nmero de observaciones que tenemos es 100, un buen criterio es
agrupar las observaciones en 100 intervalos. Sin embargo si n es 1.000.000, ser
ms razonable elegir
20 log 22 . 3 1 + n k
que 1000 1000000 k .
Determinacin del ancho de cada clase. Como regla general se recomienda
utilizar el mismo ancho para todas las clases (salvo casos excepcionales), con el
fin de facilitar la comparacin entre clases y reducir la probabilidad de una
interpretacin errnea. Para determinar un ancho aproximado de clase se
empieza por identificar el rango del conjunto de datos -dado por la diferencia
entre los valores mximo y mnimo- y se divide por la cantidad de clases. El
1
ancho de clase obtenido puede ajustarse a un valor conveniente para facilitar el
conteo y la interpretacin, pero nunca debe redondearse por debajo porque se
eliminaran valores o se crearan ms clases de las requeridas; lo ideal sera
variar en forma ms o menos simtrica los extremos.
Determinacin de lmites de clase, empezando por la observacin ms pequea.
Notas:
Cuando la variable es cuantitativa, se acostumbra calcular las frecuencias
acumuladas (tanto absoluta como relativa) con el fin de mostrar la cantidad de
elementos menores o iguales al lmite superior de cada clase. Igualmente,
tambin suele calcularse la marca de clase, que es el promedio entre los lmites
de cada intervalo.
No hay distribucin ptima de frecuencias para determinado conjunto; distintas
personas pueden formar distribuciones diferentes, aunque todas ellas sean
igualmente correctas. El objetivo es mostrar el agrupamiento natural y la
variabilidad en los datos.
Es necesario aclarar si los lmites de los intervalos son abiertos o cerrados, de
manera que quede claro a cual intervalo pertenece un valor igual a uno de los
lmites.
Si hay datos muy extremos se acostumbra utilizar clases abiertas, es decir, con
un solo lmite (X o ms, Y o menos).
Al hacer la distribucin de frecuencias se gana cierto tipo de informacin pero
se pierde otra. Por ejemplo, si hay cierta tendencia en el tiempo de las
observaciones, esta informacin se pierde en el resumen.
EJEMPLO 3.1.
Construir la distribucin de frecuencias de la variable CANTIDAD DE
PRODUCTOS VENDIDOS, sin diferenciar la ciudad sede.
Solucin:
7 50 K
R = 356 - 76 = 280
A = 280 / 7 = 40
Intervalo 1: Lmite inferior: 76 Lmite superior: 76 + 40 = 116
Intervalo 2: Lmite inferior: 116 Lmite superior: 116 + 40 = 156

2
f
1
= 6/50 f
2
= 9/50 ........
N
1
= 6 N
2
= 6+9 N
3
= 15+13 ..
Marca de clase 1
96
2
116 76

......
En resumen, la distribucin de frecuencias quedara as:
Intervalo n
i
f
i
N
i
F
i
Marca clase
[76-116] 6 0.12 6 0.12 96
(116-156] 9 0.18 15 0.30 136
(156-196] 13 0.26 28 0.56 176
(196-236] 10 0.20 38 0.76 216
(236-276] 3 0.06 41 0.82 256
(276-316] 5 0.10 46 0.92 296
(316-356] 4 0.08 50 1 336
2. GRFICOS
En estos casos las grficas utilizadas son:
Histograma, en el cual la variable de inters es colocada en el eje horizontal y la
frecuencia de cada clase en el eje vertical. Posteriormente se traza una barra cuya
base es el intervalo de clase sobre el eje horizontal y cuya altura es la frecuencia
correspondiente. En este caso, no hay discontinuidad natural entre las clases y, por
lo tanto, esas barras van unidas. Al disear las escalas de los ejes, es importante
que el eje vertical comience en cero; de no ser as pueden distorsionarse las
comparaciones visuales entre los intervalos.
Polgono de frecuencias absolutas: Consta de segmentos de lnea que conectan
los puntos formados por la interseccin de cada marca de clase y la frecuencia de la
respectiva clase, es decir, puede obtenerse al unir los puntos medios del extremo
superior de las barras del histograma. La escala en el eje X corresponde a los
puntos medios de cada clase y la escala en el eje Y corresponde a las frecuencias de
clase. El polgono de frecuencias tiene la gran ventaja de que permite comparar
directamente dos o ms distribuciones de frecuencia.
Si se observase una gran cantidad de valores de la variable de inters, se podra
construir un histograma en el que las bases de los rectngulos fuesen cada vez ms
pequeas, de modo que el polgono de frecuencias tendra una apariencia cada vez
ms suavizada: Esta curva suave "asinttica" representa de modo intuitivo la
distribucin terica de la caracterstica observada; es la llamada funcin de
densidad
A continuacin se muestra el histograma correspondiente:
3
PRODUCTOS VENDIDOS
0
2
4
6
8
10
12
14
Intervalos
F
r
e
c
u
e
n
c
i
a
[76-116]
(116-156]
(156-196]
(196-236]
(236-276]
(276-316]
(316-356]
Polgono de frecuencias acumuladas (ojiva): Los lmites de cada intervalo van
en el eje X y las frecuencias acumuladas se muestran en el eje Y. La ojiva
comienza en el lmite inferior de la primera clase, se traza otro punto en el cruce
del lmite superior y la frecuencia de esa clase y as sucesivamente para cada lmite
superior y la frecuencia acumulada correspondiente. Finalmente, los puntos
graficados se unen con rectas y el resultado es la ojiva.
OJIVA
0
10
20
30
40
50
60
76 116 156 196 236 276 316 356
Productos vendidos
F
r
e
c
u
e
n
c
i
a

a
c
u
m
u
l
a
d
a
4
3. MEDIDAS DE RESUMEN
En la mayora de los casos, las medidas de resumen se calculan a partir de valores
de datos individuales. Sin embargo, a veces slo se cuenta con datos en forma
agrupada o en forma de distribucin de frecuencias; en dicho caso hay que alterar
un poco las ecuaciones y hacer algunos supuestos, POR LO QUE si se conocen los
valores individuales, es mejor utilizar los mtodos preestablecido para no perder
informacin.
Media: Todos los valores que caen dentro de un intervalo de clase deben
considerarse iguales a la marca de clase del intervalo; se procede, entonces, a
ponderar partiendo de ese supuesto.
Mediana: Debe suponerse que todos los datos estn distribuidos a intervalos
regulares. Para datos agrupados, la mediana viene dada por:
1
]
1

J
j
j
n
N N
A y X
1
1
5 . 0 *
~
Donde:

1 j
y
lmite inferior del intervalo que contiene la mediana
N
j-1
= frecuencia acumulada anterior a dicho intervalo.
n
j
= frecuencia del intervalo que contiene la mediana.
Moda: Ser el valor correspondiente al mximo o mximos de la curva. Est
dada por:
Moda =
1
]
1

2 1
1
1
A y
j
Donde:

1 j
y
lmite inferior del intervalo que contiene la moda.

1
= exceso de la frecuencia modal sobre la de la clase inferior
inmediata

2
= exceso de la frecuencia modal sobre la de la clase superior
inmediata
Varianza: Se emplea el mismo supuesto del caso de la media, es decir, se
considera que todos los datos pertenecientes a un intervalo determinado son
iguales a su respectiva marca de clase. Se usa la siguiente ecuacin para
calcular la varianza muestral:
1
) (
2
2


n
X x n
S
i i
Percentiles: Se usa la misma idea de la mediana, pero en lugar de 0.5 se
utiliza el porcentaje requerido.
5
EJEMPLO 3.2.
Hallar las medidas de resumen correspondientes a la tabla de frecuencias
construida en el ejemplo 3.1, incluyendo los cuartiles. Tenga en cuenta que se
evaluaron todos los vendedores de la empresa
Solucin:
productos
productos
vendidos productos Moda
vendidos productos
vendidos productos
4 . 69 4 . 4815
4 . 4815
50
) 8 . 196 336 ( 4 ....... ) 8 . 196 136 ( 9 ) 8 . 196 96 ( 6
9 . 178
3 4
4
40 156
8 . 186
13
15 25
40 156
~
8 . 196
50
336 * 4 ..... 136 * 9 96 * 6
2
2 2 2
2

+ + +


,
_

+
+

,
_

+ + +

productos Q
productos Q
234
10
28 5 . 37
40 196
9 . 144
9
6 5 . 12
40 116
3
1

,
_


+

,
_


+
EJERCICIOS PROPUESTOS
1. La revista Semana presenta cada ao escalafones de las empresas colombianas.
A continuacin se registran las 25 empresas de mayores activos en el listado de
2004:
6
PUESTO EMPRESA
ACTIVOS 2004
(Millones de pesos)
1
ECOPETROL 27.964.390
2
EPM 13.401.774
3
GRUPO EMPRESARIAL BAVARIA 13.361.072
4
ARGOS 6.382.557
5
EMGESA 5.791.239
6
EAAB 5.759.720
7
CODENSA 5.296.707
8
EMCALI 4.807.914
9
ISA 4.453.262
10 TELEFNICA MVILES DE COLOMBIA 4.252.862
11 ETB 4.129.012
12 ISAGEN 3.689.577
13 COMCEL 3.603.056
14 EPSA 2.857.871
15 ALMACENES XITO 2.788.710
16 COLOMBIA TELECOMUNICACIONES 2.781.532
17 NACIONAL DE CHOCOLATES 2.727.621
18 CERROMATOSO 2.605.858
19 POSTOBN 2.091.503
20 ELECTRICARIBE 1.962.593
21 CARBONES DEL CERREJN 1.960.241
22 BP COLOMBIA 1.763.995
23 ELECTROCOSTA 1.758.542
24 CORELCA 1.751.257
25 COLOMBIA MVIL 1.712.018
Agrupe los datos y halle medidas de resumen convenientes. Interprete
2. Las utilidades de las Pymes de alimentos de Envigado, en millones de pesos, se
muestran en el siguiente histograma. Con base en l respondan las siguientes
preguntas:
a) Cul es la frecuencia relativa del intervalo 200-400 millones de pesos?
b) Es el grfico simtrico? Si no lo es, qu tipo de asimetra presenta y eso
qu significa?
c) Cul es la marca de clase del ltimo grupo?
7
UTILIDADES
87
63
25
12
3
0
10
20
30
40
50
60
70
80
90
100
0-200
200-400
400-600
600-800
800-1000
3. La siguiente tabla de frecuencias presenta el escalafn de las 250 empresas
colombianas de mayores activos:
ACTIVOS
(miles de
millones de
pesos)
FRECUENCIA
ABSOLUTA
FRECUENCIA
RELATIVA
MARCA DE
CLASE
250-1050 107
1050-1850 66
1850-2650 21
2650-3450 26
3450-4250 12
4250-5050 3
5050-5850 15
a) Complete la tabla.
b) Halle el promedio de activos de las empresas incluidas en el escalafn.
c) Cmo puede ayudar la Estadstica en el caso que se resea y, en general, en
la Administracin?
4. En la siguiente tabla se muestra el nmero de turistas extranjeros que ingresaron
a cada pas de Centro y Suramrica durante 2004, el nmero de parques
nacionales en ellos, una calificacin del desarrollo del sector turstico y el
nmero de ocanos que lo riegan:
# de turistas
extranjeros
# de parques
nacionales
Desarrollo del
sector
turstico
Ocanos que
lo riegan
Argentina 859114 105 Alto 1
Bolivia 156235 46 Bajo 0
Brasil 1058659 78 Alto 1
Chile 698526 59 Alto 1
8
Colombia 455213 42 Medio 2
Ecuador 265895 36 Medio 1
Guyana 114562 14 Medio 1
Paraguay 215456 26 Bajo 1
Per 365985 50 Medio 1
Surinam 195869 12 Medio 1
Uruguay 489652 45 Alto 1
Venezuela 455879 37 Medio 1
Blice 105236 15 Bajo 1
Costa Rica 615972 45 Alto 2
El Salvador 265895 32 Bajo 1
Guatemala 248659 40 Bajo 2
Honduras 263562 32 Medio 2
Mxico 1258958 102 Alto 2
Nicaragua 301251 55 Bajo 2
Panam 498598 36 Alto 2
Haga una tabla de frecuencias para los valores de cada variable y una grfica
apropiada para cada una. Halle medidas de resumen para la variable nmero
de turistas extranjeros antes y despus de agrupar; interprete y establezca
comparaciones.
5. La siguiente tabla registra los tiempos, en das, necesarios para terminar
auditoras de fin de ao por parte de una empresa de contabilidad, basada en
una muestra de 30 clientes. Con base en esta distribucin de frecuencias,
cules son la media y la desviacin estndar del tiempo de auditora en la
muestra mencionada?
4.5 7 2.5 10 3 5 10 1.5 3.5 4
2 8 6 5 3 4 8 6 6 4
5 7 6 8 2 3.5 5 5.5 7.5 8
Halle tambin los mismos estadgrafos para los datos no agrupados. Compare.
6. Tabla 3-16 del libro de nderson (pgina 114). Elabore una tabla de frecuencias
para cada modo de pago y obtenga medidas de localizacin y dispersin
apropiadas para cada uno; establezca comparaciones.
9

Anda mungkin juga menyukai