MDULO 1
MDULO 1:
Estadstica descriptiva de una variable.
a) Introduccin . Conceptos
b) Variables cualitativas y cuantitativas Ejemplos Diagramas (Circular y de
barras).
c) Distribuciones de frecuencias
d) Medidas de tendencia central. (Media, moda y Mediana)
e) Medidas de dispersin. ( Rango, Varianza y Desviacin Tpica)
a)
INTRODUCCIN:
La estadstica es una ciencia con base matemtica que tiene que ver con la recoleccin, anlisis
e interpretacin de datos, que tiene por objetivo explicar a partir de estas actividades, el
comportamiento de una o varias variables de un determinado fenmeno. Es una herramienta base
para distintas disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la salud
hasta el control de calidad, y es utilizada para la toma de decisiones en la ejecucin de distintos
tipos de proyectos o estudios.
Pretender abarcar todo su universo en un cursado de dos meses es utpico, por lo que nos
centraremos en los principios de esta materia teniendo presente que, tal cual un iceberg, lo que
queda sin verse es muy importante y para su comprensin se necesitan herramientas ms
significativas del campo de la matemtica.
La Estadstica se divide en dos ramas:
ISIV Pgina 1 de 16
ESTADSTICA
MDULO 1
ISIV Pgina 2 de 16
ESTADSTICA
MDULO 1
Importante: una muestra se debe elegir de una manera aleatoria que garantice la fiabilidad del
estudio.
Si dentro del 25 % de los operarios, se eligen a los de mayor edad, seguramente se obtendr un
resultado parcial o tendencioso.
EJEMPLO 2:
Si tomamos el ejemplo 1, se podran estudiar las variables edad, sexo, peso, lugar de
nacimiento, etc. Los caracteres edad y peso corresponden a variables cuantitativas,
sexo y lugar de nacimiento son variables cualitativas.
Por ejemplo, la velocidad de un vehculo puede ser 67,3 km/h, 104,35 km/h...etc.). Cuando se
trabaja con variables cuantitativas continuas es conveniente hacerlo con agrupaciones de datos
llamados intervalos.
ISIV Pgina 3 de 16
ESTADSTICA
MDULO 1
En este problema se trabaja con una variable cualitativa. Ser simpatizante de es una
cualidad y lo que se puede hacer a continuacin es un conteo:
BOCA: 17
RIVER: 14
INDEPENDIENTE: 3
SAN LORENZO: 3
RACING: 5
VELEZ: 3
ESTUDIANTES: 3
ROSARIO: 1
GIMNASIA: 1
ISIV Pgina 4 de 16
ESTADSTICA
MDULO 1
Estos datos pueden graficarse para una mejor visualizacin. Los valores obtenidos en aquellos
equipos con muy pocos simpatizantes se pueden agrupar en una categora OTROS (Como
ejemplo lo vamos a hacer con los de ROSARIO Y GIMNASIA).
REPRESENTACIONES GRFICAS
a)
Grfico circular
ISIV Pgina 5 de 16
ESTADSTICA
MDULO 1
ISIV Pgina 6 de 16
ESTADSTICA
MDULO 1
Para tener un control sobre los clculos que realizamos, la suma de todos los porcentajes de
nuestro trabajo debe dar 100%.
b) Grfico de barras.
Tambin estos grficos tienen una variedad de presentaciones, sobresaliendo los de barras
verticales u horizontales. Se adjunta un modelo de muestra:
El grosor de las columnas no tiene relacin en este ejemplo con los datos en s.
Grfico de lneas
ISIV Pgina 7 de 16
ESTADSTICA
MDULO 1
Grfico de rea
ISIV Pgina 8 de 16
ESTADSTICA
MDULO 1
2) OTRO PROBLEMA:
En una clnica se determinaron las edades de las mujeres que haban dado a luz en el
ltimo mes, resultando los siguientes datos:
23 35 - 40 29 38 18 19 40 22 26 24 18 25 30 32 20 19 18 23 24 23 23 23 40 18 26 23 29 19 25 22 25 33 23 24 24 19 26 35 32
21 24 36 25 24 23 26 22 33 32
Qu podemos hacer? Tenemos tambin 50 datos, pero realizar el conteo por edades es muy
engorroso, por lo tanto aqu es conveniente utilizar intervalos (que agrupan distintas edades)
Pasos a seguir:
a) Buscamos los datos extremos (el menor y el mayor) y determinamos la amplitud de los
valores de los datos y lo llamaremos RANGO:
Valor menor: 18 aos
Valor mayor: 40 aos
Rango: 40 18 = 22
b) Dividimos el rango en un nmero conveniente de intervalos de clase. (entre 5 y 20,
dependiendo de la cantidad de datos). Cada dato debe pertenecer a un solo intervalo.
Adems, los puntos medios de cada intervalo deben coincidir con algunos datos. (Cuando
las variables son discretas conviene que las marcas tambin lo sean, por lo tanto all se
debe tomar una amplitud impar del intervalo)
Si bien hay varias maneras de calcular el nmero de intervalos o clases, existe una
frmula llamada REGLA DE STURGE que permite realizar una aproximacin ms
sistemtica.
Si llamamos K al nmero de intervalos o clases, segn esta frmula, K se calcula de
la siguiente manera:
K= 1 + 3,322.log R (Donde R es el rango) (En nuestro caso 22)
La amplitud del intervalo (llamamos W), se determina con la frmula:
W= (R+1)/K
Si se trabaja con variables discretas (enteras), se redondean los resultados.
ISIV Pgina 9 de 16
ESTADSTICA
MDULO 1
K= 1 + 3,322.log R
K=1+3,322 x log 22
K= 1 + 3,222 x 1,3424 = 5,4594528
Como trabajamos con una variable discreta (edad de las madres) se redondea el resultado
y se tiene: K=5
(Esto significa que tendremos 5 intervalos de clase)
Qu amplitud tendrn los intervalos?
W= (R+1)/K
W= (22 + 1)/5 = 4,6
Se redondea: W = 5
c) Realizamos el agrupamiento en intervalos:
Intervalos (K)
18 a 22 aos
23 a 27 aos
28 a 32 aos
33 a 37 aos
38 a 42 aos
Conteo
III III III III I
III III III III III III III I
III III
III II
III I
Frecuencias
13
22
6
5
4
Marca
20
25
30
35
40
Como se observa al realizar la distribucin, el extremo superior vari (42), esto sucede porque
cada intervalo debe tener la misma amplitud y en especial se nota mucho ms por trabajar con
nmeros enteros.
A este cuadro de distribucin de frecuencias lo vamos a seguir utilizando a medida que
ampliemos los conceptos siguientes.
CONCEPTOS UTILIZADOS:
CLASE O INTERVALO DE CLASE: es un grupo de datos
FRECUENCIA: es la cantidad de veces que un dato se repite en el intervalo de
clase.
MARCA: es el punto medio de cada intervalo de clase.
ISIV Pgina 10 de 16
ESTADSTICA
MDULO 1
La media o promedio: X
Indica cunto habran valido todos los datos de haber sido todos iguales. Para calcularla se
suman todos los datos y se divide por la cantidad total de los datos.
Suponiendo un ejemplo simple: las notas de un alumno en una materia han sido en el trimestre: 7
8 5 6 9 4 8 9 (8 notas):
Cul es la media o promedio?
X =
7+8+5+6+9+4+8+9
8
X =
56
8
X =7
Para llevarlo a una frmula, podemos decir que a cada uno de los datos (notas) se le llama x1, x2,
x3, x4, . xn
Los subndices 1, 2, 3, ., n indican el orden de las notas desde la primera a la ltima, siendo
n el subndice que coincide con la cantidad total de datos (notas).
n
Por lo tanto:
x + x 2 + x3 + ... + xi + ... + x n
X = 1
=
n
x
i =1
ISIV Pgina 11 de 16
ESTADSTICA
MDULO 1
Si los datos estn agrupados en intervalos de frecuencia, como en el caso del problema de la
edad de las madres que dieron a luz en un determinado tiempo, entonces la frmula a utilizar
ser la siguiente:
Para ello es importante completar nuestro cuadro que lo habamos dejado inconcluso:
Intervalos (K)
18 a 22 aos
23 a 27 aos
28 a 32 aos
33 a 37 aos
38 a 42 aos
X =
Frecuenci
as (fi)
13
22
6
5
4
Marc
a (xi)
20
25
30
35
40
Promedio redondeado = 26
MODA:
Es el valor que se presenta con mayor frecuencia en un conjunto de datos.
MEDIANA:
Es el valor central de los datos, una vez ordenados de menor a mayor. Si el nmero de datos es
par, se toma el valor medio de los dos centrales.
ISIV Pgina 12 de 16
ESTADSTICA
MDULO 1
Frecuencias Marca
(fi)
(xi)
13
20
22
25
6
30
5
35
4
40
50
////////////
fi.xi
fri
260
550
180
175
160
1325
0,26
0,44
0,12
0,10
0,08
1
26%
44%
12%
10%
8%
100%
(La tercera columna se forma multiplicando la frecuencia por la marca de cada intervalo.
Al final aparece 1325 que es la sumatoria de dichos productos. La cuarta columna, la de las
frecuencias relativas se forma dividiendo las frecuencias de cada intervalo por la sumatoria
de frecuencias: 13/50=0,26. Por ltimo, la quinta columna es la de los porcentajes que
representan los intervalos y se construye multiplicando la frecuencia relativa por 100. Las
frecuencias relativas siempre suman 1 y las porcentuales 100%)
PROMEDIO 0 MEDIA:
Habamos calculado que el promedio era 26,5 aos (Redondeamos en 26 aos)
ISIV Pgina 13 de 16
ESTADSTICA
MDULO 1
El primer dato, ser el nmero 14, ya que el primer intervalo tiene 13 datos (Observar el cuadro
correspondiente):
23-23-23-23-23-23-23-23-24-24-24- 24 24 -24-25-25-25-25-26-26-26-26
En este caso, coinciden los dos nmeros centrales, por lo tanto la mediana es 24
Recurdese, que si la cantidad de datos es impar, nicamente un dato quedar en el centro del
ordenamiento.
d)
MEDIDAS DE DISPERSIN.
Las medidas de dispersin completan el anlisis numrico del conjunto de datos estudiados.
Tienen por objetivo determinar la mayor o menor variacin de los datos y dan una idea de su
disposicin respecto a las medidas de centralizacin.
Los datos que se utilizan para el clculo de algunas de ellas surgen de la ampliacin del cuadro
que venimos realizando.
2 =
(x
i =1
x)2
2 =
f
i =1
( xi x ) 2
n
f
i =1
Observaciones: Se pueden encontrar variaciones de estas frmulas, que pueden utilizarse, pero
no las incluimos en este material para confundir al alumno.
Adems debemos ampliar nuestro cuadro para obtener los valores que necesitamos en estas
frmulas.
ISIV Pgina 14 de 16
ESTADSTICA
MDULO 1
(x
i =1
x)2
f
i =1
( xi x ) 2
f
i =1
4) EL COEFICIENTE DE VARIACIN:
No siempre una mayor desviacin tpica indica mayor dispersin. La naturaleza de los datos
puede hacer que la comparacin absoluta entre desviaciones tpicas carezca de sentido.
Por ejemplo, no parece lgico comparar en forma directa la desviacin tpica de la altura de 100
bebs recin nacidos con la desviacin tpica de la estatura de sus padres. En cambio podra
realizarse una comparacin relativa de ambas.
Para medir la dispersin relativa de dos conjuntos de datos, puede utilizarse el coeficiente de
variacin que se define como:
CV =
Veamos las medidas de dispersin en nuestro ejemplo de las edades de las madres:
Al cuadro que venamos construyendo, debemos agregarles algunas columnas:
Intervalos
(K)
18 a 22 aos
23 a 27 aos
28 a 32 aos
33 a 37 aos
38 a 42 aos
(sumas)
Frecuencias
Marca
(fi)
13
22
6
5
4
50
(xi)
20
25
30
35
40
//////////
fi.xi
260
550
180
175
160
1325
fri
0,26 26%
0,44 44%
0,12 12%
0,10 10%
0,08 8%
1
100%
ISIV Pgina 15 de 16
xi x
( x i x )2
-6,5
-1,5
3,5
8,5
13,5
42,25
2,25
12,25
72,25
182,25
311,25
fi. ( x i
x)
549,25
49,50
73,50
361,25
729,00
1.762,5
ESTADSTICA
MDULO 1
VARIANZA: 2 =
f
i =1
( xi x ) 2
f
i =1
DESVIACIN: =
f
i =1
1762,5
= 35,25
50
( xi x ) 2
=
f
i =1
35,25 = 5,94
La desviacin estndar se utiliza para definir los lmites entre los cuales un valor de control
puede definirse como aceptable.
Si la media es 26,5 en este trabajo, los valores entre los cuales sern ser fiable los valores son:
26,5 5,94. Es decir entre 20,56 y 32,44 (Redondeando: entre 21 y 32 aos)
5,94
= 0,22
x
26,5
(Este dato nos puede servir para comparar con otra medicin. Cuanto ms grande es el CV,
mayor ser la heterogeneidad de las medidas.)
COEFICIENTE DE VARIACION: CV =
ISIV Pgina 16 de 16