Anda di halaman 1dari 18

IES RUIZ GIJN Definiciones bsicas

Curso 2006 07

ESTADSTICA DESCRIPTIVA

La Estadstica es la ciencia que trata de la elaboracin y la aplicacin de mtodos destinados a coleccionar, representar, resumir y analizar datos, as como a realizar inferencias a partir de ellos. En particular, se llama Estadstica Descriptiva a la rama de la Estadstica que tiene como objetivo el desarrollo de herramientas destinadas a obtener muestras, presentar en forma resumida los datos recogidos y determinar algunas medidas caractersticas. La Estadstica Inferencial es el conjunto de tcnicas que permiten, mediante el uso del clculo de probabilidades, realizar inferencias relativas a todo un colectivo a partir del estudio de muestras extradas del mismo. Se llama poblacin al colectivo que tenemos inters en estudiar. En las ciencias sociales los colectivos suelen ser conjuntos de personas pero, en general, el trmino poblacin se usa para referirse a conjuntos de cualquier tipo (tornillos, vacas, rockeros, etc). Las poblaciones pueden ser finitas, como el conjunto de los utreranos, o infinitas, como el conjunto de puntos del intervalo ( 3 , 7 ) . Cada uno de los elementos pertenecientes a la poblacin se llama unidad muestral o individuo. Llamamos muestra a un subconjunto de la poblacin de cuyo estudio esperamos obtener la informacin que queremos. Se llama tamao muestral al nmero de elementos que la componen. Se representa por n . Las muestras deben elegirse con cuidado para que sean lo ms representativas que sea posible. Hay toda una rama de la Estadstica dedicada exclusivamente a establecer mtodos de extraccin de muestras. Por ejemplo, para estudiar la seguridad de sus automviles, un fabricante elige al azar algunos de los que salen de la cadena de montaje para someterlos a pruebas de todo tipo. De los resultados obtenidos con esos pocos automviles (esa es la muestra) pueden obtenerse conclusiones vlidas para el conjunto de todos los que fabrica (esa es la poblacin). Se denomina carcter a cada una de las cualidades que nos interesa conocer de los individuos de una poblacin. As, de los alumnos del IES Ruiz Gijn nos puede interesar conocer los caracteres estatura, edad, nmero de horas que dedica a estudiar, color del pelo, aficiones deportivas, etc. Hay dos tipos de caracteres. Se llaman cualitativos los que no pueden ser descritos numricamente (como el estado civil, el color de los ojos, etc) . Tambin se denominan atributos , y las distintas formas que pueden presentar se llaman modalidades. Por ejemplo, el atributo estado civil tiene las modalidades soltero, casado, separado, divorciado, pareja de hecho, etc. En general, si se denota por M un atributo que estemos estudiando, sus k diferentes modalidades se representan por m1 , m 2 , m3 , K , m k . Por otra parte, se llaman cuantitativos a los caracteres que se describen numricamente (como la altura de un estudiante, el total de goles marcados en los partidos de una jornada de la liga de ftbol, etc). Tambin se llaman variables. Si una variable se ha denotado por X , los diferentes valores de ella observados en la muestra se representan x1 , x 2 , x3 , K .

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

Ejemplo: Se ha preguntado a quince alumnos elegidos al azar en este Instituto cuntos euros llevaban encima. Las respuestas han sido 3 , 5 , 5 , 1 , 9 , 5 , 7 , 3 , 4 , 4 , 7 , 9 , 9 , 1 y 5 . En este caso n = 15 , y si representamos por X la variable euros en el bolsillo , sera

x1 = 3 , x2 = 5 , x3 = 5 , K , x13 = 9 , x14 = 1 y

x15 = 5 .

Una variable se llama discreta cuando slo puede tomar un nmero finito de valores distintos. La variable del ejemplo anterior es discreta, como los son las variables nmero de miembros de una familia y nmero de suspensos de un alumno. Una variable es continua cuando, aunque sea tericamente, puede tomar cualquier valor comprendido entre dos de los observados en la muestra. As, la variable peso de un estudiante es continua. Tambin los son las variables altura de un recin nacido y contenido de azcar de un merengue. El esquema siguiente resume lo antgerior:

Carcter

Cualitativo o atributo Cuantitativo o variable

Discreta Continua

Organizacin de los datos


Cuando se investiga un carcter de una poblacin a travs de una muestra, obtenemos un conjunto ms o menos extenso de datos. Nos enfrentamos a una masa de informacin que nos obliga a actuar para reducirlos de alguna manera y as captar hechos que pueden estar ocultos. numricamente o grficamente. Esa organizacin de los datos puede hacerse

Resmenes numricos. Cuando una muestra es muy pequea y los valores observados apenas se repiten diremos que es una muestra de tipo I . Este tipo de muestra no necesita ser resumida. Si la muestra consta de pocos valores distintos pero que aparecen repetidos varias veces, diremos que es una muestra de tipo II . El ejemplo

anterior, el de los euros que tenan encima los alumnos, es un caso de este tipo II. Observemos que el valor 3 ha aparecido dos veces, el 5 , cuatro veces, el 1 , dos veces, el 9 , tres veces, el 7 , dos veces y el 4 , dos veces. As que en realidad la variable slo toma seis valores distintos ( 1 , 3 , 4 , 5 , 7 y 9 ) que se van repitiendo. Pues bien, el nmero de veces que se repite un valor de la variable en la muestra se llama frecuencia absoluta de dicho valor. Por ejemplo, la frecuencia absoluta del valor 5 es 4 , y la del valor 9 es 3. En general, si una variable X toma los k valores distintos x1 , x 2 , x3 , K , x k , las veces que se repite el valor xi , o sea, su frecuencia absoluta, se representa por ni . Si el tamao de la muestra es n se cumple, evidentemente: n1 + n 2 + n3 + K + n k = n . Con los valores
xi ordenados normalmente de menor a mayor, y sus frecuencias absolutas, se

construye la llamada tabla o distribucin de frecuencias absolutas , que resume los datos muestrales :
____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

X
x1
x2

ni
n1 n2

x3

n3

xk

nk

Adems de la frecuencia absoluta, es interesante asociar a cada valor xi de una variable (o a cada modalidad mi de un atributo) otras magnitudes. Lamamos frecuencia relativa del valor xi de una variable (o de la modalidad mi de un atributo) al cociente entre su frecuencia absoluta y el tamao de la muestra. Se representa por f i . Por lo tanto: f i =
ni n

. La suma de todas las frecuencias relativas es 1 .

Si se multiplica por 100 una frecuencia relativa, se obtiene el porcentaje correspondiente, representado por pi . La suma de todos los porcentajes es el 100% . Llamamos frecuencia absoluta acumulada del valor xi ( o de la modalidad mi ) a la suma de todas las frecuencias absolutas de los valores anteriores a l con la de l mismo. Se representa por N i . Por tanto:
N i = n1 + n 2 + n3 + K + ni . La frecuencia

relativa acumulada del valor xi ( o de la modalidad mi ) se define de modo similar y se representa por
Fi . Es decir: Fi = f 1 + f 2 + f 3 + K + f i . Tambin puede hablarse del porcentaje acumulado Pi ,

que se define de modo semejante. Con esos valores se puede construir una tabla muy completa de frecuencias y porcentajes, como se indica a continuacin:

X
x1 x2

ni n1 n2

Ni N1 N2

fi f1 f2

Fi F1 F2

pi p1 p2

Pi P1 P2

x3

n3

N3

f3

F3

p3

P3

xk

nk

Nk

fk

Fk

pk

Pk

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

Para atributos, en la primera columna se colocan las diferentes modalidades mi en estudio, y las restantes columnas son idnticas a las que aparecen aqu. Ejemplo: Se han seleccionado al azar 150 familias utreranas, y se les ha preguntado cuntos hijos tienen. Las respuestas han sido las siguientes: 0 0 0 1 1 6 5 1 0 0 5 0 0 0 0 0 1 1 1 1 1 1 5 4 4 4 3 3 4 4 0 0 0 3 0 1 2 2 2 2 2 2 2 3 2 2 2 2 2 3 2 3 3 2 1 2 2 2 2 2 3 3 2 3 2 3 0 0 0 0 1 1 1 2 1 1 1 0 0 2 2 2 2 3 2 1 1 2 2 2 2 2 2 3 2 2 2 2 2 1 1 1 1 2 2 2 2 2 2 1 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 Se trata de una tpica muestra de tipo II , porque la variable X = nmeros de hijos slo toma los valores 0 , 1 , 2 , 3 , 4 , 5 y 6 , aunque repetidos cada uno varias veces. La tabla de frecuencias y

porcentajes completa para esta muestra es la siguiente: X 0 1 2 3 4 5 6


ni Ni fi Fi pi Pi

20 35 62 24 5 3 1 n = 150

20 55 117 141 146 149 150

0.1333 0.2333 0.4133 0.1600 0.0333 0.0200 0.0066

0.1333 0.3666 0.7800 0.9400 0.9733 0.9933 1

13.33% 23.33% 41.33% 16% 3.33% 2% 0.66%

13.33% 36.66% 78% 94% 97.33% 99.33% 100%

Cuando se estudian variables, sobre todo contnuas, nos encontramos muchas veces las llamadas muestras de tipo III , que se caracterizan por ser de gran tamao y/o porque se observan muchos valores distintos de la variable. Para resumir los datos, se agrupan en k intervalos de clase , que no son ms que intervalos semiabiertos de la recta real de la forma ( Li 1 , Li ] , con 1 i k . El nmero Li 1 se

llama lmite inferior del intervalo de clase , y Li es el lmite superior del intervalo. Aunque no es obligatorio, s es recomendable que todos los intervalos tengan la misma anchura.

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

A la anchura de un intervalo se la llama amplitud . La amplitud del intervalo ( Li 1 , Li ] se representa por a i y, evidentemente, es a i = Li Li 1 . No se recomienda usar menos de cinco intervalos para resumir los datos, ni ms de quince. De todos modos, es el investigador el que establece lbremente la cantidad k de intervalos que quiere usar. Una vez decidido k , hay que decidir la amplitud que tendrn los intervalos. Tambin eso es cosa del investigador. De todos modos, una frmula que suele aplicarse para determinar la amplitud a , si deseamos que sea la misma para todos los intervalos, es la siguiente:
x min x a = max +1 . k

El corchete indica que, despus de hacer la divisin, debemos eliminar los

decimales, si es que los hay. Por otro lado, x max es el mayor valor que aparece en la muestra y x min es el ms pequeo. En cualquier caso, lo importante es que todos lo datos muestrales se encuentren incluidos en alguno de los intervalos. Una vez que se ha hecho el recuento y se han contabilizado los datos muestrales que caen en cada intervalo, es fcil obtener las frecuencias absolutas, relativas, etc , de los mismos. El punto central de un intervalo se llama marca de clase . Viene a ser como su representante. Si el intervalo es
( Li 1 , Li ] , se lo denota por xi , y naturalmente vale: xi = Li 1 + Li . 2

Las tablas de frecuencias y porcentajes para las muestras de tipo III tienen el aspecto siguiente:
( Li 1 , Li ] ( L0 , L1 ]

marcas
x1

ni n1

Ni N1

fi f1

Fi F1

pi p1

Pi P1

( L1 , L2 ]
( L2 , L3 ]

x2
x3

n2
n3

N2
N3

f2
f3

F2
F3

p2
p3

P2
P3

( Lk 1 , Lk ]

xk

nk

Nk

fk

Fk

pk

Pk

Es muy corriente usar intervalos de la forma [ Li 1 , Li ) . Eso no cambia nada de lo explicado hasta

ahora. Tambin es muy comn que el primer y el ltimo intervalos no se especifiquen claramente, lo que acarrea algunos problemas a la hora de calcular medidas estadsticas que veremos ms adelante. Ejemplo : Las calificaciones obtenidas por 40 alumnos en un exmen de Lengua Inglesa han sido las siguientes:
____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

66 65 80 84

77 71 88 70

76 93 78 89

50 54 69 78

81 70 77 87

69 55 75 98

75 86 52 80

73 63 60 76

84 84 68 55

62 76 71 65

Los vamos a grupar en 5 intervalos de igual amplitud. La amplitud comn de todos ellos la calculamos usando la frmula indicada:
x min x 98 50 a = max +1= + 1 = [ 9.6 ] + 1 = 9 + 1 = 10 . k 5

Ahora slo queda elegir el lmite inferior del primer intervalo de clase, que suele tomarse muy prximo al valor ms pequeo que aparece en la muestra, que es el 50 . As que tomaremos L0 = 49 . Por lo tanto el primer intervalo ser ( 49 , 59 ] , el segundo, ( 59 , 69 ] , etc. Ahora slo nos falta ir anotando qu datos de los recogidos en la muestra entran en cada uno de los intervalos. Por ejemplo, en ( 49 , 59 ] hay 5 datos, en ( 59 , 69 ] hay 9 datos, etc. Ya podemos construir la tabla de frecuencias (para abreviar, no mostraremos la columnas correspondientes a los porcentajes):

( Li 1 , Li ]

marcas 54 64 74 84 94

ni

Ni

fi

Fi

( 49 , 59 ] ( 59 , 69 ] ( 69 , 79 ] ( 79 , 89 ] ( 89 , 99 ]

5 9 14 10 2 n = 40

5 14 28 38 40

0.125 0.225 0.35 0.25 0.05

0.125 0.35 0.70 0.95 1

Agrupar los datos en intervalos permite estudiarlos mejor, pero supone una prdida de informacin. Desde el momento en que se hace la agrupacin se acepta la llamada hiptesis de uniformidad.

Resmenes grficos.
Las representaciones grficas permiten captar sin esfuerzo las principales carctersticas de un conjunto de datos. Las muestras de tipo I no se resumen grficamente. Para las de tipo II , las representaciones ms usadas son los diagramas de barras y los diagramas de sectores . El diagrama de barras se obtiene marcando en uno de los ejes de coordenadas los distintos valores que toma la variable (o las diferentes modalidades de un atributo), y

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

trazando a continuacin barras verticales u horizontales (segn el eje que hayamos elegido antes) del tamao de las frecuencias correspondientes. Ejemplo : Se ha preguntado a catorce sevillanos por sus creencias religiosas. El resultado ha sido el siguiente: ateo catlico catlico catlico catlico catlico catlico musulmn catlico protestante ateo musulmn ateo ateo

En este caso el carcter creencias religiosas es un atributo. Despus de hacer el recuento para determinar las frecuencias absolutas de cada modalidad, se obtiene el diagrama de barras siguiente:

Creencias catlico protestante musulmn ateo

ni

Creencias religiosas
8 7 6 5 4 3 2 1 0 catlico protestante musulmn ateo

7 1 2 4 n = 14

El diagrama anterior se ha realizado con Excel. Cuando se hacen a mano, las barras se dibujan ms delgadas para ahorrar tinta! Se construye igual en el caso de frecuencias acumuladas. Si unimos mediante un polgono los centros de las bases superiores de cada barra, se obtienen los llamados polgonos de frecuencias . El grfico siguiente corresponde al ejemplo de la encuesta sobre el nmero de hijos de las familias utreranas, y aclara cmo se hace:
70

60

50

40

30

20

10

0 0 1 2 3 4 5 6 Nm ero de hijos

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

Los diagramas de sectores son crculos que se dividen en sectores circulares asociados a cada valor de la variable o modalidad del atributo, de manera que el ngulo central de cada sector sea proporcional a la frecuencia absoluta correspondiente. Esos ngulos centrales se calculan mediante una sencilla regla de tres. Basta tener en cuenta que los 360 grados del crculo se corresponden con el tamao total de la muestra, n . En el ejemplo de las creencias religiosas, a los catlicos les correspondera un sector con ngulo central:

360 grados 14 x = 180 grados x grados 7


De manera similar se obtienen los otros ngulos centrales. Basta con transportarlos al crculo para obtener el resultado siguiente (hemos aadido el dato de los porcentajes para reforzar la informacin que da el diagrama):

ateo 29%

catlico 50% musulmn 14% protestante 7%

En el caso de muestras de tipo III , que slo se pueden dar al estudiar variables, la representacin ms usada es el histograma . Vamos a suponer que todos los intervalos de clase en los que se han agrupado los datos son de la misma amplitud (si la amplitud es distinta la construccin es ms compleja, y no la consideraremos aqu). En el eje de abscisas se marcan los intervalos de clase y, tomndolos como base, se levantan rectngulos adosados que tengan como altura las correspondientes frecuencias. Las frecuencias pueden ser las absolutas, las relativas o las

acumuladas, segn nos interese. Tambin cabe representar polgonos de frecuencias. En este caso hay que hacer una precisin. Si los polgonos son de frecuencias no acumuladas, se dibujan como explicamos anteriormente. Pero si queremos represesentar el polgono correspondiente a un histograma de frecuencias acumuladas , los segmentos van uniendo los extremos derechos de las bases superiores de los rectngulos y, adems, se comienza con uno que parte del lmite inferior del primer intervalo de clase. Ejemplo. Se ha hecho una encuesta entre fumadores para saber cuntos cigarrillos fuman al da. Despus de entrevistar a 41 fumadores , las respuestas dadas se han agrupado en los intervalos que aparecen el tabla de frecuencias siguiente. Al lado aparece el histograma de frecuencias acumuladas y el polgono de frecuencias absolutas, y debajo figura el histograma de frecuencias absolutas acumuladas y el polgono de frecuencias absolutas acumuladas:
____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

Cigarrillos 0 - 5 5 - 10 10 - 15
15 - 20

ni
3 8 18 12 n = 41

Ni
3 11 29 41

10

15

20

10

15

20

Otras representaciones grficas, como los pictogramas , los cartogramas , etc., son de uso frecuente en las ciencias sociales, y pueden estudiarse en cualquier libro de texto.

Medidas o parmetros estadsticos


Una vez resumidos en tablas los datos de una muestra, llega la hora de determinar las llamadas medidas o parmetros estadsticos. stas no son ms que valores que nos dan informacin sobre los patrones de

comportamiento de la muestra. Hay cuatro tipos de medidas estadsticas: de centralizacin, de dispersin, de posicin y de forma.

A) Medidas de centralizacin. Las medias


Consideremos una muestra de tipo I

x1 , x 2 , x3 , K , x n

, de tamao n , correspondiente a una

variable. Se llama media aritmtica de esos valores al nmero:


____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

X=

x1 + x 2 + x3 + K + x n = n

xi
i =1

Si la muestra de tamao n es de tipo II , de manera que constan k valores distintos de la variable,

x1 , x 2 , x3 , K , x k , con frecuencias absolutas n1 , n 2 , n3 , K , n k , la media aritmtica es:

X=

x1 n1 + x 2 n 2 + x3 n3 + K + x k n k = n

( x i ni )
i =1

Por ltimo, si la muestra es de tamao n y de tipo III, y se ha resumido en k intervalos de clase, la media se obtiene de forma idntica a la anterior, pero siendo las xi las correspondientes marcas de clase. Para los atributos no se usa esta medida. Hay que sealar que la media aritmtica no tiene por qu ser uno de los valores que han aparecido en la muestra. Ejemplo. La media aritmtica de la muestra 7 , 3 , 5 , 5 , 1 , 8 , 9
X= 7 + 3 + 5 + 5 +1+ 8 + 9 = 5.428 7

es:

Ejemplo. La media de la muestra de tipo II que aparece resumida en la tabla de frecuencias dada, es:

X 0 1 3 5 9

ni

7 4 8 0 12 n = 31
X= 0 7 + 1 4 + 3 8 + 5 0 + 9 12 = 4.387 31

Ejemplo. La media de la muestra de tipo III que est resumida en la tabla siguiente, es:

( Li 1 , Li ]

marcas 2.5 7.5 15 24

ni

(0,5] ( 5 , 10 ] ( 10 , 20 ] ( 20 , 28 ]

12 8 5 11 n = 36
X= 2.5 12 + 7.5 8 + 15 5 + 24 11 = 11.9 36

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

10

La media arimtica tiene algunas propiedades que conviene destacar: a) La media arimtica slo se aplica a variables. b) La media aritmtica no es, en general, uno de los valores muestrales. c) La media aritmtica no se puede calcular para muestras agrupadas en intervalos cuando, por el motivo que sea, no es posible obtener la marca de clase de alguno de ellos. d) Si a todos los valores de una variable X se les suma una constante a , se obtienen valores de una nueva variable Y , cumplindose entonces: Y = X + a . e) Si a todos los valores de una variable X se los multiplica por una constante a , se obtiene valores de una nueva variable Y, cumplindose entonces: Y = a X . f) La media aritmtica es muy sensible a la presencia en la muestra de algn dato que est muy separado de la masa principal. Por ejemplo, para la muestra 4 es 4 , 2 , 2 , 1 , 4 , 1 , 2 , 70 ,

X = 10 . Si no tenemos en cuenta el valor 70 , la media sera

X = 2.5 , que es un

valor mucha ms razonable. Por eso, si una muestra contiene algn valor fuera de lo comn la media aritmtica vale de poco, a menos que ese valor no sea tenido en cuenta. Las calculadoras cientficas permiten calcular rpidamente la media artmtica y otros parmetros. Para ello es necesario tener activado el modo estadstico . Con frecuencia los valores recogidos en una muestra no tienen la misma importancia. Un caso tpico es el que se da con las notas. Es muy corriente que los profesores valoren ms unos exmenes que otros, y por eso le dan ms peso a unos que a otros en la calificacin final. Se habla entonces de media ponderada . En general, si a el valor xi de una muestra de tamao n se le asigna un peso wi , se llama media ponderada a:

x w + x 2 w2 + x3 w3 + K + x n wn Xp = 1 1 = w1 + w2 + w3 + K + wn

( xi wi )
i =1

wi
i =1

Ejemplo. Un examen consta de tres partes, un test, una parte terica y otra de ejercicios. El profesor le asigna una
importancia del 20% al test, de un 30% a la teora y de un 50% a los ejercicios. Si un alumno ha obtenido un 4 en el test, un 3 en la teora y un 7 en los ejercicios, la nota final del examen sera la media ponderada:

4 20 + 3 30 + 7 50 = 5 . 2 . De no haber ponderado, la nota media sera 4.67 . Suspenso! 20 + 30 + 50

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

11

Hay otra medias muy usadas en diferentes mbitos cientficos que conviene conocer. Para una muestra de tamao n y tipo I , x1 , x 2 , x3 , K , x n , se definen del modo siguiente:

Media geomtrica:

X G = n x1 x 2 x3 K x n
XH = n 1 1 1 1 + + +K+ x1 x 2 x3 xn
2 2 2 + x3 + K + xn x12 + x 2 n

Media armnica:

Media cuadrtica:

XC =

Como curiosidad, se cumple la relacin: x min X H X G X X C x max

La mediana
Otra medida de centralizacin de gran importancia por su significado y sus aplicaciones, slo aplicable a variables, es la mediana . Para obtenerla hay que ordenar la muestra de menor a mayor (o de mayor a menor) . Una vez ordenada la muestra, se llama mediana, y se representa por Me , a un nmero tal que hay tantos valores muestrales por debajo de l como por encima de l. Puede decirse que es el nmero que divide a la muestra ordenada en dos mitades. Si la muestra es de tipo I y el tamao muestral n es un nmero impar, la mediana es precisamente el valor muestral que ocupa la posicin central. Si n es par, la mediana es la media aritmtica de los dos valores centrales. As, para obtener la mediana de la muestra empezar ordenndola: 1 , 5 , 6 , 6 7 , 8 , 8 , 5 , 1 , 9 , 7 , 6 , 6 debemos

, 7 , 7 , 8 , 8 , 9

. La mediana es Me = 7 . Igualmente, , empezamos

para determinar la mediana de la muestra ordenndola: 1 , 1 , 3 ,

9 , 3 , 8 , 1 , 1 , 7 , 6 , 6 , 5 , 5 7 , 8 , 9

5 , 5 , 6 , 6 ,

. En este caso no hay un nico valor

central, sino dos, el 5 y el 6 , por eso la mediana es

Me =

5+6 = 5.5 . 2

Si la muestra es de tipo II , para obtener la mediana la tabla de frecuencias debe contener necesariamente la columna de las frecuencias absolutas acumuladas. Se empieza calculando valor muestral xi cuya frecuencia absoluta acumulada N i supera a

n . La mediana es entonces el primer 2

n . Si casualmente ocurre que hay un valor 2 n 2


, la mediana es entonces la media

xi

cuya frecuencia absoluta acumulada

N i coincide justamente con


Me = xi + xi +1 . 2

aritmtica entre ese valor y el siguiente, o sea,

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

12

Ejemplo. Despus de preguntar a 91 gaditanos cuntos vehculos a motor hay en sus casas, se han resumido las
respuestas en la tabla de fecuencias siguiente, en la que X es la variable nmero de vehculos a motor:

X 0 1 2 3 4

ni

Ni

20 35 18 12 6 n = 91

20 55 73 85 91

En este caso

n 91 = = 45.5 . Como el valor x 2 = 1 de la 2 2

variable tiene frecuencia absoluta acumulada 55 , y es el primero cuya frecuencia absoluta acumulada supera el valor 45.5 , se deduce que Me = 1 .

Ejemplo. Tras recoger 88 datos relativos a una variable X , se han resumido en la tabla siguiente. A su lado
aparece el clculo de la mediana:

X 1 3 4 7 8 9

ni

Ni

10 20 14 26 10 8 n = 88

10 30 44 70 80 88

En este caso

n 88 = = 44 2 2

. Si observamos la tabla

vemos que el valor

x3 = 4 de la variable tiene

casualmente frecuencia absoluta acumulada 44. Por eso la mediana es Me =


x3 + x 4 4 + 7 = = 5.5 . 2 2

Por ltimo, veamos como se obtiene la mediana cuando la muestra es de tipo III . La primera manera de hacerlo es grficamente, siendo acosejable usar un papel milimetrado para no cometer un error demasiado grande. Se representa el polgono de frecuencias absolutas acumuladas. Se marca en el eje de ordenadas el nmero Entonces la mediana es el punto del eje de abscisas que se corresponde con La segunda manera de hallar la mediana es analtica.

n . 2

n en dicho polgono. 2

Para empezar, se mira cul es el intervalo de clase

( Li 1 , Li ] cuya frecuencia absoluta acumulada N i supera por primera vez el valor


llamar intervalo mediano) . Entonces la mediana viene dada por:

n (a ese intervalo se le suele 2

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

13

Me = Li 1

n N i 1 + 2 a ni

Ejemplo. Se ha medido la altura, en centmetros, de 15 estudiantes y los resultados se han agrupado en intervalos
de clase, como aparece en la tabla siguiente, junto a la que se explica el modo de obtener la mediana: n 15 = = 7.5 , el intervalo mediano es (170,180] 2 2

Alturas (160,170] (170,180] (180,190] (190,200]

ni

Ni

Como

porque su

4 6 2 3 n = 15

4 10 12 15

frecuencia absoluta acumulada, 10 , es la primera que est por encima de 7.5 . Por lo tanto:

Me = 170 +

7.5 4 10 = 175.83 cm 6

Eso quiere decir que la mitad de los estudiantes miden menos de 175.83 cm y la otra mitad mide ms.

La mediana es una medida estadstica robusta, porque no le afecta la presencia de algn valor muestral fuera de lo comn. Recordemos que en esos casos no era recomendable usar la media aritmtica. Igualmente, cuando alguno de los intervalos de clase no est bien definido, la mediana es la medida de centralizacin que debe utilizarse. Es muy importante tener claro que la mediana no tiene por qu ser uno de los valores observados en la muestra.

La moda
Se llama moda al valor de la variable o la modalidad de un atributo que ms veces se repite en una muestra, es decir, el de mayor frecuencia absoluta. Se representa por Mo y es muy fcil de calcular. As, en el ejemplo de las creencias religiosas, la moda es la modalidad catlico . En el ejemplo de la posesin de vehculos a motor entre los gaditanos, la moda es Mo = 1 . Eso quiere decir que la mayora de la gente tiene slo un vehculo. Por

supuesto puede haber ms de una moda en un muestra. Si la muestra es de tipo III , el clculo de la moda o modas es ms complejo. En primer lugar se seala el intervalo (o intervalos) de clase

( Li 1 , Li ]

que tiene ms frecuencia absoluta (se lo conoce como intervalo

modal). Entonces la moda viene dada por:

Mo = Li 1 +

ni ni 1 a 2ni ni 1 ni +1

Por ejemplo, para el caso de la muestra de alturas de estudiantes el intervalo modal es (170,180] , y por lo tanto la moda ser: Mo = 170 + 64 10 = 173.33 cm . 26 4 2

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

14

B) Medidas de dispersin
Consideremos las muestras de notas obtenidas por cinco alumnos en Historia y Matemticas: 5 , 6 y 1 , 1 , 5 , 9 , 9 . 4 , 5 , 5 ,

Es inmediato comprobar que la media aritmtica en ambos casos es 5 . Pero

es evidente que el comportamiento que se observa en las dos asignaturas es muy distinto. Parece natural introducir algunas medidas estadsticas que nos permitan medir el grado de alejamiento de los datos respecto a la media. Son las medidas de dispersin. Se llama

varianza

de una variable al promedio de los cuadrados de las desviaciones de los valores

muestrales respecto de la media aritmtica

X.

Se representa por

S2 .

Para

una muestra de tipo I ,

x1 , x 2 , x3 , K , x n , se tiene:

S2 =

( x1 X ) 2 + ( x 2 X ) 2 + ( x3 X ) 2 + K + ( x n X ) 2 = n

( xi X ) 2
i =1

Para muestras de tipos II y III , la varianza es:

S2 =

( x1 X ) 2 n1 + ( x 2 X ) 2 n 2 + ( x3 X ) 2 n3 + K + ( x k X ) 2 n k = n

( x i X ) 2 ni
i =1

A la raz cuadrada de la varianza se la llama desviacin tpica , y se representa por S . La ventaja de la desviacin tpica es que se mide con la misma unidad con que se mide la variable. Es decir, si la variable se mide en cm, la varianza se medira en cm 2 , mientras que la desviacin tpica se medira en cm. Lo importante es tener presente que cuanto ms grande es la varianza o la desviacin tpica, ms dispersos y alejados estn los datos repecto a la media. Las calculadoras cientficas permiten calcular directamente S . En ellas la desviacin tpica se suele representar por n .

Ejemplo. Vamos a obtener la varianza y la desviacin tpica de las notas en Historia y Matemticas. Recordemos
que en ambos casos la media aritmtica era X = 5 : Historia:

S2 =

(4 5) 2 + (5 5) 2 + (5 5) 2 + (5 5) 2 + (6 5) 2 = 0.4 5
(1 5) 2 + (1 5) 2 + (5 5) 2 + (9 5) 2 + (9 5) 2 = 12.8 5

S = S 2 = 0.4 = 0.632

Matemticas: S 2 =

S = S 2 = 12.8 = 3.577

Los resultados confirman, como era de esperar, que las notas en Matemticas estn ms dispersas.

Ejemplo. Se han pesado 430 magdalenas de entre las que fabrica una determinada empresa. Los valores obtenidos
se han tabulado usando seis intervalos de clase dando lugar a la tabla de frecuencias siguiente. Vamos a determinar

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

15

la media, la mediana, la moda, la varianza y la desviacin tpica de la variable X = peso en gramos de las magdalenas :

Peso ( X ) (25,30] (30,35] (35,40] (40,45] (45,50] (50,55]

Marcas ( xi ) 27.5 32.5 37.5 42.5 47.5 52.5

ni

Ni

73 80 67 98 44 68 n = 430

73 153 220 318 362 430

Media:

X=

27.5 73 + 32.5 80 + 37.5 67 + 42.5 98 + 47.5 44 + 52.5 68 16945 = = 39.4 gramos 430 430

Mediana: Como

n 430 = = 215 , el intervalo mediano es el (35,40] , luego: 2 2 Me = Li 1 n N i 1 215 153 + 2 a = 35 + 5 = 39.62 gramos ni 67

Moda: El intervalo modal es el (40,45] , luego:

Mo = Li 1 +

ni ni 1 98 67 a = 40 + 5 = 41.82 gramos 2 98 67 44 2ni ni 1 ni +1

Por lo tanto, la magdalenas pesan 39.4 gramos de promedio, la mitad pesa menos de 39.62 gramos y la otra mitad pesa ms, y el peso ms frecuente entre las magdalenas es 41.82 gramos. Varianza:

S2 =

(27.5 39.4) 2 73 + (32.5 39.4) 2 80 + K + ( 47.5 39.4) 2 44 + (52.5 39.4) 2 68 = 69.5 gramos 2 430
Desviacin tpica: S = S 2 = 69.5 = 8.33 gramos

Otras medida de dispersin es el rango , que mide la separacin que hay entre el valor ms grande de la variable y el ms pequeo, y se representa por R . se tiene pues: El rango de la variable X del problema anterior es

R = x max x min

R = 55 25 = 30 gramos . El problema del rango es que

es demasiado sensible a la presencia en la muestra de algn valor excepcional. Por eso en Estadstica se usa ms el

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

16

llamado rango intercuartlico que definiremos ms adelante. Por ltimo, hay que destacar especialmente el

coeficiente de variacin de Pearson , denotado CV , y que se define as:

CV =

S X

100% .

Tiene la gran ventaja de ser adimensional, lo que lo hace la mejor herramienta para comparar el grado de dispersin de dos muestras, aunque una recoja el peso de unas magdalenas y la otra la longitud de los tornillos que vende una ferretera. A mayor coeficiente de variacin, mas alejamiento y dispersin respecto de los valores centrales presenta la muestra. Para CV = la variable X del ejemplo de las magdalenas, CV = el coeficiente de variacin es

8.33 100% = 21.14% . El de las notas en Matemticas 39.4

3.577 100% = 71.54% , lo que prueba que 5

los pesos de las magdalenas estn mas condensados en torno a la media que las notas en Matemticas.

C) Medidas de posicin Se trata de una generalizacin del concepto de mediana. Para obtenerlas es necesario tener ordenada la muestra de menor a mayor. Como sabemos, la mediana divida a la muestra en dos mitades. Pues bien, se llama percentil de orden r , y se representa por Pr , al nmero que tiene a su izquierda el
r % de los

valores muestrales. Por ejemplo, la mediana sera el percentil 50 , o sea , Me = P50 . Unos percentiles particulares son los llamados deciles. Se representan por D1 , D2 , ... y D9 , y no son ms que los percentiles P10 , P20 , ... ,

P90 , respectivamente.
Otros casos particulares de percentiles son los llamados cuartiles , que se denotan

Q1 , Q2 y Q3 , y son
rn . En particular 100

precisamente los percentiles 25 , 50 y 75 . Obsrvese que el segundo cuartil tambin es la mediana. El clculo de los percentiles es similar al de la mediana, pero sustituyendo n en todo lo explicado por 2

para variables agrupadas en intervalos de clase se seala el intervalo ( Li 1 , Li ] cuya frecuencia acumulada supera por primera vez el valor rn . Entonces el percentil de orden r se determina as: 100

Pr = Li 1

rn N i 1 + 100 a ni

Como ejemplo, vamos a calcular el percentil

30 en el caso de las magdalenas.

Como

r n 30 430 = = 129 , el intervalo que contiene a P30 es el (30,35] , al ser el primero cuya frecuencia absoluta 100 100 acumulada supera por primera vez a 129 , por lo que P30 = 30 + de las magdalenas pesa menos de 33.5 gramos. 129 73 5 = 33.5 gramos . Por lo tanto, el 30% 80 Al ser

Hallemos ahora el tercer cuartil , Q3 , o sea, P75 .

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

17

r n 75 430 322.5 318 = = 322.5 , Q3 est en el intervalo (45,50] , y vale: Q3 = P75 = 45 + 5 = 45.51 gramos 100 100 44
. As pues, el 75% de las magdalenas pesa menos de 45.51 gramos. Entre el cuartil primero Q1 y el cuartil tercero Q3 se encuentra el 50% central de la muestra. Fuera de esos valores se encuentran los ms pequeos y los ms grandes datos muestrales. Precisamente a la distancia que separa esos cuartiles se la llama rango intercuartlico , que es una medida de dispersin ms robusta que el rango ordinario. Se representa por IQR y vale:

IQR = Q3 Q1 . Se usa mucho en las aplicaciones de la estadstica,

fundamentalmente para descubrir outliers , o sea, valores raros por ser exageradamente anormales. Con ms presicin, diremos que un valor observado en una muestra es un outlier cuando no pertenece al llamado intervalo de

deteccin , que es ( Q1

3 3 IQR , Q3 + IQR ) . 2 2

____________________________________________________________________________________________________________________________ IES RUIZ GIJON. UTRERA. DEPARTAMENTO DE MATEMTICAS. CURSO 2006-07

18