Anda di halaman 1dari 45

CURSO BSICO DE

ESTADSTICA DESCRIPTIVA

-1-
NDICE

CAPTULO 1: INTRODUCCIN A LA ESTADSTICA

Tema 1: Introduccin a la estadstica

- 1.1. Introducci n a la estadstica descriptiva

- 1.2. Nociones bsicas


o 1.2.1. Noci ones tericas
o 1.2.2. Ejemplos prcticos

- 1.3. Distribuciones unidimensionales

o 1.3.1. Noci ones tericas


o 1.3.2. Ejemplos prcticos

- 1.4. Distribuciones bidimensionales


o 1.4.1. Noci ones tericas
o 1.4.2. Ejemplos prcticos

-2-
CAPTULO 1: INTRODUCCIN A LA ESTADSTICA

1.1. Introduccin a la estadstica descriptiva

Tradicionalmente la aplicacin del trmino estadstica se ha utilizado en tres


mbitos:

a) Estadsti ca como enu meracin de datos.


b) Estadsti ca como descripcin, es decir, a travs de un anlisis de
conjuntos coherentes de datos para su posterior comparacin y anlisis.
(ESTADSTICA DESCRI PTIVA)
c) Estadsti ca matemtica o inferencia, unida a la teora de de
probabilidades. Se encarga de extraer conclusiones a partir de una
muestra al total de la poblacin con un pequeo margen de error.
(ESTADSTICA INDUCT IVA)

Por tanto se podra definir la estadstica como la ciencia que permite


estudiar las regularidades o patrones en un conjunto de datos para tomar
decisiones racionales.

Todo anlisis estadstico requiere seguir una serie de etapas:

1) Definicin del problema de estudi o y objetivos del mismo.


2) Seleccin de la informacin necesari a para realizar el estudio.
3) Recogida de la informacin que va a depender del presupuesto con el
que contemos y de la calidad de los datos exigi da.
4) Ordenacin y clasificacin de la informacin en tablas y grficos.
5) Resumen de los datos mediante medidas de posicin, dispersin,
asimetra y concentr acin.
6) Anlisis estadstico formal obteniendo hiptesis y contrastndolas.
7) Interpretacin de resultados y extraccin de concl usiones.
8) Extrapolacin y prediccin.

-3-
1.2. Nociones bsicas de estadstica descriptiva

La estadstica descriptiva es la ciencia que analiza series de datos (por


ejemplo, edad de una poblacin, peso de los trabajadores de un determinado
centro de trabajo, temperatura en los meses de verano, etc) y trata de extraer
conclusiones sobre el comportamiento de estos elementos o vari ables.

Las variables que se obser van y analizan pueden ser de dos tipos:

a) Variables cualitativas o atributos: no se pueden medir numricamente,


representan caractersticas o atributos de las variables (por ejemplo:
nacionalidad, sexo, religin).

b) Variables cuantitativas: tienen valor numrico (edad, altura, precio de un


producto, ingresos anual es).

Por su parte, las variables cuantitativas se pueden clasificar atendiendo


a los valores que pueden tomar en discretas y continuas:

Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: nmero de hermanos (puede ser 1, 2, 3....,etc, pero, por
ejemplo, nunca podr ser 3,45).

Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por


ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57
km/h...etc.

Cualitativas

Tipo de
variables
Discretas

Cuantitativas
(recogidas en valor
o en intervalo)

Continas

-4-
Segn sea de un tipo u otro la variable podr medirse de distinta manera, o lo
que es lo mismo en la terminologa estadstica, tendrn distintas escalas de
medida.

Escala nominal: Identifica la pertenencia de


un elemento sujeto u objeto a un grupo u
otro, a niveles generalmente mutuamente
excluyentes. Permite la distincin entre
Cualitativas elementos pero no su ordenacin.

Escala ordinal: Identifica a cada elemento en


una posicin de escala respecto a los otros.

Tipo de
variables

Escala por intervalo: Identifica la posicin


ordinal de cada elemento y permite adems
medir las distancias entre unos y otros
utilizando una escala de medida subjetiva.
Cuantitativas

Escala de proporcin: Permite medir las


distancias entre elementos utilizando una
escala de objetiva y, por lo tanto, posibilita
la utilizacin de razones o ratios
comparativos.

La informacin que se recoge de una o varias variables se presenta en tablas


que representan la distribucin de dichas variables y tambin se pueden
clasificar en:

a) Distribuciones unidimensionales: slo recogen informacin sobre una


caracterstica (por ejemplo: edad de los al umnos/as de una clase).

b) Distribuciones bidimensionales: recogen informacin sobre dos


caractersticas de cada elemento de la poblacin simultneamente (por
ejemplo: edad y al tura de los alumnos/as de una clase) .

c) Distribuciones multidimensionales: recogen informacin sobre tres o ms


caractersticas de cada elemento (por ejemplo: edad, altura y peso de los
alumnos/as de una clase).

-5-
1.3. Distribuciones unidimensionales

Despus de una primera aproximacin a los conceptos estadsticos ms


importantes y bsicos, el analista de informacin estar preparado para
abordar una de las fases ms importantes que todo anlisis estadstico
requiere. Es decir, una vez que hemos definido los objetivos que queremos
cubrir con el anlisis y obtenido la informacin relevante, debemos presentarla
en tablas y grficos para conocer mejor el problema que estamos analizando.
Las primeras herramientas para conocer y por tanto describir el problema que
estamos analizando nos las proporciona la estadstica descriptiva a travs de
las siguientes maner as de clasificar la informacin:

1.3.1. Tabulacin de la informacin

Consiste en presentar la informacin organizada en tablas

v Valores de la variable sin agrupar

xi ni fi Ni Fi
X1 n1 N1/N N1 F1 = f1
X2 n2 N2/N N2 = n 1 + n 2 F 2 = f 1+ f 2

Xn nn nn/N Nn = N Fn = 1
n=N fi = 1

xi Valor de la variable
ni Frecuencia absoluta: Nmero de veces que aparece un
determinado valor de x
fi Frecuencia relativa: Nmero de veces que aparece un
determinado valor de x respecto al total
Ni Frecuencia absoluta acumulada: Suma de la frecuencia
absoluta cor respondiente ms todas l as anteriores

-6-
Fi Frecuencia relativa acumulada: Suma de la frecuencia
relativa correspondiente ms todas l as anteriores
N Tamao de l a muestra
Distribucin
Representa los valores de la variable y la frecuencia con que
aparecen dichos valores (xi , ni)
Recorrido
Diferencia entre el mximo y el mnimo valor de la vari able

Se utiliza este tipo de distribucin cuando el nmero de valores


diferentes que toma la variable no es grande, generalmente menos de
15 20 valor es (por ejemplo nmero de hijos).

v Datos de la variable agrupados

Cuando el nmero de valores diferentes que puede tomar la variable es


demasiado grande para que resulte fcil presentar la informacin de
manera reducida se utilizan los intervalos (por ejemplo estatura de un
grupo de alumnos).

En el caso en que tengamos variables agrupadas en intervalos,


introducimos el concepto de marca de clase que es el punto medio del
intervalo. En el caso de variables agrupadas en intervalos las
frecuencias hacen referencia al intervalo y nunca a valores concretos de
dicho intervalo. Puede haber intervalos de la misma o distinta amplitud
(ci). La distribucin en este caso viene dada por el extremo inferior (Li-1),
el extremo superior (Li) y la frecuencia (Li-1- Li, ni).

-7-
Ejemplo 1: Supongamos que queremos hacer un estudio en una clase
de universitarios. Entre otras cosas, se les pregunta lo siguiente.

Pregunta 1: Edad del encuestado


Pregunta 2: Ingresos anual es familiares

A la hora de tabular la informacin la primera pregunta, al referirse a una


clase de universitarios donde aproximadamente casi todos los alumnos
tienen la misma edad, se hace ms interesante recoger la informacin
sin agrupar, es decir, la tabulacin quedar de la siguiente manera:

-Cuadro 1-

Frecuencia Frecuencia
Frecuencia Frecuencia
Edad absoluta relativa
absoluta relativa
acumulada acumulada
xi ni fi Ni Fi
18 78 0,78 78 0,78
19 15 0,15 93 0,93
20 3 0,03 96 0,96
21 2 0,02 98 0,98
43 1 0,01 99 0,99
45 1 0,01 100 1
N 100

A la hora de tabular la segunda pregunta, y como cada familia puede


tener unos ingresos distintos, si representsemos los datos sin agrupar
nos podramos encontrar con una tabla con un dato por individuo, por lo
que es ms recomendable presentar la informacin de la variable
agrupada en intervalos. De tal manera que la tabla resultante quedar de
la siguiente maner a:

-8-
-Cuadro 2-
Frecuencia Frecuencia
Frecuencia Frecuencia
Ingresos absoluta relativa
absoluta relativa
acumulada acumulada
xi ni fi Ni Fi
Menos de 18.000 5 0,05 5 0,05
[ 18.000 - 24.000 ) 10 0,10 15 0,15
[ 24.001 - 30.000 ) 10 0,10 25 0,25
[ 30.001 - 36.000 ) 30 0,30 55 0,55
[ 36.001 - 42.000 ) 30 0,30 85 0,85
Ms de 42.000 15 0,15 100 1
N 100

1.3.2. Representaciones grficas de la informacin

Las representaciones grficas de los datos ofrecen una idea ms


intuitiva y ms fcil de interpretar de un conjunto de datos sometidos a
investigacin. Por ello las representaciones grficas se convierten en un
medio muy eficaz para el anlisis ya que las regularidades se recuerdan
con ms faci lidad cuando se obser van grficamente.

v Representaciones grficas para datos sin agrupar

Diagrama de barras: representa frecuencias sin acumular. Estos


grficos son vlidos para datos cuantitativos (de tipo discreto) y
cualitativos. En el eje y se pueden representar tanto las
frecuencias absolutas como relativas

-9-
-Grfico 1- Diagrama de barras

-Frecuencia absoluta de la edad de los alumnos-

80

60

40

20

0
18 19 20 21 43 45

Diagrama de escalera: representa frecuencias acumuladas de un


conjunto de datos. Este grfico puede representar tanto las
frecuencias absolutas como relativas.

-Grfico 2- Diagrama de escalera

-Frecuencia absoluta acumulada de la edad de los alumnos-

100
90
80
70
60
50
40
30
20
10
0
18 19 20 21 43 45

- 10 -
v Representaciones grficas para datos agrupados

Histograma: representa frecuencias sin acumular. Este grfico es


vlido para datos cuantitativos de tipo continuo o discreto si tiene
un gran nmero de datos. El histograma est formado por
rectngulos de rea igual o proporcional a la frecuencia
observada.

rea = base * al tura


ni = ci * altura
altura = densidad de fr ecuencia = n i/ci

Es decir la altura del rectngulo vendr dada por ni y ser


proporcional a dicho valor (tambin se llama funcin de densi dad).
Por tanto en el caso de inter valos iguales, la altura nos est dando
una idea de cual es el intervalo ms frecuente (aquel cuya barra
del histograma sea ms alta). En el caso de construir el
histograma utilizando fi la suma total del rea del histograma ser
igual a 1.

A continuacin vamos a ver unos ejemplos de histogramas en los


dos casos comentados anteriormente, es decir, con intervalos
iguales y con intervalos distintos.

- 11 -
-Grfico 4- Histograma serie de intervalos distintos
-Grfico 3- Histograma serie de intervalos iguales

40.000
39.000
38.000
37.000
36.000
35.000
34.000
33.000
32.000
31.000
30.000
29.000
28.000
27.000

Salario inicial
26.000
25.000
24.000
23.000
22.000
21.000

- 12 -
20.000
19.000
18.000
17.000
16.000
15.000
14.000

Intervalos distintos
13.000
Intervalos iguales:

12.000
11.000
10.000
9.000
8.000
7.000

150

100

50

0
250

200
Frecuencia
Polgono de frecuencias acumuladas: representa frecuencias
acumuladas. Su construccin se realiza levantando sobre las
marcas de clase, localizadas en el eje de abscisas, puntos de
altura igual a la frecuencia observada. La unin de estos puntos
da lugar a una lnea poligonal denominada polgono de
frecuencias.

-Grfico 5- Polgono de frecuencias acumuladas


Frecuencia Frecuencia
Frecuencia Frecuencia
Ingresos Marca de clase absoluta relativa
absoluta relativa
acumulada acumulada
xi ni fi Ni Fi
Menos de 18.000 5 15.000 0,05 5 0,05
[ 18.000 - 24.000 ) 10 21.000 0,10 15 0,15
[ 24.001 - 30.000 ) 10 27.000 0,10 25 0,25
[ 30.001 - 36.000 ) 30 33.000 0,30 55 0,55
[ 36.001 - 42.000 ) 30 39.000 0,30 85 0,85
Ms de 42.000 15 45.000 0,15 100 1
N 100

40

30

20

10

.0 )

42
00
00

00

00
00

00
0

0
8.

4.

0.

6.

2.
e1

-2

-3

-3

-4

de
d

s
os

1
00

00

00

00

M
en

8.

4.

0.

6.
M

[1

[2

[3

[3

Tanto los histogramas como los polgonos de frecuencia se pueden


realizar con frecuencias absolutas o relativas.

- 13 -
Grficos de sectores

Estos grficos se basan en un crculo o bien en un semicrculo y


consiste en dividir el crculo o semicrculo en sectores cuyas reas
sean proporcionales a cada uno de los trminos de la serie.
Generalmente se utilizan para representar series de atributos o
series cuantitativas presentadas en pocos intervalos.

-Grfico 6- Grfico de sectores


Xi ni
1-2 10
3-4 22
5-6 8
40

20% 25%

55%

1-2 3-4 5-6

Diagramas Gannt

Estos diagramas nos permiten conocer la evolucin de una


variable en estudio desde una situacin inicial hasta el momento
actual. Es un grfico de mucha utilidad para analizar crecimientos,
tendencias, en definitiva, la evolucin de la serie en el tiempo.

- 14 -
-Grfico 7- Diagrama de Gannt

T Xi
1 10
2 20
3 30
4 40
5 5
6 15
7 25
8 35
9 45
10 35
11 55
12 75
13 85
14 105
15 105

120
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

- 15 -
1.3.3. Medidas resumen de las distribuciones de frecuencias

El siguiente paso que debe dar el analista de la informacin es resumir la


informacin que tiene disponible una vez que la ha organizado y representado
mediante la tabulacin y los grficos. Para resumir la informacin dispone de
las siguientes medi das que son distintas funciones de la variable:

- Medidas de posi cin


- Medidas de dispersin
- Medidas de asimetra
- Medidas de apuntami ento o curtosis
- Medidas de concentr acin

a) Medidas de posicin

v Medidas de posicin central

Estas medidas pretenden caracterizar la distribucin de la variable/s que


estamos analizando por los valores del centro. Es decir, son valores
representativos de todos los valores que toma la variable.

Media aritmtica:

Representa el centro de gravedad de una distribucin y se define como la


suma ponder ada de los valores de la variable por sus frecuenci as relativas y

lo denotaremos por y se calcula mediante la expresin:

n n
xi * ni
x = xi * f i =
i =1 i =1 N

- 16 -
dnde xi representa el valor de la variable en distribuciones no agrupadas o
la marca de clase en distribuciones agrupadas. Es decir, en este ltimo
caso, se hace el supuesto que la frecuencia del intervalo est agrupada en
la marca de clase.

El inconveniente de la media aritmtica es que es muy sensible a los


valores extremos de una di stribucin.

Media aritmtica simple y ponderada

Hay veces donde hay que obtener una media aritmtica de variables cuyos
valores observados tienen distinta importancia y por tanto se deben
ponderar de distinta manera para obtener la media.

En el caso de que la ponderacin sea distinta estaremos hablando de una


media ponderada y los valores por los cuales se ponderan los distintos
valores se llaman pesos o ponderaci ones (wi)

x w
i =1
i i
x= n

w
i =1
i

Mediana

La mediana es el valor central de la variable, es decir, supuesta la muestra


ordenada en orden creciente o decreciente, el valor que divide en dos
partes la muestra. Para calcular la mediana debemos tener en cuenta si la
variable es discreta o continua.

- 17 -
Clculo de la mediana en el caso discreto:

Tendremos en cuenta el tamao de la muestra.

Si N es Impar, hay un trmino central, el trmino


X N que ser el valor de la mediana.
+1
2

Si N es Par, hay dos trminos centrales, XN,XN la


+1
2 2

mediana ser la media de esos dos valores

Clculo de la mediana en el caso de datos en i ntervalo:

Para determinar el valor de la mediana en el caso de tener representada


los valores de la variable en intervalos hay que par tir de una hiptesi s: la
variable evoluciona de manera contina y uniforme dentro del propio
intervalo.

En este caso el clculo de la mediana consta de dos fases, la


determinacin del intervalo que contiene la mediana y el clculo de su
valor.

1 Para determinar el intervalo en el que se encuentr a la mediana se


acumulan las frecuencias y el primer intervalo cuya frecuencia
N
acumulada (Ni) sea mayor o igual a es el intervalo que contiene la
2
mediana. Si llamamos Li y Li+1 a los lmites del intervalo que contiene la
mediana, ni a la frecuencia ordinaria de dicho intervalo, N i a la frecuencia
acumulada, Ni-1 la frecuencia acumulada hasta el intervalo anterior y ci la
amplitud del inter valo entonces la frmula es la siguiente:

N
- N i -1
Me = Li -1 + 2 ci
ni

- 18 -
Para calcular la mediana no es preciso que todos los intervalos estn
definidos. Del nico intervalo que necesitamos conocer la amplitud es
del intervalo modal.

Moda

La moda es el valor de la variable que tenga mayor frecuencia absoluta,


la que ms se repite, es la nica medida de centralizacin que tiene
sentido estudiar en una variable cualitativa, pues no precisa la
realizacin de ningn clculo.

Por su propia definicin, la moda no es nica, pues puede haber dos o


ms valores de la variable que tengan la misma frecuencia siendo esta
mxima. En cuyo caso tendremos una distribucin bimodal o polimodal
segn el caso.

Cuando los datos estn agrupados en intervalos se puede tomar la


marca de clase o realizar una aproximacin mediante la siguiente
frmula:

ni +1
Moda = L1 + *c
ni -1 + ni+1

donde :

Li = lmite inferior de la clase modal

c = amplitud del intervalo

La moda se puede utilizar para datos cualitativos pero no tiene porqu


situarse en la zona central del grfico.

- 19 -
v Medidas de posicin no central

Estas medidas dividen a la poblacin en partes iguales y sirven para


clasificar a un individuo dentro de una determinada muestra o poblacin
(mismo concepto que la mediana)

Cuartiles

Medidas de localizacin que divide a la poblacin en cuatro partes


iguales (Q1, Q2 y Q3).

Q1: Valor de la distribucin que dej a el 75% de los valores por encima
Q2: Valor de la variable que deja el 50% de los valores de la variable por
encima (coincide con la medi ana)
Q3: Valor de la variable que deja el 25% de los valores de la variable por
encima

N
- N i -1
Qt = Li -1 + 4 ci
ni

Deciles

Medidas de localizacin que divide a la poblacin en diez partes iguales

dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el


k10 % de la distribucin.

N
- N i -1
Dt = Li -1 + 10 ci
ni

- 20 -
Percentiles

Medidas de localizacin que divide a la poblacin en cien partes iguales.


El primer percentil supera al uno por ciento de los valores y es superado
por el noventa y nueve por ciento restante.

Pk = Percentil k-simo es aquel valor que deja a su i zquierda el K*1% de


la distribucin

N
- N i -1
Pt = Li -1 + 100 ci
ni

- 21 -
Reflexiones sobre las medidas de posicin central

a) La media, la mediana y la moda coinciden en toda distribucin


simtrica o normal

b) La media aritmtica es la medida de posicin que ms se utiliza pues


normalmente es la que mejor representa los datos, al intervenir todos
ellos en su deter minacin. Por otra parte permite la aplicacin del clculo
de probabilidades. Ahora bien, tiene el inconveniente de que en el caso
de que exista una gran diferencia entre los valores extremos pierda gran
parte de su utilidad al estar afectada por ellos. Por ello en este caso es
ms conveni ente el uso de la mediana.

c) Un promedio puede actuar como medida de tendencia central


solamente si existe una cantidad considerable de concentracin en la
distribucin de frecuencias, es decir, que la variacin no es demasiado
grande.

d) Un promedio sirve como una medida til de localizacin para


comparar dos o ms distribuciones de frecuencias solamente si las que
se comparan tienen aproximadamente la misma forma.

- 22 -
b) Medidas de dispersin

Hasta el momento hemos estudiado los valores centrales de la


distribucin, pero tambin es importante conocer si los valores en
general estn cerca o alejados de estos valores centrales, para ver si
estos valores son o no son representativos. Es por esto por lo que surge
la necesidad de estudiar medidas de dispersin.

Los momentos son valores especficos de la distribucin y van


ntimamente ligados a las medidas de dispersin y se hallan con la
siguiente frmula:

n
ni
Momento de or den r M r = ( x i - ot ) r
i =1 N
Momentos respecto al origen (a1, a 2...) Cuando O t = 0
Momentos respecto a la media (m1, m2) Cuando O t = x

El momento de or den r es el promedio de las desviaciones de los valores


de una variable, con respecto al origen o a la media, elevadas a la
potencia r.

Relacin entre momentos:


m0 = a 0
a1= media
m 1= 0

- 23 -
v Medidas de dispersin absolutas

Rango o recorr ido

Es la diferencia entre el mayor valor de una variable y el menor.


Depende mucho de los val ores extremos y esto puede dar una impresin
falsa de la dispersin, por lo que se suele utilizar el rango intercuartlico
que es la diferencia entre el tercer y primer cuartel (Q3 Q1)

En valor absoluto

Estas medidas tienen las mismas unidades de medidas que la variable a


la que hacen r eferencia (Xi)

! X
i =1
i - promedio | ni / N

Con estas medidas de dispersin, slo se pueden comparar, en principio


distribuciones con las mismas unidades de medi da.

- 24 -
Cuadrticas

Las unidades de medi da son las de la vari able elevada al cuadrado

Varianza (2, s2): es la media aritmtica de los cuadrados de las


desviaciones respecto a la media

(X
i =1
i - promedio) 2 ni / N

Al igual que la media, en el caso de que los datos estn agrupados en


clases, se tomar la marca de cl ase como x i.

El problema de estas medidas es que para comparar variables s tienen


diferentes unidades de medida no se pueden comparar. La solucin por
tanto es eliminar las unidades de medida y por tanto necesito medidas
que no estn af ectadas por las unidades.

Para solucionar este inconveniente se hace lo siguiente:

n
Desviacin tpica = = s = + (X
i =1
i - promedio ) 2 n i / N

Ambas medidas, tanto la varianza como la desviacin tpica siempre son


positivas.

La desviacin tpica es la mejor medida de dispersin y la ms


empleada. Cuando l as distribuciones de frecuencias se aproximan a una
distribucin simtrica o normal entonces se verifica una propiedad muy
importante que consi ste, en que aproxi madamente:

- 25 -
El 68% de los valores de la variable estn comprendidos entre
x s
El 95% de los valores de la variable estn comprendidos entre
x 2s
El 99% de los valores de la variable estn comprendidos entre
x 3s

v Medidas de dispersin relativas

Estas medidas no tienen unidades de medi da

Recorrido relativo Rr

Nmero de veces que el recorrido contiene a la media


Re
Rr =
x

Recorrido semintercuartlico R
c 3 - c1
Rd =
c3 + 1

Coeficiente de apertur a Ap
xn
Ap =
x1

Coeficiente de variacin de Pear son

A veces interesa comparar la variabilidad o dispersin de una poblacin


desde dos puntos de vista diferentes e incluso comparar la variabilidad
de dos poblaciones o muestras distintas. Cuando no podemos utilizar la
desviacin tpica (porque las distribuciones son muy diferentes o porque
las variables presentan distintas unidades de medida) se utiliza el

- 26 -
coeficiente de variacin ya que se obtienen medidas homogneas y por
tanto comparables. Aqulla que mayor CV tenga nos indica una mayor
dispersin en la distribucin

S
CV =
x

c) Medidas de asimetra

v Asimetra

Estas medidas tratan de ver como se distribuye la variable en torno a un


eje de simetra. Este eje de simetra se fija en una recta que pase por la
media aritmtica de la distribucin. La asimetra tambin se utiliza para
comparar distribuciones por que se pretende que estas medidas
carezcan de uni dades.

La medida que da el grado de asimetra de una distribucin de datos es


el sesgo. Existen varias frmulas para hallar el sesgo.

Coeficiente de asimetra: cuanta de las desviaciones por encima de la


media y la cuanta de las desviaciones por debajo.

Coeficiente de asimetra de Fisher: momento de orden 3 respecto a la


media dividido por la desviacin tpica elevada al cubo. Este coeficiente
se calcula para distribuciones acampanadas y en for ma de u.

n
ni
(x - x)
i =1
3

N m3
g1 = 3
=
S S3

- 27 -
g1 > 0 Asimtrica positiva (Asimtrica por la izquierda)
g1 = 0 Simtrica
g1 < 0 Asimtrica negativa (Asimtrica por la derecha)

Coeficiente de asimetra de Pearson: Este coeficiente se calcula para


distribuciones en forma de campana.

x - Mo
Ap =
S
Ap > 0 Asimtrica por la derecha ( Mo > x )
Ap = 0 Simtrica
Ap < 0 Asimtrica por la izquierda ( Mo < x )

Coeficiente de asimetra de Bowl ey

c 3 + c1 - 2Me
Ab =
c 3 - c1

Ab > 0 Asimtrica por la derecha


Ab = 0 Simtrica
Ab < 0 Asimtrica por la izquierda

- 28 -
d) Medidas de apuntamiento o curtosis

Con el coeficiente de Curtosis se pretende observar como se distribuyen los


valores centrales de nuestra variable. Para ello se compara la distribucin
que se est analizando con la distribucin normal. Estas medidas nos van a
indicar si la distribucin tiene una forma de campana ms o menos
apuntada que la distribucin normal.
m4
g2 = -3
s4

g 2> 0 Leptocrti ca (perfil estirado)


g2 = 0 Mesocrtica (perfil intermedio)
g2 < 0 Pleticrtica (perfil achatado)

El apuntamiento tiene como unidad de medida la curtosis. Para medir la


curtosis (K) pueden utilizarse los cuartiles y per centiles:

Q
k=
P90 - P10
donde:
K= coeficiente de curtosis percentlico
Q3 - Q1
Q= rango semiintercuartlico ( )
2
P90= Percentil 90
P10= Percentil 10

- 29 -
e) Medidas de concentracin

Estas medidas tienen por finalidad medir la uniformidad del reparto de la


frecuencia total de una variable. Por ejemplo, si un grupo de trabajadores,
percibieran el mismo salario, la uniformidad de la variable sera absoluta;
por el contrario, en un caso hipottico, si la masa total de los salarios fuera
percibida por un solo trabajador, entonces la falta de uniformidad sera total-
en este caso diremos que la concentracin es mxima. Lgicamente,
cuando se tiende a la uniformidad absoluta, la media aritmtica es
perfectamente representativa de la distribucin de frecuencias,
contrariamente a lo que sucede cuando la concentr acin es mxima.

Las medias ms habituales para la medicin de la concentracin de una


distribucin de frecuencia son:

v Curva de Lorenz: Medida grfica

La curva de Lorenz es una representacin grfica que se obtiene de colocar


en los ejes de abscisas y coordenadas los porcentajes acumulados del
nmero de observaciones y del total del valor de la variable analizada. Por
ser idnticos tanto la escala como el campo de variacin de cada uno de los
ejes, la curva de Lorenz encaja perfectamente en un cuadrado. Se
representa tambin la diagonal que arranca desde el origen, que se toma
como punto de r eferencia de la curva.

Si la variable analizada fuese totalmente uniforme, la curva de lorenz


coincidira con el dibujo de la diagonal dibujada. En el caso opuesto, la
curva de Lorenz estara formada por los lados inferior y derecho del
cuadrado.

- 30 -
v ndice de Gini

La curva de Lorenz es ilustrativa de la concentracin de una distribucin.


Sin embargo, es conveniente disponer de un indicador que nos permita
valor numricamente dicha concentracin y, al mismo tiempo, facilite la
comparacin entre dos distribuciones. Este es el ndice de Gini o ndice de
concentracin.

El ndice de Gini se define como el cociente entre el rea rayada entre la


curva de Lorenz y la diagonal principal y el rea comprendida entre uno de
los dos tringulos obtenidos por la diagonal principal.

El ndice de Gini, por tanto, vara entre 0 y 1, aproximndose a 1 cuando la


concentracin tiende a ser mxima, y a 0 en caso con trario.

Numricamente, el ndice de Gini slo se puede calcular a travs de un


sistema de cl culo de reas.

- 31 -
1.4. Distribuciones bidimensionales

La mayora de los fenmenos que se estudian en cualquier disciplina estn


determinados por la observacin de distintas variables relativas a dicho
fenmeno. Es decir, si queremos estudiar las caractersticas de un producto y
compararlo con los de la competenci a normalmente se recoger informacin
sobre distintos atributos del producto como por ejemplo tamao, color, precio,
unidades vendidas, etc. Es decir, todas estas caractersticas son variables
referentes a nuestro producto y por tanto tendremos distribuciones que no
sern unidimensionales. En concreto vamos a analizar las distribuciones
bidimensionales que consiste en el estudio de dos caractersticas a la vez en
una muestra.

Los dos caracteres observados no tienen por qu ser de la misma clase, as


nos podemos encontr ar con las siguientes situaciones:

Tipos variables ( X, Y ) Ejemplo


Variables cualitativas Categrica / Categrica Sexo y clase social
Discreta / Discreta Nmero de hermanos y nmero de hijos.

Variables cuantitativas Continua / Continua Peso y altura

Discreta / Continua Pulsaciones y temperatura cuerpo

Categrica / Discreta Sexo y nmero de cigarrillos


Cualitativa y cuantitativa
Categrica / Continua Sexo e ingresos

Otro factor a tener en cuenta es que el nmero de modalidades distintas que


adopta el carcter X no tiene por qu ser el mismo que el que adopta el
carcter Y:

X = { x1, x2, x3, ..., xj} ; Y = { y1, y2, y3, ..., yk}

- 32 -
a) Tabulacin cruzada

En el caso de distribuciones bidimensionales a la hora de organizar los datos y


observar la relacin entre dos variables se utilizan las tablas de doble entrada.
Estas tablas t ienen la siguiente estructura:

y Y1 Y2 . Yj . Yk ni.
x
X1 n11 n12 n1j n1k n 1.
X2 n22 n2j n2k n2.
.
Xi nij ni.
.
Xh nh1 nh2 nhk nh.
n.j n.1 n.2 n.j n.k N

nij : Frecuencia conjunta


Nmero de veces que aparece el valor Xi con Yj
ni.: Frecuencia marginal de la variable X
n.j: Frecuencia marginal de la variable y
N: Suma del total de las observaciones
(xi y j nij): Distribucin conjunta
(xi n i.): Distribucin marginal de X
(yj nj.): Distribucin marginal de y

En este tipo de representacin tambin podemos representar las frecuencias


relativas. Basta con dividir las frecuencias conjuntas entre el nmero total de
observaciones:
nij
f ij =
N

- 33 -
La suma de las frecuencias absolutas es igual al nmero de pares observados
(N):
h k

n
i =1 j =1
ij =N

La suma de l as frecuencias relativas es igual a la unidad:


h k h k nij
f = N
i =1 j =1
ij
i =1 j =1
=1

Una tabla de doble entrada tambin se puede expresar como una tabla simple
o marginal, de forma que siempre es posible pasar de una a otra segn
convenga.

Distribuciones Mar ginales

Si en una tabla de doble entrada utilizamos solamente los valores


correspondientes a X, sin que para nada intervengan los valores de la variable
y, esta distribucin se denomina distribucin marginal de la variable X.
Anlogamente cuando tomamos los valores de la variable y sin tener en cuenta
los valores de la variable x estamos ante l a distribucin marginal de y.

De las frecuencias absolutas marginales se obtienen las frecuencias relativas


marginales. Y de igual forma podemos obtener las medias, varianzas y
desviaciones tpicas marginales.

Frecuencias absolutas marginales

n i
i. =N ; n.
j
j =N

Frecuencias relativas marginales

ni. n. j
f i. = ; f.j =
N N

- 34 -
Medias marginales

h k

xi n.i yj =1
j n.i
i =1
x= ; y=
N N

Varianzas marginales

h k

(x i. - x ) ni. 2
(y
j =1
.j - y ) 2 n. j
i =1
s x2 = ; s y2 =
N N

Desviaciones tpicas marginales

h k

(x i. - x ) ni. 2
(y j =1
.j - y ) 2 n. j
i =1
sx = ; sy =
N N

Distribuciones condicionadas

En ocasiones podemos necesitar condicionar los valores de la variable Y a un


determinado valor de X o viceversa. Estas distribuciones as obtenidas se
denominan: distribucin de la variable Y condicionada a X=xi o distribucin de
la variable X condi cionada a Y=y j

{n( xi / Y = y j } = {n1 j , n 2 j ,..n ij , n hj }


{n( y j / X = xi } = {ni1 , ni 2 ,..nij , nik }

n( x i / Y = y j )
n( x i / Y = y j ) =
n. j

n( y j / X = x i )
n( y j / X = x i ) =
ni .

- 35 -
Dependiendo del tipo de variables con el que estemos construyendo la tabla
hablamos de tabl as de contingenci a o tablas de correlacin:

Cualitativas TABLAS DE CONTINGENCIA


(al menos 1)

Tipo de
variables

Cuantitativas TABLAS DE CORRELACIN

b) Representacin grfica

v DIAGRAMAS DE DISPERSIN

El diagrama de dispersin es la representacin sobre unos ejes cartesianos de


los distintos valores de la variable (X, Y). En el eje de abscisas representamos
los valores de X y en el de ordenadas los valores de Y, de tal forma que cada
par viene representado por un punto del plano XY.

En el caso de que las dos variables estn agrupadas en intervalos el diagrama


se construye mediante casillas que tienen dentro tantos puntos como el valor
de la frecuencia absoluta correspondiente a los intervalos X e Y.

Si las variables que componen el par son una discreta y otra continua se
utilizan las marcas de clase, si endo un caso si milar al primero

Los diagramas de di spersin tambin se conocen como nube de puntos.

- 36 -
v DIAGRAMAS DE FRECUENCIAS

Como en un diagrama de dispersin no puede quedar reflejado las veces que


se repite un par o un intervalo, hemos de recurrir a una representacin en tres
dimensiones de (X, Y). Dos son para la variable bidimensional y una dimensin
para expresar las frecuenci as.

La figura adjunta representa los datos del ejemplo 1. La variable X toma los
valores 10, 15,... y la variable Y los valores 0, 1,2,...; en el eje Z estn
representadas las fr ecuencias absolutas del par (X, Y).

- 37 -
c) Medidas de resumen y asociacin

A continuacin vamos a estudiar las medidas de resumen para el caso de


distribuciones bidimensionales con variables cuantitativas.

Cuando hay pocos datos o estn muy agr upados (tablas de 2 o 3 columnas)

Aparece un parmetro nuevo que es la covarianza que es la media aritmtica


de las desviaciones de cada una de las variables respecto a sus medias
respectivas. Es decir, representa la variacin conjunta de las dos variables que
se estn analizando y pueden tener cualquier signo. Viene representada por la
siguiente expresin:

n k nij
Sxy = m11 = (x
i =1 j =1
i - x )( y j - y )
N

S Sxy es mayor que 0 las dos variables se mueven en el mismo sentido (D x D


y)
S S xy es menor que 0 las dos vari ables se mueven en distinto sentido (D x D y)

Cuando hay muchos datos (tablas de doble entr ada)

Puede pasar que se quiera medir la relacin que existe entre dos conjuntos de
datos, es decir la dependencia o independenci a estadstica entre dos variables
de una distribucin bidimensional. Por ejemplo, si se analiza la estatura y el
peso de los alumnos de una clase es muy posible que exista relacin entre
ambas variables: mientras ms alto sea el alumno, mayor ser su peso.
Entonces vamos a obtener la correlacin o dependencia entre dos variables.
Segn sean los diagramas de dispersin podemos establecer los siguientes
casos:

- 38 -
o Independen cia funcional o correlacin nula: cuando no existe ninguna
relacin entre las variables. (r = 0)

o Dependenci a funcional o correlacin funcional: cuando existe una


funcin tal que todos los valores de la variable la satisfacen (a cada valor
de x le corresponde uno sol o de y o a la inversa) (r = 1)

o Dependenci a aleatoria o correlacin lineal: cuando los puntos del


diagrama se ajustan a una lnea recta o a una curva, puede ser positiva
o directa, o negativa o inversa (-1<r<0 0<r<1)

Para establecer estas relaciones tenemos l as siguientes medidas

1. Coeficiente de correlacin lineal: es una forma de cuantificar ms precisa el


tipo de correlacin que hay entre las dos vari ables.

2. Regresin: consiste en ajustar lo ms posible la nube de puntos de un


diagrama de dispersin a una curva. Cuando esta es una recta obtenemos la
recta de regresin lineal, cuando es una parbola, regresin parablica, cuando
es una exponencial, r egresin exponenci al, etc. (lgicamente r debe ser distinto
de 0 en todos los casos).

1. Coeficiente de correlacin lineal

El coeficiente de correlacin lineal mide el grado de intensidad de esta posible


relacin entre las variables. Este coeficiente se aplica cuando la relacin que
puede existir entre las variables es lineal (es decir, si representramos en un
grfico los pares de valores de las dos variables la nube de puntos se
aproximara a una recta).

- 39 -
No obstante, puede que exista una relacin que no sea lineal, sino exponenci al,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal
la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo
de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el
coeficiente de correlacin lineal, lo mejor es representar los pares de valores en
un grfico y ver que forma describen.

El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir:

Numerador: se denomina covarianza. Se suma el resultado obteni do de todos


los pares de valores y este resultado se divide por el tamao de l a muestra.

Denominador: es la raz cuadrada del producto de las varianzas de "x" y de


"y".

Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1

Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube
el de la otra). La correlacin es tanto ms fuerte cuanto ms se apr oxime a 1.

Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.

- 40 -
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable
disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto
ms se aproxime a -1.

Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.

Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir
otro tipo de correlacin (parablica, exponencial, etc.)

De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto
querra decir obligatoriamente que exi ste una relacin de causa -efecto entre las
dos variables, ya que este resultado podra haberse debido al puro azar.

2. Regresin lineal

Si representamos en un grfico los pares de valores de una distribucin


bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable
"y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue
una tendenci a lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente,


existe relacin entre las dos variables. Una vez que se concluye que s existe
relacin, la regresin nos permite definir la recta que mejor se ajusta a esta
nube de puntos.

- 41 -
Una recta viene definida por la siguiente frmula:

y = a + bx

Donde "y" sera la variable dependiente, es decir, aquella que viene definida a
partir de la otra variable "x" (variable independi ente). Para definir la recta hay
que determinar los valores de los parmetr os "a" y "b":

El parmetro "a" es el valor que toma la variable dependiente "y", cuando la


variable independiente "x" vale 0, y es el punto donde la recta cruza el eje
vertical. El parmetro "b" determina la pendiente de la recta, su grado de
inclinacin. La regresin lineal nos permite calcular el valor de estos dos
parmetros, definiendo la recta que me jor se ajusta a esta nube de puntos.

El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos vari ables, dividida por la varianza de la variable "x".

El parmetro "a" viene determinado por:

a = y m - ( b * xm )

Es la media de la variable "y", menos la media de la variable "x" multiplicada


por el parmetro "b" que hemos cal culado.

- 42 -
Ejercicios:

1. El curso MEB de ESCP-EAP obtiene las siguientes puntuaciones en un test


de habilidad mental

43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51
48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30
40 39 42 30 35 40 38 36 46 45 68 50 69 69

Se pide:

a) Formar una distribucin de frecuencias con 14 intervalos


b) Hacer la representacin grfica del polgono de frecuencias
c) Hacer la representacin grfica del histograma
d) Hacer la representacin grfica de las frecuencias acumuladas relativas

2. Las puntuaciones obtenidas por un grupo de alumnos de Primaria en un


test de habi lidad sicomotora, ha dado las puntuaciones siguientes:

x xi ni ni xi Ni fi Fi
60-63 61,5 2 123 2 1% 1%
56-59 57,5 12 690 14 7% 8%
52-55 53,5 18 963 32 10% 18%
48-51 49,5 36 1782 68 21% 39%
44-47 45,5 38 1729 106 22% 61%
40-43 41,5 20 830 126 11% 72%
36-39 37,5 18 675 144 10% 82%
32-35 33,5 10 335 154 6% 88%
28-31 29,5 8 236 162 5% 93%
24-27 25,5 6 153 168 3% 96%
20-23 21,5 4 86 172 2% 98%
16-19 17,5 2 35 174 1% 99%
12-15 13,5 0 0 174 0% 99%
8-11 9,5 0 0 174 0% 99%
4-7 5,5 1 5,5 175 1% 100%
N 175 7642,5 100%

- 43 -
Se pide:

a) Hallar la media
b) Hallar la mediana
c) Hallar Q 1 y Q 3
d) Hallar los percentiles 18 y 84
e) Hallar la moda

3. El primer curso de soci ologa ha obteni do una nota media al final del curso
de 5,7 de un total de 110 alumnos. El segundo curso una nota media de
6,6 de un total de 60 alumnos y el curso tercero una nota media de 5,1 de
un total de 48 alumnos. Cul es la nota media de los tres cur sos?

4. Dada la tabl a siguiente:

15 19 31 30 23 76 13 35 27 32 77 35 24 18 18 15 45 76 81 27 76 23 18 18
75 15 69 14 75 63 29 19 81 15 29 81 45 17 15 41 18 31

Se pide:
a) El recorrido de los datos
b) Agrupar los datos en 8 intervalos
c) Calcular la amplitud de los intervalos
d) La desviacin media
e) La desviacin tpica
f) Los cuatro mo mentos
g) La asimetra
h) La curtosis

- 44 -
5. Dada la siguiente distribucin calcular todos los coeficientes de asimetra
y explicar el significado de su val or :

Puntuaciones ni
80-84 8
75-79 7
70-74 5
65-69 6
60-64 12
55-59 6
50-54 9
45-49 4
40-44 5
62

- 45 -