Anda di halaman 1dari 12

CAPTULO I.

Descripcin de VARIABLES CUALITATIVAS




En este captulo se exponen las tcnicas ms sencillas que se utilizan para
describir una variable cualitativa. Definiremos las variables cualitativas
nominales y ordinales, los conceptos asociados a la distribucin de frecuencia y
los limitados estadsticos que pueden emplearse en la descripcin. El captulo se
cierra con algunos de los procedimientos grficos empleados para representar las
distribuciones de estas variables.


Variables cualitativas nominales y ordinales. En una encuesta sobre el gasto
turstico se pregunta a los visitantes de una autonoma cul es la impresin que
han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes:

La impresin que ha tenido de su viaje ha sido:
Muy buena.
Buena.
Normal.
Mala.

Tambin se pregunta cul es la categora socio-profesional en la que se
sita el encuestado:

Su profesin es:
Profesional liberal.
Directivo o empresario.
Administrativo.
Trabajador manual.
Trabajador Autnomo.
Funcionario.
Jubilado.
Estudiante
Otras.

Las anteriores variables son de tipo cualitativo, calificndose como de
tipo ordinal (la primera) y nominal (la segunda). La distincin entre ellas es
clara. En la pregunta sobre la impresin del viaje, la respuesta muy buena
indica un nivel de satisfaccin mayor que buena, sta ltima respuesta estara a
su vez por encima de normal y mala sealara en nivel mnimo de
satisfaccin. Las respuestas pueden, en algn sentido, ordenarse de menos a ms.
Introduccin a la Estadstica Descriptiva para Economistas

8
En cambio, no es posible ordenar de menos a ms las respuestas de una variable
como la categora profesional.

Las variables cualitativas nominales nicamente ponen nombre a una
caracterstica, las variables ordinales llevan asociadas un orden en las respuestas.

Las categoras de una variable nominal, al contrario de las de una variable
ordinal, no pueden ordenarse de menos a ms.


Distribucin de frecuencias. Frecuencia relativa y frecuencia relativa
acumulada. La principal herramienta de anlisis de una variable de tipo
cualitativo es el simple recuento del nmero de los casos dentro de cada
categora. Adems de referirnos a las categoras de una variable, emplearemos
tambin el trmino valores de la variable.

Supongamos que tenemos una variable A, que puede tomar las categoras
A
1
, A
2
,, A
I
. El primer objetivo es conocer cuntos individuos tienen cada
caracterstica.

La principal herramienta de anlisis de una variable de tipo cualitativo es el
simple recuento del nmero de los casos dentro de cada categora.


En estadstica, el nmero de veces que se repite una de las categoras o
valores de la variable se denomina frecuencia o, de manera ms precisa,
frecuencia absoluta (que denotaremos n
i
). Por distribucin de frecuencias se
entiende el registro de todos las posibles categoras o valores de la variable,
junto con sus frecuencias asociadas. Adems de las frecuencias absolutas se
suelen presentar las frecuencias relativas de cada categora. La frecuencia
relativa se define como la frecuencia absoluta dividida por el total de
observaciones:
f
n
n
i I
i
i
= = , , , 1 K

Cuando se trabaja con una variable de tipo ordinal (cuyas categoras se
pueden ordenar de menor a mayor) se pueden calcular las frecuencias
acumuladas. La idea de acumulacin facilita conocer rpidamente el nmero de
observaciones que estn por debajo de un determinado valor o categora. Se
distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia
absoluta acumulada se define como:
CAPTULO I. Variables Cualitativas

9
N n i I
i j
j
i
= =
=

1
1 , ,K .

Y la frecuencia relativa acumulada como:
I i
n
N
n
n
F
i
i
j
j
i
, , 1 ,
1
K = = =

=



Recuerde que tiene sentido hablar de valores acumulados cuando las
respuestas de la variable se han ordenado de menor a mayor, lo que slo es
posible si la variable cualitativa es de tipo ordinal.


La imagen estndar de una distribucin de frecuencias es tan sencilla
como la que se muestra en el cuadro 1. En la misma apareceran, para el total de
n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas,
las frecuencias relativas y las frecuencias relativas acumuladas.


Cuadro 1
Distribucin de frecuencias
Categoras
Frecuencias
Absolutas
Frecuencias
Relativas
Frecuencias
Relativas acumuladas
A
1
n
1
n
1
/n n
1
/n
A
2
n
2
n
2
/n (n
1
+n
2
)

/n

A
I
n
I
n
I
/n (n
1
++n
I
)

/n


Ejemplo 1. Rgimen de propiedad de la vivienda. El rgimen de
propiedad de la vivienda familiar puede considerarse como una variable
cualitativa, distinguiendo tres posibles categoras: la vivienda est en alquiler, la
vivienda es de propiedad con la hipoteca pendiente o la vivienda es de
propiedad sin hipoteca. Ante una muestra concreta de familias, podemos
describir de una manera cuantitativa su relacin con la propiedad de su vivienda.

En el cuadro 2 se muestra la distribucin de frecuencias de una muestra
de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser
cmodo, cuando se graban los datos, convertir las categoras en etiquetas
numricas. En nuestro ejemplo se ha definido una variable denominada
vivienda que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a 1
Introduccin a la Estadstica Descriptiva para Economistas

10
cuando la vivienda es de propiedad pero tiene la hipoteca an vigente y valor 2,
si la vivienda es de propiedad y sin hipoteca.


Cuadro 2

VIVIENDA POSESIN VIVIENDA HABITUAL(0,1,2)
Cum
Value Label Value Frequency Percent Percent

Alquiler 0 1764 36,8 36,8
Hipoteca vigente 1 960 20,0 56,9
Propiedad 2 2067 43,1 100,0
------- -------
Total 4791 100,0

Valid cases 4791 Missing cases 0



En el cuadro 2 aparecen los siguientes conceptos:

Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y
2 reflejan las categoras de alquiler, vivienda con hipoteca vigente y vivienda
de propiedad (en la columna Value Label se muestran las etiquetas de la
variable).

La Frecuencia absoluta (Frequency). El nmero de individuos que tiene cada
una de las categoras.

La frecuencia relativa (Percent) . Definida como el cociente entre la
frecuencia absoluta y el nmero total de observaciones.

La frecuencia relativa acumulada (Cum Percent). La frecuencia relativa
acumulada se define como la suma acumulada de los porcentajes relativos
de las categoras anteriores y hasta la propia categora.


La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes
tiene el mayor porcentaje de individuos. La segunda es la categora de vivienda
en alquiler, con un 36.8% de declarantes. Finalmente, la categora con menos
individuos corresponde a la de declarantes que viven en vivienda de propiedad,
an no pagada. La importancia de cada una de las categoras es fcil de percibir
cuando el nmero de categoras de la variable es muy pequeo.



Los porcentajes acumulados no tienen una interpretacin inocente
cuando se tratan variables de tipo cualitativo. La informacin de que el 56.9% de
CAPTULO I. Variables Cualitativas

11
los individuos viven en rgimen de alquiler o en vivienda propia con hipoteca
puede ser una informacin sin sentido.



La frecuencia relativa se define como la frecuencia en cada clase dividida
por el total de observaciones:
f
n
n
i
i
=

La frecuencia relativa acumulada en cada clase se define, una vez
ordenadas las respuestas desde la categora inferior a la superior, como:
n
N
n
n
F
i
i
j
j
i
= =

=1


En variables de tipo cualitativo nominal el porcentaje acumulado de
frecuencias no debe leerse de manera automtica, puesto que al no existir un
orden en las categoras, el sentido de la acumulacin puede ser confuso.




Diagrama de barras. Los resultados de la distribucin de frecuencias se
pueden acompaar de ayudas grficas que facilitan la lectura de la informacin.
El diagrama de barras representa, para cada una de las categoras de la variable
(indicada en uno de los ejes de la grfica), su frecuencia absoluta o relativa (que
se muestra en un segundo eje). Su objetivo es disponer de una visualizacin clara
y rpida de la importancia de cada una de las categoras de la variable. En la
grfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior.


El diagrama de barras representa grficamente las frecuencias (absolutas o
relativas) de la variable.



Introduccin a la Estadstica Descriptiva para Economistas

12
Grfica 1
Grfica de barras
POSESIN VIVIENDA(0=Alquiler,1=Hipoteca,2=Propiedad)
2 1 0
F
r
e
c
u
e
n
c
i
a
2200
2000
1800
1600
1400
1200
1000
800




Moda. En el Ejemplo 1 sobre el rgimen de propiedad de la vivienda uno de los
resultados obtenidos era que la categora con un porcentaje mayor de individuos
era la 2 (vivienda en propiedad sin hipoteca). Esta percepcin puntual puede
convertirse en el primer estadstico de resumen, ya que saber cul es la categora
ms frecuente de una variable dice algo del comportamiento general del grupo de
individuos. Conocer el valor con mayor frecuencia permite disponer de una
medida sinttica de cul es la tendencia general de las observaciones. A este
valor se le denomina moda de la distribucin.


La moda de una distribucin es el valor de la variable con
mayor frecuencia.


En ocasiones, las distribuciones de frecuencias se pueden caracterizar en
funcin de la moda, distinguiendo entre distribuciones con una nica moda
(distribuciones unimodales) y distribuciones en las que son dos o ms de dos los
valores que alcanzan la mxima frecuencia (distribuciones bimodales o
multimodales, respectivamente).

Es difcil encontrar distribuciones empricas que sean multimodales en el
sentido estricto en que aqu se han definido, es decir, que de manera exacta varios
valores tengan la misma frecuencia. Sin embargo, resulta interesante detectar
distribuciones en las que dos o ms valores tienen frecuencias ms altas que los
CAPTULO I. Variables Cualitativas

13
dems. En la prctica estas distribuciones se denominan tambin multimodales.
La explicacin de esta flexibilidad puede encontrarla en la comparacin de las
grficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que
tomara ocho categoras. En la primera distribucin se observa una doble moda,
con las categoras A
3
y A
7
con superior e igual frecuencias absolutas. En la
segunda distribucin la moda se encuentra en la categora A
3
, pero resulta obvio
que cualquier comentario sobre la distribucin que ignorase la categora A
7

falseara la imagen de conjunto que se desea transmitir. Hablar de una
distribucin bimodal, con una primera moda situada en la categora A
3
y una
segunda moda en la categora A
7
resultara ser un retrato ms fiel de las
observaciones.

Grfica 2
Variable Cualitativa
A8 A7 A6 A5 A4 A3 A2 A1
F
r
e
c
u
e
n
c
i
a
s
120
100
80
60
40
20
0



Grfica 3
Variable Cualitativa
A8 A7 A6 A5 A4 A3 A2 A1
F
r
e
c
u
e
n
c
i
a
s
120
100
80
60
40
20
0

Introduccin a la Estadstica Descriptiva para Economistas

14
Mediana. En el caso de variables cualitativas ordinales la moda no es el nico
estadstico con significado. Puesto que en las variables ordinales existe un
sentido de orden en sus categoras, si stas se ordenan de menos a ms, la
distribucin de frecuencias acumuladas tendr una interpretacin. La mediana es
aquella caracterstica de la distribucin que ocupa la posicin central de la
misma. Ordenados los valores de la variable (de menor a mayor), la mediana
define aquel punto que deja por debajo de s mismo el 50% de la distribucin.


Ordenados los valores de la variable (de menor a mayor) la mediana es aquel
valor de la distribucin que ocupa el valor central de la misma.


Ejemplo 2. Investigacin comercial de un nuevo producto. Las
empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su
aceptacin. Una prctica habitual es ofrecer una muestra del producto a algunos
consumidores potenciales. Una encuesta posterior permitir conocer el nivel de
satisfaccin del consumidor y las modificaciones que podran resultar
adecuadas. Supongamos que una empresa productora de un abrillantador de
muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre
un nmero igual de posibles consumidores, realizando despus una encuesta
sobre el nivel de satisfaccin respecto al producto. En el cuadro 3 se
reproduciran los resultados obtenidos.

Cuadro 3

Valid Cum
Value Label Value Frequency Percent Percent Percent

Nada satisfactorio 1 6 2,5 2,7 2,7
Poco satisfactorio 2 31 13,1 13,9 16,6
Bastante satisfactorio 3 96 40,7 43,0 59,6
Muy satisfactorio 4 90 38,1 40,4 100,0
No lo ha probado 5 13 5,5 Missing
------- ------- -------
Total 236 100,0 100,0



La variable cualitativa presenta cuatro posibles respuestas, indicando
cada una de ellas el nivel de satisfaccin del consumidor. Existe una quinta
opcin que recoge la categora de aquellas personas que finalmente no han
empleado el producto y que, en este ocasin, se han definido como valores
perdidos (missing). En los resultados del programa aparecen dos columnas de
porcentajes. En la primera, el total de observaciones (hayan empleado o no el
producto) se recoge como referencia para calcular las frecuencias. En la
segunda columna (valid percent) se calculan lo que se denominan porcentajes
vlidos, calculndose las frecuencias con referencia al nmero de individuos
que han empleado el producto.
CAPTULO I. Variables Cualitativas

15

Las caractersticas ms relevantes de la distribucin seran una moda
para la categora de bastante satisfactorio (43% de las respuestas vlidas) y un
valor mediano en la misma categora, al acumularse dentro de ella el 50% de
consumidores. Adems, en los porcentajes acumulados puede leerse que slo el
16,6% de los consumidores consideran el producto nada o poco satisfactorio.
El diagrama de barras de la distribucin se representa en la grfica 4,
apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de los
resultados anteriores el hecho de que la lectura de los porcentajes acumulados
(y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa
de tipo ordinal.

Grfica 4
Grfica de barras
Satisfaccin con respecto al producto
Nada satisf actorio Poco satisf actorio Bastante satisf act. Muy satisf actorio
P
o
r
c
e
n
t
a
j
e
50
40
30
20
10
0




Pictograma. Junto a los diagramas en barra es posible representar la importancia
de cada una de las categoras usando otro tipo de grficas. El pictograma no es
ms que un crculo en el que se representan las categoras de la variable
proporcionalmente a su frecuencia. La regla de proporcionalidad se consigue
definiendo los ngulos proporcionalmente a las frecuencias. As, una categora
con una frecuencia relativa del 40.4% debera cubrir un ngulo igual a
0 404 360 14544
0 0
. . = . En la grfica 5 se representan las frecuencias relativas
del ejemplo anterior por medio de un pictograma.

Grfica 5
Introduccin a la Estadstica Descriptiva para Economistas

16
Frecuencias relativas
2,7%
13,9%
43,0%
40,4%
Nada satisf echo
Poco satisf echo
Bastante satisf echo
Muy satisf echo




Diagrama de Pareto. Si se quiere resaltar la distribucin de frecuencias
acumuladas puede emplearse el denominado diagrama de Pareto. ste no es ms
que un diagrama en barras en el que las categoras se ordenan de mayor a menor
frecuencia, dibujando sobre las barras una lnea indicativa de la frecuencia
acumulada hasta esa categora. La grfica se puede realizar tanto sobre variables
nominales como ordinales.


El diagrama de Pareto es un diagrama de barras en el que las categoras se
ordenan de mayor a menor frecuencia, dibujando una lnea indicativa de la
frecuencia acumulada hasta esa categora.



Ejemplo 3. Control de produccin. Una empresa sufre continuas paradas
en su cadena de produccin. Dada la importancia de las consecuencias
econmicas de estas paradas se decide controlar durante un mes cules son las
razones que las ocasionan. Para ello se solicita de los operarios que anoten el
tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta
hasta que se soluciona el problema. Las causas detectadas (seis causas
particulares a este proceso de produccin) as como su frecuencia y el tiempo de
parada se reproducen en el cuadro 4.
Cuadro 4
Causa Frecuencia Tiempo de parada
CAPTULO I. Variables Cualitativas

17
(en minutos)
1 Rotura de tornillos 10 70
2 Rotura de arandelas 10 10
3 Rotura o bloqueo de cintas 4 41
4 Rotura de aros de sujecin 2 20
5 Rotura de otras piezas 2 10
6 Desajustes de temperatura 11 53


En total, como consecuencia de 39 paradas, se han perdido 204 minutos
en un mes de trabajo. El tiempo de parada y el nmero de paradas se pueden
analizar a partir de los correspondientes diagramas de Pareto. En la grfica 6 se
observa que las tres causas ms frecuentes de parada son la sexta, primera y
segunda, por este orden. Estas tres primeras causas, tal como se observa en la
lnea continua del diagrama, representan un porcentaje alto del total de paradas,
en concreto un 79,5% de stas, (11+10+10)/39. En la grfica 7 se puede
observar, sin embargo, que no todas las paradas tienen igual importancia en
cuanto al tiempo de interrupcin. Las tres primeras causas (primera, sexta y
tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el inters
de la empresa se encuentra en reducir al mximo el tiempo de parada (y no
tanto el nmero de veces en que la produccin se detiene) debera centrarse en
los determinantes de la rotura de tornillos, los desajustes de temperatura y la
rotura o bloqueo de cintas.

Grfica 6
Causa de la parada
5,00 4,00 3,00 2,00 1,00 6,00
N

m
e
r
o

d
e

p
a
r
a
d
a
s
50
40
30
20
10
0
P
o
r
c
e
n
t
a
j
e
100
50
0
4
10 10
11



Introduccin a la Estadstica Descriptiva para Economistas

18

Grfica 7
Causa de la parada
5,00 2,00 4,00 3,00 6,00 1,00
T
i
e
m
p
o

d
e

p
a
r
a
d
a
300
200
100
0
P
o
r
c
e
n
t
a
j
e
100
50
0
20
41
53
70