Pedro Delicado1
Universidad Politcnica de Catalua
Frederic Udina
Universidad Pompeu Fabra
RESUMEN
En este trabajo se presenta una metodologa sencilla de evaluacin de las predicciones de los
sondeos electorales. Tanto la descripcin grfica como las medidas numricas propuestas se
basan en mtodos de simulacin. Se presta especial atencin al problema de la estimacin (sesga-
da) de la distribucin de escaos entre partidos polticos mediante la ley dHondt y a la estima-
cin de diferencias. Se estudia el origen del sesgo en la estimacin y se sugieren mtodos para su
reduccin. Se analiza el problema de la eleccin previa del tamao muestral para garantizar un
margen de error dado. Los resultados y las predicciones de las elecciones catalanas de octubre de
1999 y las elecciones generales de marzo de 2000 ilustran el trabajo.
1. INTRODUCCIN
A raz de los malos pronsticos de los sondeos publicados ante las eleccio-
nes al Parlament de Catalunya de octubre de 1999 (en adelante, Parlament99)
y las elecciones generales de marzo de 2000 (en adelante, Congreso00) quisi-
mos analizar desde el punto de vista probabilstico el problema de la predic-
cin de resultados en el contexto de la Ley Electoral espaola, que incorpora
como mecanismo de reparto de escaos la ley dHondt.
1
Direccin de contacto: Pedro Delicado, Departament dEstadstica i Investigaci Operati-
va, Universitat Politcnica de Catalunya, Edifici U, C/ Pau Gargallo, 5; 08028 Barcelona.
124
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
FIGURA 1
PSC-CpC CiU
El Mundo
La Vanguardia
El Pas
ERC PP
IC
Diario16 CIS
El Peridico
ABC
125
PEDRO DELICADO Y FREDERIC UDINA
urnas en cada provincia catalana, el tamao muestral se fij en 800 para Barce-
lona y 400 para cada una de las provincias restantes. Con estos datos, simula-
mos en el ordenador B = 2.000 sondeos utilizando las distribuciones multino-
miales apropiadas. Sobre los resultados de cada sondeo se aplica la ley dHondt
para calcular los escaos de cada partido. Esto nos da una nube de puntos
(2.000 en este caso, de los que slo dibujamos 500 para mayor legibilidad del
grfico) en un espacio de 6 dimensiones (5 partidos y otros). El anlisis de
componentes principales permite representar lo ms fielmente posible esta
nube en un grfico plano. En el mismo grfico representamos las direcciones
correspondientes a cada partido, tomando como origen el parlamento prome-
dio proyectado sobre el plano del grfico. Tambin proyectamos sobre el
mismo grfico las predicciones de escaos de distintos sondeos publicados en
los medios en fechas prximas a los comicios. Para ello, calculamos todos los
parlamentos posibles dentro de la horquilla dada, proyectamos los puntos
correspondientes sobre el plano de las componentes principales y dibujamos la
envolvente convexa de estos puntos para no complicar la lectura del grfico.
En los casos en que el sondeo publicado se basa en un tamao muestral distin-
to, corregimos la posicin y el tamao del polgono correspondiente mediante
un factor nb/n, donde nb es el tamao utilizado en los sondeos tericos.
El primer hecho que destaca del grfico obtenido es la importancia del
sesgo: la distancia entre el parlamento real, calculado a partir de las proporcio-
nes realmente salidas de las urnas (se marca con + en el grfico), y el parlamen-
to promedio obtenido por los 2.000 sondeos simulados. Dedicaremos la sec-
cin 3 a analizar el origen de este sesgo, pero subrayemos aqu que la presencia
de este sesgo no puede ser ignorada al establecer predicciones de escaos
mediante sondeos como los que se realizan en la prctica.
Tambin es destacable la gran diferencia entre los tamaos aparentes y entre
las posiciones de los distintos sondeos publicados que se incluyen en el grfico
(los datos tcnicos de dichos sondeos se listan en la seccin C). Queda claro que
los errores de las predicciones no pueden atribuirse al azar muestral en la mayora
de los casos, y sorprende especialmente que las desviaciones se dan en direccin
contraria a la que debera producirse dado el sesgo que produce el muestreo.
Hemos aplicado la misma metodologa a los sondeos publicados ante las
elecciones generales al Parlamento espaol de marzo de 2000. El resultado
puede verse en la figura 2. El clculo se basa en 2.000 sondeos simulados, de
los cuales slo se visualizan en la nube de puntos 500, para mayor claridad del
grfico. El tamao muestral utilizado es de N = 15.000 con asignacin en
parte fija y en parte proporcional, tal como se especificaba en el nico sondeo
publicado con una ficha tcnica lo suficientemente precisa (en El Pas). Las dos
primeras componentes principales utilizadas para la construccin del grfico
acumulan un 81% de la varianza. Slo se han rotulado las flechas de los tres
partidos principales. Las de todos los partidos menores coinciden en direccin
prcticamente con la de IU. Tambin aqu aparece el sesgo en la estimacin de
la asignacin de escaos: puede distinguirse a la izquierda del origen una
126
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
pequea cruz que indica la posicin del parlamento real, a partir de cuyas pro-
porciones se han simulado los sondeos (vase el detalle en la figura 3). Desta-
camos que el tamao del sesgo es comparable al radio de las horquillas con que
predicen el parlamento la mayora de sondeos publicados, por lo que no es
despreciable en absoluto. Los polgonos convexos que representan a los son-
deos publicados se han calculado en la misma forma que para la figura ante-
rior. Destaca claramente la infravaloracin del voto del PP y, de forma pecu-
liar, la estrechez de las horquillas dadas por el diario ABC, que de hecho
cubran nicamente tres composiciones del parlamento posibles.
FIGURA 2
Grfico basado en componentes principales en el que se representan los sondeos
preelectorales publicados las semanas anteriores a las elecciones al Parlamento
espaol 2000 por diversos medios de comunicacin.
La lectura del grfico es la misma de la figura anterior.
PP PSOE
El Peridico
IU El Pas El Mundo
La Vanguardia
ABC
FIGURA 3
Ampliacin de la nube de puntos de la figura 2.
A la izquierda del origen comn de las flechas se puede
distinguir el parlamento real marcado con una cruz,
que se distingue mejor en la ampliacin de la parte
inferior de la figura.
PP PSOE
IU El Pas
127
PEDRO DELICADO Y FREDERIC UDINA
2
Si p = 0,55 y el tamao muestral es ni = 116, la probabilidad de asignar el escao incorrec-
tamente sera del 14%. Este tamao muestral fue el utilizado en Ceuta por el sondeo publicado
por El Pas, si bien la proporcin de votos del PP fue del 71%, con una probabilidad de asigna-
cin errnea prcticamente nula.
3
ste fue el porcentaje obtenido por el PP en las elecciones al Congreso00. El tamao
muestral fue el utilizado por el sondeo de El Pas.
128
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
FIGURA 4
0
0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00
4
ste fue el tamao muestral utilizado por el sondeo publicado en El Pas.
129
PEDRO DELICADO Y FREDERIC UDINA
FIGURA 5
PSOE PSOE
040
IU 37,5% PP IU 37,5% PP
130
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
131
PEDRO DELICADO Y FREDERIC UDINA
132
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
133
PEDRO DELICADO Y FREDERIC UDINA
134
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
TABLA 1
Tamao muestral Horq. Conf. (%) Horq. Conf. (%) Horq. Conf.(%) Resultado
135
PEDRO DELICADO Y FREDERIC UDINA
TABLA 2
5
Estos clculos se basan en la aproximacin de la distribucin binomial por la distribucin
normal (vase, por ejemplo, Pea, 1995, captulo 4.6). Adems, se ha aproximado por 2 el cuan-
136
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
pA pB
.
i j
til 0,95 de la normal estndar, cuyo valor es 1,96. Esta aproximacin permite escribir la relacin
entre n y L de forma ms simple.
137
PEDRO DELICADO Y FREDERIC UDINA
j2 pA + i2 pB
n=4 . (1)
( jpA ipB)2
Esto es vlido para cualquier diferencia entre cocientes ( pA/i) ( pB/j). Sin
embargo, slo algunas de esas diferencias requieren ser estimadas con alta pre-
cisin: aquellas diferencias de cuyo signo depende la asignacin total de esca-
os.
Supongamos, por ejemplo, que el nmero de escaos es N = 4, que hay
K = 2 partidos y que pB = ( pA/2) + , donde es un nmero positivo sufi-
cientemente pequeo: podemos pensar en pA = 0,66 y pB = 0,34. Los cocientes
ordenados sern entonces
pA pB pA pA
= 0,66, = + = 0,34, = 0,33,
1 1 2 2
pA pB pA pA
= 0,22, = + = 0,17, = 0,165,
3 2 4 2 4
138
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
pA pB
= 0,22 0,17 = 0,05.
3 2
22 0,66 + 32 0,34
n* = 4 253.
(2 0,66 3 0,34)2
pA pB
= 0,165 0,17 = 0,005.
4 2
22 0,66 + 42 0,34
n* = 4 20.200.
(2 0,66 4 0,34)2
Es decir, para garantizar que con una probabilidad del 95% se asignar bien el
quinto escao es necesario tomar una muestra de 20.200 personas. La muestra
necesaria para asignar correctamente el quinto escao tiene tamao unas 80
veces mayor que la que precisbamos para asignar bien el cuarto.
Obsrvese que la expresin del tamao muestral n depende de las probabi-
lidades desconocidas pA y pB. Para que esta frmula pueda usarse en la determi-
nacin de n antes de realizar el sondeo se precisa algn conocimiento sobre los
valores de pA y pB, que puede proceder de un sondeo piloto o de datos histri-
cos. Por ejemplo, n puede calcularse usando los valores de las proporciones de
votos obtenidas por cada partido en las elecciones anteriores. Esto dara una
regla para la afijacin muestral por provincias digna de ser estudiada.
Es posible dar una regla ms tosca para la eleccin del tamao muestral
que puede usarse sin estimaciones previas de las proporciones verdaderas. En el
apndice B.2 se muestra que el tamao muestral necesario es a lo sumo
4
n , donde L = |( j/i)pA pB|
L2
139
PEDRO DELICADO Y FREDERIC UDINA
Esta regla simple es muy similar a la que hemos dado para la estimacin de
diferencias. El valor ( j/i)pA puede interpretarse como una correccin de la pro-
porcin pA para hacerla comparable con pB. As, L sera la mxima diferencia
entre proporciones corregidas que estamos dispuestos a aceptar. Podra usarse
el valor n = 4/L2 con la seguridad de que, con una probabilidad del 95%, esta
diferencia L no sera superada. Como valores de L podran usarse, por ejemplo,
0,1 0,05 (vase la tabla con la que concluye el apndice B.2). El inconve-
niente que presenta el uso de esta frmula genrica es que los tamaos mues-
trales a que da lugar son considerablemente ms altos que los obtenidos a par-
tir de una estimacin previa de las proporciones desconocidas y la aplicacin
de la frmula (1).
6. CONCLUSIONES
REFERENCIAS
BERNARDO, Jos M. (1984): Monitoring the 1982 spanish socialist victory: A bayesian analy-
sis, JASA, 79, 510-515.
CUADRAS, Carles M. (1996): Mtodos de anlisis multivariante, EUB, Barcelona.
EFRON, Bradley, y TIBSHIRANI, Robert J. (1993): An Introduction to the Bootstrap, Chapman and
Hall, New York.
PEA, Daniel (1995): Estadstica: Modelos y Mtodos, vol. 1: Fundamentos, Alianza Universidad,
Madrid, 2. ed. revisada.
140
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
FIGURA 6
A B C D
Votos f1 f2 f3 f4
j=1 f1 f2 f3 f4
j=2 f1/2 f2/2 f3/2 f4/2
j=3 f1/3 f2/3 f3/3 f4/3
j=4 f1/4 f2/4 f3/4 f4/4
j=5 f1/5 f2/5 f3/5 f4/5
j=6 f1/6 f2/6 f3/6 f4/6
K
0 pi 1, (i = 1,,K ), pi = 1.
i=1
141
PEDRO DELICADO Y FREDERIC UDINA
La regla dHondt asigna un escao para cada uno de los N cocientes mayo-
res, despus de ordenar los cocientes qi,j, i = 1,,K, j = 1,,N de mayor a
menor. En caso de un improbable empate, asignara el escao al partido con pi
mayor.
Esta regla se puede caracterizar como una funcin H del simplex
0 Ki = 1 fi 1 K en K con
H( f1,...,fK) = (m1,...,mK)
fi fj
i,j {1,,K }, i j, mi = 0 o > . (2)
i j+1
H( f1,...,fK) = (m1,...,mK)
puesto que el ltimo escao asignado al partido i debe dejar por debajo al
menos tantos cocientes como KN N. Ntese que Q(i,j) es el nmero de
cocientes por debajo de qi,j.
De las K(K 1) desigualdades que aparecen como mximo en (2), algunas
pueden ser redundantes, pero en cualquier caso resulta que la funcin H es
discontinua, siendo constante en poliedros convexos de K (que son regiones
delimitadas por hiperplanos en el simplex). En la figura 7 se pueden ver los
poliedros (polgonos en este caso) con H constante para K = 3 partidos que se
disputan N = 6 escaos. Obsrvese que las celdas centrales son hexagonales, lo
que significa que las seis desigualdades de (2) estn activas, mientras que las
celdas adyacentes a los vrtices del tringulo son cuadrilteras.
142
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
FIGURA 7
Reparto de seis escaos segn las proporciones de voto para tres partidos.
Cada punto del interior del tringulo corresponde a un reparto de votos, cada celda
delimita aquellos repartos de votos que dan lugar a una idntica distribucin
de escaos. A la izquierda se usan coordenadas cartesianas con las proporciones
de dos de los partidos en los ejes. A la derecha, coordenadas triangulares
en que las distancias a los lados del tringulo son proporcionales a las proporciones
de voto de los partidos
Reparto de 6 escaos
1,000
0,750
0,500
0,250
0,000
143
PEDRO DELICADO Y FREDERIC UDINA
d(a, p) = ai pi.
i=1
144
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
Buscar el reparto de votos entre partidos que hace ms difcil estimar la dife-
rencia entre las dos coaliciones equivale a buscar las proporciones (p1,,pK)
que hacen mxima la varianza de d(a,^p). Segn las propiedades de la distribu-
cin multinomial (ver, por ejemplo, Pea, 1995), la varianza de este estimador
es
2
1
V(d(a, ^p)) =
n [ K
a pi ai pi
i1
2
i ( i=1
K
)] .
K K
ai2 pi = pi = 1,
i1 i=1
2
1
V(d(a, ^p)) =
n [ ( )]
1 ai pi
K
i=1
.
z/2
( ( ^p1 ^p2)
n ) ,
145
PEDRO DELICADO Y FREDERIC UDINA
z 2/2
n=
L2
que es cuatro veces el tamao necesario para estimar una proporcin con idn-
tica precisin. Si = 0,05, entonces n 4/L2.
^p ^p
A B
.
i j
pA pB ^p ^p
A B
y
i j i j
146
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
^p ^p pA pB
i
A
j
B
A N ( i
j
, 2( pA,pB,i,j) , )
donde el smbolo A significa que la variable aleatoria de la izquierda tiene dis-
tribucin aproximada a la que se escribe a la derecha, y la varianza de la dife-
rencia de cocientes estimados es
2( pA,pB,i,j)
^p ^p (piA piB) ij n
P ( i
A
j
B
>0 P Z> ) ( j2 pA(1 pA) + i2 pB(1 pB) +2ij pA pB ) ,
n(jpA ipB) = z ,
j pA(1 pA) + i2 pB(1 pB) +2ij pA pB
2
j2 pA +i2 pB
n = z2 [ ( jpA ipB)2 ]
1 . (5)
147
PEDRO DELICADO Y FREDERIC UDINA
j2 pA+i2 pB
n4 . (6)
( jpA ipB)2
( j2/i2)pA + pB z2
n z2
(( j/i)pA pB)2 (( j/i)pA pB)2
z2
n .
L2
148
CMO Y CUNTO FALLAN LOS SONDEOS ELECTORALES?
z2
n* = (7)
L2
2
L=
n*
FUENTE: Informacin publicada por la Generalitat de Catalunya en sus pginas web dedicadas al
seguimiento de las elecciones al Parlament de Catalunya 1999.
149
PEDRO DELICADO Y FREDERIC UDINA
FUENTE: Elaboracin propia a partir de los datos publicados por los medios de comunicacin
mencionados.
ABSTRACT
These pages present a simple methodology for evaluating the predictions of electoral opinion
polls. Both the graphic description and the numerical measurements proposed are based on
simulation methods. Special attention is paid to the problem of the estimation (warped) of the
distribution of parliamentary seats between the political parties using the dHondt law, and
the estimation of differences. The origin of the warp in estimation is studied and methods for
reducing it are suggested. In both cases, an analysis is made of the problem of the prior selection
of the size of the sample for guaranteeing a given margin of error. The results and predictions for
the Catalan elections of October 1999 and the March 2000 general elections illustrate the work
presented here.
150
NOTAS DE INVESTIGACIN