Anda di halaman 1dari 17

ESTT - OEP 2013

Grupo de Materias Comunes de Movilidad Segura


Elaborado en 2011

TEMA 37
LA ESTADÍSTICA Y EL ESTUDIO DE LOS ACCIDENTES DE TRÁFICO:
TÉCNICAS DE MODELIZACIÓN DE LA FRECUENCIA DE ACCIDENTES.
PREDICCIÓN DE LA FRECUENCIA DE ACCIDENTES EN TRAMOS DE
CARRETERA. ANÁLISIS MULTIVARIANTE DE SERIES TEMPORALES.
TÉCNICAS DE MUESTREO Y SU APLICACIÓN EN LA SEGURIDAD VIAL.

1. LA ESTADÍSTICA Y EL ESTUDIO DE LOS ACCIDENTES DE TRÁFICO:


TÉCNICAS DE MODELIZACIÓN DE LA FRECUENCIA DE ACCIDENTES

1.1. Introducción. 1.2. Definiciones


1.3 Técnicas de modelización de la frecuencia de accidentes.

2. PREDICCIÓN DE LA FRECUENCIA DE ACCIDENTES EN TRAMOS DE


CARRETERA.
2.1. Modelos de variables discretas o de recuento: Modelo de Poisson y
Binomial negativa

3. ANÁLISIS DE SERIES TEMPORALES.


3.1. Modelos ARIMA. Análisis univariante de series temporales
3.2. Modelos ARIMA de intervención
3.3. Modelos de función de transferencia. Análisis multivariante de series temporales

4. TÉCNICAS DE MUESTREO Y SU APLICACIÓN EN LA SEGURIDAD VIAL.


4.1. Técnicas de muestreo
4.2. Muestreo probabilístico
4.2.1. Muestreo aleatorio con y sin reemplazamiento
4.2.2. Muestreo estratificado
4.2.3. Muestreo por conglomerados
4.2.4. Muestreo sistemático
4.3. Aplicaciones de técnicas de muestreo en la seguridad vial
4.3.1. Construcción del indicador de velocidad de flujo libre
4.3.2. Barómetro de opinión sobre seguridad vial
4.3.3. Otras aplicaciones

A u t or : Blanca Arenas Ramírez Tema 37. Página 1 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

1. LA ESTADÍSTICA Y EL ESTUDIO DE LOS ACCIDENTES DE TRÁFICO:


TÉCNICAS DE MODELIZACIÓN DE LA FRECUENCIA DE ACCIDENTES

1.1. Introducción.

La mejora de la seguridad vial requiere el conocimiento de las causas de los


accidentes y una evaluación de los efectos de los factores intervinientes en los
accidentes de tráfico. Para ello se llevan a cabo estudios que son posibles a partir de
la disponibilidad de toda la información de los accidentes que se producen en
España. El tratamiento estadístico de los datos es una primera aproximación al
estudio de accidentes pero tienen carácter descriptivo. Un segundo paso, es el
estudio científico de accidentes mediante la investigación en profundidad y la
utilización de la estadística y los modelos adecuados, a partir de los cuales se puede
avanzar en la comprensión de los factores causales de los mismos.

1.2. Definiciones
Los modelos estadísticos pueden clasificarse en función de la información
que utilizan y del objetivo que pretenden. Cuando la información que utilizan
corresponde a una única variable se denominan modelos univariantes.
Cuando incluyen más variables como explicativas del fenómeno que se
pretende analizar se denomina modelos explicativos.
Si el objetivo es determinar cómo se comportan las variables en un instante
temporal dado, se denomina modelos estáticos o de corte transversal: por ejemplo la
relación entre el número de accidentes y vehículos que pasaron por una sección
transversal de una carretera en el año 2010. Pero si se quiere estudiar la relación a
lo largo del tiempo se denominan dinámicos o longitudinales.
Los modelos estadísticos pueden ser utilizados tanto para explicar el efecto de
los factores intervinientes, como para predecir el comportamiento de los accidentes
bajo el supuesto del cumplimiento de ciertos escenarios relativos a la evolución de
las variables independientes que intervienen en el modelo.
En los estudios de seguridad vial, la variable de interés es la frecuencia de
accidentes, es decir el número que de ellos se producen en un espacio y tiempo
determinados. Al ser un fenómeno completamente aleatorio, la variable que lo
representa como es el número de accidentes es aleatoria (V.A.) y la estadística
provee los métodos adecuados. El problema consiste entonces en conocer el
modelo de probabilidad que describe el comportamiento de una V.A., lo cual significa
conocer la proporción de individuos de la variable que toma un conjunto de valores
determinado. La proporción de individuos de una variable que toma un valor
determinado, coincide con la probabilidad de que un individuo elegido al azar tome
dicho valor.
Las variables explicativas pueden ser:

A u t or : Blanca Arenas Ramírez Tema 37. Página 2 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

Cualitativas, categóricas o atributos que se caracterizan porque no toman


valores numéricos sino que describen atributos.
Cuantitativas discretas: toman únicamente valores enteros: corresponden a
contar el número veces que ocurre un suceso: por ejemplo accidentes en un mes.
Cuantitativas continuas: toman valores dentro de un intervalo: por ejemplo
tiempo entre pase de vehículos sucesivos en una sección de aforo.
Si el orden en el que se toman los datos es relevante y siguen una secuencia
temporal: mes, año, trimestre) constituyen una serie temporal y su análisis requiere
métodos especiales que tengan en cuenta que el orden de los datos es informativo.

1.3 Técnicas de modelización de la frecuencia de accidentes.


Para la modelización de la frecuencia de accidentes y dependiendo del nivel
de agregación de los datos, existen dos grandes grupos de modelos:
• Modelos a nivel “micro” si la magnitud es el número de
accidentes que se produce en un tramo concreto de vía y
• Modelos “macro” si la magnitud que se desea estudiar predecir
es el número total de víctimas en la red de carreteras española.
En el nivel “micro”, los datos disponibles de las variables dependientes e
independientes corresponden a entornos y período determinados. Los modelos de
aplicación reciben el nombre de modelos microscópicos.
En la literatura se han identificado aplicaciones de básicamente dos tipos de
modelos:
• Modelos generales de regresión.
• Modelos lineales generales.
En el nivel “macro”, el nivel de agregación de los datos con los que se trabaja
es grande: a nivel nacional o regional y los datos relativos, por ejemplo, al número
de accidentes, son observaciones en el tiempo, es decir que corresponden a
diferentes instantes y el conjunto constituye una serie temporal. Los modelos de
aplicación reciben el nombre de modelos macroscópicos.
En la literatura se pueden encontrar ejemplos de aplicaciones de los
siguientes tipos de modelos de series temporales:
▪ Modelo de Box-Jenkins (modelos ARIMA y de intervención).
▪ Modelos estructurales.
▪ Modelos DRAG.

En todo modelo estadístico, la variable escogida y se descompone en dos


partes: una parte sistemática (predecible) y la parte aleatoria (no predecible).
- La parte sistemática es la que se puede expresar como una función o
combinación de las variables explicativas en un modelo explicativo.
- La parte aleatoria es la que normalmente se resume mediante un término de
error que recoge el efecto de variables omitidas o introducidas con errores de
medición.

A u t or : Blanca Arenas Ramírez Tema 37. Página 3 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

Los dos pasos clave en el desarrollo de cualquier tipo de modelo son:

- Elección del modelo estadístico. En este paso están involucrados los


siguientes aspectos:
• Formulación matemática de la ecuación que relaciona la variable
dependiente con las variables independientes.
• Métodos de ajuste de los parámetros del modelo.
• Métodos de diagnosis.

- Elección de las variables independientes. La elección se basa en general


en el juicio del investigador. Un aspecto importante es que, debido al nivel de
agregación de las series, muchas de las variables que a priori podrían influir
en las variables dependientes no están disponibles o dependiendo de los
modelos hay aspectos que no pueden ser tenidos en cuenta explícitamente.
Por ejemplo los cambios en el diseño de los vehículos o de las vías no pueden
ser introducidos en modelos macroscópicos.

2. PREDICCIÓN DE LA FRECUENCIA DE ACCIDENTES EN TRAMOS DE


CARRETERA.

Según la clasificación establecida la metodología estadística varía con el tipo de


modelo. Para simplificar y en función de cómo son los datos disponibles vamos a
describir los tipos de modelos estadísticos más utilizados para explicar el
comportamiento y la evolución de la frecuencia de accidente dentro de cada grupo:
en los modelos microscópicos el modelo de Poisson y binomial negativa y en los
modelos macroscópicos los modelos de series temporales (univariante y
multivariante).

2.1. Modelos de variables discretas o de recuento: Modelo de Poisson y


Binomial negativa.

Dentro de estos modelos, los basados en las distribuciones de Poisson y


binomial negativa son los más utilizados en la predicción de accidentes de tráfico,
aunque generalmente en un ámbito local (por ejemplo, influencia de las
características geométricas de la vía en la ocurrencia de accidentes, lo que
constituye como se ha dicho, un análisis a nivel “micro”).

En el modelo de Poisson, se supone que el número de accidentes que tiene lugar


en el área r durante el período t, denotado y(r,t), sigue una distribución de Poisson
de media (r,t) (recordemos que la media de una variable aleatoria con distribución
de Poisson coincide con su varianza). De esta forma, la probabilidad de ocurrencia
de m accidentes viene dada por la fórmula:

λ
( λ(r , t ))m • e
P ( y (r , t ) = m ) =
m!

Las principales características de la distribución de Poisson son:

A u t or : Blanca Arenas Ramírez Tema 37. Página 4 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

▪ El número medio de sucesos ocurridos por unidad de observación es


constante. En este caso, esto equivale a suponer que la probabilidad de
ocurrencia de un accidente es constante en cada período de observación,
en este caso cada mes. Los autores advierten que a primera vista esta
hipótesis puede parecer demasiado restrictiva. Sin embargo, puede ser
válida si se divide un mes en intervalos temporales (minutos o segundos) lo
suficientemente pequeños como para aceptar que en cada uno de esos
intervalos la probabilidad de accidente es constante; si los accidentes
ocurridos en cada intervalo son independientes, entonces el número de
accidentes ocurridos en el mes entero sigue una distribución de Poisson
con parámetro  igual a la suma de los parámetros correspondientes a
cada uno de los intervalos de observación.
▪ Los sucesos son independientes. En nuestro caso, la ocurrencia de un
accidente no depende de los accidentes que hayan tenido lugar
anteriormente.

El siguiente paso es suponer una relación entre la media de la distribución de


Poisson, (r,t), y un conjunto de variables independientes xi(r,t).

Se acepta una relación entre el valor esperado de la variable respuesta y las


explicativas del tipo exponencial:

λ(r , t ) = exp(∑α i • x i (r , t ))

Donde los i son parámetros a ajustar. La función exponencial constituye una


elección natural, ya que asegura que el número medio de accidentes es siempre
positivo.

Si todos los factores explicativos han sido identificados, el término y(r,t)-(r,t) será
una perturbación aleatoria, y la variable y(r,t) seguirá un distribución de Poisson. En
la práctica, si se observa que la varianza de y(r,t) es mayor que su media, parte de la
variación sistemática de la serie está siendo absorbida por la perturbación.

Debido a que en la práctica es imposible identificar todos los factores de


influencia, es necesario cambiar la especificación del modelo, de forma que:

λ(r , t ) = exp((∑α i • x i (r , t )) + u(r , t ))

Donde el término u(r,t) constituye una perturbación aleatoria. Se puede demostrar


que si exp[u(r,t)] o, equivalentemente, y(r,t), sigue una distribución gamma, entonces
el número de accidentes sigue una distribución binomial negativa, de media y
varianza:

μ(r , t ) = exp(∑α i • x i (r , t ))
μ( r , t )
σ 2 (r , t ) = μ(r , t ) • (1 +
)
ξ
Donde  es el factor de forma de la distribución gamma.

A u t or : Blanca Arenas Ramírez Tema 37. Página 5 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

Es importante mencionar que los modelos basados en las distribuciones de


Poisson y binomial negativa no tienen en cuenta la dependencia temporal de las
observaciones.

Algunos ejemplos de aplicación de estos modelos se pueden encontrar en las


siguientes referencias. Fridstrom y otros (1.991), Arenas et al (2009), Hiselius
(2004).

3. ANÁLISIS DE SERIES TEMPORALES.

La aplicación de los modelos ARIMA y de función de transferencia a la predicción


de series temporales fue desarrollada por Box y Jenkins (1.970).

Las series suelen representarse mediante un gráfico que muestra su evolución


con el tiempo. Cuando se representa una serie se suele prestar atención a la
tendencia y la heterocedasticidad.

La tendencia implica que la serie tiende a crecer o a decrecer a largo plazo.


Cuando una serie permanece más o menos constante, oscilando en torno a un valor,
decimos que la serie no tiene tendencia.

La otra característica de las series es su variabilidad. Decimos que una serie es


homocedástica, si su variabilidad se mantiene constante a lo largo de la serie.
Cuando la variabilidad de la serie aumenta o disminuye a lo largo del tiempo,
decimos que la serie es heterocedasticidad. Gráficamente se representa por el
engrosamiento de la nube de puntos que representa las observaciones de la serie
temporal, con el tiempo. Indudablemente una serie puede tener tendencia y ser
heterocedástica

Las series pueden presentar efectos cíclicos característicos. Por ejemplo, la serie
de temperaturas máximas medias por meses de Madrid, presenta un ciclo
estacional, es decir tiene una estructura que se repite año tras año, como es el caso
en los datos mensuales de accidentes de tráfico en España. El fenómeno del ciclo
estacional es muy corriente en la mayoría de series socioeconómicas y biológica.

3.1. Modelos ARIMA. Análisis univariante de series temporales

Supongamos en primer lugar que deseamos realizar predicciones de los valores


futuros de una serie temporal utilizando como única información la propia historia de
la serie, es decir la información que se va a utilizar corresponde a una única
variable: por ejemplo el número mensual de accidentes en las carreteras españolas.
El modelo adecuado es el modelo de series temporales denominado comúnmente
modelo ARIMA (acrónimo del inglés autoregressive integrated moving average), que
representa un modelo autorregresivo integrado de media móvil que utiliza
variaciones y regresiones de datos estadísticos con el fin de encontrar patrones para
una predicción hacia el futuro. Un modelo ARIMA es un modelo dinámico de series

A u t or : Blanca Arenas Ramírez Tema 37. Página 6 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

de tiempo, es decir las estimaciones futuras vienen explicadas por los datos del
pasado y no por variables independientes.

Un modelo ARIMA (p,d,q) indica con el parámetro p el orden de la parte


autoregresiva, con el q el orden de la parte de media móvil y con d el número de
diferencias realizadas para la obtención de un proceso o serie estacionario.

Se define una serie como estacionaria cuando cumple las siguientes características:
• No tiene tendencia.
• Es homocedástica.
• No tiene ciclos estacionales
• La estructura de dependencia se mantiene constante, es decir si una
observación influye sobre la posterior, esto ocurre siempre y no únicamente
entre las observaciones i y j. Esta condición es importante para modelizar la
serie, pues si el fenómeno que genera la serie cambia, es imposible que
podamos prever la evolución de la serie.
• La influencia de las observaciones sobre las posteriores decrece con el
tiempo.

Un tipo especial de serie estacionaria es la serie denominada ruido blanco. Un


ruido blanco es una serie estacionaria tal que ninguna observación influye sobre las
siguientes.

La expresión general de un modelo ARIMA (p,d,q) es:

 p ( B) z t   q ( B) a t
Bzt  z t 1

En el caso general en que se necesiten d diferencias para hacer a la serie zt


estacionaria en media, se tiene:

φ p (B)∇d zt = θq (B)at

Con B se indica el operador de retardos y con el símbolo  el operador


diferencias cuyo exponente indica el número de diferencias realizadas.

La expansión de la expresión del modelo ARIMA se muestra en la siguiente


ecuación:

(1  1 B  2 B 2 ...  p B p )(1  B) d zt  (1  1 B   2 B 2  ...   q B q )at

Las técnicas de los modelos ARIMA se aplican únicamente a series estacionarias.


Si la serie no es estacionaria, es necesario transformarla hasta conseguir que lo sea,
lo cual puede consistir en diferenciar la misma para eliminar la tendencia y una
transformaciones (logarítmica o de Box-Cox) para estabilizar la varianza.

A u t or : Blanca Arenas Ramírez Tema 37. Página 7 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

La transformación Box-Cox está definida para cualquier variable positiva de la


siguiente forma:

Yt y  1
( )  y  0
Y t y   y
ln(Y ) y  0
 t

El proceso en la estimación de los modelos ARIMA se puede sintetizar en los


siguientes pasos:

• Representación gráfica de los datos. Inspección visual de la hipótesis de


estacionaridad (media y varianza constantes).
• Determinación, en su caso, del parámetro de la familia de transformaciones
Box-Cox necesario para hacer al proceso estacionario en la varianza.
• Determinación del número de diferencias necesario para hacer al proceso
estacionario en la media (eliminación de tendencia y estacionalidad).
• Representación gráfica de las funciones de autocorrelación simple (FAS) y
parcial (FAP).
• Determinación de los órdenes p y q de los posibles modelos ARIMA que
puedan representar adecuadamente los datos.
• Estimación de los parámetros de los modelos.
• Diagnosis de los modelos.

En particular:
• Independencia de los residuos, mediante la representación gráfica de la FAS
y la FAP y el estadístico de Ljung-Box.
• Contrastes de normalidad de los residuos.
• Secuencia temporal de los residuos.
• Conviene siempre realizar un sobreajuste del modelo, aumentando
sucesivamente en una unidad el orden de la parte autorregresiva y de la parte
de media móvil.

A partir de la diagnosis de los modelos, decidir:


• Si alguno de los modelos seleccionados es adecuado.
• Si conviene reformular el modelo, en particular si se ha detectado una
estructura temporal en los residuos.

Un ejemplo de aplicación de estos métodos al desarrollo de modelos


macroscópicos de predicción de accidentes de tráfico puede encontrarse en
Wagenaar (1.983).

A u t or : Blanca Arenas Ramírez Tema 37. Página 8 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

3. 2. Modelos de series temporales ARIMA de intervención

En España, una aplicación de modelos de series temporales denominado modelo


ARIMA de intervención puede encontrarse en Aparicio et al. (2011). En la referencia
se ha desarrollado un modelo en el que la variable respuesta es el número mensual
de víctimas mortales a 24 horas en carretera, desde enero de 1995 hasta marzo de
2011 (195 observaciones), y una de las variables explicativas es el Permiso por
puntos modelado desde su entrada en vigor el 1 de julio de 2006. Adicionalmente y
en virtud del período de análisis, se han introducido otras variables dicotómicas de
control para modelar otros efectos, como la entrada en vigor de la Reforma del
Código Penal (con entrada en vigor el 1 diciembre de 2007), la intensificación de
medidas de seguridad vial desde enero de 2004 así como fenómenos más recientes
asociados al cambio de la movilidad desde julio de 2008 además de otros efectos
más puntuales necesarios para un mejor ajuste.

Los modelos de intervención generalizan la metodología de Box-Jenkins


permitiendo a la trayectoria de la variable respuesta ser influenciada por la
trayectoria de la variable de intervención. El análisis de intervención es un
metodología de modelado de efectos de sucesos conocidos y que actúan sobre el
proceso o bien durante un solo instante o bien a partir de dicho instante en forma de
escalón o de rampa, etc. Formalmente se modela a través de variables ficticias o
dummies que valen 1 a partir del momento de entrada en vigor y 0 para cualquier
otro período.

La expresión del modelo de intervención aplicado es un modelo estacional del


logaritmo del número de accidente (LOG ARIMA (0,1,1) (0,1,1)), es:

Z(t)= Z(t-1)+ Z(t-12)-Z(t-13)-Φ a(t-1)- θ a(t-12)+Φ θ a(t-13)+α X1+β X2+γ X4+μ X5+κ
X6+ ΩX7

Expresión en la que las variables representan:


a)
b) X1=1 a partir de enero de 2004 (=0 el resto de meses de la serie temporal)
c) X2=1 a partir de julio de 2006 (=0 el resto de meses de la serie temporal)
d) X4=1 en julio y agosto de 2006 – 2007, (=0 el resto de meses de la serie
temporal)
e) X5=1 a partir de noviembre de 2007 (=0 el resto de meses de la serie
temporal)
f) X6=1 en setiembre de 2008 (=0 el resto de meses de la serie temporal)
g) X7=1 desde el mes de julio de 2008 (=0 el resto de meses de la serie
temporal)
Y el resto de términos corresponden a la nomenclatura típica de series
temporales antes expuesta.

En un análisis de intervención la implementación de, por ejemplo, el sistema de


permiso por puntos o cinturón de seguridad se trata como una variable exógena, es
decir una variable que no está causada por la respuesta, la causalidad es
unidireccional de la medida al número de fallecidos pero no al revés.

A u t or : Blanca Arenas Ramírez Tema 37. Página 9 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

3.3. Modelos de función de transferencia. Análisis multivariante de series


temporales

Estos modelos pueden considerarse una extensión de los modelos ARIMA


cuando se desea estudiar el efecto de una o varias variables independientes o
regresores sobre la variable dependiente.

Los modelos de regresión dinámica o de función de transferencia descomponen la


historia de una serie en dos componentes. La primera describe como una o varias
variables independientes afectan a la variable respuesta. La segunda recoge el
efecto de todas las variables excluidas del modelo. De esta forma:

Yt = Yt * +N t

Donde Yt* es la parte explicada por las variables independientes, y Nt la parte no


explicada o proceso de inercia.

Yt * = ν 0 • X t + ν 1 • X t 1 + ν 2 • X t 2 ... = (ν 0 + ν 1 • B + ν 2 • B 2 + ...) X t = ν (B ) X t

Donde (B) es la función de transferencia.

Igual que ocurría en el análisis univariante de series, el polinomio de infinitos


coeficientes (B) es sustituido por una función racional, de forma que:

ω0 + ω1 • B + ω2 • B 2 + ... + ωm • B m ω m (B) b
ν (B) = Bb = B
1 δ1 • B δ2 • B 2 ... δ a • B a δ a (B)

Donde Bb se introduce para tener en cuenta que la respuesta puede presentar un


cierto período de decalaje (los b primeros coeficientes de la función de transferencia
son nulos).

La estimación de los parámetros del modelo exige la identificación de los órdenes


m, a y b de la función de transferencia. Existen varios métodos para realizar esta
identificación, siendo el más usual el método de preblanqueado de las series de
Box-Jenkins.

Existen diversos programas informáticos que permiten estimar modelos ARIMA y


de función de transferencia. SPSS permite estimar modelos ARIMA previa
introducción por parte del usuario de los órdenes (p,d,q); sin embargo, no permite la
estimación directa de modelos de función de transferencia.

Los programas SAS y AUTOBOX estima automáticamente modelos ARIMA y de


función de transferencia, con lo cual no es necesaria la identificación previa del
modelo.

Los modelos ARIMA y de función de transferencia están basados en el


tratamiento de series estacionarias. Ello exige diferenciar adecuadamente las series
con objeto de eliminar las componentes de tendencia y estacionalidad. Aquí radica

A u t or : Blanca Arenas Ramírez Tema 37. Página 10 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

precisamente la principal diferencia entre estos modelos y los modelos estructurales.


En estos últimos, la tendencia y la estacionalidad de la serie estudiada aparecen de
forma explícita en la formulación del modelo. La referencia básica de estos modelos
es Harvey (1.989).

Un ejemplo de aplicación de estos métodos al desarrollo de modelos


macroscópicos de predicción de accidentes de tráfico puede encontrarse en Harvey
y Durbin (1986), García-Ferrer et al (2006) y García-Ferrer et al (2007), Bijleveld et al
(2008); Bijleveld et al (2010)

4. TÉCNICAS DE MUESTREO Y SU APLICACIÓN EN LA SEGURIDAD VIAL.


Cuando se plantea el objetivo de describir una variable o las relaciones entre un
conjunto de variables, se utilizan técnicas de muestreo que consisten en observar
una muestra representativa de la población o poblaciones de interés.

La población es el conjunto homogéneo de elementos en los se estudia una


característica dada. Como no es posible estudiar todos los elementos (porque es
inviable económicamente, porque el estudio llevaría mucho tiempo, o porque si hay
que hacer ensayos puede implicar la destrucción del elemento) se recurre a un
muestreo estadístico. Ya que no es posible hacer un censo, se realizara un
muestreo seleccionando elementos representativos de la población, por lo que la
clave de un muestro es garantizar la representatividad de la población. En la
selección debe utilizarse toda la información disponible que ilustre o ponga en
evidencia las diferencias entre los elementos. Cuando se tiene en cuenta
información diferenciadora entre los elementos de la población, se dice que el
muestreo es estratificada. En el caso contrario, si esa información no está disponible
o es imposible establecer diferencias, lo cual puede indicar la homogeneidad de los
elementos de la población, se utilizará la técnica de muestreo aleatorio simple.

4.1. Técnicas de muestreo

Ya hemos hecho referencia a la importancia de la correcta elección de la muestra


para que sea representativa para nuestra población pero ¿cómo clasificamos las
diferentes formas de elegir una muestra?. Aunque el tipo de muestreo al que vamos
a referirnos es el muestreo probabilístico, ya que en caso de elegir la técnica
adecuada, es el que nos asegura la representatividad de la muestra y nos permite el
cálculo de la estimación de los errores que se cometen, hay otros tipos de muestreo
además del probabilístico. Las diferencias son:

Muestreo probabilístico: es aquel en el que cada muestra tiene la misma


probabilidad de ser elegida.

Muestreo intencional u opinático: en el que la persona que selecciona la muestra


es quien procura que sea representativa, dependiendo de su intención u opinión,
siendo por tanto la representatividad subjetiva.

A u t or : Blanca Arenas Ramírez Tema 37. Página 11 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

Muestreo sin norma: se toma la muestra sin norma alguna, de cualquier manera,
siendo la muestra representativa si la población es homogénea y no se producen
sesgos de selección.

4.2. Muestreo probabilístico.

Dentro del muestreo probabilístico podemos distinguir entre los siguientes tipos:
• Muestreo aleatorio simple con y sin reemplazo.
• Muestreo estratificado.
• Muestreo por conglomerados.
• Muestreo sistemático.
• Otros tipos de muestreo.

4.2.1. Muestreo aleatorio simple con y sin reemplazamiento

El muestreo aleatorio simple se utiliza cuando los elementos de la población son


homogéneos respecto a la característica a estudiar, es decir cuando a priori no
conocemos que elementos de la población tendrán valores altos de ella.

La muestra es aleatoria simple cuando:

• Cada elemento de la población tiene la misma probabilidad de ser elegido.


• Las observaciones se realizan con reemplazamiento, de manera que la
población es idéntica en todas las extracciones.
La primera condición asegura la representatividad de la muestra: si el 20% de los
elementos tiene la característica A y garantizamos con la forma de seleccionar los
elementos que todos tienen la misma probabilidad de aparecer, por término medio
obtendremos un 20% de los datos muestrales con la característica A.

La segunda condición se impone por simplicidad: si el tamaño de la población (N)


es grande con relación al tamaño de la muestra (n), es prácticamente indiferentes
realizar el muestreo con o sin reemplazamiento, pero el análisis resulta más simple
cuando suponemos reemplazamiento.
En una muestra aleatoria simple cada observación tiene la distribución de
probabilidad de la población. Sea f(x) la distribución de la variable observada x y
sea la muestra formada por la variable n - dimensional:
X '  ( x1 ,...... x n ) donde x1 representa el valor de x en el elemento i - ésimo. Si
todos los elementos tiene la misma distribución de probabilidad de la población,
entonces:
f1  f 2  ..... f n  f

A u t or : Blanca Arenas Ramírez Tema 37. Página 12 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

Como además las observaciones son independientes, y f C es la distribución


conjunta de la muestra, se cumple la condición matemática de una muestra aleatoria
simple: f C ( x1 , x 2 ...., x n )  f1 ( x1 )..... f n ( x n )  f ( x1 ).... f ( x n ) .

4.2.2. Muestreo estratificado

Cuando se dispone de información sobre la población, conviene tenerla en cuenta


cuando se selecciona la muestra. Un ejemplo clásico son las encuestas de opinión,
donde las personas son heterogéneas en razón de su sexo, edad, profesión, etc.
Interesa en estos casos que la muestra tenga una composición análoga a la
población, lo cual se consigue con un muestreo estratificado.

Se denomina muestreo estratificado aquel en que los elementos de la población


se dividen en clases o estratos. La muestra se toma asignando una cuota de
miembros a cada estrato y escogiendo los elementos por muestreo aleatorio simple
dentro del estrato.

Si hay k estratos de tamaños N 1 ,...... N k y tales que N  N 1  .....  N k tomaremos


una muestra que garantice la presencia adecuada de cada estrato. Existen dos
criterios básicos para dividir el tamaño total de la muestra (n) entre los estratos (ni):

• Proporcionalmente al tamaño relativo del estrato en la población, es decir:


N 
ni  n   i 
N

• Proporcionalmente a la variabilidad del estrato. Si conocemos la varianza


de la característica a estudiar en cada estrato, tomaremos el tamaño
muestran en cada uno proporcional a su variabilidad, de manera que los
estratos más variables estarán más representados. En concreto si
llamamos  i a la desviación típica del estrato i , se tomará:
 
 
  i Ni 
ni  n   k  expresión que es igual a la anterior si la variabilidad es
   j N j 
 j 1 
aproximadamente constante.

4.2.3. Muestreo por conglomerados

Existen casos en los que no se dispone de una lista con el número de elementos
de la población ni de los posibles estratos. En este caso los elementos de la
población se encuentran de forma natural agrupados por conglomerados, cuyo
número sí se conoce. Por ejemplo: la población se distribuye por provincias, los
habitantes de una ciudad en barrios, etc. Si podemos suponer que cada uno de
estos conglomerados es una muestra representativa de la población total respecto a

A u t or : Blanca Arenas Ramírez Tema 37. Página 13 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

la variable que se estudia, podemos seleccionar alguno de estos conglomerados al


azar y analizar dentro de ellos, analizar todos sus elementos o una muestra
aleatoria simple. Este método se conoce como muestreo por conglomerados y tiene
la ventaja de simplificar la recogida de la información muestral. El inconveniente
reside en que si los conglomerados con heterogéneos entre sí, si sólo se analiza
alguno de ellos la muestra final no es representativa de la población.

La estratificación y el conglomerado son ideas opuestas: la estratificación


funciona tanto mejor cuanto mayores sean las diferencias entre los estratos y más
homogéneos sean éstos internamente, mientras los conglomerados funcionan si hay
muy pocas diferencias entre ellos y son muy heterogéneos internamente ya que
incluyen la variabilidad de la población dentro de cada uno.

4.2.4. Muestreo sistemático

El muestreo sistemático se aplica cuando los elementos de la población están


ordenados en listas. Supongamos que la población tiene tamaño N y se desea una
N
muestra de tamaño n , con k el entero más próximo a . La muestra sistemática
n
se toma eligiendo al azar (con número aleatorios) un elemento entre los primeros k .

Sea n1 el orden del elegido, tomaremos a continuación los elementos n1  k ,


n1  2k , etc., a intervalos fijos de k hasta completar la muestra. Si el orden de los
elementos en la lista es al azar, este procedimiento es equivalente al muestro
aleatorio simple, aunque resulta más fácil de realizar sin errores. Pero si el orden es
tal que los elementos de la lista están ordenados de modo que los más próximos
tienden a ser más semejantes que los alejados el muestreo sistemático tiene a ser
más preciso que el aleatorio simple, ya que cubre de forma homogénea toda la
población.

4.3. Aplicaciones de técnicas de muestreo en la seguridad vial.

Cualquiera de las técnicas descritas puede ser aplicada en el ámbito de la


seguridad vial. En esta sección se presentan algunos ejemplos de los estudios más
recientes realizados por y para la DGT y que están basados en selecciones de
muestras en virtud de las limitaciones que impone un estudio que se extienda a la
población.

4.3.1. Construcción del indicador de velocidad de flujo libre.

En los últimos 3 años la DGT ha puesto en marcha un proyecto de obtención de


medidas de velocidad de flujo libre (VFL) en la red española de carreteras, para la
construcción de los indicadores de seguridad que solicita el Observatorio Europeo
de Seguridad vial (ERSO) a los países miembros de la UE.

A u t or : Blanca Arenas Ramírez Tema 37. Página 14 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

El ERSO es el resultado del proyecto europeo SafetyNet desarrollado entre los


años 2005 a 2008 y en el que se sentaron las bases de creación de este organismo,
además de las condiciones en las que los distintos indicadores de funcionamiento de
la seguridad (Safety Performance Indicators: SPI) propuestos deben obtenerse para
asegurar la homogeneidad de la información que se pretende comparar entre
países.

Entre los cometidos del ERSO está la vigilancia y seguimiento de los indicadores
de los países europeos y entre los cuales se encuentra el SPI de velocidad de flujo
libre.

En España, el SPI-VFL se construye a partir de las observaciones tomadas en


100 puntos escogidos con un muestreo estratificado. Como se ha dicho antes, el
objetivo de la estratificación puede ser la reducción de la varianza de las
estimaciones y/o la estimación de la distribución de la velocidad de flujo libre en
cada estrato. Es importante tener esto en cuenta a la hora de hacer inferencia, ya
que no se deben mezclar poblaciones si no tiene sentido desde el punto de vista de
la seguridad vial.

Por razones de reducción de varianza y estudio por separado de la distribución en


cada estrato, se consideró la población formada por los conductores españoles que
circulan por distintos tipos de carretera. Los tipos de vías considerados, tanto bajo la
titularidad del Estado como de las Comunidades Autónomas son:

Autopista (AP).
Autovía (AV).
Vía convencional o carreteras nacionales límite 100 y
Vías convencionales de límite 90 km/h

Por lo que la muestra se ha obtenido con un criterio doble de estratificación: por


tipo de vía con los datos de tráfico y por regiones con datos de población.

Los SPI-VFL se han determinado para 3 tipos de vehículos: ligeros, pesados y


motos en diferentes franjas horarias, fuera de períodos punta o de alteraciones de
tráfico por eventos especiales. Los tipos de vehículos se han establecido por un
criterio de longitud.

4.3.2. Barómetro de opinión sobre seguridad vial.

En el Barómetro, se pretende recoger mediante encuestas la percepción y opinión


de los españoles en relación a diferentes aspectos de la seguridad vial, como:

• Los hábitos y conductas de conducción


• El grado de peligrosidad que se percibe en las conductas de conducción
• El grado de sensibilización en relación a los accidentes de tráfico
• La valoración de las medidas para la mejora de la seguridad vial
• La percepción de las campañas de comunicación y medios de información

A u t or : Blanca Arenas Ramírez Tema 37. Página 15 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

• La valoración de la administración en relación a las políticas de seguridad


vial

Para ello se han realizado entrevistas telefónicas asistidas por ordenador a través
del sistema CATI (ComputerAssistedTelephoneInterview), a la muestra estratificada
con las siguientes características:

• Ámbito geográfico:España
• Universo: ciudadanos de 16 o más años empadronados en España
• Número de entrevistas: 4.400
• Margen de error: ±1,65%, para un nivel de confianza del 95% y p=q=0,5
• Diseño de la muestra: Muestra estratificada por comunidad autónoma
mediante afijación no proporcional.
• Dentro de cada comunidad autónoma, la muestra se ha distribuido
proporcionalmente por dimensión de municipio y provincia.
• En cada comunidad, la selección de los individuos se ha realizado por
cuotas cruzadas de sexo y edad de acuerdo a la distribución real de la
población.
• Finalmente, los resultados se han ponderado de acuerdo al peso real de
cada comunidad autónoma

4.3.3. Otras aplicaciones

En el ámbito de seguridad vial, las técnicas de muestreo se han utilizado en otras


campañas que lleva a cabo la DGT cada año: por ejemplo la de medición de uso de
cinturón y casco…...

A u t or : Blanca Arenas Ramírez Tema 37. Página 16 de 17


ESTT - OEP 2013
Grupo de Materias Comunes de Movilidad Segura
Elaborado en 2011

ANEXO I: BIBLIOGRAFÍA.

• Harvey (1.989), “Forecasting, Structural Time Series Models and the Kalman
Filter. Cambridge University Press.
• Box y Jenkins. “Time Series Analysis, Forecasting and Control” (1.970).
• Wagenaar (1.983),
• Aparicio et al. (2011), Aparicio, F, Arenas, B., Mira., J., y Paez, J. (2010). The
• endurance of the effects of the Penalty Points System in Spain three years
• after. Main influencing factors . Accident Analysis and Prevention
• Fridstrom y otros (1.991),
• Arenas, B., Aparicio, F., y González, C., y Gómez, A. (2009). The influence
of heavy goods vehicle traffic on accidents on different types of Spanish
interurban roads, Accident Analysis and Prevention, 41 (1). 15 - 24. ISSN
0001-4575
• Hiselius (2004)
• Peña, D. Series temporales.
• Peña, D. (2005). Fundamentos de estadística. Alianza Editorial.
• Harvey, A., y Durbin, J., (1986). The effects of seat belt legislation on British
road casualties. A case study in structural time series (with discussion),
Journal of the Royal Statistical Society, A, pp.140,187-227
• García-Ferrer, A., de Juan., A. y Poncela, P., (2006), Forecasting traffic
accidents using dissagregated data. International Journal of Forecasting, 22,
pp. 203-222
• García-Ferrer, A., de Juan., A. y Poncela, P., (2007). The relationship
between road traffic accidents and real economic activity in Spain: common
cycles and health issues, Heath Economics, 16, pp. 603-626.
• Bijleveld, F., Commandeur, J., Koopman, S.J. y Van Monfort, K., (2010),
Multivariate non-linear time series modelling of exposure and risk in road
safety research, Applied Statistics, 59, p1, pp 145-161
• Bijleveld, F., Commandeur, Gould, P, y J., Koopman, S.J. (2008), Model-
based measurement of risk in time series with applications, Journal of the
Royal Statistical Society, Series A., 171,265-277
• DGT. Barómetro de opinion sobre seguridad vial. Noviembre de 2008.
• DGT. Construcción del indicador de velocidad de flujo libre. Años 2009-2010.
• DGT. Mediciones de uso de cinturón y casco.

A u t or : Blanca Arenas Ramírez Tema 37. Página 17 de 17