Anda di halaman 1dari 6

DETERMINACIÓN DE COMPONENTES PRINCIPALES PARA LAS VARIABLES

AMBIENTALES ESTUDIADAS EN EL DISTRITO DE JESUS MARIA EN EL AÑO 2017

Oscco Cuadros, Julio Cesar

REVISIÓN BIBLIOGRÁFICA

Como la atmósfera es el medio en el que se liberan los contaminantes, el transporte y la


dispersión de estas descargas depende en gran medida de parámetros meteorológicos. Para
realizar actividades relativas a la planificación de la calidad del aire es imprescindible
comprender la meteorología de la contaminación del aire y su influencia en la dispersión de
las sustancias contaminantes. Los planificadores emplean este conocimiento para ayudar a
localizar las estaciones de monitoreo de contaminación del aire y para desarrollar planes de
implementación orientados al cumplimiento de los estándares de calidad del aire en
exteriores. La meteorología se usa para predecir el impacto ambiental de una nueva fuente
de contaminación del aire y para determinar el efecto de las modificaciones de las fuentes
existentes en la calidad del aire.

Cuando se desarrollan condiciones meteorológicas que no conducen a la dispersión de las


sustancias contaminantes, los organismos gubernamentales encargados de controlar la
contaminación del aire deben actuar rápidamente para asegurar que los contaminantes no se
concentren en niveles inaceptables en el aire que respiramos. Cuando estos niveles son
excesivamente altos, se produce un caso de contaminación del aire y se deben reducir las
emisiones en la atmósfera. El caso de Donora, Pensilvania, en los Estados Unidos de
América, es un ejemplo extremo de esta situación. En 1948, Donora sufrió un episodio
catastrófico de contaminación del aire. Donora está ubicada en el fondo de un valle rodeado
por colinas ondulantes. Los habitantes del pueblo estaban acostumbrados a recibir algunas
emisiones provenientes de la fábrica local de acero, fundiciones de zinc y plantas de ácido
sulfúrico. Sin embargo, no estaban preparados para recibir las concentraciones
peligrosamente altas de contaminantes que en ese año se produjeron sobre el pueblo. Las
condiciones meteorológicas de Donora durante este período de cinco días (sistema de alta
presión y una fuerte inversión de temperatura) produjeron vientos ligeros y nieblas densas. El
aire no se pudo mover ni horizontal ni verticalmente y permaneció sobre el pueblo. Las
fábricas siguieron operando y liberando sustancias contaminantes. Como consecuencia,
mucha gente se enfermó y murieron 22 personas. Finalmente, cuando el patrón climático
cambió, las altas concentraciones de contaminantes disminuyeron, los vientos se elevaron y
empezó a llover.

El ACP es una herramienta muy efectiva en el análisis multivariado y que además se toman
en cuenta diversos factores que nos ayudan a precisar mejor la relación que existe entre los
niveles de los componentes de un conjunto de variables que están relacionados a los
elementos de una determinada población. Esta técnica matemática no requiere de un modelo
estadístico para aplicar la estructura probabilística de los errores. Teniendo en cuenta esta
herramienta, podemos determinar factores de nuestro interés como contaminantes del aire y
variables meteorológicas
Entre los contaminantes monitoreados por el SENAMHI que más influencian son los
materiales particulados menores a 10 micrometros, dioxido de azufre (SO2), óxidos de
nitrógeno (NOx) y ozono (O3).
Entre las variables meteorológicas están la temperatura del aire, humedad relativa del aire,
precipitaciones, velocidad y dirección del viento superficial.

OBJETIVO
Determinar las componentes principales que sintetizan la mayor variabilidad de los datos
obtenidos por la medición de parámetros meteorológicos y contaminantes del aire de enero
a diciembre del año 2017 para el distrito de Jesús María.

PROCEDIMIENTO ESTADÍSTICO

Análisis previos:

Para el análisis previo de componentes principales delimitamos lo siguiente:

Población: Todos los días del año 2017, excepto los días de los meses de enero, junio y
octubre (total 273 días), debido a que en estos meses hubo registros de datos fallados.

Unidad de análisis: Un día del año 2017, tomando en cuenta que los datos son el promedio
de los registros horarios de cada día.

Variables involucradas:
Los valores de las variables fueron tomados de la estación meteorológica “Campo de Marte”,
ubicada en el distrito de Jesús María, Lima – Perú. Estos datos están publicados en la página
web del Senamhi.

Variables meteorológicas:
1. Temperatura (°C)
2. Humedad (%)
3. Velocidad del viento(m/s)
4. Dirección del viento
Variables que miden el grado de contaminación del aire:
5. PM10 (µg/m3)
6. NO2 (µg/m3)
7. CO (µg/m3)
8. O3 (µg/m3)

Datos:
Los datos están en el archivo Excel adjunto: DATOS ACP - AIRE

Análisis estadístico:
Tomando las 8 variables medidas, se realizó un ACP para determinar las “componentes
principales” que explican la mayor variabilidad de los datos. Esto con el objetivo de reducir el
número de variables que próximamente serán incluidas en el futuro análisis de regresión
múltiple que nos ayude a interpretar la dinámica de los principales contaminantes en el aire.

Según ello, en primer lugar se procedió a realizar un análisis de la matriz de correlaciones


para ver el grado de correlación entre las mismas variables y así tener algunos alcances de
cuáles deben permanecer y cuáles no.

En segundo lugar se detallaron las estadísticas descriptivas para cada variable para tener
una mejor visión de las desviaciones estándar de las mismas. Las cuales se esperan ser muy
disparejas entre sí debido a la diferencia entre la naturaleza de la medición de los datos.

Por este último motivo se realizó la estandarización de los datos para luego llevar a cabo con
ellos el ACP correspondiente.

Finalmente se procedió a la elección de los componentes principales según el método de


Kaiser.

Ejecución:

1. Matriz de correlaciones:

Velocidad Dirección PM10 NO2 CO


Temp (°c) Hum. (%) del viento del viento (µg/m3) (µg/m3) (µg/m3)
Humedad (%) -0.717
0

Velocidad del viento -0.379 0.067


0 0.271

Dirección del viento -0.007 0.005 0.033


0.906 0.935 0.582

PM10 (µg/m3) -0.289 0.057 -0.015 -0.001


0 0.348 0.804 0.985

NO2 (µg/m3) 0.417 -0.252 -0.68 0.045 0.054


0 0 0 0.457 0.371

CO (µg/m3) 0.298 -0.336 0.075 -0.094 0.103 0.1


0 0 0.215 0.121 0.09 0.099

O3 (µg/m3) -0.738 0.495 0.196 -0.036 0.172 -0.338 -0.483


0 0 0.001 0.549 0.004 0 0
Contenido de la celda
Correlación de Pearson
Valor p
2. Estadísticas descriptivas para cada variable:

Error

Variable N N* Media estándar de Desv.Est. Mínimo Q1 Mediana Q3 Máximo

la media

Temperatura (°c) 273 0 19.882 0.21 3.473 14.86 16.685 19.11 23.03 26.7

Humedad (%) 273 0 81.941 0.283 4.669 64.83 79.44 81.96 85.15 92.21

Velocidad del viento (m/s) 273 0 2.1111 0.0398 0.6576 0.75 1.5 2.26 2.57 3.77

Dirección del viento 273 0 213.2 0.431 7.13 191 210 213 217 251

PM10 (µg/m3) 273 0 36.67 0.651 10.762 5.2 30 34.4 42.85 71.9

NO2 (µg/m3) 273 0 7.737 0.235 3.883 -1.5 4.8 8.1 10.6 18.1

CO (µg/m3) 273 0 0.25385 0.00588 0.0972 0.1 0.2 0.2 0.3 0.5

O3 (µg/m3) 273 0 9.429 0.245 4.047 2.6 5.95 8.8 12.55 20

Es posible observar una diferencia entre las varianzas, las desviaciones estándar de las
variables. Lo cual se debe a que la escala de medición para cada variable es distinta. Tome
el caso de la variable PM10 que oscila entre 5.2 a 71.9 (µg/m3), con una desviación estándar
de 10.762; a comparación de la variable velocidad del viento, que fluctúa entre 0.75 a 3.77
(m/s) y posee una desviación estándar de 0.6576.

Al no ser congruente la escala de medición entre ambas variables, se opta por realizar el
análisis de matriz de correlaciones, la cual implica una estandarización.

3. Análisis de componentes principales:

Análisis de los valores y vectores propios de la matriz de correlación


Valor propio 2.9425 1.4706 1.1377 1.004 0.6526 0.3824 0.2954
Proporción 0.368 0.184 0.142 0.126 0.082 0.048 0.037
Acumulada 0.368 0.552 0.694 0.819 0.901 0.949 0.986

Para elegir el número de componentes principales, se utiliza el criterio de Kaiser, el cual


menciona que se consideran como tales los primeros autovalores superiores a uno. No se
seleccionan como componentes a partir de 0,6526 e inferiores. Por tanto, en base a los cuatro
primeros componentes, es posible explicar el 81.9 % de la covariancia.
Gráfica de sedimentación Temperatura (°c), ..., O3 (µg/m3)
3.0

2.5

2.0
Valor propio

1.5

1.0

0.5

0.0
1 2 3 4 5 6 7 8
Número de componente

Al considerar la gráfica presente, de Cattell, se podría considerar solo a la primera


componente por presentar mayor valor propio que las demás componentes, pero se ha
optado por el criterio de Kaiser, ya que se permite considerar otras variables importantes para
analizar analizar la dinámica de los principales contaminantes del aire.

Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8


Temperatura (°c) -0.533 0.070 -0.187 0.046 -0.198 0.194 0.200 0.747

Humedad (%) 0.428 -0.257 -0.022 0.073 0.670 0.340 -0.049 0.421

Velocidad del viento (m/s) 0.283 0.647 -0.028 -0.127 -0.113 -0.072 -0.616 0.296

Direccion del viento 0.004 -0.075 -0.282 -0.941 0.100 -0.068 0.124 0.008

PM10 (µg/m3) 0.108 -0.139 0.808 -0.287 -0.319 0.337 0.009 0.135

NO2 (µg/m3) -0.364 -0.525 0.132 -0.042 0.110 -0.381 -0.632 0.123

CO (µg/m3) -0.278 0.411 0.462 -0.049 0.545 -0.406 0.269 0.059

O3 (µg/m3) 0.482 -0.201 0.018 0.072 -0.280 -0.642 0.301 0.375

Tomando en cuenta solo los coeficientes de mayor peso para la interpretación de los PCs.
Se han seleccionado:

 Primer factor ó PC1: El contaminante atmosférico Ozono (O3). Este factor permite
explicar el 36.8 % de la varianza. El signo positivo indica que si hay un aumento en la
concentración del ozono, aumentará también el valor del componente principal.
 Segundo factor ó PC2: La variable meteorológica velocidad del viento, aquí se explica
solo el 18.4 % de la varianza. El signo positivo indica que si hay un aumento en la
velocidad del viento, aumentará también el valor del componente principal.
 Tercer factor ó PC3: El contaminante atmosférico PM10. Este factor permite explicar
el 14.2 % de la varianza. El signo positivo indica que si hay un aumento en la
concentración del PM10, aumentará también el valor del componente principal.
 Cuarto factor ó PC4: La variable meteorológica dirección del viento, aquí se explica
solo el 12.6 % de la varianza. El signo negativo indica que si tenemos altos valores de
este parámetro, el valor del PC2 será bajo.

CONCLUSIONES

Las componentes principales de las variables presentadas se agruparon en 4 factores que


explican mejor la variabilidad de los datos: estos componentes están formados por 2
contaminantes del aire y dos variables meteorológicas.

El ACP logró reducir la dimensionalidad del conjunto de datos, y a pesar de ello se siguen
describiendo los datos en su mayor parte, puesto que con 4 PCs se representa el 81.9 % de
la varianza de las 8 variables originales.

Ninguna de las variables sobrepasó los Estándares de Calidad del Aire establecidos en las
Normas Oficiales Peruanas, por tanto es necesario tener una base de datos mayor para
generar un mejor modelo que abarque todas las condiciones posibles en los valores de cada
una de las variables contaminantes.

Es necesario desarrollar más trabajo de análisis sobre la base de datos para mejorar la
predicción de las variables utilizando PCA.