Anda di halaman 1dari 7

Prctica 5. Anlisis Multivariante con SPSS.

Reduccin de Datos: Anlisis


de Componentes Principales y Factorial.

5.1. Introduccin.
El Anlisis Factorial y el Anlisis de Componentes Principales (ACP) estn muy
relacionados y son una tcnica de anlisis multivariante de reduccin de datos. Algunos
autores consideran el segundo como una etapa del primero y otros los consideran como
tcnicas diferentes.
El mtodo de componentes principales tiene como objetivo transformar un conjunto de
variables originales, en un nuevo conjunto de variables (sin perder informacin),
combinacin lineal de las originales, denominadas componentes principales (factores). El
ACP trata de hallar estos componentes o factores, los cuales se caracterizan por estar
incorrelacionadas entre s, que sucesivamente expliquen la mayor parte de la varianza total.
En el Anlisis de Componentes Principales, el primer factor o componente sera aquel que
explica una mayor parte de la varianza total, el segundo factor sera aquel que explica la
mayor parte de la varianza restante, es decir, de la que no explicaba el primero y as
sucesivamente. De este modo sera posible obtener tantos componentes como variables
originales aunque esto en la prctica no tiene sentido.
Por su parte el Anlisis Factorial busca factores que expliquen la mayor parte de la varianza
comn. En el Anlisis Factorial se distingue entre varianza comn y varianza nica. La
varianza comn es la parte de la variacin de la variable que est compartida con las otras
variables y se puede cuantificar con la denominada comunalidad. La varianza nica es la
parte de la variacin de la variable que es propia de esa variable. El Anlisis de
Componentes Principales no hace esa distincin entre los dos tipos de varianza, se centra en
la varianza total. Mientras que el Anlisis de Componentes Principales busca hallar
combinaciones lineales de las variables originales que expliquen la mayor parte de la
variacin total, el Anlisis Factorial pretende hallar un nuevo conjunto de variables, menor
en nmero que las variables originales, que exprese lo que es comn a esas variables.
El hecho que el ACP se utilice como uno de los mtodos de extraccin de factores en el
Anlisis Factorial, puede hacer pensar errneamente que son mtodos equivalentes. Por
otra parte, en algunos programas, como el SPSS, ambas tcnicas estn dentro del mismo
procedimiento general.

Aplicacin del anlisis


Es muy importante hacer hincapi en que las componentes principales se expresan como
una combinacin lineal de las variables originales. Desde el punto de vista de su aplicacin,

el mtodo de componentes principales es considerado como un mtodo de reduccin de


datos, es decir, un mtodo que permite reducir la dimensin del nmero de variables que
inicialmente se han considerado.
En cuanto al inters que presenta el ACP, en muchas ocasiones nos enfrentamos a
situaciones en las que para analizar un proceso geoqumico disponemos de informacin de
muchas variables que estn correlacionadas entre s en mayor o menor grado. Estas
correlaciones tienen como un velo que impiden evaluar adecuadamente el papel que juega
cada variable en el fenmeno que estamos. El ACP permite pasar a un nuevo conjunto de
variables, las componentes principales, que gozan de la ventaja de estar incorrelaciondas
entre s y que, adems, pueden ordenarse de acuerdo con la informacin que lleva
incorporada. Para medir de la cantidad de informacin incorporada en una componente se
utiliza la varianza. Es decir, cuanto mayor sea su varianza mayor es la informacin que
lleva incorporada dicha componente. Por esta razn se selecciona como primera
componente aquella que tenga mayor varianza, mientras que, por el contrario, la ltima es
la de menor varianza.
La gran aplicacin del anlisis factorial y el ACP en el campo de la geoqumica es la
bsqueda de asociaciones de variables. La asociacin de variables (elementos qumicos,
puntos de recogida de muestras, parmetros fsico-qumicos, etc) nos puede proporcionar
una informacin muy valiosa de los distintos procesos geoqumicos que se estn
produciendo (yacimientos minerales, contaminantes, procedencia de aguas, etc).

Contraste en el modelo factorial


Existe varios contrastes que pueden realizarse para evaluar si el modelo factorial (o la
extraccin de los factores) en su conjunto es significativo.
El test KMO (Kaiser, Meyer y Olkin) relaciona los coeficientes de correlacin, rjh,
observados entre las variables Xj y Xh, y ajh son los coeficientes de correlacin parcial entre
las variables Xj y Xh. Cuanto ms cerca de 1 tenga el valor obtenido del test KMO, implica
que la relacin entres las variables es alta. Si KMO 0.9, el test es muy bueno; notable
para KMO 0.8; mediano para KMO 0.7; bajo para KMO 0.6; y muy bajo para KMO
< 0.5.
La prueba de esfericidad de Bartlett evala la aplicabilidad del anlisis factorial de las
variables estudiadas. El modelo es significativo (aceptamos la hiptesis nula, H0) cuando se
puede aplicar el anlisis factorial
Prueba de esfericidad de Bartlett:
Si Sig. (p-valor) < 0.05 aceptamos H0 (hiptesis nula) > se puede aplicar el anlisis
factorial.

Si Sig. (p-valor) > 0.05 rechazamos H0 > no se puede aplicar el anlisis factorial.

Rotacin de los componentes


Anteriormente se expuso que en el ACP se definen un nuevo conjunto de variables,
combinacin lineal de las originales, denominadas componentes (factores). Mediante esta
definicin, y su formalismo matricial, estos componentes se pueden considerar como unos
nuevos ejes que representan la nube de puntos que forman las variables originales. As la
proyeccin de la nube de puntos sobre los componentes sirven para interpretar la relacin
entre las diferentes variables. Sin embargo, su interpretacin, a veces, puede llegar a ser
muy compleja, por lo que se puede recurrir a la rotacin de los componentes (ejes).
Existen varias formas de rotar los ejes: VARIMAX, QUARTIMAX, rotaciones oblicuas,
EQUAMAX, PROMAX, etc. Su estudio y aplicacin estn fuera del objetivo de esta
asignatura. Las ms utilizada en geoqumica es la rotacin VARIMAX, la cual consigue
que cada componente rotado presente correlaciones slo con unas cuantas variables. Esta
rotacin es la ms frecuentemente utilizada, y es adecuada cuando el nmero de
componentes es reducido.
QUARTIMAX se utiliza para conseguir que cada variable tenga una correlacin alta con
muy pocos componentes cuando es elevado el nmero de estos. Tanto el VARIMAX como
el QUARTIMAX son rotaciones ortogonales, es decir, que se mantiene la condicin de
perpendicularidad entre ada uno de los ejes rotados. Sin embargo, cuando las componentes,
aun rotadas ortogonalmente, no presentan una clara interpretacin, cabe todava la
posibilidad de intentar mejorarla a travs de rotaciones oblicuas.
Los parmetros generales a seleccionar en el anlisis de componentes principales y anlisis
factorial con SPSS son:
-Analizar/Reduccin de Datos (Dimensiones en SPSS18)/ Anlisis Factorial
-Seleccionar:
- Descriptivos:
- Estadsticos: Solucin inicial.
-Matriz de correlaciones: Coeficientes; Niveles de significacin; KMO y prueba de
esfericidad de Bartlett.
- Extraccin:
- Mtodo: Componentes principales.

- Analizar: Matriz de correlaciones.


- Extraer: depende de los resultados obtenidos. En general se utiliza Autovalores
mayores que: 1. Si el nmero de factores es alto, se puede seleccionar Nmero de factores:
2; de esta forma se puede ver con mayor facilidad los resultados en una grfica XY.
- Mostrar (Visualizacin en SPSS18): Solucin factorial sin rotar; Grfico de
sedimentacin.
- Rotacin:
- Mtodo: depende de los resultados obtenidos. En general se utiliza Ninguno. Si los
resultados no son fciles de interpretar se puede seleccionar los mtodos de rotacin.
- Mostrar (Visualizacin en SPSS18): Solucin rotada (si se elige algn mtodo de
rotacin)
- Grficos de saturaciones.

El anlisis de componentes principales se suele realizar generalmente a las variables, y en


situaciones determinadas, a los casos. Supongamos que nuestra matriz de datos esta
constituida por n-filas (casos) x m-columnas (variables), donde los casos (filas) son cada
punto de muestreo, y las variables (columnas) son los parmetros medidos en cada punto de
muestro (concentracin de elementos, pH, TDS, etc). El anlisis de componentes
principales realizados a nuestra matriz de datos se aplica a las variables, por lo que
obtendremos asociaciones de los elementos y parmetros fisico-quimicos de nuestras
muestras.
Si por el contrario queremos estudiar las asociaciones entre los puntos de muestreo a partir
de los componentes principales, necesitamos trasponer la matriz de datos. Para ello:
-Datos/Transponer
-Seleccionar:
- Variables: todas columnas que queremos que se transpongan
- Variable de nombre: seleccionamos la columna con el nombre de los casos (i.e., nombre
de los puntos de muestreo), y los utiliza para el encabezado de las columnas de la matriz
transpuesta.
Esta transformacin genera una nueva matriz de datos (nueva hoja del Editor de datos
SPSS)

Prctica 5.A.
Ejemplo teorico-conceptual. Peso de racien nacidos.

Prctica 5.B.
La composicin y caractersticas fsico-qumicas de 276 acuferos del Etna, Sicilia. El
objeto de este estudio es de particular inters por el progresivo agotamiento de los recursos
hdricos y la calidad de sus aguas. [Datos obtenidos en Datos obtenidos en: Aiuppa, A.,
Bellomo, S., Brusca, L., D'Alessandro, W., Federico, C. (2003) Natural and anthropogenic
factors affecting groundwater quality of an active volcano (Mt. Etna, Italy). Applied
Geochemistry, 18, 863-882].
Para poder entender la procedencia de los diferentes tipos de aguas del Monte Etna y
gestionar adecuadamente los recursos hdricos de Sicilia, se realiz el ACP de las variables,
sin incluir Eh, NH4, V, PO4 y F debido a que en muchos casos o estn bajo del lmite de
deteccin y/o no se midieron.
El primer paso es analizar la matriz de correlaciones (que se genera dentro del ACP) y el
grafico de dispersin (como se realiz en la Practica 4) y observar la relacin entre
variables. De la matriz de correlacin se puede destacar: (1) la alta correlacin (lineal) entre
el Na-Cl-TDS, y una menor relacin de stos con el K-Mg-Alk; (2) la media correlacin
(lineal) entre NO3 - SO4. El grafico de dispersin muestra estas asociaciones lineales y
descubre la relacin no-lineal entre el B - SO4.
El segundo paso es evaluar si se puede aplicar el anlisis factorial al conjunto de datos
obtenidos mediante el test KMO y prueba de Bartlett.
De los datos obtenidos se puede concluir que se el anlisis factorial es factible ya que el pvalor (Sig.) < 0.05 aunque la correlacin entre todas variables es baja (el valor obtenido por
el test de KMO es 0.249).
La varianza total explicada por los tres primeros componentes es del 73.94% de la varianza
total explicada. La matriz de componentes nos informa de la relacin entre las variables,
agrupndolas y por lo tanto, reduciendo la cantidad de datos originales.
Si los datos no son muy claros (aunque en esta prctica si lo son), en este punto siempre es
muy interesante realizar la rotacin de los ejes.

Del anlisis factorial (Matriz de componentes rotados) podemos concluir que las variables
se agrupan en tres grandes grupos:
a) Componente 1: la asociacin de las variables Na-K-Mg-Alk-Cl-B-TDS estn
relacionadas con salmueras procedentes de la cuenca sedimentaria. La relacin tan alta con
el TDS implica que estas aguas son las responsables del incremento de la salinidad de los
acuferos.
b) Componente 2: la asociacin entre Ca-NO3-SO4 corrobora la hiptesis de la
contaminacin producida por la actividad agrcola debido al uso de fertilizantes de sulfato
amnico y/o clcico.
c) Componente 3: las variables pH-Ca-Alk-SiO2 estn relacionadas con el lixiviado de las
rocas volcnicas permeables (silicatos ferromagnesicos) ricas en CO2 de origen volcnico.
Este hecho se refleja en la relacin inversa entre el pH y la alcalinidad.
El siguiente paso en este tipo de estudios es situar estos procesos geoqumicos (definidos en
los 3 componentes) en el mapa. Hay varias formas de abordar este problema de forma
complementaria. Podemos destacar:
(1) realizando el ACP sobre los casos (trasponiendo la matriz de datos).
(2) generando mapa de superficie de componentes obtenidos en el ACP de las variables
(Fig), debido a la estimacin de los pesos estadsticos a cada caso (punto de muestreo o
agua analizada) en las variables extradas. Para seleccionar esta opcin, se ha de
seleccionar, a dems de las opciones descritas anteriormente, el tipo de puntuaciones.

Fig. Mapa de distribuciones de los tres factores obtenidos en el ACP.


Es decir:
-Analizar/Reduccin de Datos (Dimensiones en SPSS18)/Anlisis Factorial
-Seleccionar:
- Puntuaciones:
-Guardar como variables: Mtodo regresin.

Anda mungkin juga menyukai