Análisis de Componentes Principales (Aplicaciones en Teledetección) PDF

E.T.S.
INGENIERA GEODSICA, CARTOGRFICA Y TOPOGRFICA
TEMA: ANLISIS DE COMPONENTES PRINCIPALES.

APLICACIONES EN TELEDETECCIN.
ASIGNATURA: TELEDETECCIN APLICADA

PROFESOR:
Luis ngel Ruiz
Curso:
2003-04
Luis Angel Ruiz
Anlisis de componentes principales. Aplicaciones en teledeteccin
ANLISIS DE COMPONENTES PRINCIPALES
Cuando se trabaja con una elevada cantidad de datos y variables, una de las principales
decisiones que el analista debe hacer es la seleccin de las variables que optimizan la solucin a
un determinado problema. En ocasiones, un planteamiento terico inicial y un estudio
exhaustivo de las variables puede conducir a la seleccin adecuada de los datos. Sin embargo,
cuando se trabaja con numerosas variables, como es el caso de los datos suministrados por los
sensores multiespectrales e hiperespectrales (estos ltimos con informacin de hasta cientos de
longitudes de onda diferentes), la correlacin existente entre ellas puede ser muy elevada y el
estudio, anlisis y comprensin de todas las correlaciones posibles resultara inviable.
En este tema se describe y analiza el procedimiento estadstico de anlisis multivariante
conocido como anlisis de componentes principales, concebido fundamentalmente como un
mtodo de reduccin de datos. Se tratarn, inicialmente, los aspectos tericos del mtodo,
particularizndolo a nuestro tipo de datos, las imgenes, y de variables, la respuesta espectral en
las distintas longitudes de onda del espectro electromagntico. Finalmente, se repasarn las
principales aplicaciones en el campo de la teledeteccin. El esquema segn el cual se va a
desarrollar el tema es el siguiente:
Objeto
Datos
Procedimiento
Interpretacin geomtrica
Ejemplo
Aplicaciones
Objeto
Este mtodo consiste en la transformacin de un conjunto original de variables en otro
conjunto de variables o componentes, obtenidas mediante combinacin lineal de las anteriores,
de forma que los primeros nuevos componentes generados expliquen el mximo de la
variabilidad total, mientras que el resto vaya explicando menor cantidad de varianza de forma
sucesiva. Adems, las sucesivas combinaciones lineales se extraen de forma que no exista
correlacin entre ellas.
Luis Angel Ruiz
As pues, el objetivo principal del anlisis de componentes principales es el de

determinar nuevos factores (componentes principales) que expliquen la mayor cantidad de la
variabilidad existente en los datos utilizando, para ello, el menor nmero de factores posible.
Datos
Partimos de una matriz de datos X, de n individuos por p variables, donde X podra
representar una imagen multiespectral con n pxeles y p bandas espectrales, y un elemento
genrico de dicha matriz, xij, representara el nivel de gris del pxel i en la banda j. De esta
forma, la matriz se puede descomponer en p vectores columna, donde cada uno de ellos
representa una banda espectral de la imagen.
x
...
) = x
...
x
11
X = ( x ,..., x
(nxp)
,..., x p
i1
n1
... x1 j
... ...
... xij
... ...
... x nj
... x1 p
... ...
... xip
... ...
... x np
Adems, sea C la matriz de varianzas y covarianzas de X, matriz cuadrada cuyas

dimensiones coinciden con el nmero de variables o bandas de la imagen:
2 ... 2
1p
11
=
...
...
...
C
( pxp )
2 ... 2
p1
pp
el trmino general de la matriz de covarianzas para dos variables genricas j y j' vendr dado
por la expresin
2
jj '
1 n
= ( xij j )( xij ' j ' )
n i =1
donde j es la media de los n individuos para la variable genrica j:
1 n
j = xij
n i =1
Luis Angel Ruiz
Procedimiento
Dadas las variables iniciales x1, ..., xj, ..., xp, las nuevas variables o componentes
principales se obtienen combinando linealmente las variables originales de forma que satisfagan
dos condiciones:
1) que maximicen la varianza, (de forma que cada componente sucesivo explique el
mximo de variabilidad posible).
2) que sean ortogonales entre s. (condicin para que no exista correlacin entre
componentes).
Llamando zf a las nuevas variables (f = 1, ...,p),
y
a sus respectivos vectores de datos
a sus respectivos vectores de coeficientes, tenemos que
f
( nx1)
Xu
f
( nxp ) ( px1)
donde:
u1 f
= ...
u pf
z1 f
= ...
z nf
es decir, cada nuevo componente vendr dado por la expresin:

zf = xi1 u1f + xi2 u2f + ... + xip upf
La varianza del conjunto de datos representado por la matriz X y proyectado sobre la
direccin
u viene dada por

Varianza ( Xu ) = u ' Cu
As pues, el problema que se plantea es el de determinar el eje
que pasa por el origen
y para el cual es mxima la varianza del conjunto de datos proyectado. Matemticamente,

p
debemos hallar los p componentes u1,..., uj,..., up de un vector unitario (
u
j =1
que maximice la expresin:
u ' Cu
2
j
= 1) de tal forma
Luis Angel Ruiz
con la restriccin
u 'u = 1
() (vector unitario)
Clculo del primer componente principal:
z = Xu al primer componente principal y u a su vector de coeficientes,

las coordenadas de u pueden calcularse por el mtodo de los multiplicadores de Lagrange,
considerando la funcin h(u , ) :
Llamando
h(u1 , 1) = u1 'Cu1 1(u1 'u1 1)

derivando e igualando la funcin a cero,
h
= 2Cu1 2 u1 = 0
u1
1
Cu
por lo que
= 1u1
(1)
es el primer vector propio de C , y 1 su primer valor propio.
Premultiplicando por
u ' , se obtiene
1
u ' Cu
1
= 1u1 ' u1 = 1
por lo que dicho valor propio representa la varianza mxima buscada.

Clculo del segundo componente principal (y sucesivos):
Xu
u 'u
=0,
El segundo componente principal,
, se calcula de forma anloga, aadiendo
una nueva condicin:

1
esto es, ambos vectores son ortogonales.
(NOTA: esta forma cuadrtica aumentara indefinidamente si
que se limita su longitud a la unidad)
u fuera arbitrariamente grande, por lo
Luis Angel Ruiz
Por consiguiente, buscaremos

condiciones
u 'u
2
=1 y
u 'u
1
maximizando la expresin
u ' Cu
2
, con las
= 0.
u , ) ,
Considerando nuevamente una funcin h(
sujeta a las dos condiciones
mencionadas:
h(u 2 , 2) = u 2 'Cu 2 2(u 2 'u 2 1) u1 'u 2
h
= 2Cu 2 2 u 2 u 1 = 0
u 2
(2)
Premultiplicando ambos miembros por
u ' y teniendo en cuenta las dos condiciones impuestas,

1
se obtiene
2u1 'Cu 2 2 2u1 'u2 u1 'u1 = 0

2u1 'Cu 2 = 0
Como se ha visto antes,
Cu
= 1u1 (1), multiplicando esta expresin por u2 ' y considerando
la condicin de ortogonalidad entre ambos vectores, obtenemos que
u ' Cu
2
= 0 (), de lo
cual se deduce, sustituyendo en la ecuacin anterior, que =0.

Volviendo a la ecuacin inicial (2) y sustituyendo :
Cu
por lo que
2u2 = 0 ,
es el segundo vector propio de la matriz C , asociado al valor propio 2 ( 2 1 ) .
El mismo planteamiento puede aplicarse para la obtencin de los valores y vectores propios
restantes.
(ya que , al ser C una matriz simtrica, se cumple que
u ' Cu = u ' Cu )
1
Luis Angel Ruiz
Generalizando:
Cu
= f u f
Dado que todos los vectores propios son ortogonales, las varianzas son aditivas y la expresin
f
1 + ... + p
representa la proporcin de la varianza total explicada por el componente f.
Nota: En el anexo-I se describe el clculo de valores y vectores propios.
Interpretacin geomtrica
La transformacin de componentes principales puede entenderse fcilmente
considerando nicamente dos variables. Si representamos grficamente los valores de los puntos
de la imagen en el espacio bidimensional definido por las dos variables como ejes de abscisas y
de ordenadas, obtendremos el diagrama de dispersin de la figura 1. En l, la nube de puntos
presenta una forma tpicamente alargada, poniendo en evidencia cierta correlacin o
dependencia entre ambas bandas. Si estas fueran totalmente independientes, su covarianza y su
correlacin seran nulas y la mencionada nube tendra una forma circular. Cuanto mayor sea la
correlacin entre dos bandas, ms alargada ser la nube de puntos y mayor ser la covarianza
entre las bandas (en valor absoluto).
Al realizar el clculo de los componentes principales, los vectores propios de la matriz
de covarianzas nos indican la direccin de los ejes principales o ejes de mnima inercia del
conjunto de datos (PC1 y PC2 en la figura 1) y los valores propios son proporcionales a la
variabilidad de los datos segn los respectivos ejes. Por ello el primer componente, cuyo valor
propio 1 es mximo, explica la mayor variabilidad de la informacin contenida en la imagen,
mientras que el segundo componente explicar el resto.
Luis Angel Ruiz
V ariable 2
PC2
PC1
. .
.
.. ... .
. . . . . . . .. .. ..
. . . ... . . . . .
. ... ..................... ...... . ..
. . ........ ... ....... ..... . . .. .. .. . .. ...
.
. . . .. .. ...... . . .
.
. . . . .... ........ ......................................... . . . .
.. ...................................................................................... .. .. .
. .... ............ ... ................................................ .. .
. . . . .. . .. .. ...... . .
. . .. . ... . .... . . . .
.
.. .. .
.. .. .. .. . .
.. . .
ortogon alidad
V ariable 1
Figura 1.- Diagrama de dispersin de dos variables y direcciones de los componentes

principales resultantes (PC1 y PC2).
Generalizando para un sistema n-dimensional en el que las distribuciones de los valores
para las n variables sean normales, la nube de puntos vendr definida por un hiperelipsoide con
n ejes principales.
Ejemplo
Se ha aplicado el mtodo de anlisis de componentes principales a una imagen del
sensor Thematic Mapper (TM) del satlite Landsat 5, con siete bandas espectrales, tres en el
visible, tres en el infrarrojo prximo y una en el infrarrojo trmico. La imagen fue adquirida en
junio de 1987 y representa una zona de cultivos de regado de la rivera del ro Jcar, en la
provincia de Albacete.
La figura 2 muestra la imagen original, visualizada segn una combinacin en falso
color infrarrojo, en la que destacan en tonos rojos las zonas de cultivos de regado en pleno
vigor vegetativo (elevada reflectancia en el infrarrojo prximo). En la misma figura se muestran
los dos primeros componentes resultantes. Paralelamente, en la tabla 2 aparecen los vectores
propios obtenidos , que representan los coeficientes de ponderacin que han de aplicarse sobre
los valores digitales de las bandas originales (filas) para obtener cada uno de los componentes
resultantes (columnas) como combinacin lineal ponderada de aqullas.
La interpretacin de los nuevos componentes resulta complicada. En este caso, a la vista
de los coeficientes mencionados (tabla 2), observamos cmo para la obtencin del primer
componente se ponderan de forma ms o menos similar las bandas originales, por lo que la
imagen resultante contendr principalmente informacin sobre la intensidad o brillo global de la
imagen. Anlogamente, en el segundo componente se aprecia claramente una ponderacin
Luis Angel Ruiz
positiva muy superior para la banda 4 (infrarrojo prximo) que para el resto por lo que, teniendo
en cuenta que esta banda est directamente relacionada con un incremento acusado de la
reflectancia de la hoja vegetal debido a su estructura morfolgica interna, parece lgico asociar
el segundo componente al vigor vegetativo y a la presencia de vegetacin, lo cual se corrobora
examinando la imagen de este componente en la figura 2, en el que las zonas de regado
aparecen con ms brillo que el resto.
Figura 2.- Combinacin en falso color infrarrojo (bandas 432-RGB) de la imagen Landsat-TM de los regados
del ro Jcar (izquierda). Imgenes de los componentes principales 1 y 2 (centro y derecha) de la imagen de
las 7 bandas espectrales original.
Tabla 1.- Vectores propios de la matriz de covarianzas de la imagen original.

BANDAS
ORIGINALE
S
B1
B2
B3
B4
B5
B6
B7
COMPONENTES PRINCIPALES
CP1
CP2
CP3
CP4
0.32376982 0.16218615 -0.50991653 -0.61961536

0.23819462 0.13187722 -0.2496522 -0.13367231
0.49060812 0.18133423 -0.43239192 0.49565145
0.14463368 0.77924861 0.45482458 -0.06486198
0.61794024 -0.07932526 0.38431493 0.21752758
0.14181706 -0.31521627 -0.10343572 0.33158942
0.41816143 -0.45884613 0.35416638 -0.43710559
CP5
-0.01300927
-0.02295034
-0.01212206
-0.39838987
0.46653323
-0.74449061
-0.26176915
CP6
CP7
0.35035711 0.31939215
-0.04469158 -0.91823372
-0.49385048 0.22305427
-0.00325463 0.04533381
0.44582854 -0.02061078
0.45230894 -0.03203895
-0.47750101 0.03969677
La tabla 2 muestra los valores propios asociados a cada nuevo componente. Dividiendo
el valor propio de cada componente entre la suma de todos ellos se obtiene la proporcin de
varianza total contenida en los datos originales expresada por el componente en cuestin, lo cual
proporciona un criterio de seleccin del nmero de componentes para utilizar en cualquier
procedimiento de anlisis posterior, como es el caso de una clasificacin espectral.
Luis Angel Ruiz
Tabla 2.- Valores propios asociados y porcentajes de varianza

y varianza acumulada explicada por cada uno de ellos.
COMPONENTE VALORES
PROPIOS
1
2
3
4
5
6
7
% VARIANZA
% VARIANZA
ACUMULADA
90.44
6.41
1.67
0.69
0.45
0.32
0.02
90.44
96.85
98.52
99.21
99.66
99.98
100
6917.2
490.1
127.7
53.2
34.3
24.4
1.6
Aplicaciones
A) Reduccin del volumen de datos
La principal utilidad del mtodo consiste, como ya se ha visto, en la reduccin de la
dimensionalidad de los datos, eliminando as la informacin redundante debida a la correlacin
entre bandas. Una vez seleccionados los componentes que conlleven la mayora de la
informacin (suma de varianzas relativas prxima a la unidad) pueden realizarse las mismas
operaciones de anlisis de los datos (realce, clasificacin,...) que utilizando la totalidad de las
bandas, consiguiendo resultados similares. Esta aplicacin tiene un enorme potencial cuando se
trabaja con un nmero elevado de bandas espectrales tomadas a intervalos de longitud de onda
muy cortos, lo que ocasiona una gran correlacin entre bandas, hacindose necesario un proceso
estadstico de seleccin.
B) Reduccin del ruido
Los valores digitales de las imgenes
obtenidas mediante sensores a bordo de satliteds
se ven especialmente alterados debido tanto a la
influencia
de
los
fenmenos
de
dispersin
atmosfrica como a deficiencias , a veces muy

sutiles, en el funcionamiento de los propios
sensores. Al conjunto de alteraciones de la seal
que se manifiesta en las imgenes se le denomina
Figura 3.- Imagen correspondiente al 7 y
ltimo componente principal del ejemplo
anterior. Puede apreciarse un gran
componente de ruido en la imagen.
ruido.
Luis Angel Ruiz
Los ltimos componentes obtenidos en el anlisis de componentes principales, aqullos

que contienen la mnima informacin de los datos, suelen ir asociados a ruido del sistema o a las
alteraciones de la imagen debidas a la dispersin atmosfrica, por lo que su eliminacin
contribuye directamente a la reduccin del ruido, esto es, a la restauracin y realce de las
imgenes.
C) Deteccin de cambios en el tiempo
La utilizacin de este mtodo para la deteccin de cambios en el tiempo requiere la
integracin de dos o ms imgenes multiespectrales, de una misma zona y adquiridas en fechas
distintas, en una misma matriz o archivo de datos sobre el cual se aplica el anlisis de
componentes principales. Suponiendo que las zonas modificadas sean cuantitativamente menos
importantes, esto es, ocupen menos superficie que las zonas que no han evolucionado, los
primeros componentes suelen retener la informacin relativa a las reas comunes en todas las
reas (las invariantes), mientras que los componentes secundarios registrarn los cambios o
evoluciones en el tiempo (caractersticas u objetos que slo aparecen en una de las fechas).
Este tipo de aplicaciones requiere una metodologa que consiste en las siguientes fases:
Correccin o ajuste radiomtrico de las imgenes para reducir, en la medida de los

posible, las diferencias radiomtricas debidas a las condiciones atmosfricas de cada
fecha y a las diferencias de calibracin o sensibilidad de los sensores.
Registro geomtrico de las imgenes y remuestreo a la misma resolucin espacial.

Las diferencias geomtricas provocarn errores en la localizacin de los cambios, e
incluso harn que se detecte la presencia de cambios donde no existan.
Recorte o redimensionamiento de la zona de estudio en cada imagen e integracin

de todas ellas en un solo conjunto de datos o archivo.
Aplicacin del mtodo de anlisis de componentes principales sobre la totalidad

de las bandas multiespectrales y multitemporales.
Interpretacin de los componentes secundarios e identificacin de las zonas de

cambio que hayan sido realizadas.
El resultado puede limitarse al realce de las reas que hayan sufrido algn cambio,
como mtodo de apoyo a la interpretacin, o bien pueden aplicarse tcnicas posteriores de
anlisis que permitan la deteccin automtica de las mismas.
10
Luis Angel Ruiz
D) Ampliacin del contraste por decorrelacin

Otra aplicacin de este mtodo al realce de imgenes se basa en la ampliacin del
contraste por decorrelacin, consistente en la conversin de los datos al espacio definido por
los componentes principales de las bandas originales (este espacio se caracteriza por la
inexistencia de correlacin entre los componentes), seguido de la ecualizacin de los datos
segn los nuevos ejes, y por ltimo la conversin de los datos al espacio inicial y la
combinacin de las bandas con los colores primarios RGB. De esta forma, los puntos se
distribuyen ms uniformemente en el espacio RGB, por lo que la imagen mostrar un contraste
muy superior.
Figura 4.- Ejemplo de aplicacin del mtodo de ampliacin del realce espectral por
decorrelacin. La imagen de la izquierda representa una combinacin en color real con elevado
contraste pero con una gran correlacin entre las bandas espectrales, como puede apreciarse en
sus dos diagramas de dispersin (relacionan las bandas rojo/verde y rojo/azul). El resultado de la
decorrelacin puede verse en la imagen de la derecha, en la que el espacio de color queda mucho
ms aprovechado.
Cuando las bandas espectrales de una imagen estn altamente correlacionadas entre s,
al visualizarla en el espacio de color RGB (utilizado por los monitores estndar) con frecuencia
presenta un elevado componente de gris, lo que supone una carencia de color global en la
imagen. Geomtricamente, esto se debe a que los valores de los pxeles correlacionados se
sitan, lgicamente, en la zona prxima a la diagonal R=G=B del cubo de color RGB formando,
en este espacio de representacin, una concentracin de puntos similar a un elipsoide. Las
11
Luis Angel Ruiz
tcnicas estndar de realce, tales como la ecualizacin del histograma o las basadas en
transformaciones lineales de las bandas individuales, tienden a alargar dicho elipsoide o bien a
orientarlo en otra direccin, pero no consiguen expandirlo de forma que ocupe el espacio de
color disponible.
Entre los diversos mtodos propuestos para superar esta limitacin, uno de los ms
eficientes se basa en la eliminacin de la correlacin de los datos en el espacio de coordenadas
original mediante el clculo de los componentes principales. El mtodo consta de tres fases:
1. Clculo de los componentes principales de la distribucin de valores en el espacio
3D original y transformacin de los datos a este nuevo espacio.
2. Aplicacin de tcnicas de ampliacin del contraste sobre cada uno de los 3 nuevos
ejes, no correlacionados entre s. Esto se realiza mediante la ecualizacin o
escalado de los nuevos histogramas , consiguindose una expansin de los datos en
el espacio tridimensional.
3. Transformacin inversa de los datos al espacio de coordenadas original (RGB).
Estas operaciones pueden realizarse por medio de una sola transformacin lineal para cada
banda. Expresndola en forma matricial:
X D = X U S U 1
donde X es la matriz de datos inicial n x 3 (tres componentes, RGB, para cada uno de los n
pxeles en la imagen); U es la matriz de la transformacin de los componentes principales, cuyas
columnas son los vectores propios de la matriz de covarianzas de X ; S es una matriz diagonal de
escalado, que produce un cambio de escala de los valores (ecualizacin) en el espacio de los
componentes principales; y XD es la matriz de datos resultante, tambin de dimensiones n x 3.
Cada columna de X y XD representa una banda completa de la imagen.
Como se aprecia en el ejemplo de la figura 4, la imagen resultante adquiere unos colores
un tanto exagerados, poco reales, sin embargo, stos no se reasignan al azar, sino que mantienen
su tonalidad inicial (la vegetacin sigue siendo verde, el agua azul, etc.), lo cual permite la
asociacin de cada uno de ellos a las mismas caractersticas fsicas de la escena inicial. Este
mtodo constituye una interesante herramienta de apoyo a la interpretacin, especialmente en
ciertos tipos de aplicaciones en las que se pretende localizar e identificar objetos poco evidentes
(materiales geolgicos, etc.).
12
Luis Angel Ruiz
E) Fusin de imgenes
A pesar de su gran desarrollo en los ltimos aos, los sistemas sensores se disean
adoptando soluciones de compromiso entre los distintos tipos de resolucin, en especial entre la
resolucin espacial y la relacin seal/ruido. Debido a que los sensores multiespectrales
presentan bandas con intervalos de longitud de onda ms estrechos en comparacin con los
sensores pancromticos, generalmente poseen campos de visin instantneos (IFOV:
Instantaneous Field Of View) ms amplios (menor resolucin espacial) para recibir ms fotones
de energa y poder mantener as la relacin seal/ruido.
Los sensores modernos, como los que llevan a bordo las plataformas SPOT y Landsat-7,
adquieren imgenes multiespectrales y pancromticas simultneamente. Mediante la utilizacin
de algoritmos de fusin adecuados se pueden combinar ambos tipos de imgenes para crear una
tercera que preserve la resolucin espectral de la imagen multiespectral e introduzca la
resolucin espacial de la imagen pancromtica.
Uno de los mtodos empleados en la fusin de estas imgenes se basa, precisamente, en
la aplicacin del mtodo de anlisis de componentes principales. El proceso consiste, de forma
global, en los siguientes pasos:
1. Ajuste geomtrico entre ambas imgenes. La imagen pancromtica de alta
resolucin se utiliza como referencia, sobre la cual se registra la imagen
multiespectral de menor resolucin espacial.
2. Remuestreo radiomtrico de la imagen de baja resolucin para conseguir el
mismo tamao de pixel que la imagen de alta resolucin. Esta operacin se lleva a
cabo en el mismo proceso de rectificacin o registro entre ambas imgenes.
3. Aplicacin del anlisis de componentes principales sobre la imagen
multiespectral.
4. Ajuste radiomtrico de la imagen pancromtica con respecto al primer
componente principal.
5. Sustitucin del primer componente principal por la imagen pancromtica.
6. Aplicacin de la transformacin inversa del anlisis de componentes principales,
convirtiendo la imagen al espacio de representacin original.
13
Luis Angel Ruiz
Los supuestos de los que se parte para la aplicacin del procedimiento son los
siguientes:
El primer componente principal contiene informacin sobre la luminancia de la

escena, mientras que el resto de los componentes contienen informacin sobre la
variacin espectral.
La luminancia en las bandas del infrarrojo es la misma que en las bandas del visible.
La figura 5 muestra un ejemplo de la aplicacin de este mtodo sobre un detalle de una

imagen del satlite IRS, de los sensores multiespectral (LISS-III) y pancromtico. Por ltimo,
comentar algunos aspectos que inciden en la calidad del resultado final:
Factores propios de la escena: Conviene utilizar imgenes de fechas tan prximas

como sea posible. Adems, es preferible que la zona tenga poco relieve topogrfico.
Factores propios del sensor: La imagen de alta resolucin deber tener la mayor
similitud espectral posible con el componente que se sustituya.
Con el objeto de reducir el efecto de las singularidades radiomtricas residuales, la

imagen de alta resolucin deber ajustarse radiomtricamente al componente que se
sustituya.
Figura 5.- Ejemplo de fusin de imgenes IRS: Imagen pancromtica de 5.8 m/pixel (izquierda); imagen
sinttica en color real obtenida a partir de la multiespectral LISS-III de 23 m/pixel (centro); e imagen
resultante del proceso de fusin (derecha).
14
Luis Angel Ruiz
ANEXO I.- Clculo de valores y vectores propios

Dada la matriz cuadrada C (pxp), si multiplicamos cualquier vector X por C se
obtendr un nuevo vector Y = CX . Se dice que el vector Y es el transformado de X por C.
Diremos que
u es un vector propio de C , si C lo transforma paralelamente a s mismo:

Cu = u
A se le conoce como valor propio asociado al vector propio
u . A la ecuacin anterior
le corresponde un sistema homogneo de p ecuaciones con p incgnitas:
(112 )u1 + 122 u2 +...+12p u p = 0

2
21u1 + (222 )u2 +...+22p u p = 0

...............................
...............................
................................................
2
2
2
p1u1 +...+ pp u p = u p p21u1 + p22 u2 +...+ ( pp
) u p = 0
112u1 +...+12p u p = u1
(A-1)
Para que el sistema sea compatible, su determinante ser igual a cero:
112
122
...
212
222 ...
...
...
p21
p22
12p
22p
...
...
=0
2
... pp
dando lugar a un polinomio de grado p en , cuyas races constituyen los valores propios de C.
Sustituyendo cada uno de los valores propios obtenidos en el sistema de ecuaciones (A1) se obtienen los vectores propios correspondientes.
15

Análisis de Componentes Principales (Aplicaciones en Teledetección) PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Análisis de Componentes Principales (Aplicaciones en Teledetección) PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

E.T.S.

INGENIERA GEODSICA, CARTOGRFICA Y TOPOGRFICA

TEMA: ANLISIS DE COMPONENTES PRINCIPALES.

ASIGNATURA: TELEDETECCIN APLICADA

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin

ANLISIS DE COMPONENTES PRINCIPALES

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin

As pues, el objetivo principal del anlisis de componentes principales es el de

Adems, sea C la matriz de varianzas y covarianzas de X, matriz cuadrada cuyas

donde j es la media de los n individuos para la variable genrica j:

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin

a sus respectivos vectores de datos

a sus respectivos vectores de coeficientes, tenemos que

es decir, cada nuevo componente vendr dado por la expresin:

u viene dada por

As pues, el problema que se plantea es el de determinar el eje

que pasa por el origen

y para el cual es mxima la varianza del conjunto de datos proyectado. Matemticamente,

debemos hallar los p componentes u1,..., uj,..., up de un vector unitario (

que maximice la expresin:

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin

Clculo del primer componente principal:

z = Xu al primer componente principal y u a su vector de coeficientes,

h(u1 , 1) = u1 'Cu1 1(u1 'u1 1)

es el primer vector propio de C , y 1 su primer valor propio.

por lo que dicho valor propio representa la varianza mxima buscada.

El segundo componente principal,

, se calcula de forma anloga, aadiendo

una nueva condicin:

esto es, ambos vectores son ortogonales.

(NOTA: esta forma cuadrtica aumentara indefinidamente si

que se limita su longitud a la unidad)

u fuera arbitrariamente grande, por lo

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin

Por consiguiente, buscaremos

Considerando nuevamente una funcin h(

sujeta a las dos condiciones

h(u 2 , 2) = u 2 'Cu 2 2(u 2 'u 2 1) u1 'u 2

Premultiplicando ambos miembros por

u ' y teniendo en cuenta las dos condiciones impuestas,

2u1 'Cu 2 2 2u1 'u2 u1 'u1 = 0

Como se ha visto antes,

= 1u1 (1), multiplicando esta expresin por u2 ' y considerando

la condicin de ortogonalidad entre ambos vectores, obtenemos que

cual se deduce, sustituyendo en la ecuacin anterior, que =0.

es el segundo vector propio de la matriz C , asociado al valor propio 2 ( 2 1 ) .

(ya que , al ser C una matriz simtrica, se cumple que

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin

Figura 1.- Diagrama de dispersin de dos variables y direcciones de los componentes

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin

Tabla 1.- Vectores propios de la matriz de covarianzas de la imagen original.

0.32376982 0.16218615 -0.50991653 -0.61961536

Luis Angel Ruiz

Anlisis de componentes principales. Aplicaciones en teledeteccin