Anda di halaman 1dari 7

17/03/2015

Reporte PCA-2015

REPORTE PCA
NDICE
INTRODUCCIN............................................................................................................ 2
Algoritmo PCA.......................................................................................................... 2
DESARROLLO................................................................................................................ 3
Conclusin.................................................................................................................... 6

Autor: Rubn Antonio Pea Alarcn

I1

Reporte PCA-2015

INTRODUCCIN
En sta prctica se utilizar el mtodo PCA para extraer de un grupo de datos, los que
representen de forma mejor los datos ingresados. Con sta prctica se espera
comprender de una mejor manera la forma en la que el mtodo realiza la seleccin de
caractersticas y la forma ptima de programarlo en algn lenguaje, en este caso Matlab.

ALGORITMO PCA
El anlisis de componentes principales (Principal Component Analysis, PCA) es un
mtodo de extraccin de caractersticas no supervisado ampliamente usado en la
actualidad. Mediante esta tcnica se pueden procesar un extenso conjunto de datos y
reducir su dimensionalidad con una prdida mnima de informacin. Sin embargo, este
mtodo presenta algunas desventajas como la dificultad de anlisis de los datos
resultantes o una funcin de coste poco robusta frente al ruido.
Tcnicamente, el PCA busca la proyeccin segn la cual los datos queden mejor
representados en trminos de mnimos cuadrados. El PCA se emplea sobre todo en
anlisis exploratorio de datos y para construir modelos predictivos. El PCA comporta el
clculo de la descomposicin en autovalores de la matriz de covarianza, normalmente tras
centrar los datos en la media de cada atributo.
El PCA construye una transformacin lineal que escoge un nuevo sistema de
coordenadas para el conjunto original de datos en el cual la varianza de mayor tamao del
conjunto de datos es capturada en el primer eje (llamado el Primer Componente
Principal), la segunda varianza ms grande es el segundo eje, y as sucesivamente. Para
construir esta transformacin lineal debe construirse primero la matriz de covarianza o
matriz de coeficientes de correlacin. Debido a la simetra de esta matriz existe una base
completa de vectores propios de la misma. La transformacin que lleva de las antiguas
coordenadas a las coordenadas de la nueva base es precisamente la transformacin
lineal necesaria para reducir la dimensionalidad de datos. Adems las coordenadas en la
nueva base dan la composicin en factores subyacentes de los datos iniciales.
Una de las ventajas del ACP para reducir la dimensionalidad de un grupo de datos, es que
retiene aquellas caractersticas del conjunto de datos que contribuyen ms a su varianza,
manteniendo un orden de bajo nivel de los componentes principales e ignorando los de
alto nivel. El objetivo es que esos componentes de bajo orden a veces contienen el
aspecto "ms importante" de esa informacin.

Autor: Rubn Antonio Pea Alarcn

I2

Reporte PCA-2015

DESARROLLO
Primeramente es necesario abrir el programa Matlab, donde se realizar la prctica:

Una vez dentro del programa se debe crear un script en


el que se agregar el cdigo necesario para que el
mtodo funcione.
El script ser guardado con el nombre EjemploPCA y
posteriormente ser ejecutado para comprobar sus
resultados.

1. Para comenzar se deben definir la informacin de la que se seleccionarn las


caractersticas principales:
s1=[8.7,14.3,18.9,19.0,20.5,14.7,18.8,37.3,12.6,25.7];
s2=[0.3,0.9,1.8,0.8,0.9,1.1,2.5,2.7,1.3,3.4];

2. Posteriormente se calcularn nuevos datos, as como las medias de ambos


grupos y sern centrados.

%Nuevos Datos
m1=s1*randn(1,1)+s2*randn(1,1)
;
m2=s1*randn(1,1)+s2*randn(1,1)
;
S=[m1;m2];

%Calculo de medias
mediam1=mean(m1);
mediam2=mean(m2);
%Centrar los datos
datosC1=m1-mediam1;
datosC2=m2-mediam2;

Autor: Rubn Antonio Pea Alarcn

I3

Reporte PCA-2015

3. Continuando, se calcularn los 180 vectores a graficar con los valores de alfa y
beta. Y se calcularn las varianzas de los vectores

magnitud=5;
j=1;
for i=0:1:180
%Calculo de alfa y beta
alfa=sind(i)*magnitud;
beta=cosd(i)*magnitud;

figure(2)
plot(compx,compy,'y');

VecAB=[alfa,beta];
V=VecAB*S;

vectores(j,:)=[varianza;i;alfa
;beta];
j=j+1;
componentes(j,:)=V;
end

%Plot de los vectores


compx=[0 alfa];
compy=[0 beta];

%Calculo de las varianzas


varianza=var(V);
%Guardar los vectores

4. Para terminar se calcula la mxima varianza de alfa y beta, junto con los ejes x y
y para finalmente graficarlos y obtener los resultados.

maxVar=max(vectores(:,1));
VectCar=find(vectores(:,1)==ma
xVar);
alfaMax=vectores(VectCar,3);
betaMax=vectores(VectCar,4);
%Calcular los ejes
xVC=[-5*alfaMax 5*alfaMax];
yVC=[-5*betaMax 5*betaMax];

%Plor del VC
figure(3);
plot(datosC1,datosC2,'r*');
grid on;
hold;
plot(xVC,yVC,'b','LineWidth',2
);

Autor: Rubn Antonio Pea Alarcn

I4

Reporte PCA-2015

5. Por ltimo se prueba el cdigo corrindolo en Matlab y obteniendo las grficas


resultantes.

Autor: Rubn Antonio Pea Alarcn

I5

Reporte PCA-2015

CONCLUSIN
El mtodo de PCA es muy til para la seleccin de caractersticas principales en un grupo
de datos. Es un mtodo de uso fcil y que funciona para mltiples ejemplos.

Autor: Rubn Antonio Pea Alarcn

I6

Anda mungkin juga menyukai