Anda di halaman 1dari 47

Análisis de Componentes

Principales, ACP
(matriz de correlación)

Problema:
Tasas de retorno de acciones de la Bolsa
de Nueva York.
Análisis de Componentes Principales, ACP
(matriz de correlación)
Desarrollo:
1. Introducción.
2. Objetivos.
3. Análisis bivariado de las tasas de retorno.
4. Determinación de autovalores, porcentajes de varianza total contada.
5. Determinación de autovectores.
6. Puntuaciones de las componentes principales estandarizadas.
7. Interpretación de componentes principales.
8. Determinación del número de CPs.
9. Conclusiones del ACP.
Apéndice 1: Relación entre la data estandarizada y las puntuaciones de las CP
estandarizadas.
Apéndice 2: Detección de posibles observaciones atípicas a través del gráfico
de dispersión de las dos primeras componentes principales estandarizadas.
1. Introducción:
En enero del 2006 un inversor tuvo particular interés por las tasas de retorno
semanales de 5 acciones (JP Morgan, Citibank, Wells Fargo, Royal Dutch Shell,
y ExxonMobil) de la Bolsa de Nueva York. Por lo tanto, decidió recopilar
información de los dos últimos años, enero 2004 a diciembre 2005; es decir,
tuvo 103 observaciones (semanas sucesivas). Las tasas de retorno semanales se
calcularon como:

Precio semanai  Precio semanai1


Tasa de retorno semanali 
Precio semanai1
Nota: Ajustada por división de acciones y dividendos.

Además, el inversor consideró que tenía suficiente información para suponer


que las observaciones semanales eran independientes y que las variables,
acciones, estaban correlacionadas. Los datos se encuentran en Data.

Para analizar el comportamiento conjunto de estas cinco variables, es decir,


detectar posibles vinculaciones entre las acciones, y disminuir el número de
dimensiones; se consideró en primer lugar realizar un análisis de componentes
principales, ACP.
1. Introducción:
Continuación
En general cuando se tienen que analizar muchas variables, que con frecuencia
presentan altas correlaciones y multicolinealidad, lo mejor es reducir el número
de variables (dimensiones). Una técnica muy usada es el Análisis de
Componentes Principales la cual identifica dimensiones ortogonales que
definen variables no correlacionadas (Componentes Principales), las cuales
retienen la “máxima” variación en los datos. De esta forma, con las primeras
componentes principales se capta la mayor cantidad de información (variación)
posible.

Un tema importante en el uso de esta técnica es el balance adecuado entre el


número de dimensiones y la cantidad de información (varianza de las variables)
que se retiene.

El análisis de componentes principales se usa frecuentemente como medio hacia


un fin, más que un fin en si mismo. Por ejemplo, eliminar la multicolinealidad
de variables en un análisis de regresión.
2. Objetivos:

Asumamos que el interés del investigador fue:

• Determinar un índice bursátil para las tasas de retorno de


las cinco acciones.

• Evaluar posibles patrones de comportamiento entre las


distintas acciones.

Aplicación del ACP


3. Análisis bivariado:
Obtención de la matriz de correlación.

Procedimiento en SPSS: Analizar / Correlaciones / Bivariadas:

Esta sección puede


contener a todas las
variables que se listan
en la “Vista de
variables”.

Botón para ingresar


o retirar variables.
Aquí se debe ingresar
solo las variables a ser
analizadas, para nuestro
caso, debe ingresarse las
cinco variables.
Finalmente, oprimir
Seleccionamos la este botón para
técnica de Pearson, ejecutar todo lo
prueba bilateral y seleccionado.
marcar correlaciones
estadísticamente
significativas.

Figura 1.
3. Análisis bivariado:
Continuación
Resultado:

Tabla 1.
La tabla 1 presenta para cada celda la correlación de Pearson, significancia
estadística bilateral y el total de observaciones. En la tabla 2 se presenta sólo las
correlaciones.
3. Análisis bivariado:
Continuación

Tabla 2.

De la tabla 2, considerando sólo las correlaciones entre diferentes variables, nótese


que todas las correlaciones son positivas. Además, el 40% de las correlaciones tiene
asociación lineal moderadamente fuerte (correlaciones mayores a 0.50) indicando
significancia práctica alta. El 20% está entre 0.21 y 0.33, mostrando significancia
práctica de baja a media.

Para un nivel de significancia de 0.05, las pruebas bilaterales de las correlaciones son
estadísticamente significativas para el 60% de estas (ver tabla 1). Por otro lado, el
resto, 40% de las correlaciones de menor significancia estadística, se tienen
correlaciones de magnitud inferior a 0.19, no mostrando significancia práctica ni
estadística (ver tabla 1).
3. Análisis bivariado:

La colinealidad presente entre las variables permitiría reproducir


gran parte de la variación de las variables estandarizadas con un
número de CP menor a las dimensiones del problema.

Reproducir la variabilidad con un número de CP inferior al


número de acciones.
4. Determinación de autovalores, porcentajes de
varianza total contada:
Procedimiento en SPSS: Analizar / Reducción de dimensiones / Factor:
Aquí se debe ingresar sólo
las variables a ser analiza-
das; para nuestro caso,
debe ingresarse las cinco
1 variables.
2
3
Esta sección puede
contener a todas las 4
variables que se
listan en la “Vista
de variables”.
Pasos a seguir en la
Botón para especificación de un
ingresar o análisis de compo-
retirar nentes principales.
variables.

Finalmente, oprimir este botón para ejecutar todo lo seleccionado en


Descriptivos, Extracción, Rotación, Puntuaciones.

Figura 2.
4. Determinación de autovalores, porcentajes de
varianza total contada:
Continuación

Paso 1: Descriptivos:

Seleccionar la opción “Solución


inicial”. Esto significa que la tabla
de comunalidades contenga una
sección llamada “Inicial”, la cual
contiene las varianzas de las
variables originales estandarizadas
(igual a 1).
Luego, oprimir continuar para
ejecutar lo seleccionado.

Figura 3.
4. Determinación de autovalores, porcentajes de
varianza total contada:
Continuación
Paso 2: Extracción:

Seleccionar la opción “Componentes principales”


Seleccionar la opción “Matriz de correlaciones”.
Seleccionar la opción: “Solución factorial sin rotar”.
Esto significa mostrar comunalidades, varianza total
contada, y la matriz de correlaciones entre variables y
componentes. De acuerdo al número de componentes
principales retenidas.
Seleccionar la opción: “Gráfico de sedimentación”.
Esto significa obtener “Scree Plot”.
Seleccionar la opción “Número fijo de factores”.
Escribir cinco en “Factores que extraer:” para obtener
todos los autovalores y componentes principales. El
número cinco corresponde al número total de
variables.
Permite especificar el número máximo de pasos que
el algoritmo puede seguir para estimar la solución, y
Después de haber especificado el modo en que SPSS acepta valores entre 1 y 9999.
ejecutará la extracción de componentes principales,
oprimir continuar para ejecutar lo seleccionado.
Figura 4.
4. Determinación de autovalores, porcentajes de
varianza total contada:
Continuación

Paso 3: Rotación:

Seleccionar la opción “Ninguna”.


Esto significa que ninguna técnica
de rotación será aplicada.

Después de haber especificado el


método en que SPSS ejecutará la
rotación, oprimir continuar para
ejecutar lo seleccionado.

Figura 5.
4. Determinación de autovalores, porcentajes de
varianza total contada:
Continuación

Paso 4: Puntuaciones:

Seleccionar la opción “Guardar como variables”.


Esto significa registrar las puntuaciones, scores, de
las componentes principales en “Vista de datos” y
“Vista de variables”.

Seleccionar la opción “Regresión”.


Seleccionar esta opción para mostrar la matriz que
multiplica a la matriz de datos estandarizados
(media cero y varianza uno) en la obtención de las
puntuaciones de las componentes principales.

Después de haber especificado el método en que SPSS calculará las puntuaciones


de las componentes principales, oprimir continuar para ejecutar lo seleccionado.

Figura 6.
4. Determinación de autovalores, porcentajes de
varianza total contada:
Continuación
Resultado:
Nota: Respecto al título de la
tabla 3, “Varianza total
explicada”, la expresión
“varianza total” es la suma
de varianzas de todas las
variables. Como las variables
están estandarizadas, la
Tabla 3. varianza total es cinco, 5.

De la tabla 3, la columna “Total” presenta los cinco autovalores, cada autovalor está
asociado a una componente principal y representa su varianza. La suma de todos los
autovalores, varianzas de las componentes principales, siempre coincide con la
varianza total, suma de las varianzas de las variables estandarizadas.
La columna “% de la varianza” presenta el porcentaje de la varianza total contada por
la varianza de cada componente principal. La columna “% acumulado” presenta el
porcentaje acumulado de la varianza total contada.
4. Determinación de autovalores, porcentajes de
varianza total contada:
Continuación
Resultado:
Así el primer autovalor indica que la 1a
componente principal tiene una varianza
de 2.437 y cuenta el 48.7% de la varianza
total.

El segundo autovalor indica que la 2.a


componente principal tiene una varianza Tabla 4.
de 1.407 y cuenta el 28.1% de la varianza total; recordar que las componentes
principales no se correlacionan, por lo tanto las varianzas aportadas por ellas no se
traslapan, es decir, las dos primeras componentes principales cuentan el 77% de la
varianza total.

El tercer autovalor indica que la 3.a componente principal tiene una varianza de 0.501
y cuenta el 10% de la varianza total. Las dos últimas cuentan el resto, 13%.
Finalmente las cinco componentes principales cuentan el 100% de la varianza total.
4. Determinación de autovalores, porcentajes de
varianza total contada:
Continuación

Tabla 4.

• La primera CP, definida según el autovector con auto valor de mayor


magnitud, explicará la mayor variabilidad de los datos en base a una
combinación lineal de las variables.
• La segunda CP explicará la mayor variabilidad posible, de la variabilidad
no explicada por la anterior CP. La tercera CP explicará la mayor
variabilidad posible, de la variabilidad no explicada por las anteriores CP,
así sucesivamente.
• Las distintas CPs no están correlacionadas entre sí (Debido a la
ortogonalidad de los auto vectores).
4. Determinación de autovalores, porcentajes de
varianza total contada:
Continuación
Diferencia con el ACP basado en “Matriz de covarianzas”:

A continuación se muestran dos tablas, la tabla 5 resulta del análisis basado en


“Matriz de covarianzas”, y la tabla 6 resulta del análisis basado en “Matriz de
correlaciones”

Tabla 5. Tabla 6.

Comentario: La comparación de las dos tablas permite observar diferencias en los


autovalores y los porcentajes de varianza total contada.
5. Determinación de autovectores:
Las componentes principales  Z1 , Z 2 ,…, Z 5  son combinaciones lineales de las variables
estandarizadas  X 1 , X 2 ,…, X 5  , donde las ponderaciones son los elementos de los
autovectores  u1 , u2 ,…, u5  . Nótese que las variables estandarizadas son:
X 1  V1  V1  Var V1 
12

X 2  V2  V2  Var V2 


12

X 3  V3  V3  Var V3 


12

X 4  V4  V4  Var V4 


12

X 5  V5  V5  Var V5 


12

donde:
X 1 ,X 2 ,…, X 5 son las variables estandarizadas,
V1 ,V2 ,…, V5 son las variables originales,
V1 ,V2 , …, V5 son las medias de las variables originales,
Var V1  ,Var V2  ,…, Var V5  son las varianzas de las variables originales.
Las puntuaciones de las cinco CPs para la i-ésima observación son:
z1i  u11 x1i  u12 x2i  u13 x3i  u14 x4 i  u15 x5i
z 2i  u21 x1i  u22 x2i  u23 x3i  u24 x4 i  u25 x5i
z3i  u31 x1i  u32 x2i  u33 x3i  u34 x4 i  u35 x5i
z 4i  u41 x1i  u42 x2i  u43 x3i  u44 x4 i  u45 x5i
z5i  u51 x1i  u52 x2i  u53 x3i  u54 x4 i  u55 x5i
5. Determinación de autovectores:
Continuación
Los autovectores no son reportados por SPSS, pero pueden obtenerse a partir de las
correlaciones entre las variables estandarizadas y las componentes principales, las
cuales son presentadas por SPSS con el nombre “Matriz de componentes”, ver tabla
7. Recordar que esto fue solicitado a SPSS a través de “Paso 2: Extracción”, ver
figura 4.

Matriz L L  UD 0.5
LD 0.5  U
D es la matriz
diagonal de las
varianzas de las
5 CPs
L42
Tabla 7.

Como ejemplo se calculará el valor del 4.o elemento del 2.o autovector, u24. Este
puede ser obtenido a partir de la correlación entre la variable “Royal Dutch Shell” y la
2.a componente principal, la cual es 0.694 (ver tabla 7).
5. Determinación de autovectores:
Continuación

Específicamente:

u24  L42  2 
0.5

De la tabla 3 vemos que 2 =1.407.

Por lo tanto,el “4.° elemento del 2.° autovector” es:


u24  0.694 1.407 
0.5
 0.585

En la siguiente tabla, tabla 8, se presenta la matriz de autovectores, de módulo 1.

Tabla 8.
5. Determinación de autovectores:
Continuación
El 1.er autovector indica que la primera
componente principal es una combinación
lineal de comportamiento conjunto (todas las
ponderaciones tienen el mismo signo).

El 2.o autovector indica que la segunda


componente principal es una combinación
Tabla 8.
lineal de contraste (ponderaciones con
signos opuestos) entre el grupo formado por las variables estandarizadas de
JP_Morgan, Citibank y Wells_Fargo (las tres financieras) y el otro formado por las
variables estandarizadas de Royal_Dutch_Shell y ExxonMobil (ambas petroleras).

El 3.er autovector indica que la tercera componente principal es una combinación


lineal de contraste (ponderaciones con signos opuestos) entre JP Morgan y Wells
Fargo. Nótese que las variables estandarizadas de Citibank, Royal Dutch Shell, y
ExxonMobil reciben bajas ponderaciones.

Los autovectores 4.o y 5.o indican que las componentes principales 4.a y 5.a,
respectivamente, son combinaciones lineales de contraste.
5. Determinación de autovectores:
Continuación

Tabla 8.

Nota:
Los autovectores de forma matricial se pueden calcular como: 𝑈 = 𝐿𝐷−1/2 , donde:
• U es la matriz de autovectores.
• L es la matriz de correlaciones entre las variables estandarizadas y las
componentes principales (SPSS a esta matriz le asigna el nombre “Matriz de
componentes”).
• 𝐷 -1/2 es la matriz diagonal cuyos elementos son la inversa de la raíz cuadrada de
los autovalores (SPSS presenta los autovalores en la tabla “Varianza total
explicada”).
5. Determinación de autovectores:
Continuación

Diferencia con el ACP basado en “Matriz de covarianzas”:


A continuación se presentan dos tablas, la tabla 9 resulta del análisis basado en
“Matriz de covarianzas”, y tabla 10 resulta del análisis basado en “Matriz de
correlaciones”.

Tabla 9. Tabla 10.

Comentario: La comparación de las dos tablas, nos permite concluir que los
autovectores son diferentes.
6. Puntuaciones de las componentes principales
estandarizadas:
Las puntuaciones, valores (scores), de las cinco componentes principales
estandarizadas se obtienen directamente del análisis de componentes principales de
SPSS a través de “Paso 4: Puntuaciones”, ver figura 6.

SPSS específicamente presenta las puntuaciones de las componentes principales


estandarizadas basándose en las variables estandarizadas X1, X2,…, X5. Como
ejemplo calculemos la puntuación de la segunda componente principal
estandarizada para la observación 3 basándonos en las variables estandarizadas:

X 1  V1  V1  Var V1 


12
, variable estandarizada de la tasa de retorno de JP Morgan.
X 2  V2  V2  Var V2 
12
, variable estandarizada de la tasa de retorno de Citibank.
X 3  V3  V3  Var V3 
12
, variable estandarizada de la tasa de retorno de Wells Fargo.
X 4  V4  V4  Var V4 
12
, variable estandarizada de la tasa de retorno de Royal Dutch Shell.
X 5  V5  V5  Var V5 
12
, variable estandarizada de la tasa de retorno de ExxonMobil.
6. Puntuaciones de las componentes principales
estandarizadas: Continuación

Los datos estandarizados para la observación 3 son:


x13   v13  V1  Var V1 
12
 0.912
x23   v23  V2  Var V2 
12
 0.444
x33   v33  V3  Var V3 
12
 0.562
x43   v43  V4  Var V4 
12
 0.151
x53   v53  V5  Var V5 
12
 0.368

Finalmente, la puntuación de la segunda componente principal estandarizada


basándonos en las variables estandarizadas para la observación 3 es:
Nota: Ver tablas 3 y 8.

z 2 S 3   x13u21  x23u22  x33u23  x43u 24  x53u 25  2


12

z 2 S 3  [( 0.912)( 0.368)  ( 0.444)( 0.237) 


(0.562)( 0.315)+( 0.151)(0.585) 
12
( 0.368)(0.606)] / 1.407
z2 S 3  0.040
6. Puntuaciones de las componentes principales
estandarizadas: Continuación
La siguiente tabla, tabla 11, presenta las puntuaciones de las componentes
principales estandarizadas basándose en las variables estandarizadas. Las cuales se
encuentran ordenadas según los datos iniciales, es decir, semana1, semana 2,…,
semana 103:

Tabla 11.
6. Puntuaciones de las componentes principales
estandarizadas: Continuación

Tabla 11.

Nota: Las puntuaciones de los componentes principales estandarizadas basándose en las variables
estandarizada, matricialmente se denota por Z S y se calcula como: ZS  XUD 1/2 , donde: X es la
matriz de datos estandarizadas (media cero y varianza uno), U es la matriz de autovectores y D 1/2
es la matriz diagonal cuyos elementos son la inversa de la raíz cuadrada de los autovalores.
6. Puntuaciones de las componentes principales
estandarizadas: Continuación

Diferencia con el ACP basado en “Matriz de covarianzas”:


A continuación se muestran dos tablas, la tabla 12 resulta del análisis basado en
“Matriz de covarianzas”, y la tabla 13 resulta del análisis basado en “Matriz de
correlaciones”.

Tabla 12. Tabla 13.

Comentario: La comparación de las dos tablas, 12 y 13, nos permite concluir que
las puntuaciones de los factores estandarizados son diferentes.
7. Interpretación de componentes principales:
La interpretación de los CPs se basa en las cargas de componentes principales (matriz
de correlación entre las variables y las componentes principales), estas cargas se
presentaron en la tabla 7 y sirvieron para calcular los autovectores. Aquí nuevamente
serán presentadas, pero su uso tendrá otro fin, el cual consiste en ayudar a interpretar
las componentes principales.

Tabla 7.
Nótese que SPSS nombra a esta matriz de cargas de componentes principales como
“Matriz de componentes”.
7. Interpretación de componentes principales: Continuación

Interpretación de las componentes


principales:

1.a Componente principal:


Rendimiento general.
Justificación: Las variables estandarizadas
de las tasas de retorno de las cinco
acciones presentan correlaciones de igual Tabla 7.
signo, y de magnitudes altas, con esta componente principal. Por lo tanto, esta 1.a
CP muestra un comportamiento general en la que las acciones tienden a variar en la
misma dirección.

2.a Componente principal:


Rendimiento relativo.
Justificación: Las variables estandarizadas de las tasas de retorno de las cinco
acciones presentan correlaciones de signos opuestos con esta componente principal.
Por lo tanto, esta 2.a CP muestra un comportamiento relativo en la que las acciones,
agrupadas en dos bloques: financieras y petroleras, tienen variaciones diferenciadas.
7. Interpretación de componentes principales: Continuación

Diferencia con el ACP basado en “Matriz de covarianzas”:


A continuación se muestran dos tablas, la tabla 14 resulta del análisis basado en
“Matriz de covarianzas”, y la tabla 15 resulta del análisis basado en “Matriz de
correlaciones”.

Tabla 14. Tabla 15.

Comentario: La comparación de las dos tablas, en base a las dos primeras


componentes, permite extraer las mismas conclusiones cualitativas, si bien las
magnitudes son diferentes.
8. Determinación del número de CPs:

Un objetivo central del ACP es la reducción de la dimensionalidad de los datos,


lo cual se logra cuando se retiene un número de componentes inferior al número
original de variables.

Esto implica necesariamente pérdida de información, en beneficio de una mayor


simplicidad.

La determinación del número de componentes principales a retener dependerá


de la definición de este balance, el cual depende de la naturaleza y objetivos de
la investigación.

Como ayuda para esta definición se cuenta con algunas reglas, como las
siguientes:

• Scree plot (SPSS la llama “Gráfico de sedimentación”).


• Regla de Kaiser.
• Varianza contada (SPSS la llama “Comunalidades”).
8. Determinación del número de CPs:
Continuación
Scree plot, gráfico de sedimentación:

Esta regla consiste en graficar los


autovalores de mayor a menor
magnitud uniendo los puntos por
segmentos de recta.

La aplicación de esta regla requiere la


identificación del codo, elbow, de la
curva y su correspondiente
componente principal.
Figura 7.

La figura 7 muestra el gráfico de sedimentación para el caso que se desarrolla:


• Se observa el codo de la curva en la 3.a componente principal.
• La regla establece que sólo se deben seleccionar las componentes principales
que anteceden a la componente asociada al codo.
• Por lo tanto, como solución seleccionamos la 1.a y 2.a componente principal.
8. Determinación del número de CPs:
Continuación
Scree plot, gráfico de sedimentación:

Además, recordar que la varianza total, suma de las varianzas de las variables
estandarizadas, es igual a la suma de las varianzas de las componentes
principales, es decir:

Var  X 1   Var  X 2   Var  X 3   Var  X 4   Var  X 5 


 1  2  3  4  5  5

Como la solución fue seleccionar las dos primeras componentes principales,


tenemos que estas cuentan el 77% de la varianza total (ver tabla 3). Esto es:

 1  2  5   2.437  1.407  5  0.769


8. Determinación del número de CPs:
Continuación

Regla de Kaiser:

Esta regla recomienda retener sólo las componentes principales que se caractericen
por tener autovalores, varianzas, mayores a la unidad. La regla de Kaiser asume que
el análisis de componentes principales se basa en variables estandarizadas.

El razonamiento de esta regla consiste en que cualquier componente principal


retenida debería tener una varianza superior a la varianza de las variables
estandarizadas.

Considerando esta regla, regla de Kaiser, se decide retener las dos primeras
componentes principales, ya que sus autovalores λ1=2.437 y λ2=1.407 (ver tabla 3)
son mayores a uno, a diferencia de las otras componentes principales.
8. Determinación del número de CPs:
Continuación

Varianza contada, comunalidades:

La regla de comunalidades busca retener un número de componentes principales


tal que se explique un porcentaje mínimo de varianza para cada variable. Este
porcentaje debe ser establecido por el investigador.

Supongamos que estamos interesados en contar un mínimo de 60% de varianza


para cada variable estandarizada ¿cuántos componentes debemos retener?
8. Determinación del número de CPs:
Continuación
Varianza contada, comunalidades:
Como ejemplo desarrollamos el cálculo de la comunalidad para la variable
estandarizada X1, JP Morgan; para las otras variables estandarizadas el proceso es
similar. Además recuerde que las variables estandarizadas tienen media cero y
varianza uno:
Comunalidad
Acumulada
Comunalidad de X 1 con Z1  Corr  X 1 , Z1   0.732  0.536
2 2
0.536
Comunalidad de X 1 con Z 2  Corr  X 1 , Z 2    0.437   0.191
2 2
0.727
Comunalidad de X 1 con Z 3  Corr  X 1 , Z 3    0.428   0.183
2 2
0.910
Comunalidad de X 1 con Z 4  Corr  X 1 , Z 4   0.230  0.053
2 2
0.962
Comunalidad de X 1 con Z 5  Corr  X 1 , Z 5   0.194  0.038
2 2
1.000

Nótese que considerando sólo a Z1, primera componente principal, se cuenta el 54%
de la varianza de X1, mientras que con las dos primeras, Z1 y Z2, se cuenta el 73% de
la varianza de X1. Finalmente con las cinco (Z1,…, Z5) se cuenta el 100% de la
varianza de X1.

Tengamos en cuenta que sólo se ha analizado una variable, faltan las otras cuatro.
8. Determinación del número de CPs:
Continuación
Varianza contada, comunalidades:
SPSS presenta las comunalidades de todas las
variables estandarizadas de acuerdo al
número de componentes principales retenidos
(el cual es ingresado por el investigador).

Para nuestro ejemplo, recordar que se indicó


retener todos los componentes principales a
través de “Paso 2: Extracción” (ver figura 4),
Tabla 16.

específicamente en la sección: “Número fijo de factores / Factores que extraer:”.

El resultado se presenta en la tabla 16, llamada Comunalidades. En esta tabla, se


observan las columnas “Inicial” y “Extracción” que contienen las varianzas de las
variables estandarizadas (varianzas de valor uno) y las varianzas contadas de estas
variables estandarizadas por las componentes principales retenidas (de forma
conjunta), respectivamente.
8. Determinación del número de CPs:
Continuación
Varianza contada, comunalidades:
Como se han retenido todas las componentes
principales, la columna “Extracción” es igual
a la “Inicial”. Es decir, se ha contado el 100%
de varianza para cada variable estandarizada.
Además, la columna “Extracción” puede
interpretarse como la proporción de varianza
contada, para cada variable estandarizada,
por las componentes principales retenidas.
Tabla 16.

Por otro lado, debemos verificar si con un número menor de componentes principales
se puede satisfacer la condición de contar el mínimo de 60% de varianza para cada
variable estandarizada.

Por lo tanto, es necesario realizar el análisis de componentes principales reteniendo


sucesivamente 1, 2, 3 y 4 componentes principales. Es decir, realizar cuatro análisis
diferentes.
8. Determinación del número de CPs:
Continuación
Varianza contada, comunalidades:

Esto es, se debe realizar los ACP manteniendo las instrucciones iniciales (ver
figuras 2, 3, 4, 5 y 6) con excepción al “Paso 2: Extracción” (ver figura 4),
específicamente lo concerniente a “Número fijo de factores / Factores que extraer:”
en la que se debe ingresar el número de componentes a retener, “1”, “2”, “3”, etc.
siendo el máximo el número de variables para este caso “5”.

Esto sólo afecta al número de componentes a extraer y no al proceso que sigue


SPSS para calcular los resultados.
8. Determinación del número de CPs:
Continuación
Varianza contada, comunalidades:
A continuación se presentan las comunalidades con una y dos componentes
principales retenidas, no se presentan los casos con más componentes principales
ya que con dos se satisface la condición de contar el mínimo 60% de varianza:
Nota: SPSS nombró a las siguientes tablas como “Comunalidades”.

Tabla 17. Tabla 18.

De las tablas 17 y 18, observando las columnas “Extracción” se identifica que el


análisis que considera dos componentes principales (tabla 18) satisface la
condición de contar el mínimo de 60% de varianza para cada variable
estandarizada. Nótese que el ACP con tres y cuatro componentes principales
también satisfacen la condición, pero se debe elegir el caso de menor número de
componentes principales.
9. Conclusiones del ACP:
Del ACP desarrollado previamente, las dos primeras componentes principales
cuentan el 77% de la varianza total y más del 66% de varianza en cada variable
estandarizada. Asumiendo que para el inversor este balance es razonable, se
decide retener las dos primeras componentes principales. Recordemos que estas
dos componentes principales fueron interpretadas como:

1.a Componente principal: Rendimiento general.


2.a Componente principal: Rendimiento relativo.

¿Cómo estas dos componentes principales ayudan a conocer el comportamiento


del portafolio?

Por ejemplo, un gráfico de dispersión de las dos primeras componentes


principales respecto a las cuatro últimas observaciones, semanas, permitirá
conocer el comportamiento del portafolio para este pequeño periodo.

Deben calcularse las puntuaciones de la 1.a y 2.a componentes principales para


las observaciones 100,…, 103.
9. Conclusiones del ACP: Continuación

A continuación se calcula la puntuación de la 2.a componente principal para la


observación 100, Z2100:

Sean X1100,…, X5100 los datos estandarizados para la observación 100:


x1100   v1100  V1  Var V1 
0.5
 0.110
x2100   v2100  V2  Var V2 
0.5
 0.107
x3100   v3100  V3  Var V3 
0.5
 0.313
x4100   v4100  V4  Var V4 
0.5
 0.196
x5100   v5100  V5  Var V5 
0.5
 0.497

La puntuación de la 2.a componente principal es:


Nota: Ver tabla 8.

z 2100  ( x1100u21  x2100u22  x3100u23  x4100u24  x5100u25 )


z 2100   0.111  0.368   0.107   0.237    0.313  0.315 +  0.196   0.585   0.497   0.606 
z 2100  0.383
9. Conclusiones del ACP: Continuación
En la tabla 19 se presentan las puntuaciones de la 1.a y 2.a componentes
principales para las observaciones 100,…, 103. La figura 8 presenta el gráfico
de dispersión de estas dos componentes principales (1.a CP: Rendimiento
general y 2.a CP: Rendimiento relativo).

Tabla 19.

Rendimientos semanales

Figura 8.
Apéndice 1: Singular Value Decomposition
Relación entre la data estandarizada y las puntuaciones de las CP
estandarizadas:

Nota: De la figura 9, la relación matricial de los


datos iniciales estandarizados y las puntuaciones
de las componentes principales estandarizadas se
da a través de 𝑋 = 𝑍s 𝐷1/2 𝑈 T , descomposición de
valor singular. Donde: X es la matriz de datos
iniciales estandarizados (media cero y varianza
uno), Zs es la matriz de puntuaciones de las
componentes principales estandarizadas, 𝑫 1/2 es
la matriz diagonal cuyos elementos son la raíz
cuadrada de los autovalores, y UT es la traspuesta
de la matriz de autovectores.

Figura 9.
Apéndice 2:
Detección de posibles observaciones atípicas a través del gráfico de dispersión
de las dos primeras componentes principales estandarizadas:
Gráfico de dispersión

Rendimiento general
Figura 10.
Comentario: De la figura 10, ninguna observación tiene un patrón distinto al
comportamiento común. Es decir, no hay observaciones atípicas.