Sin pérdida de generalidad y para facilitar las interpretaciones se asume que la matriz de datos
está centrada X = {x̃ij } = {xij − x̄j } de manera que m(X) = 0. Defı́nase la i-ésima fila de X por
X
x̃i = (x̃i1 , . . . , x̃ip ), entonces los elementos de X son los productos escalares entre las filas de X,
los
cuales para dos filas cualesquiera i e i de X tienen la forma:
p
πii = x̃i x̃i = x̃ij x̃i j = |x̃i | |x̃i | cos(θii ) (36)
j=1
donde |x̃i | es la raı́z cuadrada de la norma de la fila i y θii es el ángulo entre las filas i e i . Por otra
parte la distancia euclideana entre los objetos i e i tiene la forma:
p
p
p
p
d2i,i = (x̃ij − x̃i j )2 = x̃2ij + x̃2i j − 2 x̃ij x̃i j (37)
j=1 j=1 j=1 j=1
El hecho de que las distancias entre las filas de X se puedan expresar en función del coseno entre
ellas, permite interpretar el producto escalar como una medida de similitud entre pares de objetos obser-
vados, de manera que cuando están cerca (se parecen) el ángulo formado por ellos es pequeño, mientras
que si están lejos (no se parecen) tienden a estar lejos su producto escalar tenderá a ser pequeño. En
este sentido XX o sea entre los objetos.
puede verse como una matriz de similitudes entre las filas de X
La situación se ilustra en la siguiente gráfica
i e i similares i e i diferentes
31
La interpretación dada y la representacion matemática que tiene producen una solución al problema
de qué hacer cuando no se dispone de los datos originales que describen los objetos de interés y en su
lugar se dispone de las distancias entre ellos. Visto de otra forma, el problema consiste en utilizar una
matriz simétrica D de distancias entre objetos y ceros en la diagonal para obtener las variables que
generaron estas distancias. El problema dual cuando se dispone de una matriz de similitudes se resuelve
utilizando la relación
distancia = 1 − similitud
para obtener las distancias entre los objetos y aplicar la misma técnica.
La metodologı́a para resolver dicho problema se conoce como la técnica de escalamiento multidi-
mensional, y puede verse como una técnica dual a la de las componentes principales, que parten de
asoiciaciones (covarianzas o correlaciones) entre variables, mientras que en el escalamiento multidimen-
sional la información de arranque es similitudes (o distancias) entre objetos.
Ejemplos tı́picos de aplicaciones del escalamiento multidimensional reportados en Trevor F. Cox
(2001) son:
El estudio de la estructura de proximidad social de una colonia de 14 simios japoneses realizado
por Corradino (1990) observados durante 273 horas entre 1984 y 1985.
El estudio de los más reconocidos whiskies de una sola malta y sus caracterı́sticas y si hay alguna
influencia geográfica respecto a estos contextos reportado en (Lapointe & Legendre 1994)
El análisis del desempeño de pilotos novatos y expertos en vuelos de combate simulados, mostrando
que los pilotos expertos se caracterizaban por sus capacidades de maniobrabilidad y uso de la
energı́a realizado por Polzella & Reid (1989)
Poste & Patterson (1988) seleccionaron 4 clases de yogourth de marca y 8 de yogourth tipo suizo
para evaluar similitudes e intensidad de 9 atributos: color, cantidad de fruta presente, sabor,
dulzura, acidez, grumosidad, grano, viscosidad ajustada y gusto después de la prueba.
Formalmente, y siguiendo a Trevor F. Cox (2001) se define la mariz centrada por:
d2ii = (xi − xi ) (xi − xi ) = xi xi + xi xi − 2xi xi (40)
obtiene la matriz Π que contiene los productos escalares entre sus filas:
A partir de X
X
Π=X = {xi xi } , (41)
la cual es semi-definida positiva de rango p y por tqnto tiene p valores porpios diferentes de cero.
Ahora para obtener Π a partir de las distancias se utiliza el hecho de que X está centrada y por
tanto, para todo i = 1, . . . , n:
n
x̃ij = 0 (42)
i=1
Ahora, a partir de las distancias d2ii definidas en (40) se obtienen primero los productos escalares
de la matriz Π y de ésta las coordenadas (desconocidas) que originaron las distancias como sigue:
Sumando en (40) con respecto a i y luego con respecto a i , y utilizando (42) se obtiene4 :
4 Para el despeje debe hacerse primero la multiplicación en el término negativo y después intercambiar el orden de la
doble suma
32
n n
1 2 1
dii = x xi + xi xi
n i=1 n i=1 i
n n
1 2 1
dii = xi xi + x i x i
n n
i =1 i =1
n n
1 2
d2ii = x xi (43)
n2 i=1
n i=1 i
Despejando xi xi en (40) y reemplazando las igualdades obtenidas en (43) se obtienen las siguientes
expresiones para los productos escalares en términos de las distancias:
n n n n
1 1 2 1 2 1 2
xi xi =− d2ii − dii − dii + 2 dii (44)
2 n i=1 n n i=1
i =1 i =1
Ahora se define una matriz Δ = {δii } = {− 12 d2ii } y se definen los siguientes elementos:
n n n n
1 2 1 2 1 2
δi. = d δ .i = dii δ.. = 2 dii (45)
n i=1 ii n n i=1
i =1 i =1
de manera que
xi xi = δii − δi. − δ.i + δ.. (46)
De esta forma usando P como se dfinió en (??PX)) se puede reconstruir la matriz de productos
escalares en términos de las distancias ası́:
Π = P ΔP (47)
Para completar la recosntrucción de la matriz Π a partir de las distancias, sea Λ = diagλ1 , . . . , λp ,
donde λ1 , . . . , λp son los p valores propios diferentes de cero de Π y V una matriz que contiene los p
vectores propios correspondientes a dichos valores propios. Entonces del teorema de la descomposición
espectral se obtiene:
Π = V ΛV (48)
1 1/2 1/2
y por taanto, defieniendo Λ 2 = {diagλ1 , . . . , λp } y X = V Λ1/2 queda reconstruida la mariz de
coordenadas originales a partir de las distancias por:
Π = XX (49)
Ejemplo 5.1. Reconstruir la geografı́a del colombiana a partir de las distancias por tierra en kilometros
por carretera entre varias ciudades colombianas, tomadas de la página
http://repositorio.utp.edu.co/dspace/bitstream/handle/11059/3192/Costos
Parte del archivo se reproduce a continuación
> CColombianas<-read.csv2("DISTANCIAS_C_COlombianas.csv")
> CColombianas[1:10,1:10]
33
4 Bucaram 725 739 439 0 937 923 917 210 986
5 Buenav 235 1116 519 937 0 129 1154 1138 564
6 Cali 194 1212 484 923 129 0 1088 1133 521
7 Cartag 974 124 1178 917 1154 1088 0 1050 1507
8 Cucuta 935 926 649 210 1138 1133 1050 0 1179
9 Floren 533 1849 547 986 564 521 1507 1179 0
10 Ibague 81 1179 205 644 319 279 1055 854 452
El mapa reproducido y mostrado en el gráfico refleja de manera bastante aproximada las posiciones
de las ciudades colombianas. Se encuentra un poco distrosionado debido a que las distancias utilizadas
son mediaas por carretera y como nuestro paı́s no comunica todas las ciudades por carretera no están
disponibles las distancias a Leticia, Mocoa, Puerto Inı́rida entre otras.
> colombianas<-CColombianas[,1]
> rownames(CColombianas)<-CColombianas[,1]
> CColombianas[,1]<-NULL
> CColombianas<-as.dist(CColombianas)
> DistCol<-cmdscale(CColombianas)
> x<--DistCol[,1]
> y<--DistCol[,2]
> plot(y, x, type = "n", xlab = "", ylab = "", asp = 1, axes = FALSE,
+ main = "Distancias entre ciudades colombianas", cex=0.7)
> text(y,x,rownames(DistCol), cex = 1.2)
34
Distancias entre ciudades colombianas
Rioacha
San_Mart
Barranq
Valledu
Cartag
Sincele
Monteria
Cucuta
Bucara
Medellin
Quibdo Tunja
Maniza Villavo
Bogota
Pereira
Armen
Ibague
Buenav
Cali
Neiva
Popay
Pasto Floren
35