1, Januari 2010 : 31 – 38 31
ABSTRACT
Principal component analysis (PCA) is a method used to reduce dimentionality of the dataset. However, the use
of PCA failed to carry out the problem of non-linear and non-separable data. To overcome this problem such
data is more appropriate to use PCA method with the kernel function, which is known as the kernel PCA
(KPCA). In this paper, Iris dataset visualized with PCA and KPCA, that contains are the length and the width of
sepal and petal.
berdistribusi normal multivariat dengan mean μ Meskipun PCA merupakan suatu metode
dan matriks kovariansi Σ, serta akar yang sangat baik untuk mereduksi sejumlah
karakteristik λ1 ≥ … ≥ λp ≥ 0. Principal dimensi variabel dan sangat baik pula untuk
component (PC) adalah kombinasi linier dari p menemukan feature, namun ada beberapa
variabel yang diobservasi, atau dapat ditulis keterbatasan-keterbatasan, antara lain:
Y = AX, a) Berdasarkan asumsi bahwa PCA hanya
dengan Y′ = (Y1, …, Yp), A = dapat mengatasi masalah hubungan antara
setiap data yang linier, sedangkan
⎡ a11 a12 K a1 p ⎤ kenyataannya dalam dalam setiap situasi
⎢ ⎥ hubungan data ada yang non-linear dan
⎢ a21 a22 K a2 p ⎥ , dan X′ = (X1, …, Xp). non-separable.
⎢M ⎥ b) PCA hanya memperhatikan mean dan
⎢ ⎥ variansi data, hal ini berarti bahwa PCA
⎢⎣ a p1 a p 2 K a pp ⎥⎦ tidak memandang data berdistribusi
Sehingga masing-masing PC dapat ditulis probabilitas eksponensial (misalnya
sebagai Gaussian).
Y1 = a11X1 + a21X2 +… + ap1Xp = a1′X c) Principal component tidak diurutkan dari
variansi besar ke variansi yang lebih kecil,
Y2 = a12X1 + a22X2 +… + ap2Xp = a′2 X tetapi variansi yang paling besar tidak
…
ν′ν = ∑α α k
i
k
j
〈Φ( x i ), Φ ( x j )〉
i , j =1
m
Gambar 1. Ide Dasar KPCA (Schölkopf et al.
1996).
= ∑ α α Φ ( x )Φ ( x )′ =
k
i
k
j i j
(αk)′Kαk
i , j =1
= λk(αk)′αk = 1 (9)
dan masalah eigen-value di ruang feature F
Untuk mengekstraksi PC, maka semua peta
dapat dinyatakan sebagai:
dari input vektor z, yaitu Φ(z), harus
λν = Cν (2)
diproyeksikan ke vektor ν yang telah
di mana ν eigen vector dari C dalam ruang F.
dinormalisasi. Untuk menghitung proyeksi
Jadi, dengan argumen yang sama, Persamaan
tersebut digunakan
(2) ekivalen dengan, m
λ〈Φ(xk), ν〉 = 〈Φ(xk), Cν〉, ∀k = 1, 2, …, m ν′Φ(z)= ∑ α i k ( x, z ) (3)
(10)
k
)
i =1
i
m j =1
j j
j =1
i k
Kernel PCA (Seng 2006) digunakan untuk
m
λ ∑ α i Φ ( x k ), Φ ( x i ) =
1 m m
memvisualisasi data diabetes Pima-Indian.
∑α Φ ( x ), ∑ Φ ( x ) 〈Φ ( x ), Φ ( x )〉
i =1 m i =1
i k
j =1
j j i
untuk memvisualisasi data dengan dimensi menunjukkan hubungan yang sangat tinggi,
yang berbeda dari atribut eksplanatorinya. dan species virginica lebih besar (dari segi
Meskipun tidak untuk memisahkan dua kelas ukuran, panjang daun dan lebar daun)
data secara total, akan tetapi dapat dibandingkan dengan species lainnya.
memvisualisasi data berdasarkan seluruh PCA dilaksanakan pada dataset setelah
atribut eksplanatori distandarisasi data yang menggunakan
algoritma PCA baku. Setiap eigen-value
METODE diperoleh melalui software, dihubungkan
dengan PC dan tingkat pengenalan masing-
Visualisasi data didahului dengan melakukan masing (Tabel 2).
penelaahan referensi yang terkait, melalui Gambar 3 menunjukkan kontribusi
perpustakaan. Selanjutnya, dilakukan searching kumulatif PC dari uraian data. Gambar ini
data melalui internet. Data yang digunakan adalah memperlihatkan bahwa hingga tiga PC pertama
data sekunder, yaitu Iris Data Set yang
disumbangkan oleh Marshall (1988). Untuk
diperlukan untuk menjelaskan sekitar 97%
membedakan metode PCA dan KPCA dalam data data, dan dua PC pertama bisa menjelaskan
ini, dianalisis menggunakan beberapa software sekitar 90% data.
program, antara lain, R, Minitab 13, SPSS 12.0 for Proyeksi data Iris berturut-turut untuk dua
Windows, dan S-Plus 2000. dan tiga PC ditunjukkan pada Gambar 4. Dapat
dilihat pada Gambar 4 bahwa terdapat klaster
HASIL DAN PEMBAHASAN data menurut kelasnya (species Setosa,
Versicolour dan Virginica), namun ketiga
Data Iris yang divisualisasikan di sini meliputi species itu tidak linier separable. Oleh karena
150 contoh, terdiri atas tiga kelas masing- klasifikasi data non-linear dan non-separable,
masing 50 contoh. Data ini dibagi atas 5 maka digunakan KPCA untuk meninjau atau
atribut, yang terdiri dari 4 atribut prediktif mengenal pola terbaik. Fungsi kernel yang
(numerik), sepal length, sepal width, petal digunakan adalah radial basis function (RBF),
length, petal width, yang semuanya diukur atau dikenal pula dengan kernel Gaussian.
dalam cm, dan satu atribut kelas yang terbagi Beberapa nilai argumen (σ) digunakan untuk
atas tiga jenis, Iris Setosa, Iris Versicolour, dan melihat salah satu yang menghasilkan pola
Iris Virginica. Deskripsi data ini dapat dilihat terbaik. Hasil visualisasi dari beberapa kondisi
pada Tabel 1. ini disajikan pada Gambar 5. Dari beberapa
nilai argumen, ada kecenderungan berhimpitan
Tabel 1. Deskripsi data iris. satu jenis data dengan jenis data lainnya.
Kondisi ini tidak lebih baik digunakan untuk
Korelasi
Variabel Min Max Mean SD
Kelas
visualisasi separasi kelas-kelas yang berbeda.
Sepal Nilai argumen (σ) yang dipikirkan
4,30 7,90 5,8433 0,82807 0,7826
Length (diperhatikan) lebih baik adalah σ = 0,001,
Sepal karena nilai argumen ini memberikan separasi
2,00 4,40 3,0573 0,43587 -0,4194
Width
Petal
antar jenis data dengan baik. Hal ini tampak
1,00 6,90 3,7580 1,76530 0,9490 jelas pada Gambar 5, dimana untuk argumen
Length
Petal yang diperhatikan, memberikan separasi linier
0,10 2,50 1,1993 0,76224 0,9565
Width secara sempurna.
Untuk memvisualisasikan separasi secara
Dari Tabel 1 tampak bahwa petal length lebih rinci, dipilih scatterplot dua PC pertama
(panjang daun) dan petal width (lebar daun) menggunakan KPCA dengan kernel RBF, σ =
memiliki korelasi yang sangat tinggi. 0,001, seperti ditunjukkan di dalam Gambar
Sedangankan, Scatterplot masing-masing 6(a), dan scatterplot 3-D untuk tiga PC pertama
variabel dapat dilihat pada Gambar 2. menggunakan KPCA dengan kernel RBF, σ =
Gambar 2 menunjukkan bahwa setiap 0,001, yang ditunjukkan di dalam Gambar 6(b).
variabel tidak dapat dipisah garis linier secara Dengan membandingkan Gambar 4(a) dan 4(b)
sempurna, terutama antara species versicolour dengan Gambar 6(a) dan 6(b) berturut-turut,
dengan species virginica. Di samping itu, tampak bahwa KPCA memberikan separasi
antara petal length dengan petal width yang yang lebih baik daripada PCA linier.
Jurnal ILMU DASAR Vol. 11 No. 1, Januari 2010 : 31 – 38 35
5.00
Sepal.Width
Petal.Length
3.50
4.00
3.00
3.00
2.50
2.00
2.00 1.00
4.00 5.00 6.00 7.00 8.00 4.00 5.00 6.00 7.00 8.00
Sepal.Length Sepal.Length
Petal.Width
Petal.Width
1.50 1.50
1.00 1.00
0.50 0.50
0.00
0.00
4.00 5.00 6.00 7.00 8.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00
Sepal.Length Petal.Length
7.00 2.50
6.00
2.00
5.00
Petal.Length
Petal.Width
0.50
2.00
1.00 0.00
2.00 2.50 3.00 3.50 4.00 4.50 2.00 2.50 3.00 3.50 4.00 4.50
Sepal.Width Sepal.Width
100 100%
90
80 80%
70
60%
Proportion
60
Percent
50
40 40%
30
20 20%
10
0 0%
1 2 3 4
Principal Component
3
Species
2 Setosa
2nd Principal Component
Versicolour 2
1 Virginica1
PC2
0 0
-1
-2
-2
-1
-3 0
0
-3 31
-2 0 2
PC 1 PC3
1st Principal Component
(a) (b)
Gambar 4. Data Iris dalam (a) dua PC pertama dan (b) tiga PC pertama.
Jurnal ILMU DASAR Vol. 11 No. 1, Januari 2010 : 31 – 38 37
Species
Setosa Versicolour Virginica
8.0
0.4
6.0
4.0 0.2
2.0
PC2
PC2
0.0
0.0
-2.0 -0.2
-4.0
-0.4
-6.0
-1.0 0.0 1.0 2.0 -0.2 -0.1 0.0 0.1
PC1 PC1
0.4 0.4
0.2 0.2
PC2
PC2
0.0 0.0
-0.2 -0.2
-0.4 -0.4
-0.2 -0.1 0.0 0.1 -0.2 -0.1 0.0 0.1
PC1 PC1
1.0
0.0
0.5
0.0 -1.0
PC2
PC2
-0.5
-2.0
-1.0
-1.5 -3.0
0.0 0.5 1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5
PC1 PC1
Gambar 5. Scatterplot KPCA menggunakan kernel RBF dengan beberapa nilai σ. Gambar 5.
Scatterplot KPCA menggunakan kernel RBF dengan beberapa nilai σ.
38 Visualisasi Data Iris .....(Ismail Djakaria dkk)
8.0 Species
Setosa 8
6.0
Versicolour
4.0 Virginica1
4
2.0
PC2
PC2
0.0
0
-2.0
-4.0 -4
-6.0 -10
0
-1.0 0.0 1.0 2.0 -1 0 1 2 10
PC1 3
PC1 PC
(a) (b)
Gambar 6.Data Iris dalam (a) Dua PC pertama dan (b) Tiga PC pertama menggunakan KPCA
dengan σ = 0,001.