Anda di halaman 1dari 8

KLASIFIKASI PADA DATA BREAST CANCER WISCONSIN DIAGNOSTIC DENGAN

MENGGUNAKAN KNN, SVM LINEAR DAN NON LINEAR, SERTA ANALISIS


DISKRIMINAN
Dora Isnaini Putri (06211640000110), Ni Luh Putu Satyaning Pradnya Paramita
Departemen Statistika, Fakultas Matematika, Komputasi dan Sains Data
Institut Teknologi Sepuluh Nopember

I. Breast Cancer Wisconsin Diagnostic


Breast cancer atau kanker payudara merupakan salah satu penyebab utama kematian pada
wanita di seluruh dunia [1] . Setiap tahun sekitar 124 dari 100.000 wanita mengidap penyakit
kanker payudara, dan diperkirakan 23 dari 124 wanita yang terkena kanker payudara akan
meninggal akibat penyakit tersebut[2]. Ketika terdeteksi pada tahap awal, penderita kanker
payudara memiliki peluang 30% untuk sembuh, namun keterlambatan deteksi dini pada tumor
stadium lanjut mengakibatkan peluang untuk sembuh semakin kecil [3,4].
Salah satu metode untuk mendeteksi kanker payudara adalah dengan mamografi, FNA (Fine
Needle Aspiration) dan biopsi bedah. Namun, untuk mencapai kinerja terbaik diperlukan
interpretasi yang handal pada sampel FNA. Machine learning dapat dilakukan untuk
menginterpretasi sampel FNA dengan menggunakan klasifikasi pada data yang ada. Oleh karena
itu, pada penelitian ini akan dilakukan beberapa klasifikasi dengan menggunakan K-Nearest
Neighbor, Support Vector Machine, dan Analisis diskriminan.
II. Data, Preprocessing, dan Statistika Deskriptif
Data breast cancer wisconsin diagnostic terdiri dari 32 variabel dan 569 observasi, namun
pada penelitian ini variabel yang digunakan hanya 10 variabel, dengan keterangan variabel sebagai
berikut;
Tabel 1. Variabel Penelitian
Variabel Keterangan Skala Variabel Keterangan Skala
Nominal
X1 Diagnosis B : Benign X7 Compactness Mean Rasio
M : Malignant
X2 Radius Mean Rasio X8 Concavity Mean Rasio
X3 Texture Mean Rasio X9 Concave Points Mean Rasio
X4 Perimeter Mean Rasio X10 Symmetry Mean Rasio
Area Mean Rasio Fractal Dimension Rasio
X5 X11
Mean
Smoothness Rasio
X6
Mean
Data breast cancer Wisconsin diagnostic yang digunakan pada analisis ini adalah sebagai
berikut;
Tabel 2. Data Breast Cancer Wisconsin Diagnostic

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
M 17.99 10.38 122.8 1001 0.1184 0.2776 0.3001 0.1471 0.2419 0.07871
M 20.57 17.77 132.9 1326 0.08474 0.07864 0.0869 0.07017 0.1812 0.05667
M 19.69 21.25 130 1203 0.1096 0.1599 0.1974 0.1279 0.2069 0.05999
M 11.42 20.38 77.58 386.1 0.1425 0.2839 0.2414 0.1052 0.2597 0.09744
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
M 20.13 28.25 131.2 1261 0.0978 0.1034 0.144 0.09791 0.1752 0.05533
M 16.6 28.08 108.3 858.1 0.08455 0.1023 0.09251 0.05302 0.159 0.05648
M 20.6 29.33 140.1 1265 0.1178 0.277 0.3514 0.152 0.2397 0.07016
B 7.76 24.54 47.92 181 0.05263 0.04362 - - 0.1587 0.05884
2.1 Preprocessing
Sebelum melakukan analisis pada data breast cancer, akan dilakukan preprocessing terlebih
dahulu dengan mendeteksi adanya missing value dan outlier pada data breast cancer. Variabel
diagnostic dengan skala pengukuran nominal B dan M dikode dengan 0 dan 1. Hasil deteksi
missing value pada data breast cancer adalah sebagai berikut;
Tabel 3. Deteksi Missing Value
Variabel Missing Value Variabel Missing Value
Radius Mean 0 Compactness Mean 0
Texture Mean 0 Concavity Mean 13
Perimeter Mean 0 Concave Points Mean 13
Area Mean 0 Symmetry Mean 0
Smoothness Mean 0 Fractal Dimension Mean 0
Terdapat missing value padda variabel concavity mean dan concave points mean sebanyak
13. Pada variabel yang terdapat missing value dilakukan imputasi dengan nilai mean, sehingga 10
variabel yang akan dianalisis dapat digunakan untuk mendapat hasil yang terbaik. Selanjutnya
akan dideteksi adanya outlier pada 10 variabel breast cancer yang digunakan dengan menggunakan
boxplot, dengan hasil sebagai berikut;
Gambar 1. Deteksi Outlier
Pada Gaambar 1 menunjukkan bahwa tidak terdapat outlier pada 10 variabel breast cancer
yang digunakan pada penelitian ini, sehingga analisis lebih lanjut dapat dilakukan.
2.2 Statistika Deskriptif
Analisis statistika deskriptif digunakan untuk mengetahui karakteristik suatu data, yaitu
ukuran pemusatan dan penyebaran data. Berikut merupakan hasil statistika deskriptif pada 10
variabel data breast cancer yang digunakan dalam penelitian ini;
Tabel 4. Statistika Deskriptif
Variabel Mean Varians
Radius Mean 14.127292 12.418920
Texture Mean 19.289649 18.498909
Perimeter Mean 91.969033 590.440480
Area Mean 654.889104 123843.554318
Smoothness Mean 0.096360 0.000198
Compactness Mean 0.104341 0.002789
Concavity Mean 0.090876 0.006171
Concave Points Mean 0.050063 0.001450
Symmetry Mean 0.181162 0.000752
Fractal Dimension Mean 0.062798 0.000050
Nilai mean atau rata-rata menunjukkan ukuran pemusatan data, yang dapat mendeskripsikan
nilai dari variabel tersebut, sedangkan nilai varians menunjukkan keragaman data pada variabel
berdasarkan besar kecilnya nilai varians tersebut.
Pada awal proses data telah dilakukan coding pada variabel diagnostic dengan mengganti
“B” yaitu kanker jinak dengan angka 0 dan “M” yaitu kanker ganas dengan angka 1, dengan jumlah
perbedaan berdasarkan kelas sebagai berikut;
Gambar 2. Frekuensi Berdasarkan Kelas
Perbedaan jumlah penderita kanker payudara dengan jenis kanker jinak lebih banyak sekitar
150 penderita jika dibandingkan dengan penderita kanker payudara dengan jenis kanker ganas.
Kemudian akan dianalisis nilai mean dan varians berdasarkan pada variabel diagnostic,
diperoleh hasil sebagai berikut;
Tabel 5. Mean dan Varians Berdasarkan Kelas
Mean Varians
Variabel
B M B M
Radius Mean 12.146524 17.462830 3.170222 10.265431
Texture Mean 17.914762 21.604906 15.961021 14.284393
Perimeter Mean 78.075406 115.365.77 139.415582 477.625870
Area Mean 462.790196 978.376415 18033.030100 135378.355365
Smoothness Mean 0.092478 0.102898 0.000181 0.000159
Compactness Mean 0.080085 0.145188 0.001139 0.002915
Concavity Mean 0.049367 0.160775 0.001872 0.005628
Concave Points Mean 0.02754 0.08799 0.000247 0.001182
Symmetry Mean 0.174186 0.192909 0.000615 0.000764
Fractal Dimension Mean 0.062867 0.062680 0.000046 0.000057
Pada Tabel 4. dapat dilihat perbedaan nilai mean dan varians yang cukup signifikan pada
variabel dengan kelas yang berbeda.
III. Metode
3.1 K – Nearest Neighbor
K-Nearest Neighbor atau KNN merupakan salah satu metode klasifikasi dengan
mengelompokkan berdasarkan jarak terdekat dengan tetangganya [5]. Perhitungan jarak dapat
menggunakan rumus jarak Euclidean ataupun jarak Manhattan. Pada data breast cancer di
penelitian ini, perhitungan jarak dilakukan dengan menggunakan jarak Euclidean, dengan rumus
jarak Euclidean adalah sebagai berikut;
𝑝

𝑑(𝑥𝑖 , 𝑥𝑙 ) = √∑(𝑥𝑖𝑝 − 𝑥𝑙𝑝 )2


𝑖=1 (3.1)
3.2 Support Vector Machine
Support Vector Machine atau SVM merupakan salah satu metode machine learning dengan
tujuan untuk menemukan hyperplane terbaik yang memisahkan dua buah kelas pada inputnya.
SVM dapat digunakan pada problem linear maupun non-linear. Pada SVM linear, problem
klasifikasi dapat diterjemahkan dengan menemukan hyperplane yang memisahkan kedua
kelompok tersebut. Hyperplane pemisah terbaik dapat ditemukan dengan mengukur margin
hyperplane dan mencari titik maksimalnya. Pada SVM non-linear, data yang berada pada ruang
vektor awal berdimensi D, harus dipetakan ke ruang vektor berdimensi lebih tinggi. Terdapat
Kernel trick yang digunakan pada SVM non-linear, yaitu menghitung dot product dua buah vektor
di ruang vektor baru dengan memakai komponen kedua buah vektor tersebut di ruang vektor asal
[6].
3.3 Analisis Diskriminan
Analisis diskriminan merupakan salah satu metode klasifikasi dengan memisahkan beberapa
kelompok data yang sudah terkelompokkan dengan cara membentuk fungsi diskriminan [7].
IV. Analisis dan Pembahasan
Data breast cancer sebelumnya telah dilakukan splitting data, data dibagi menjadi data
training dan data testing dengan perbandingan 80:20. Kemudian dari data training akan
didapatkan model untuk memprediksi data testing. Akan dilakukan perbandingan hasil prediksi
terbaik dengan metode yang digunakan. Pada metode KNN akan dibandingkan hasil prediksi
terbaik dengan menggunakan beberapa nilai K, yaitu K=3, 7, 15. Pada metode SVM linear akan
dibandingkan hasil prediksi terbaik dengan menggunakan tuning parameter nilai c=0.1, 0.001, 1,
10, 100, sedangkan pada SVM non-linear dilakukan tuning parameter dengan melakukan
kombinasi nilai c dan gamma yang berbeda-beda. Kemudian dengan menggunakan analisis
diskriminan dengan menggunaka dua komponen.
4.1 KNN dengan K=3, 7, 15
Hasil prediksi data testing breast cancer dengan menggunakan KNN menghasilkan nilai
akurasi, MSE dan R2 sebagai berikut;
Tabel 6. Akurasi, MSE dan R2 Metode KNN
K Akurasi MSE R2
3 89.47% 0.1 0.57
7 90.35% 0.09 0.61
15 92.11% 0.07 0.68
Berdasarkan hasil perbandingan dengan nilai K yang berbeda-beda menunjukkan bahwa
dengan menggunaka K=15 menghasilkan prediksi terbaik, dapat dilihat dari nilai akurasi dan R2
yang tinggi, nilai MSE yang rendah. Hasil prediksi dengan K=15 adalah sebagai berikut;
Tabel 7. Hasil Prediksi KNN dengan K=15

0 9 19 29,1 39 49,1 59 69 79 89 99 109


0 10 20,1 30 40,1 50 60 70 80,1 90 100 110
1 11 21 31 41,1 51,1 61 71 81 91 101 111
2 12 22 32 42 52 62 72 82 92 102 112
3 13 23 33 43,1 53,1 63,1 73,1 83 93,1 103 113
4 14 24 34 44 54 64 74 84,1 94,1 104,1
5,1 15 25 35 45,1 55,1 65 75 85,1 95,1 105,1
6,1 16 26 36 46 56,1 66,1 76,1 86 96,1 106
7 17,1 27,1 37,1 47 57,1 67 77 87 97,1 107
8 18 28,1 38,1 48,1 58 68,1 78 88,1 98 108
4.2 SVM Linear
Hasil prediksi data testing breast cancer dengan menggunakan SVM linear menghasilkan
nilai akurasi, MSE dan R2 sebagai berikut;
Tabel 8. Akurasi, MSE dan R2 Metode SVM Linear
Nilai C Akurasi MSE R2
0.1 90.35% 0.09 0.61
0.001 91.23% 0.08 0.65
1 92.11% 0.07 0.68
10 92.98% 0.07 0.72
100 93.86% 0.06 0.75
Berdasarkan hasil pada Tabel 7 menunjukkan bahwa model yang baik dalam memprediksi
data testing breast cancer adalah dengan SVM linear dengan nilai C=100, dimana dapat
menghasilkan akurasi sebesar 93.86% dengan error sebesar 0.06 dan nilai R2 yang cukup tinggi.
Hasil prediksi dengan nilai C=100 adalah sebagai berikut;
Tabel 9. Hasil Prediksi dengan SVM Linear, C=100

0 9,1 19,1 29,1 39 49,1 59 69 79 89 99,1 109,1


0 10,1 20 30 40 50,1 60,1 70,1 80 90,1 100 110,1
1 11 21,1 31 41 51 61,1 71,1 81,1 91,1 101 111,1
2 12,1 22,1 32,1 42,1 52 62 72 82,1 92 102 112,1
3 13,1 23,1 33,1 43 53 63 73 83 93 103 113,1
4,1 14,1 24 34,1 44 54 64 74,1 84,1 94 104
5 15,1 25,1 35,1 45,1 55 65,1 75,1 85,1 95 105,1
6 16 26,1 36 46,1 56,1 66 76,1 86 96,1 106,1
7,1 17 27 37,1 47 57 67 77,1 87 97,1 107,1
8,1 18 28 38 48 58 68 78,1 88,1 98 108,1
4.3 SVM Non-Linear
Hasil prediksi data testing breast cancer dengan menggunakan SVM linear menghasilkan
nilai akurasi, MSE dan R2 sebagai berikut;
Tabel 10. Akurasi, MSE dan R2 Metode SVM Non-Linear
Nilai C Nilai Gamma Akurasi MSE R2
1 Auto 60.53% 0.4 -0.58
10 Auto 64.91% 0.35 -0.41
100 Auto 64.91% 0.35 -0.41
0.1 Auto 53.51% 0.46 -0.87
0.01 Auto 53.51% 0.46 -0.87
1 0.01 91.23% 0.08 0.64
10 0.01 88.60% 0.11 0.54
100 0.01 85.96% 0.14 0.43
1 100 53.51% 0.46 -0.87
10 100 53.51% 0.46 -0.87
Berdasarkan hasil tuning parameter pada SVM non-linear menghasilkan model yang paling
baik dalam memprediksi data testing breast cancer adalah dengan menggunakan nilai C=1,
Gamma=0.01 dan koefisien kernel yaitu ‘rbf’ menghasilkan prediksi dengan akurasi sebesar
91.23%, error sebesar 0.08 dan R2 sebesar 0.64. Hasil prediksinya adalah sebagai berikut;
Tabel 11. Hasil Prediksi dengan SVM Non-Linear, C=1, Gamma=0.01, Kernel=rbf

0 9,1 19,1 29 39 49 59 69 79 89 99,1 109,1


0 10,1 20 30 40 50,1 60 70,1 80 90,1 100 110,1
1 11 21,1 31 41 51 61,1 71,1 81 91,1 101 111,1
2 12,1 22,1 32,1 42,1 52 62 72 82,1 92 102 112
3 13,1 23,1 33,1 43 53 63 73 83 93 103 113,1
4,1 14 24,1 34,1 44 54 64 74,1 84,1 94 104
5 15,1 25,1 35,1 45,1 55 65,1 75,1 85,1 95 105,1
6 16 26,1 36 46,1 56,1 66,1 76,1 86 96,1 106,1
7,1 17 27 37,1 47 57 67 77,1 87 97,1 107
8,1 18 28 38 48 58 68 78,1 88,1 98 108,1
4.4 Analisis Diskriminan
Hasil prediksi dengan menggunakan metode analisis diskriminan dengan mengelompokan
data dalam dua kelompok menghasilkan nilai akurasi sebesar 93.86% dan nilai MSE serta R2
sebesar 0.06 dan 0.75. Hasil prediksi adalah sebagai berikut;
Tabel 12. Hasil Prediksi dengan Analisis Diskriminan

0 9,1 19,1 29,1 39 49,1 59 69 79 89 99,1 109,1


0 10,1 20 30 40 50,1 60 70,1 80 90,1 100 110,1
1 11 21,1 31 41 51 61,1 71,1 81 91,1 101 111,1
2 12 22,1 32,1 42,1 52 62 72 82,1 92 102 112,1
3 13,1 23,1 33 43 53 63 73 83 93 103 113,1
4,1 14,1 24 34,1 44 54 64 74,1 84,1 94 104
5 15,1 25 35,1 45,1 55 65,1 75,1 85,1 95 105,1
6,1 16 26,1 36 46,1 56,1 66 76,1 86 96,1 106
7,1 17 27 37 47 57 67 77,1 87 97,1 107,1
8,1 18 28 38 48 58 68 78,1 88,1 98 108,1
V. Kesimpulan
Berdasarkan hasil analisis klasifikasi dengan menggunakan metode KNN, SVM linear dan
non-linear serta analisis diskriminan menunjukkan bahwa model training yang paling baik dalam
memprediksi data testing pada data breast cancer Wisconsin diagnostic adalah dengan SVM Linear
dengan C=100 dan dengan menggunakan analisis diskriminan dengan kelompok sebanyak dua,
yaitu menghasilkan akurasi sebesar 93.86%, MSE sebesar 0.06 dan R2 sebesar 0.75.

DAFTAR PUSTAKA

[1] IARC. World cancer report: International agency forresearch on cancer. Lyon, 2008.
[2] NCI. SEER: Cancer Statistics Review. 2012.
[3] Elmore JG, Nakano CY, Koepsell TD, Desnick LM, Ran-sohoff DF: International variation in
screening mammography interpretations in community-based programs. J NatlCancer Inst
95(18):13841393, 2003.
[4] Veronesi U, Boyle P, Goldhirsch A, Orecchia R, Viale G:Breast cancer. Lancet 365:17271741,
2005.
[5] Altman, N. S. "An introduction to kernel and nearest-neighbor nonparametric regression". The
American Statistician. 46 (3): 175–185. 1992.
[6] N. Cristianini, J.S. Taylor, An Introduction to Support Vector Machine and Other Kernel-
Based Learning Methods”, Cambridge Press University, 2000.
[7] Johnson, R. A, Dean W. Wichern. Applied Multivariate Statistical Analysis, 6th ed. United
States of America: Pearson Education. Inc. 2007.

Anda mungkin juga menyukai