X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
M 17.99 10.38 122.8 1001 0.1184 0.2776 0.3001 0.1471 0.2419 0.07871
M 20.57 17.77 132.9 1326 0.08474 0.07864 0.0869 0.07017 0.1812 0.05667
M 19.69 21.25 130 1203 0.1096 0.1599 0.1974 0.1279 0.2069 0.05999
M 11.42 20.38 77.58 386.1 0.1425 0.2839 0.2414 0.1052 0.2597 0.09744
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
M 20.13 28.25 131.2 1261 0.0978 0.1034 0.144 0.09791 0.1752 0.05533
M 16.6 28.08 108.3 858.1 0.08455 0.1023 0.09251 0.05302 0.159 0.05648
M 20.6 29.33 140.1 1265 0.1178 0.277 0.3514 0.152 0.2397 0.07016
B 7.76 24.54 47.92 181 0.05263 0.04362 - - 0.1587 0.05884
2.1 Preprocessing
Sebelum melakukan analisis pada data breast cancer, akan dilakukan preprocessing terlebih
dahulu dengan mendeteksi adanya missing value dan outlier pada data breast cancer. Variabel
diagnostic dengan skala pengukuran nominal B dan M dikode dengan 0 dan 1. Hasil deteksi
missing value pada data breast cancer adalah sebagai berikut;
Tabel 3. Deteksi Missing Value
Variabel Missing Value Variabel Missing Value
Radius Mean 0 Compactness Mean 0
Texture Mean 0 Concavity Mean 13
Perimeter Mean 0 Concave Points Mean 13
Area Mean 0 Symmetry Mean 0
Smoothness Mean 0 Fractal Dimension Mean 0
Terdapat missing value padda variabel concavity mean dan concave points mean sebanyak
13. Pada variabel yang terdapat missing value dilakukan imputasi dengan nilai mean, sehingga 10
variabel yang akan dianalisis dapat digunakan untuk mendapat hasil yang terbaik. Selanjutnya
akan dideteksi adanya outlier pada 10 variabel breast cancer yang digunakan dengan menggunakan
boxplot, dengan hasil sebagai berikut;
Gambar 1. Deteksi Outlier
Pada Gaambar 1 menunjukkan bahwa tidak terdapat outlier pada 10 variabel breast cancer
yang digunakan pada penelitian ini, sehingga analisis lebih lanjut dapat dilakukan.
2.2 Statistika Deskriptif
Analisis statistika deskriptif digunakan untuk mengetahui karakteristik suatu data, yaitu
ukuran pemusatan dan penyebaran data. Berikut merupakan hasil statistika deskriptif pada 10
variabel data breast cancer yang digunakan dalam penelitian ini;
Tabel 4. Statistika Deskriptif
Variabel Mean Varians
Radius Mean 14.127292 12.418920
Texture Mean 19.289649 18.498909
Perimeter Mean 91.969033 590.440480
Area Mean 654.889104 123843.554318
Smoothness Mean 0.096360 0.000198
Compactness Mean 0.104341 0.002789
Concavity Mean 0.090876 0.006171
Concave Points Mean 0.050063 0.001450
Symmetry Mean 0.181162 0.000752
Fractal Dimension Mean 0.062798 0.000050
Nilai mean atau rata-rata menunjukkan ukuran pemusatan data, yang dapat mendeskripsikan
nilai dari variabel tersebut, sedangkan nilai varians menunjukkan keragaman data pada variabel
berdasarkan besar kecilnya nilai varians tersebut.
Pada awal proses data telah dilakukan coding pada variabel diagnostic dengan mengganti
“B” yaitu kanker jinak dengan angka 0 dan “M” yaitu kanker ganas dengan angka 1, dengan jumlah
perbedaan berdasarkan kelas sebagai berikut;
Gambar 2. Frekuensi Berdasarkan Kelas
Perbedaan jumlah penderita kanker payudara dengan jenis kanker jinak lebih banyak sekitar
150 penderita jika dibandingkan dengan penderita kanker payudara dengan jenis kanker ganas.
Kemudian akan dianalisis nilai mean dan varians berdasarkan pada variabel diagnostic,
diperoleh hasil sebagai berikut;
Tabel 5. Mean dan Varians Berdasarkan Kelas
Mean Varians
Variabel
B M B M
Radius Mean 12.146524 17.462830 3.170222 10.265431
Texture Mean 17.914762 21.604906 15.961021 14.284393
Perimeter Mean 78.075406 115.365.77 139.415582 477.625870
Area Mean 462.790196 978.376415 18033.030100 135378.355365
Smoothness Mean 0.092478 0.102898 0.000181 0.000159
Compactness Mean 0.080085 0.145188 0.001139 0.002915
Concavity Mean 0.049367 0.160775 0.001872 0.005628
Concave Points Mean 0.02754 0.08799 0.000247 0.001182
Symmetry Mean 0.174186 0.192909 0.000615 0.000764
Fractal Dimension Mean 0.062867 0.062680 0.000046 0.000057
Pada Tabel 4. dapat dilihat perbedaan nilai mean dan varians yang cukup signifikan pada
variabel dengan kelas yang berbeda.
III. Metode
3.1 K – Nearest Neighbor
K-Nearest Neighbor atau KNN merupakan salah satu metode klasifikasi dengan
mengelompokkan berdasarkan jarak terdekat dengan tetangganya [5]. Perhitungan jarak dapat
menggunakan rumus jarak Euclidean ataupun jarak Manhattan. Pada data breast cancer di
penelitian ini, perhitungan jarak dilakukan dengan menggunakan jarak Euclidean, dengan rumus
jarak Euclidean adalah sebagai berikut;
𝑝
DAFTAR PUSTAKA
[1] IARC. World cancer report: International agency forresearch on cancer. Lyon, 2008.
[2] NCI. SEER: Cancer Statistics Review. 2012.
[3] Elmore JG, Nakano CY, Koepsell TD, Desnick LM, Ran-sohoff DF: International variation in
screening mammography interpretations in community-based programs. J NatlCancer Inst
95(18):13841393, 2003.
[4] Veronesi U, Boyle P, Goldhirsch A, Orecchia R, Viale G:Breast cancer. Lancet 365:17271741,
2005.
[5] Altman, N. S. "An introduction to kernel and nearest-neighbor nonparametric regression". The
American Statistician. 46 (3): 175–185. 1992.
[6] N. Cristianini, J.S. Taylor, An Introduction to Support Vector Machine and Other Kernel-
Based Learning Methods”, Cambridge Press University, 2000.
[7] Johnson, R. A, Dean W. Wichern. Applied Multivariate Statistical Analysis, 6th ed. United
States of America: Pearson Education. Inc. 2007.