Abstrak—Asian Games adalah ajang terbaik untuk Karena alasan tersebut, kami akan menggunakan
membuktikan keunggulan dari masing-masing negara yang metode K-Means Clustering untuk menganalisis
diukur dari jumlah medali yang diperoleh. Mayoritas hubungan antara GDP growth dan populasi terhadap
peraih medali tertinggi di ajang Asian Games adalah perolehan medali pada Asian Games 2018. Metode K-
negara yang tingkat perekonomian dan populasinya tinggi. Means Clustering adalah metode yang biasa digunakan
Pada paper ini, kami akan membuktikan apakah ada untuk secara otomatis mempartisi suatu kumpulan data ke
hubungan antara jumlah medali yang didapat terhadap dalam bentuk satu atau lebih dari satu kelompok sehingga
GDP growth dan populasi pada kontingen negara-negara data yang memiliki karakteristik sama akan
peserta Asian Games 2018. Metode yang digunakan adalah
dikelompokkan ke dalam satu kelompok yang sama [4].
K-Means Clustering. Hasil dari penelitian ini adalah
pembuktian apakah terdapat hubungan antara jumlah
medali yang didapat dengan GDP growth dan populasi II. METODOLOGI
kontingen negara-negara peserta Asian Games 2018.
A. Dataset
Kata Kunci :— Asian Games, GDP growth, populasi, Dataset yang digunakan pada paper ini adalah data
clustering, K-Means
Asian Games yang kami peroleh dari situs resmi Asian
Games 2018 [1]. Data ini berisi 5 kolom dan 37 baris.
I. PENDAHULUAN Data yang ada pada 5 kolom tersebut adalah rank NOC
Asian Games adalah ajang terbaik untuk (National Olympic Committee), gold, silver, bronze dan
membuktikan keunggulan dari masing-masing negara total. Rank NOC (National Olympic Committee) berisi
yang mengikuti ajang tersebut. Pencapaian yang didapat data daftar negara-negara peserta Asian Games yang
bagi suatu negara dianggap seperti keberhasilan yang diurutkan berdasarkan peringkat. Data gold, silver, dan
cukup penting. Dari alasan tersebut, maka prestasi bronze berisi perolehan medali emas, perak, dan perunggu
(medali) yang diperoleh baik emas, perak, ataupun masing-masing negara peserta Asian Games. Data total
perunggu oleh tiap negara dapat menjadi tolok ukur berisi jumlah medali emas, perak dan perunggu yang
evaluasi pencapaian negara tersebut. didapat oleh negara-negara peserta Asian Games. Baris
ke-1 hingga baris ke-37 pada kolom pertama adalah data
Mayoritas peraih medali terbanyak pada ajang Asian nama-nama negara yang mengikuti Asian Games yang
Games adalah negara-negara yang cukup maju yang diurutkan berdasarkan perolehan medali terbanyak.
memiliki jumlah penduduk yang cukup banyak[1]. Saat Kolom gold, silver, dan bronze, berisi data-data perolehan
ini belum ada penelitian yang membahas mengenai medali yang diperoleh oleh masing-masing negara. Pada
hubugan perolehan medali dengan tingkat perekonomian kolom total berisi jumlah perolehan medali dari masing-
suatu negara ataupun jumlah populasi suatu negara pada masing negara. Awalnya, data berisikan 37 kontingen
ajang Asian Games. Oleh karena itu, pada paper ini kami peserta Asian Games. Kami menghapus kontingen
akan melakukan penelitian untuk mencari tahu apakah “Korea” pada data tersebut dikarenakan kontingen
ada hubungan antara tingkat perekonomian dan populasi tersebut merupakan gabungan dari negara Korea Utara
suatu negara terhadap perolehan medali pada saat Asian dan Korea Selatan. Masing-masing negara antara Korea
Games 2018 menggunakan metode K-Means Clustering. Utara dan Korea Selatan juga telah mengirim
Metode K-Means Clustering telah digunakan di kontingennya masing-masing selain kontingen gabungan
banyak penelitian. Contohnya adalah pada penelitian itu, sehingga kami hanya menggunakan data tersebut
Tessa K.Anderson yang menggunakan K-Means untuk untuk di clustering. Jadi, banyak data yang kami gunakan
menentukan area yang menjadi tempat rawan kecelakaan adalah sebanyak 36 baris dan 5 kolom.
di London,Inggris [2]. Penelitian lain yang menggunakan Kemudian, kami juga menggunakan data GDP (Gross
K-Means Clustering adalah penelitian H.P.Ng, dkk yang Domestic Product) growth yang kami ambil dari The
menggunakan K-Means Clustering untuk segmentasi citra World Factbook Central Intelligence Agency [5]. Data
dalam medis [3]. K-Means Clustering dipilih karena GDP growth adalah data pertumbuhan jumlah produk
metode ini merupakan metode pengelompokan yang yang dihasilkan oleh unit-unit produksi di dalam batas
sederhana dengan kompleksitas yang cukup rendah. wilayah suatu negara yang berupa barang dan jasa dalam
jangka waktu satu tahun. Data tersebut terdiri dari 2 C. Metode Elbow
kolom dan 224 baris. Data yang ada pada 2 kolom tersebut Metode elbow merupakan metode yang digunakan
ialah data Country dan (%) GDP Growth. Pada kolom untuk menentukan jumlah cluster terbaik dengan melihat
country dari baris ke-1 hingga baris ke-224 tercantum persentase perbandingan antara jumlah cluster yang akan
nama-nama seluruh negara. Pada kolom (%) GDP Growth membentuk siku-siku pada suatu titik [8]. Hasil
berisi data GDP growth dalam bentuk persen dari masing- perbandingan persentase masing-masing cluster dapat
masing negara. Data yang diambil hanyalah data negara- ditunjukkan dalam bentuk grafik. Kemudian lihat
negara yang merupakan kontingen-kontingen negara persentase cluster mana yang memiliki selisih yang paling
peserta Asian Games 2018. jauh, dalam grafik digambarkan dengan penurunan yang
Terakhir, kami menggunakan data populasi dari Asian paling besar. Maka, jumlah cluster terbaik adalah sama
Countries by Population (2018) Worldometers [6]. Data dengan cluster yang memiliki penurunan yang paling
tersebut terdiri dari 2 kolom dan 51 baris. Kolom tersebut besar dan memiliki sudut yang paling lancip pada grafik
memuat data country (or depedency) yang berisi data [9]. SSE (Sum of Square Error) dari nilai cluster
nama-nama negara yang ada di Asia dan population digunakan untuk mendapatkan persentase perbandingan
(2018) yang berisi jumlah populasi. Data yang diambil masing-masing cluster. SSE pada K-Means dapat
hanyalah data negara-negara yang merupakan kontingen- dihitung menggunakan persamaan (3) [10].
kontingen peserta Asian Games 2018. 2 ....................(3)
𝑆𝑆𝐸 = ∑ ∑ ||𝑋 − 𝐶 ||
2
B. K-Means Clustering
K-Means Clustering adalah metode yang biasa III. HASIL
digunakan untuk secara otomatis mempartisi suatu
Hasil yang kami dapatkan adalah terlihat penurunan
kumpulan data ke dalam bentuk satu atau lebih dari satu
yang sangat besar dari nilai k=1 hingga k=2, penurunan
cluster/kelompok, sehingga data yang memiliki
juga terlihat cukup besar dan membentuk siku pada k=3,
karakteristik sama akan dikelompokkan ke dalam satu
lalu pada saat k=4 penurunan sudah terlihat cukup stabil
cluster yang sama [4].
hingga k=9. Oleh karena itu jumlah cluster terbaik yang
Cara kerja K-means clustering adalah memproses data kami pilih adalah 3, karena pada saat k=3 grafik
secara berulang-ulang untuk mendapatkan hasil cluster. membentuk siku walaupun tidak terlalu lancip.
Pada K-means, jumlah cluster sudah ditentukan dari awal. Hasilnya dapat dilihat pada gambar 1.
Kemudian K-means akan memilih nilai K sebagai titik
awal centroid secara acak. Untuk jumlah iterasi yang
dilakukan untuk mencapai cluster centroid, dipengaruhi
oleh kandidat cluster centroid awal yang ditentukan
secara acak dan apabila posisi centroid tidak akan
berubah. Nilai K yang dipilih sebagai titik awal centroid
akan dihitung menggunakan rumus Euclidean Distance.
Rumus Euclidian Distance adalah rumus mencari jarak
terdekat antara titik centroid dengan data atau objek.
Hasilnya adalah data yang memiliki jarak yang
berdekatan dengan titik centroid akan tergabung dalam
satu cluster [7].
Langkah pertama metode K-Means adalah
menentukan jumlah cluster yang akan dibentuk. Gambar 1. Menentukan jumlah cluster terbaik
Lalu,tentukan K sebagai titik pusat cluster awal secara
acak dengan menggunakan persamaaan (1). Setelah mendapatkan jumlah cluster terbaik, kami
menentukan kelompok mana saja yang masuk kedalam
∑ ...................(1) tiga kelompok cluster tersebut. Hasilnya ditunjukkan
𝑣= ; 𝑖 = 1,2,3, … 𝑛
pada gambar 2.
Kemudian, hitung jarak setiap objek ke masing-masing
centroid menggunakan rumus Euclidian Distance sesuai
dengan persamaan (2) [8].
∑ 2 ....................(2)
𝑑= 𝑥 𝑦