Anda di halaman 1dari 4

1

Klasterisasi Data Prestasi Kejuaran Sekolah Menggunakan


Metode K-Means Clustering di Jakarta
Nur Annisa Safitri Yusuf1, Leniawati2, Farhan Afrizal3, Nurhikmah4
Program Studi Teknik Informatika Fakultas Sains dan Teknologi
e-mail: Annisa.safitri41.as@gmail.com, leniawati728@gmail.com, farhan0001109362@gmail.com,
nhkma22@gmail.com

Abstrak: Data Mining adalah proses yang menggunakan abilities after participating in an inter-school competition
teknik statistik, matematika, kecerdasan buatan dan machine level.
learning untuk menginteraksi, mengidentifikasi informasi
yang bermanfaat serta pengetahuan yang terikat dari Keywords: National and Provincial Level International
berbagai database besar. Pengelompokan atau lazim dikenal Championships, Clustering, K-Means Algorithm.
dengan grouping didasarkan atas pandangan bahwa
disamping kejuaraan sekolah mempunyai kesamaan juga I. PENDAHULUAN
pasti mempunyai perbedaan. Pengelompokan bukan hanya Dewasa ini pengolahan data elektronika telah menjadi
melihat dari hasil akhir akan tetapi juga dilihat dari nilai kebutuhan yang sangat utama. Perkembangan pesat dalam
kognitif, psikomotorik dan afektifnya selama perlombaan dunia teknologi informasi menjadikan semua informasi dapat
berlangsung. Proses pengelompokan nama sekolah yaitu disimpan dalam jaringan computer, dan telah membuat
untuk mempermudah dalam mendapatkan sekolah terbaik. munculnya sistem basis data yang sangat besar. Dalam
Proses pengelompokan kejuaraan sekolah ini yaitu untuk hitungan detik. data-data dalam berbagai basis data akan
mempermudah proses perhitungan Tingkat Kejuaraan, dan senantiasa terperbaharui, baik dikarenakan adanya update
Peringkat Kejuaraan. Berikut nilai tes terakhir untuk maupun penambahan data baru. Permasalahan yang kemudian
menambah keakuratan data . Pengelompokan dari 286 muncul adalah bagaimana mengetahui informasi yang terdapat
sekolah dengan kriteria pembobot Tingkat Internasional, dalam basis data yang sangat besar.
Tingkat Nasional dan Tingkat Provinsi, Juara 1, 2, dan 3 . Data mining sebagai salah satu proses untuk
Untuk itu diperlukan solusi untuk mengatasi kesulitan memperoleh informasi yang memiliki nilai guna dari
tersebut. Metode Clustering dengan menggunakan algoritma sekumpulan data. Data Mining juga merupakan proses
k means diimplementasikan dalam aplikasi ini, juga dapat menemukan kolerasi baru yang bermanfaat, pola dan trend
digunakan untuk memantau perkembangan kemampuan dengan manambah sejumlah repositori data dalam jumlah
setelahmengikuti perlombaan tingkat kejuaraan antar besar, yang menggunakan teknologi pengenalan pola seperti
sekolah. statisik dan teknik matematika. Data Mining semakin
menyebar dan berkembang dengan pesat belakangan ini di
Kata Kunci : Kejuaraan Tingkat Internasional Tingkat Nasional karenakan kemampuannya dalam menambah pola, bermanfaat
dan Tingkat Provinsi, Clustering, Algoritma K-Means. dan trend dari basis data yang sudah ada.
Konsep dasar dari clustering adalah
Abstract: Data mining is a process that uses statistical mengelompokkan sejumlah objek ke dalam cluster, dimana
techniques, mathematics, artificial intelligence and machine cluster yang baik adalah cluster yang memiliki tingkat
learning to interact, identify useful information and bound kesamaan yang tinggi antar objek, dan di dalam suatu cluster
knowledge from large databases. Grouping or commonly memiliki tingkat ketidaksamaan yang tinggi dengan objek
known as grouping is based on the view that in addition to cluster yang lainnya. Metode clustering hadir dikarenakan
school championships having similarities, they must also have kondisi berlimpahnya data yang merupakan akumulasi data
differences. Grouping is not only seen from the final result but prestasi sekolah di Jakarta.
also seen from the cognitive, psychomotor and affective Penelitian ini menguji data yang telah ada di data
values during the competition. The process of grouping warehouse Jakarta, yang gunanya untuk memudahkan mencari
school names is to make it easier to find the best schools. The sekolah yang paling berprestasi di Jakarta.
process of grouping the school championships is to simplify
the process of calculating the Championship Level and II. URAIAN
Championship Ranking. Here are the final test scores to PENELITIAN
increase the accuracy of the data. Grouping of 286 schools
with weighting criteria at International Level, National Level Data Mining
and Provincial Level, 1st, 2nd, and 3rd place. For that we Data mining merupakan salah satu disiplin ilmu
need a solution to overcome these difficulties. The clustering yang digunakan untuk menentukan suatu informasi tertentu
method using the k means algorithm is implemented in this dalam sekumpulan data sebagai pen-
application, it can also be used to monitor the development of dukung pengambilan keputusan. Data mining juga sebagai
salah satu proses untuk memproleh informasi yang memiliki

Klasterisasi Data Prestasi(…)


2

nilai guna dari sekumpulan data. Clustering atau pengklasteran adalah suatu teknik data
Data Mining adalah suatu istilah yang digunakan mining yang digunakan untuk menganalisis data untuk
untuk menguraikan penemuan pengetahuan didalam database. memecahkan permasalahan dalam pengelompokkan data atau
Data Mining adalah proses yang menggunakan teknik lebih tepatnya mempartisi dari dataset ke dalam subset.
statistik, matematika, kecerdasan buatan dan machine learning Teknik cluster mempunyai dua metode dalam
untuk menginteraksi, mengidentifikasi informasi yang pengelompokkannya yaitu hierarchical clustering dan non-
bermanfaat serta pengetahuan yang terikat dari berbagai hierarchical clustering. Non-hierarchical clustering pada
database besar teknik ini dimulai dengan menentukan jumlah cluster yang
Data Mining merupakan proses menemukan kolerasi diinginkan (dua cluster, tiga cluster, empat cluster atau lebih),
baru yang bermanfaat, pola dan trend dengan manimbang setelah jumlah yang cluster yang diingikan maka proses
sejumlah repositori data dalam jumlah besar, menggunakan cluster dimulai tanpa mengikuti proses hirarki, metode ini
teknologi pengenalan pola seperti statisik dan teknik juga sering disebut sebagai metode K-Means Clustering
matematika. Data Mining semakin menyebar dan berkembang
dengan pesat belakangan ini, karena kemampuannya dalam RapidMiner
menimbang pola bermanfaat dan trend dari basis data yang RapidMiner merupakan perangakat lunak yang bersifat
sudah ada. terbuka (open source). RapidMiner adalah sebuah solusi untuk
Algoritma K-Means melakukan analisis terhadap data mining, text mining dan
K-Means merupakan suatu algoritma pengklasteran analisis prediksi. RapidMiner menggunakan berbagai teknik
yang cukup sederhana yang mempartisi database kedalam deskriptif dan prediksi dalam memberikan wawasan kepada
beberapa clasteran k. Algoritma cukup mudah untuk pengguna sehingga dapat membuat keputusan yang paling
diimplementasikan dan dijalakan, relatif cepat, mudah baik.
disesuaikan dan banyak digunakan). Prinsip uatama dari
teknik ini adalah menyusun K buah partisi/pusat massa
(centroid)/rata-rata (mean) dari sekupulan data. Algoritma K- III. PERENCANAA
Means dimulai dengan pembentukan partisi klaster diawal N SISTEM
kemudian secara iteraktif partisi claster ini diperbaiki hingga Data
tidak terjadi perubahan yang signifikan pada partisi claster
Langkah pertama algoritma k- means adalah menentukan
jumlah cluster, pada penelitian ini ditetapkan 3 cluster, yang
dipilih secara random. dengan variabel jumlah ekstrakulikuler,
nilai rata- rata, Absen.
Ada banyak metode yang dapat digunakan dalam
pengelompokan contohnya metode K-means. Penge-
lompokan yang dapat digunakan seperti pengelompokan non
hierarki yang membagi data kedalam bentuk dua atau lebih
kelompok.
Dalam menentukan nilai centroid untuk awal
interasi, nilai awal centroid dilakukan secara acak. Sedangkan
jika menentukan nilai centroid yang merupakan tahap dari
iterasi, maka digunakan rumus sebagai berikut: Gambar 1. Data yang telah ditransformasi

Memiliki 4 attribute yaitu Nama Sekolah,


Kejuaraan, Tingkat Kejuaraan, dan Peringkat Kejuaraan. Pada
table diatas memiliki 284 rows dan memiliki 4 kolom. Dan
Metode K-Means Clustering hanya bisa mengolah tipe data Numerik yang sudah ditransformasikan. Dimana
data dalam bentuk angka, maka untuk data yang berbentuk tranformasi data dilakukan dengan tujuan untuk mempemudah
nominal harus diinisialisasikan terlebih dahulu ke dalam proses clusterisasi. Adapun ketentuannya sebagai berikut :
bentuk angka. 1. Nama sekolah ditransformasikan menjadi id
1. Menghitung jarak antara titik centroid dengan titik tiap 2. Kejuaran sebagai berikut
objek. Olimpiade Sains (OSN) = 10
2. Pengelompokan object untuk menentukan anggota Festival Lomba Seni = 20
cluster adalah dengan memperhitungkan jarak minimum
Olimpiade Olahraga = 30
objek.
3. Kembali ke tahap ke-2, lakukan perulangan hingga nilai Lomba Cipta Seni = 40
centroid yang dihasilkan tetap dan anggota cluster tidak Lomba Karate = 50
berpindah ke cluster lain. Olimpiade Matematika = 60
Olimpiade IPS = 70
Clustering 3. Tingkat kejuaran sebagai berikut
Tingkat Internasional =3

Klasterisasi Data Prestasi(…)


3

Tingkat Nasional =2 kemudian data tersebut di gunakan di rapidMiner. Pada


Tingkat Provinsi =1 tahap ini atribut yang dipilih yaitu atribut nama_sekolah,
4. Peringkat Kejuaraan sebagai berikut kejuaraan, tingkat_kejuaraan, peringkat_kejuaraan.
Juara 1 =4
Juara 2 =3
Juara 3 =2
Harapan 1 = 1

Untuk data selengkapnya dapat di akses pada:


https://data.jakarta.go.id/dataset/786167bf-d105-4f6f-a9e7
ef183e06efce/resource/5236c645-57c5-4a31-
b00814057959c941/download/Data-Prestasi Kejuaraan-
Siswa.csv

IV. HASIL DAN


ANALISIS Gambar 3. Preprocess Data
4. Clustering Data
Data pada penelitian ini berjumlah 286 data selama Pada tahapan seperti gambar 3 pada preprocess data akan
tahun 2015 pada bulan Januari sampai Desember.Atribut yang dilakukan pengelompokan data berdasarkan kesamaan
digunakan dalam proses clustering adalah atribut ciri/ karakteristik yang sama dalam satu cluster.
nama_sekolah, kejuaraan, tingkat_kejuaraan, Pengelompokan data ini menggunakan algoritma K-
peringkat_kejuaraan. Berikut tahapan dalam penelitian ini : Means. Jumlah cluster ditentukan sebanyak 5 cluster.

Gambar 4. Proses Clustering Data


Dan menghasilkan 5 cluster

Gambar 2. Tahapan penelitian


Tahapan penelitian ini dimulai dari tahapan sebagai
berikut :
1. Struktur Data
Pengambilan data prestasi sekolah dari
https://data.jakarta.go.id/ berupa file .csv yang berisi Gambar 5. Cluster Model
yaitu nama_siswa, tingkat_sekolah, nama_sekolah, Dapat dilihat cluster model yang dihasilkan terdiri dari
kejuaraan, tingkat_kejuaraan, peringkat_kejuaraan cluster 0 yaitu 35 items, cluster 1 terdiri dari 16 items,
2. Selection Data cluster 2 terdiri dari 57 items, cluster 3 terdiri dari 90
Informasi data-data yang sudah lengkap dalam setiap items, dan cluster 4 terdiri dari 88 items. Dari total
atribut akan dilakukan seleksi. Atribut yang dilakukan jumlah 286 items. Dalam bentuk root memiliki 5 cluster
seleksi yaitu, nama_sekolah, kejuaraan, yaitu folder cluster 0, cluster 1, cluster 2, cluster 3 dan
tingkat_kejuaraan, peringkat_kejuaraan. Kejuaraan, cluster 4. Untuk memudahkan melihat anggota yang
tingkat_kejuaraan, peringkat_kejuaraan akan di dimiliki oleh setiap folder cluster, lihat gambar 6 yang
transformasikan ke dalam numerik yang memuat angka menampilakan membership dari masing-masing cluster
3. Preprocess Data membership.
Proses selanjutnya adalah menyimpan data excel dalam
format bentuk data .xls. Prepocess dilakukan pada
aplikasi excel dengan memasukkan data yang diseleksi,

Klasterisasi Data Prestasi(…)


4

V. KESIMPULAN

1. Peneliti dapat mengidentifikasi data prestasi sekolah


sebanyak 268 data pasien dengan waktu penyelesaian
sebanyak 0 detik oleh sistem
2. Dengan menggunakan Metode Algoritma K-Means
Clustering, dapat mementukan pengelompokan prestasi
sekolah tinggi, menengah dan cukup.
3. Dengan menginput data yang digunakan dalam
penelitian ini yaitu atribut nama_sekolah, kejuaraan,
tingkat_kejuaraan, peringkat_kejuaraan. Output
ditampilkan dari data yang digunakan yaitu berupa
Gambar 6. Tampilan Member Masing-Masing Cluster pengelompokkan data berdasarkan algoritma K-Means
Sehingga dapat diketahui hasil pengelompokkan rapidminer 4. Dengan adanya software Rapid Miner dalam penelitian
dapat dilihat pada gambar sebagai berikut : ini maka keakuratan data akan cukup baik terhadap
permasalahan yang terjadi terkait dengan prestasi
sekolah dengan hasil 72% dapat mengenali data pada
268 data yang digunakan sebagai sampel.

REFERENSI
[1] Agusta, Yudi. "K-means–penerapan, permasalahan dan metode
terkait." Jurnal Sistem dan Informatika 3.47-60 (2007).
[2] Sharma, Ritu; Alam, M. Afshar; Rani, Anita. K-Means clustering in
spatial data mining using weka interface. In: International Conference
on Advances in Communication and Computing Technologies
(ICACACT Proceedings published by International Journal of
Computer Applications®(IJCA), pp. 26-30. 2012.
[3] Kusrini. (2007). Konsep Dan Aplikasi Sistem Pendukung Keputusan.
Yogyakarta: Andi
Gambar 7. Hasil Pengelompokkan

Klasterisasi Data Prestasi(…)

Anda mungkin juga menyukai