Propsal Fix

DIPA LPPM UNSRI
USUL PENELITIAN UNIVERSITAS
JUDUL:
Pengaruh Inisialisasi Awal Centroid Clustering Dalam
Pembentukan Clustering Berbasis Partisi dan Perbedaan
dengan Clustering berbasis Hierachical
OLEH:
KETUA : DANNY MATTHEW SAPUTRA,S.T., M.SC.

ANGGOTA : PROF. DR. IR. DANIEL SAPUTRA, M.S., A.ENG.
ANGGOTA: DR. LINIYANTI D. OSWARI, M.SC.
TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER
UNIVERSITAS SRIWIJAYA
Desember 2019
Halaman Pengesahan
1. Judul : Pengaruh Inisialisasi Awal Centroid Clustering Dalam
Pembentukan Clustering Berbasis Partisisi dan Perbedaan dengan Clustering berbasis
Hierachical
2. Bidang Penelitian : Bidang Sains Teknologi (Hibah Penelitan Sateks
Falkultas)
3. Ketua Tim
a. Nama : Danny Matthew Saputra S.T., M. Sc
b. NIP/NIDN :198505102015041002/ 0010058507
c. Pangkat/Golongan : Penatar Muda Tk II / III – B
d. Jabatan Struktural :-
e. Jabatan fungsional :-
f. Jurusan : Teknik Informatika
g. Bidang Keahlian :Data Mining
h. Group Riset :Data Mining
i. Alamat Rumah : Jalan Taman Siswa Lorong Lingkis No 45/157
j. Telpon/Hp/Faks/email :0711353391/082307000175/-
/danny.saputra@gmail.com
4. Personalia Penelitian :
a. Anggota Pelaksana :2 orang dosen
b. Pembantu pelasana :7 orang mahasiswa
5. Jangka waktu kegiatan : 11 (Sebelas) bulan
6. Fokus Riset : Teknologi Informasi dan Komuikasi
7. Jumlah dana yang diajukan
a. Dipa Unsri :Rp 40.000.000
b. Lain -lain :-----
Jumlah :
Mengetahui, Indralaya, 24 Mei 2019

Dekan Fakultas Ilmu Komputer UNSRI Ketua Peneliti,
Jaidan Jauhari, M.T

Danny Matthew Saputra M. Sc
NIP. 197107212005011005 NIP. 198505102015041002
I. IDENTITAS
Ketua Peneliti
a. Nama Lengkap dan Gelar : Danny Matthew Saputra,S.T., M.Sc.
b. Jenis Kelamin : Pria
c. NIP/NIDN : 198505102015041002/ 0010058507
d. Bidang Keahlian : Data Mining
e. Grup Riset : Data Mining
f. Pangkat/Golongan : Penatar Muda Tk II / III – B
g. Jabatan Fungsional/Struktural : Kepala lab RPL
h. Fakultas/Jurusan : Ilmu Komputer/
i. Waktu Penelitian : jam/minggu : 8jam / minggu
Anggota
Ketua Peneliti
a. Nama Lengkap dan Gelar : dr. Liniyanti D. Oswari, M.Sc.
b. Jenis Kelamin : Wanita
c. NIP/NIDN :
d. Bidang Keahlian : Biokimia
e. Grup Riset :
f. Pangkat/Golongan : Lektor Kepala/ IV-B
g. Jabatan Fungsional/Struktural : Sekretaris Bagian
h. Fakultas/Jurusan : Kedokteran/ Kedokteran
Anggota
Ketua Peneliti
a. Nama Lengkap dan Gelar : Prof. Dr. Ir. Daniel Saputra, M.S., A.Eng.
b. Jenis Kelamin : Pria
c. NIP/NIDN :
d. Bidang Keahlian : Termodinamika
e. Grup Riset :-
f. Pangkat/Golongan : Guru Besar / IV-E
g. Jabatan Fungsional/Struktural : Guru Besar
h. Fakultas/Jurusan : Falkultas Pertanian/ Teknik Pertanian
Mahasiswa yang terlibat

1. a. Nama Lengkap : Jefri Antonie Wijaya
b. NIM : 09021281621061
c. Fakultas/Jurusan : Ilmu Komputer/Teknik Informatika
d. Semester : 7
e. Jumlah SKS yang ditempuh : 117
f. IPK : 2.98
2. a. Nama Lengkap : Muhammad Rifqi

b. NIM : 09021281621065
d. Semester : 7
f. IPK : 2,55
3. a. Nama Lengkap : Adryan Yudha Pratama

b. NIM : 09021381621083
d. Semester : 7
f. IPK : 2,93
4. a. Nama Lengkap : Noordin As-Shiddiq Mangkunegara

b. NIM : 09021281621063
d. Semester : 7
f. IPK : 3,05
5. a. Nama Lengkap : Nadya Parameswari Jasmine

b. NIM : 09021381621105
d. Semester : 7
f. IPK :
6. a. Nama Lengkap : Dita Ayu Savitri

b. NIM : 09021181621134
d. Semester : 7
f. IPK : 3,42
7. a. Nama Lengkap : Riska Wati Savitri

b. NIM : 09021181621008
d. Semester : 7
f. IPK : 3,34
II. RINGKASAN
Clustering merupakan salah satu bidang utama dalam data mining yang kegunaannya
mengelompokan data yang belum terkelompok. Dua metada utama dalam clustering adalah
clustering berbasis pastisi dan clustering hierarchical. Clustering berbasis partisisi memiliki
malasalah utama dalam penentuan jumlah cluster, inisialisasi centroid awal dan faktor lain
seperti jarak yang digunakan. Pada penelitian sebelumnya telah dilakukan penelitian untuk
melihat pengaruh matrics jarak dala, penetuan jumlah cluster serta melihat pengaruh inisialisasi
random terhadap clustering berbasis partisi. Penelitian ini melanjutkan penelitan sebelumnya
yang menemukan beberapa masalah yang menjadi inti didalam penelitian ini. Masalah yang
dihadapi dalam penelitian ini adalah adakah inisilisasi awal akan membentuk clustering yang
lebih baik, algoritma apa yang sebaiknya digunakan didalam inisialisasi awal, faktor yang
mempengaruhi inisialisasi awal dan apakah hierarchical clustering memiliki perbedaan dengan
data yang sama dan apakah bisa digunakan untuk optimasi clustering berbasis partisi. Metoda
penelitian yang akan dikerjakan adalah dengan mengumpulkan lebih dari 300 data set yang
akan diolah untuk digunakna untuk clustering yang hasilnya akan dianalisa untuk memaparkan
kesimpulan. Luaran dari penelitian diharapkan menghasilkan 1 publikasi yang akan
diseminarkan di Sisconia 2020, 1 paper yang akan dipublikasi di journal terakriditasi nasional,
1 software clustering bersifat protoype dan 5 judul tugas akhir yang akan disiapkan oleh asisten
penelitian.
Kata kunci: Clustering, data mining, inisialisasi centroid, clustering berbasis partisi,
clustering hierarchical.
III. Latar Belakang
A. Pendahuluan
Dari penelitian tahun 2019 Dibiayai DIPA (Daftar Isian Pelaksanaan Anggaran) Nomor
: SP DIPA-042.01.2.400953/2019 tanggal 05 Desember 2018 Sesuai Surat Perjanjian
Pelaksanaan Pekerjaan Hibah Penelitian Sateks Dana Fakultas pada Fakultas Ilmu Komputer
Universitas Sriwijaya Nomor : 1716/UN9.1.9/LT/2019 dengan judul penelitian “Analisa
Faktor Penentuan Centroid Pengelompokan Data Variable Nominal dan Numerik dengan
Menggunakan Metoda Elbow dan Silhouette”. Menghasilkan satu paper yang telah
dipersentasikan di Siconian 2019, satu paper yang dalam proses publikasi, satu paper dalam
proses penulisan, dan dua judul tugas akhir yang dibuat oleh asisten penelitian yang membantu
penelitan tersebut. Dari penelitian tersebut beberapa faktor unik terungkap seperti bahwa
metrik jarak mempengaruhi faktor penentuan jumlah cluster dengan menggunakan metoda
Elbow dan Silhouette.
Dari penelitian sebelumnya memaparkan beberapa hal unik yang telah dipublikasi dan
digunakan untuk tugas akhir mahasiswa Fasilkom Unsri, akan tetapi penelitian tersebut
memunculkan beberapa pertanyaan lain. Penelitian sebelumnya melihat pengaruh metrik jarak,
random seed, dan penentuan nilai K menggunakan nilai elbow dan silhouette. Diketahui bahwa
metrik jarak tidak terlalu berpengaruh terhadap nilai K ideal dalam hasil clustering. Random
seed menunjukkan perbedaan dalam hasil K-means dan K-medoids akan tetapi sebagian besar
hasil clustering sama walaupun menggunakan random seed yang berbeda-beda. Maka dari itu,
penelitian ini menyambung penelitian yang telah dilakukan sebelumnya untuk melihat faktor
lain yang dapat mempengaruhi hasil clustering, seperti inisialisasi centroid awal, metrics
simalirity, pengaruh algoritma clustering lain didalam clustering berbasis partisi.
K-means Clustering menggunakan titik centroid acak sehingga kita mendapatkan hasil
yang berbeda-beda, sehingga tidak menjamin hasil yang sama karena pengaruh nilai random
dalam inisialisasi titik awal (Ahmad, Khan and Ahmad, 2017). Hal ini menunjukan bahwa
walaupun menggunakan data yang sama hasil pengklasteran algortima akan berbeda- beda
walaupun menggunakan data dan algoritma yang sama. Sehingga penetapan centroid di awal
clustering yang baik akan membuat suatu cluster yang baik juga. Begitu pula sebaliknya. K-
means adalah salah satu algoritma dalam partitional clustering dan masalah inisialisasi centroid
merupakan masalah besar di algoritma partitional clustering lainnya seperti k-medoids (Khan
and Ahmad, 2013).
Ada berbagai metode untuk menentukan centroid awal, salah satunya adalah K-
means++. K-means++ adalah algoritma yang sering digunakan untuk menghilangkan masalah
inisialisasi awal centroid dengan menentukan titik awal centroid agar tidak berdekatan (Arthur
and Vassilvitskii, 2007). Inisialisasi awal centroid merupakan salah satu masalah utama dalam
partitional clustering dan memiliki banyak algoritma yang disarankan untuk mengatasi masalah
ini seperti K*-means (Cheung, 2003), CIAA dll. Selain metode diatas Hierachical K-Means
disarankan untuk mengatasi masalah inisialisasi centroid awal. Hierachical K-Means adalah
satu algoritma yang akan melakukan pengklasteran k-means secara hierarchical (Lu et al.,
2008). Akan tetapi hierarchical clustering memiliki variasi yang akan menghasilkan berbagai
macam cluster dengan centroid yang berbeda – beda. Dalam penelitian ini akan menganalisa
hasil dari beberapa solusi yang diberikan seperti Hierachical clustering dan K-means++.
Salah satu perihal lain yang ingin diteliti dipenelitian ini adalah perbedaan clustering
berbasis partisi dengan clustering berbasis hierarchical. Clustering hierarchical adalah tipe
clustering yang lain yang paling terkenal selain clustering berbasis partisi dan memiliki
kelebihan dan kekurangan masing-masing. Tapi masalah utama dengan clustering berbasis
partisi adalah hasil clustering tidak unik karena faktor random inisialisasi awal. Dengan adanya
inisialisasi awal akan dilakukan perbandingan dengan hierarchical clustering.
B. Tujuan Penelitan
Tujuan Penelitian “Pengaruh Inisialisasi Awal Centroid Clustering Dalam
Hierachical” adalah melanjutkan penelitian “Analisa Faktor Penentuan Centroid
Pengelompokan Data dengan Variabel Nominal dan Numerik dengan Menggunakan Metoda
Elbow dan Silhouette” dengan menganalisa dan memaparkan hasil pengklasteran dengan
inisialisasi centroid awal dan melihat pengaruh similarity metrics dalam pengklasteran data.
C. Manfaat Penelitan
Manfaat Penelitian “Pengaruh Inisialisasi Awal Centroid Clustering Dalam
Hierachical”
1. Memberikan pandangan lebih dalam terhadap inisalisasi centroid awal didalam
pengklasteran berbasis partisi.
2. Memaparkan hasil clustering berbasis partisi setelah inisailisasi centroid awal
dalam berbagai data seperti data pertanian dan medis yang sering digunakan
oleh mahasiswa teknik informatika didalam Tugas Akhir.
3. Memperlihatkan perbedaan clustering berbasis partisi dengan clustering
berbasis hierachical setelah dilakukan inisialisasi centroid.
4. Membantu dalam kegiatan kuliah data mining sebagai salah contoh kasus yang
bisa dilakasanakan di kegiatan kuliah.
5. Dengan adanya 7 orang mahasiswa pembantu diharapkan penelitian ini bisa
membantu 7 mahasiswa tersebut lulus lebih cepat atau tepat waktu dengan
partisipasi mereka didalam penelitan ini sehingga bisa menjadi dasar dari tugas
akhir mereka.
IV. TINJAUAN PUSTAKA
A. Road Map Penelitian

Road map penelitian ini bertemakan data science dimulai sejak 2017 dengan penelitian
tentang pengumpulan dan pemrosesan data. Setelah itu berlanjut kepengunaan data dalam SPK
(Sistem Pendukung Keputusan). Dari penelitian itu arah road map mulai masuk ke data mining
di 2019 dibagian dasar teori faktor clustering yang dilanjutkan dengan penelitian saat ini yang
berfokus terhadap inisialisasi centroid awal dan hubungan dengan hierarchical. diharapkan
ketika masuk ke 2021 clustering dan clasifikasi dan pada 202 diharapkan arah penelitian akan
mengarah ke penggunaan data mining dengan big data. Gambar dari road map bisa dilihat
dibawah.
Gambar 1. Road Map Penerlitian

B. Seleksi dan pengolahan Data
Sebelum data bisa digunakan maka karakteristik data yang digunakan mesti diketahui
mulai dari atributnya dan tipe datanya. Atribut tuple yang berisi informasi yang
menggambarkan objek dari data seperti nama, tinggi badan, tanggal lahir, dll. Ada 4 tipe atribut
yang memiliki karakteristik yang berbeda ini menjadi tantangan didalam penggunaannya
dalam data mining. 4 tipe atribut tersebut adalah
1. Nominal; Nominal adalah tipe data yang tidak memiliki nilai yang dapat diukur tapi
hanya menggambarakan karakteristik dari objek tersebut seperti pria dan wanita. Jika
Pria direpresentasikan dengan angka 1 dan wanita dengan angka 0 ini bukan berarti
bahwa pria lebih besar dari wanita tapi angka 1 hanya simbol bahwa satu data
berkelamin pria dan yang 0 adalah wanita.
2. Binary; Binary mirip dengan tipe data nominal tapi hanya memiliki dua nilai 0 dan 1
dan angka 0 melambangkan bahwa data itu absen atau tidak ada.
3. Ordinal adalah tipe data nominal yang memiliki tingkatan dan ukuran dan bisa
dibandingkan seperti sedang dan besar.
4. Numerik adalah tipe data yang bisa dihitung besarnya dan dengan perhitungan ini bisa
dilakukan perbandingan dan kalkulasi dan memberikan nilai berarti tipe data Numerik
bisa discrete dan continuous.
Dalam penggunaan data Numerik kita bisa menggunakan statistika untuk mengetahui sifat
dari data seperti mean, median dan modus untuk menjelaskan rata- rata atau sebaran data dan
min dan median melihat keadaan ekstrim data terkecil dan terbesar. Dispersi data juga bisa
dilihat dari box plot yang akan menggambarkan range quartiles dll.
Data agar bisa digunakan mesti diambil dari sumber dan diproses agar menjadi data yang
berkualitas. Data yang kotor bisa menyebabkan hasil dari data mining tidak sesuai dengan
informasi yang diinginkan atau memberikan informasi yang salah.
C. Praproses Data
Praproses data merupakan langkah berikutnya setelah seleksi data dan mengetahui
karakteristik data. langkah ini sangat penting karena sebagian besar data yang didapat
merupakan data yang belum diproses dan belum terstruktur. Sebagai contoh adalah query dari
google untuk mencari obat flu. Dari query ini sendiri belum bisa didapatkan informasi, tapi
google dengan menggunakan data mining setelah memproses data tersebut bisa
memperlihatkan kemungkinan terjadi penyebaran flu.
Praproses data berguna agar bisa mengeliminasi error, menghilangkan data yang tidak
sesuai dan meningkatkan kualitas data agar bisa digunakan dengan lebih baik dan
menghasilkan data yang lebih baik. Beberapa sebab yang menyebabkan dirty data adalah eror
atau ketidak sesuaian dan kesalahan input, duplikasi data, database yang digunakan tidak sesuai
dan sensor yang digunaakan memiliki masalah. Kerumitan dirty data akan meningkat jika data
berasal dari dua sumber atau lebih. (Bao, Deng and Lin, 2015)
Preproses data memiliki beberapa tahapan yaitu;
1. Cleaning data atau membersihkan data adalah langkah untuk menghilangkan noise
data yang bisa berasal dari salah input atau kesalahan sensor dan mengisi missing data
atau data hilang atau belum diinputkan.
2. Integrasi data adalah langkah menggabungkan data dari beberapa sumber ke suatu
struktur yang siap digunakan. Tahapan ini memiliki beberapa masalah terutama jika
sturtuktur dari sumber data berbeda atau heterogen.
3. Reduksi data adalah langkah untuk mengurangi data yang akan diolah data mining.
karena jika data terlalu besar, maka waktu yang diperlukan untuk memproses data
tersebut akan lama dan mahal sehingga tidak praktis. Reduksi data ini bisa dilakukan
secara horizontal dengan menghilangkan tuple data dan secara vertikal dengan
menghilangkan atribut yang tidak berarti atau memiliki varians yang tinggi sehingga
mempersulit proses data mining seperti nama orang.
Tahapan ini bisa dilaksanakan secara manual dan bertahap atau secara otomatis dengan
bantuan software. Jika data yang digunakan adalah data besar maka tools atau software akan
membantu tahapan ETL (Extraction Transformation Loading) yang akan mengerjakan
praproses data.
D. Data Mining
Data Mining adalah proses menggali informasi dari data. Ini dibutuhkan karena data di
dunia ini tumbuh dengan sangat pesat. Ini terlihat dari banyaknya data yang masuk melalui
penggunaan internet. Data mining bermula dari pertumbuhan penyimpanan data yang
tradisional tapi tersturuktur seperti mengarsipkan dokumen dan berkembang menjadi database
yang digunakan untuk penyimpanan dan query yang efisien sampai pada akhirnya menjadi data
analisis yang membutuhkan metode yang kompleks dan dibantu komputer untuk memproses
data yang besar.
Gambar 2. evolusi sistem database (Han, Kamber and Pei, 2012)
Ada beberapa tahapan sebelum data mining bisa digunakan untuk mendapatkan
informasi yang berharga. dimulai dari seleksi data, praproses data, transformasi, data mining
dan evaluasi. Setiap langkah- langkah di atas memiliki tantangan dalam pelaksanaannya dan
permasalahan dalam satu langkah bisa menyebabkan informasi yang tidak sesuai dengan hal
yang diinginkan.
Gambar 3. Proses data mining untuk mendapatkan informasi(Han, Kamber and Pei,
2012)
Saat ini banyak penelitian dan mendalami data mining dalam pengaplikasian
pengolahan data untuk membantu mendapatkan informasi yang berharga sebagai contoh data
mining digunakan untuk mengetahui keadaan infrastrukur kota dan membandingkannya
dengan kota lain di Inggris (Abbar, Zanouda and Borge-Holthoefer, 2018). Selain itu bidang
ilmu data mining masih terus dikembangkan untuk menyesuaikan dengan keadaan dunia saat
ini seperti penelitian dampak dimensi reduksi di dalam klasifikasi(Clark and Provost, 2019).
Setelah mendapatkan data yang ingin diproses maka langkah berikutnya di dalam data
mining adalah memilih metode atau informasi yang ingin didapatkan. Setiap metode di dalam
data mining bisa menghasilkan informasi yang berbeda maka sebelum melakukan proses data
mining maka informasi diperlukan mesti ditentukan terlebih dahulu. Klasifikasi akan
mengeluarkan informasi tentang bagaimana mengklasifikasikan suatu data, assosiasi akan
memperlihatkan informasi tentang hubungan antar data dan Clustering akan memberikan
informasi tentang pengelompokan data.
E. Clustering
Clustering adalah proses pengelompokan suatu data menjadi beberapa kelompok.
Dalam clustering ini ada beberapa cara clustering dikategorikan mulai dari tujuan clustering,
apakah cluster akan beririsan dan apakah cluster berbasis partisi atau hierarchical. Kategori
cluster berdasarkan tujuan akan mengelompokkan cluster berdasarkan sifat atau jaraknya atau
monothetic dan polythetic. Kategori cluster berdasarkan irisan cluster akan melihat apakah
pengelompokan akan menghasilkan cluster yang beririsan atau tidak. Kategori cluster berbasis
partisi (flat/ non hierarchical) dan hierarchical cluster akan melihat apakah cluster yang
dibentuk merupakan bagian dari cluster lain atau nested cluster. Metode cluster secara umum
dikategorikan berdasarkan hierarchical atau berbasis partisi dan bisa kategori lain sebagai
contoh metode K-means adalah yang dikategorikan sebagai cluster berbasis partisi dengan sifat
polythetic dan clusternya tidak akan beririsan.
Hierarchical Clustering adalah pengelompokan data berdasarkan hierarchical dimana
cluster memiliki tingkatan yang dikelompokan berdasarkan jarak. Hierarchical Clustering akan
mengelompokan cluster secara bertahap tergantung dengan strateginya jika srategi yang
digunakan adalah top down maka cluster akan dimulai dengan cluster besar yaitu data itu
sendiri merupakan satu cluster dan cluster besar tersebut akan dipecah menjadi cluster yang
lebih kecil salah satu algoitma yang menggunakan teknik ini adalah hierarchical k-means.
Sebalikanya button up akan dimulai dari setiap data didalam data tersebut akan diaggap sebagai
cluster dan setiap data akan digabungkan dengan data terdekatnya dan setiap cluster terdekat
akan digabungkan terus sampai menjadi satu cluster terbesar. Contoh dari Algoritma yang
mengunakan teknik ini adalah Agglomerative Clustering
.
Gambar 4. Agglomerative Clustering (Han, Kamber and Pei, 2012)
F. Clustering Berbasis Partisi
Berbasis partisi atau Flat Clustering adalah cluster yang tidak memiliki hierarchical dan
algoritmanya adalah membuat cluster berdasarkan K yang ditentukan. Perbedaan utama antara
cluster berbasis partisi dan hierarchical adalah tidak ada cluster di yang merupakan sub cluster
seperti hierarchical. Langkah awal didalam cluster berbasis partisi adalah penentuan nilai K,
setelah penentuan nilai K maka algoritma cluster berbasis partisi akan membentuk cluster-
cluster. Penentuan K merupakan salah satu masalah terbesar dalam clustering berbasis partisi.
Beda dengan hierarchical clustering yang jumlah clusternya akan ditentukan setelah seluruh
struktur hiraki cluster dibuat. Clustering berbasis partisi akan membuat cluster berdasarkan K
yang ditentukan dan jumlah cluster. Algoritma yang paling umum dalam clustering berbasis
partisi adalah algoritma K- means.
Algoritma K-means dimulai dengan meletakan centroid secara random sebanyak
jumlah K lalu jarak setiap data akan diukur ke setiap centroid lalu data dengan jarak centroid
terdekat akan dicluster menjadi satu cluster. Setelah didapat data dengan setiap cluster, maka
centroid akan diubah nilainya sesuai dengan jarak tengah semua data didalam cluster tersebut
lalu setiap data akan dihitung lagi jaraknya ke setiap centroid. Langkah ini akan diulang sampai
perubahan centroid tidak berubah atau terlalu kecil atau sampai tingkat interasi yang
ditentukan.
Gambar 5. proses Algoritma K-means
Gambar 6. (a) cluster awal, (b) cluster dengan centroid yang berubah (c). Cluster akhir
(Han, Kamber and Pei, 2012)
Salah satu masalah utama di algoritma K-means adalah jika ada data outlier yang
membuat jarak satu data sangat jauh dengan data lain sehingga titik tengah cluster bisa ke arah
data outlier tersebut sehingga tidak mencerminkan titik tengah data. Ini bisa diatasi ketika
praproses dengan menghilangkan data outlier tersebut atau dengan menggunakan algoritma
lain yang bisa mengatasi masalah ini seperti K-medoid.
Perbedaan K-medoid dengan K-means adalah centroid akan diubah bukan berdasarkan
titik tengah cluster tapi berdasarkan medoid di dalam cluster dengan memilih objek di cluster
tersebut dan melihat apakah objek tersebut merupakan titik tengah cluster. Algoritma K-
medoid adalah
1.Inisialisasi pusat cluster sebanyak k (jumlah cluster)
2. Alokasikan setiap data (objek) ke cluster terdekat menggunakan persamaan ukuran
jarak
3. Pilih secara acak objek pada masing-masing cluster sebagai kandidat medoid baru.
4. Hitung jarak setiap objek yang berada pada masing-masing cluster dengan kandidat
medoid baru.
5. Hitung total simpangan (S) dengan menghitung nilai total distance baru – total
distance lama. Jika S < 0, maka tukar objek dengan data cluster untuk membentuk
sekumpulan k objek baru sebagai medoid.
6. Ulangi langkah 3 sampai 5 hingga tidak terjadi perubahan medoid, sehingga
didapatkan cluster beserta anggota cluster masing-masing(Pramesti, Furqon and
Dewi, 2017) .
Salah satu kelemahan algoritma ini adalah adalah kompleksitas algoritmanya atau big
O besar, nilai O (K(n-K)2) sehingga membuat algoritma ini lama untuk dijalankan. Perbaikan
dari Algortima ini adalah algoritma Clara yang ditemukan pada tahun 1990 oleh Kaufmann &
Rousseuw
G. Perhitungan Jarak
Salah satu masalah yang dihadapi di dalam algoritma clustering adalah memilih
algoritma Perhitungan jarak. rumus yang berbeda dalam menhitung jarak antar data bisa
membuat nilai dari cluster berubah
1.Manhattan Distance
Manhattan distance atau dikenal juga dengan City block distance digunakan untuk menghitung
jarak dengan tujuan untuk mendapatkan jarak dari satu titik data ke titik data yang lain.
Manhattan distance mencerminkan jarak antar titik di jalan perkotaan dalam 1 blok. Persamaan
matematik dari manhattan distance yaitu:
(𝑥,𝑦)=Σ|𝑥𝑖−𝑛𝑖=1𝑦𝑗| …..(1)
Dari persamaan 1, x = (x1, x2, x3, …,xn) dan y = (y1, y2, y3, …, yn). Perhitungan manhattan
distance adalah dengan menjumlahkan hasil absolut dari pengurangan antar titik.
2. Euclidean Distance
Dalam matematika. euclidean distance digunakan untuk megukur antara dua titik dalam satu
dimensi yang memberikan hasil seperti rumus Pythagoras. Persamaan Euclidean distance yaitu
(P. Grabust, 2011):
(𝑥,𝑦)=√Σ(𝑥𝑖𝑘+𝑦𝑗𝑘)2𝑛𝑘−1 …..(2)
Dari persamaan 2, x = (xi1, xi2, xi3, …,xin) dan y = (yj1, yj2, yj3, …, yjn). Euclidean distance
diperoleh dari jumlah kuadrat antar titik yang diakar kuadratkan.
3. Chebyshev Distance
Nilai jarak maksimum atau disebut juga Chebychev distance merupakan perhitungan jarak
yang menghitung besarnya hasil absolut dari perbedaan antara sepasang objek. Chebychev
distance dapat dihitung menggunakan persamaan:
𝐷(𝑥,𝑦)=𝑚𝑎𝑥𝑘 |𝑋𝑖𝑘−𝑌𝑗𝑘| …..(3)
Metrik dalam chebychev distance, didefinisikan di dalam ruang vektor yang mana jarak antara
dua vektor yang memiliki perbedaan terbesar disepanjang dimensi koordinatnya.
H. Penentuan Centroid Awal
Penentuan centroid awal merupakan salah satu faktor dalam menentukan pembentukan
cluster. Inisialisasi centroid yang berbeda di data yang sama bisa menyebabkan terbentuknya
cluster yang sangat berbeda. Faktor ini menjadi masalah yang lebih besar karena sebagian besar
algoritma berbasis partisi clustering menginisiasi centroid awal secara random di algoritmanya.
Salah satu cara mengatasi ini adalah menjalankan algoritma berulang ulang lalu menganalisa
cluster untuk melihat pembentukan cluster yang paling baik. Tapi cara itu masih melibatkan
faktor random yang tidak bisa dipercaya. Beberapa teorema telah diusulkan untuk mengatasi
masalah ini seperti.
Mengambil titik centroid hierarchical clustering: metode ini akan mengambil nilai centroid
berdasarkan nilai tengah centroid setelah data tersebut dicluster dengan cara hiraki dengan K
yang diinginkan.
K-means++: Metode ini baik digunakan untuk memastikan titik K tersebar secara baik. cara
kerjanya adalah memilih satu titik centroid secara random lalu menentukan titik centroid
selanjutnya berdasarkan titik pertama untuk mendapatkan jarak terjauh dari titik semula
tersebut agar pembagian cluster seimbang.
Canopy: Metode ini menggunakan algoritma clustering canopy sebagai dasar menentukan
letak awal centroid.
I. Penentuan K
Penentuan nilai K merupakan salah satu permasalah terbesar didalam clustering
berbasis partisi. Jumlah K akan menentukan jumlah centroid yang akan diletakan yang akan
menentukan banyak cluster yang akan dibuat. Banyak riset yang telah dilaksanakan seperti
yang dilakukan oleh Prof D.T. Pham dalam menentukan nilai K (Pham, Dimov and Nguyen,
2005) tapi dari riset tersebut belum ada solusi utama dalam menentukan nilai K beberapa
algoritma umum yang digunakan adalah metode Elbow dan Silhouette.
Metode Elbow adalah metoda yang bagus dalam menentukan nilai K berdasarkan nilai Sum
Square Error (SSE) atau variannya WSS. Cara kerjanya adalah memaparkan semua nilai SSE
dari setiap cluster mulai dari angka 1 sampai N. Setelah dipaparkan didalam grafik ketika ada
titik perubahan besar didalam grafik maka nilai dititik perubahan itu akan dijadikan nilai K
tersebut yang akan ditentukan untuk clustering. Metode ini baik jika ada perubahan mencolok
didalam SSE sehingga mudah menentukan nilai K nya tapi jika perubahannya tidak baik maka
belum tentu bisa ditentukan nilai K.
Gambar 7. Gambar kiri paparan elbow yang menemukan K=3 Gambar Kanan tidak bisa
mentukan nilai K
Metode Silhouette adalah metode yang memperlihatkan jarak pisah antar cluster. Plot
yang dihasilkan Sihoutte menampilkan kedekatan antar satu cluster dengan tetangganya
dengan plot tersebut maka bisa ditentukan keadaan cluster tersebut. Ukuran yang didapat
memiliki jangkauan [-1,1]
Jika nilai dari silhouette mendekati satu maka jarak antara cluster semakin jauh dan ini
yang menunjukan bahwa nilai K inilah yang sebaiknya dipilih. Nilai yang mendekati nol
artinya cluster berdekatan dan nilai minus menunjukan bahwa ada kemungkinan ada kesalahan
dalam alokasi cluster.
Gambar 8. Gambar hasil plot silhouette dengan K=2,3,4(Thinsungnoen et al., 2015)

J. Validasi Clustering
Penentuan validitas clustering tidak bisa dijelaskan dengan sempurna karena sulitnya
menentukan apakah cluster itu baik atau tidak. Salah satu cara adalah melihat similiritas dan
disimilititas antar data didalam cluster. Secara Umum validasi cluster bisa dibagi menjadi 3
tipe
1. Index External: melihat apakah label cluster sesuai dengan label kelas salah
satu cara adalah melihat entropy.
2. Index Internal: mengukur bagaimana struktur cluster berhubungan dengan
informasi external salah satu cara adalah melihat Sum of Squared Error (SSE).
3. Index relative: digunakan untuk membandingkan 2 macam clustering untuk
menentukan clustering terbaik. Ini bisa dilakukan dengan membandingkan
nilai SSE dan entropy dua macam pengclusteran.
Sum of Squared Error atau (SSE) adalah mengukur nilai eror ke cluster terdekatnya dan
SSE adalah pangkat jumlah eror tersebut.
𝑆𝑆𝐸 = ∑𝐾 2
𝑖=1 ∑𝑥𝜖𝐶𝑖 𝑑𝑖𝑠𝑡 (𝑚𝑖 , 𝑋) …..(4)
Dimana K adalah jumlah K cluster,mi adalah titik tengah cluster, x adalah letak data x
dimana dist adalah rumus atau nilai jarak yang digunakan untuk mendapat jarak. Dalam
Analisa cluster SSE memilki varian untuk mengukur kemiripan objek dengan data yang ada
dengan rumus
𝑊𝑆𝑆 = ∑𝑖 ∑𝑥𝜖𝐶𝑖 (𝑥 − 𝑚𝑖 )2 …..(5)

Selain itu SSE bisa juga digunakan untuk mengukur perbedaan jarak antar setiap cluster
𝐵𝑆𝑆 = ∑𝑖|𝐶𝑖 |(𝑚 − 𝑚𝑖 )2 …..(6)
Sering digunakan didalam algoritma elbow untuk menentukan jumlah K dalam

clustering. Tetapi SSE memiliki kelemahan yaitu semakin banyak K maka nilai SSE akan
semakin baik karena jika K= jumlah data maka SSE akan bernilai nol karena centroid cluster
adalah dirinya sendiri. Karena itu selain SSE clustering memerlukan nilai lain untuk
mengetahui apakah clustering dilakukan dengan baik.
Nilai dari WSS dan BSS jika dijumlahkan akan menghasilkan nilai 0 ini sesuai dengan
rumus diatas dan bisa digunakan untuk melihat apa nilai perhitungan WSS dan BSS benar.
Selain nilai SSE ada satuan lain yang bisa digunakan untuk melihat validasi cluster. Nilai lain
yang akan digunakan adalah connectivity, Dunn Index, dan silhouette width.
Connectivity adalah nilai uang merepresentasikan kekuatan hubungan antara cluster
dimana jika nilainya mendekati nilai nol maka semakin baik hubungannya. Rumus
Connectivity tertera dibawah
𝐶𝑜𝑛𝑛 = ∑𝑁 𝐿
𝑖=1 ∑𝐽=1 𝑥𝑖 , 𝑛𝑛𝑖(𝑗) …..(7)
Dunn Index mengukur jarak terbesar antar cluster dengan jarak terkecil. Semakin kecil
nilai Dunn Index semakin bagus pengclusteran. Rumus dunn Index tertera dibawah
𝑚𝑖𝑛 𝑚𝑖𝑛 𝑑𝑖𝑠𝑠 (𝑐𝑖,𝑐𝑗)

𝐷𝑈 = 𝑖 = 1,…,𝑘 { 𝑗=𝑖+1 ,…,𝑘 (𝑚𝑎𝑥 ) …..(8)
𝑚=1,..,𝑘 (𝑑𝑖𝑎𝑚(𝑐𝑚 ))
Silhoutte width memperlihatkan nilai rata- rata silhoute pada setiap observasi. Rumus
silhouette width tertera dibawah
𝑖𝑏 −𝑎
𝑖
𝑆 (𝑖 ) = max(𝑏 𝑎)
…..(9)
𝑖 𝑖
SSE, Conncectivity, Dunn Index dan sihoutte width digunakan mengukur index
internal agar bisa mengetahui index external dan ratio diperlukan data yang memiliki target
kelas untuk membandingkan. Satuan yang bisa digunakan untuk ini adalah Entropy and
purity.(Savitri, Bachtiar and Setiawan, 2018)
V. Metodologi Penelitian
Basis penelitian adalah berbasis dari penelitian sebelumnya dengan perbaikan
berdasarkan apa yang telah dipelajari dari penelitian sebelumnya. Langkah pertama adalah
pengumpulan data dan pemrosesan data. Dari penelitian sebelumnya data yang dikumpulkan
memerlukan waktu yang banyak. Langkah berikutnya adalah memproses data. Data yang
didapat memerlukan praproses agar bisa digunakan dari untuk diclustering. Dari penelitian
sebelumnya data set yang terkumpul 350 data set dan 20% yang berhasil di praproses untuk
digunakan untuk clustering.
Setelah data siap digunakan akan digunakan maka data akan digunakan di program
clustering. Program yang digunakan terbagi menjadi 2 bagian. Program yang siap digunakan
seperti weka, rapid miner dan R studio dan program yang mesti dikembangkan seperti
membuat program clustering menggunakan python dan weka.
Hasil data yang dihasilkan dari pemrosesan data program dikumpulkan untuk diproses
dan analisisa. Hasil pemrosesan dari penelitian sebelum menghasilkan lebih dari 3 gigabyte
data dan 1750 grafik yang akan diproses menjadi tabel dan grafik yang akan digunakan untuk
analisa dan pemaparan data agar bisa dimengerti. Data yang dikumpulkan hanya berdasarkan
2 algoritma untuk penelitian sebelumnya. Untuk penelitian ini akan menggunakan algoritma
yang sama dengan variasi inisialisasi awal dan penambahan algoritma hierachical clustering.
Untuk diperkirakan data yang akan dihasilkan melebihi 4 gigabyte maka jumlah asisten
penelitian untuk menginput dan membantu pemrosesan data untuk penelitian ini ada 7 orang
mahasiswa.
Gambar 9. Metologi penelitian
A. Penentuan data
Dari penelitian sebelumnya telah terkumpul 350 data set dari sumber sekunder, akan
tetapi dari data set yang terkumpulkan 20% data telah di praproses dan digunakan di dalam
analisa penentuan nilai K. Dari data set tersebut yang telah dijalankan menghasilkan lebih dari
3 gigabyte data dan menghasilkan lebih dari 1750 grafik yang diolah menjadi masukan untuk
data analis.
Dalam penelitian akan mengunakan 350 data set yang telah tersedia dan akan dilakukan
praproses untuk mendapatkan data yang layak digunakan untuk penelitian ini. Ini diperlukan
karena didalam data mining langkah awal yang mesti dilakukan adalah mendapatkan data awal
yang baik. Salah satu masalah didalam pemilihan dan pemrosesan data adalah mengubah data
agar dapat agar bisa digunakan didalam clustering karena terlihat dipenelitian sebelumnya pra
proses data memerlukan waktu dan upaya yang besar dan setelah dilakukan praproses
sederhana tidak semua data yang didapat layak untuk digunakan untuk proses pengklasteran.
Data telah diambil dari banyak data bank dan seperti data pertanian dan medis yang
didapat dari sumber data anggota peneliti. Data yang dipilih akan diusahakan mencerminkan
sebagian besar karateristik data nominal dan numerik dengan tingkat kriteria yang beragam.
Pengumpulan dan analisa data akan memakan waktu sekitar satu sampai dua bulan dan
memerlukan akses ke bank data yang kemungkinan perlu lisensi untuk mendapatkannya yang
memerlukan biaya.
Data numerik juga memiliki masalah terutama jika sebaran data tidak seimbang atau
satu atribut memiliki nilai yang sangat besar dan atribut memiliki nilai yang sangat kecil. Jika
terjadi data yang seperti itu maka satu atribut akan memiliki pengaruh besar terhadap penentuan
jarak. Untuk mengatasi hal tersebut salah satu langkah adalah mengnormalisasi data.
Normalisasi data adalah langkah agar membuat semua bobot atribut data memiliki bobot yang
sama. Normalisasi memiliki banyak jenis tapi yang paling sederhana adalah normalisasi min
max:
𝑣− 𝑚𝑖𝑛𝐴
𝑣 ′ = 𝑚𝑎𝑥 (𝑛𝑒𝑤𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤𝑚𝑖𝑛𝐴 ) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴 …..(10)
𝐴 −𝑚𝑖𝑛𝐴
Rumus ini akan membagi data dengan jangkauan data max- min dengan data asli yang
dikurangi nilai minimal. Dalam pemilihan data numerik akan dipilih data dengan sifat numerik
seperti ratio, discrete dan continuous. Salah satu contoh data numerik yang sering digunakan
adalah adalah data iris2d. Data ini adalah data numerik dengan dua atribut data numerik dan
satu target data nominal yang biasanya digunakan untuk klasifikasi.
Gambar 10. Gambar tabel sampel data numerik iris dipaparkan dengan weka viewer
Data weather nominal dan data numerik adalah contoh data yang sudah dipraproses dan
siap digunakan didalam clustering. Tapi belum tentu data yang dipilih untuk penelitian ini akan
memiliki keadaan yang siap dipakai. Beberapa hal lain yang mesti diatasi dalam pemilihan dan
pemrosesan data adalah masalah dirty data. Masalah yang dihadapi dalam dirty data yang
mungkin harus diatasi adalah noise, missing value, outlier dll. Outlier akan menjadi salah satu
tantangan karena algoritma K-means rentan terhadap data oulier.
Bagian dari peneilitian ini akan dilaksanakan oleh ketua peneliti di bantu dengan 2
anggota dosen dan 7 mahasiswa yang akan dilatih secara intensif dalam ilmu seleksi data.
bagian ini memerlukkan waktu 9 minggu. Setiap dosen anggota menyumbangkan data dari
bidang masing- masing dan menvalidasi data yang telah dipreproses.
B. Pemilihan Algoritma inisialisasi awal.

Pemililihan algoritma inisialisasi awal clustering berbasis partisi adalah salah satu langkah
penting setelah melakukan pemilihan data. Didalam proses ini banyak penelitian yang
menyarankan berbagai algoritma seperti K-means++, K*-means,CIAA dll. Dan setiap
algoritma memperlihatkan kelebihan dan kekurangannya
Penelitian ini akan memaparkan beberapa algoritma yang bisa menggambarkan faktor
tersebut didalam clustering berbasis partisi. Algoritma pertama yang akan digunakan adalah
K-means++. Kmeans++ adalah algoritma yang inisialisasi awalnya menginisialisasi titik awal
centroid agar tidak berdekatan dengan mengunakan rumus probabilitas.
Gambar 11. Gambar hasil clustering K-means++ menggunakan Rstudio

Hierarchical K-means adalah algoritma kedua yang akan dipilih berdasarkan
kemampuannya mengcluster mengunakan K-means dengan cara hierchical. Ini diharapkan
mendapatkan cluster yang lebih teratur dan unik berdasarkan algoritmanya.
Gambar 12. Gambar clustering Hierarchical K-means dengan R studio

Selain kedua algoritma tersebut akan dicoba beberapa algortima lain dari library yang tersedia
di R. Selain algoritma yang telah disediakan oleh R algoritma lain yang mungkin
dipertimabangkan adalah PSO (Partical Swarm Optimization).
C. Metode Penentuan Nilai K

Seperti penelitian sebelumnya, pemilihan nilai K didalam clustering merupakan hal
yang unik dan tidak bisa dilakukan untuk setiap data. Ini dikarenakan setiap data memiliki
karateristik yang berbeda dan setiap algoritma memiliki kemungkinan memiliki nilai K yang
berbeda untuk data yang sama terutama jika cara pengukuran jaraknya berbeda.
Langkah awal yang adalah menjalankan algoritma elbow dalam k-means untuk setiap
data. Tetapi, karena K-means memiliki fakor random dalam inisialisasi centroid
kemungkinan algoritma akan dijalankan 10 kali untuk setiap data untuk memastikan titik
elbow tidak salah karena pengaruh randomize centroid awal.
Tabel 1. Tabel hasil K value dari 37 data yang dijalankan dengan Elbow dan Silhoutte
K-value (Elbow) K-value (Silhouette)
Data Id Number of atributes Euclidean Manhattan Minkowski diffrence Euclidean Manhattan Minkowski Diffrence
1 9 3 3 3 0 2 2 2 0
2 5 2 2 2 0 2 2 2 0
3 2 2 2 2 0 2 2 2 0
4 6 3 3 3 0 3 3 3 0
5 172 2 2 2 0 2 2 2 0
6 8 3 3 3 0 2 2 2 0
7 6 2 2 2 0 2 2 2 0
8 4 3 3 3 0 3 3 3 0
9 12 2 2 2 0 2 2 2 0
10 6 3 3 3 0 3 2 3 0
12 3 5 5 5 0 5 5 5 0
14 7 0 0 0 0 6 6 6 0
15 6 2 2 2 0 2 2 2 0
16 2 3 3 3 0 4 4 4 0
17 7 2 2 2 0 3 3 3 0
18 2 5 5 5 0 2 2 2 0
19 11 2 2 2 0 2 2 2 0
20 3 5 5 5 0 4 4 4 0
21 3 0 0 0 0 8 8 8 0
22 9 0 0 0 0 10 2 10 1
23 3 4 4 4 0 5 5 5 0
24 8 5 5 5 0 2 2 2 0
25 2 0 0 0 0 2 2 2 0
26 3 5 5 5 0 2 2 2 0
27 6 7 2 7 1 10 10 10 0
28 9 2 2 2 0 2 2 2 0
29 8 0 0 0 0 3 3 3 0
30 6 3 3 3 0 2 2 2 0
31 4 3 3 3 0 2 2 2 0
32 3 3 3 3 0 10 10 10 0
33 6 2 2 2 0 2 2 2 0
34 4 2 2 2 0 4 2 4 1
35 20 4 4 4 0 2 2 2 0
36 10 2 2 2 0 2 2 2 0
37 29 2 2 2 0 2 2 2 0
total 1 total 2
Selain elbow, algoritma silhouette juga akan untuk digunakan untuk menentukan nilai
K. Algoritma ini akan digunakan sebagai pembanding dalam menentukan nilai K jika nilai K
antara metode Elbow dan silhouette berbeda maka kedua nilai k tersebut akan dicoba disetiap
algoritma untuk memperlihatkan pengaruhnya terhadap analisa cluster. Selain metode
Silhouette, metode Gap statistic akan digunakan untuk menambahkan data dalam penelitian
ini dalam penentuan nilai K
Bagian penelitian ini akan dilaksanakan oleh ketua dibantu 7 orang mahasiswa yang
akan membantu menjalankan program dan mengumpulkan data nilai K untuk setiap data yang
digunakan. Mahasiswa akan terlebih dahulu dilatih untuk melakukan koding dengan Bahasa
R agar bisa mengkoding program yang mampu menjalankan algoritma yang telah ditentukan.
Gambar 13. Gambar contoh koding elbow, silhouette, gap statistic menggunakan k-
means dalam menentukan jumlah K dengan Bahasa pemrograman R (Determining The
Optimal Number Of Clusters: 3 Must Know Methods, 2018)
Gambar 14. Gambar hasil coding gambar 14.

D. Variasi pemilihan rumus penentuan jarak
Pada penelitian sebelum yang terlihat di table 1. Hampir semua data menunjukan bahwa
tidak ada perbedaan yang drastis sehingga untuk penelitian ini akan menggunakan euclidean
distance sebagai jarak standar didalam clustering. Akan tetapi dalam penelitian sebelumnya
belum dilakukan perbandingan dengan metrics similarity. Karena itu maka didalam
penelitian ini akan dicoba clustering K-means dengan cosine distance.
Gambar 14. Screen shot hasil clustering menggunakan cosine distance.

Tahapan B,C, dan D akan dilaksanakan oleh dosen ketua dibantu oleh 7 mahsiswa
penelitian. Waktu yang dibutuhkan untuk tahapan ini memerlukan waktu 11 minggu.
E. Memvalidasi clustering
Teknik validasi cluster tidak ada cara yang tepat walaupun banyak satuan dan rumus
yang bisa digunakan. Pada tahapan ini seluruh data yang telah didapat dari tahap akan
dikumpulkan dan disusun secara berurut untuk memperlihatkan hasil analisa data yang telah
didapat. Setiap nilai SSE, Dunn index, Silhouette width akan dibandingkan untuk mengetahui
Index internal clustering. Purity dan entropy akan digunakan untuk mengetahui nilai External
index. Jika data memungkinkan maka Internal Index dan External Index akan digunakan untuk
melakukan perbandingan. Semua nilai akan dipaparkan dan dianalisa secara statistika. Selain
itu jika memungkinkan maka setiap clustering akan divisualisasi untuk memperlihatkan
pengclusteran yang telah dilakukan dan memperlihatkan apakah ada informasi yang bisa
didapatkan dari visualisasi tersebut.
Tahapan ini akan dilakukan oleh ketua dibantu 2 orang anggota dosen dalam melakukan
analisa hasil. Setiap nilai akan dipaparkan dan diperlihatkan kesetiap anggota untuk
mendapatkan tanggapan sesuai data yang dipaparkan.
Gambar 15. Tabel keluaran perbandingan validates data mouse dengan K=2,3,4,5,6
Tabel 2. Tabel proses data clustering menggunakan R Studio untuk data set airlines
Nama : Airline Safety Dataset
KMEANS/KMEDOIDS : K-means
For K-value :1
Data K1
Seed Centroid
incidents_85_99 fatal_accidents_85_99
sh fatalities_00_14Incidents_00_14fatal_accidents_00_14
Fatalities_00_14Cluster? Size SSE Comment
100 2,4077796 2,8211236 1,0708848 2,11772237 1,2685529 0,10987012 1 (STD) 4 33,03479
200 0,02409218 0,325941 1,7294872 -0,223079 0,006931983 -0,07950213 4 9 21,92654
500 0,02409218 0,325941 1,7294872 -0,223079 0,006931983 -0,07950213 2 9 21,92654
750 GRAFIK SALAH (TES ULANG)
1000 0,2138423 0,4753084 1,3228533 ,0,1417457 0,4847056 -0,03919791 4 11 44,16452
Data K2
Seed Centroid
100 0,1952545 0,1705989 -0,3391074 0,66923694 1,2685529 0,10987012 2 (STD) 6 23,1182
200 0,47314164 0,6016733 0,1335411 0,9185965 1,676153568 1,40104454 3 10 21,7303
500 0,47314164 0,6016733 0,1335411 0,9185965 1,676153568 1,40104454 4 10 21,7303
1000 0,2194186 -0,4798962 -0,549489 -0,345314 -0,47830685 -0,31952334 2 36 40,83841
Data K3
Seed Centroid
100 0,02409218 0,325941 1,7294872 -0,223079 0,006931983 -0,31952334 3 (STD) 3 21,92654
200 38802792 3,7823029 1,0572507 2,3927513 0,9774096 0,1255888 2 2 21,7303
500 0,02409218 0,325941 1,7294872 -0,223079 0,006931983 -0,31952334 3 9 21,92654
1000 0,02409218 0,325941 1,7294872 -0,223079 0,006931983 -0,31952334 1 9 21,92654
Data K4
Seed Centroid
100 4 (STD)
200 1
500 1
750
1000 3
Tahapan validasi clustering akan dilaksanakan oleh ketua peneliti dan 2 anggota dosen
yang akan memberikan analisa sesuai bidangnya terhadap hasil data yang telah diclustering.
Bagian ini akan dibantu oleh 7 orang mahasiswa dan akan memerlukan waktu 12 minggu.
H. Metode Pengembangan Perangkat Lunak

Metode yang digunakan dalam pengembangan perangkat lunak yang akan digunakan
untuk membantu menganalisa dan mengumpulkan data didalam penelitian ini adalah Rapid
Application Developmnet (RAD). Alasan menggunakan RAD dalam pengembangan software
ini adalah definisi RAD sendiri yang dikemukakan Professor Clifford dari University of
Redlands. Dia mengatakan bahwa RAD adalah cara pembangunan sistem komputer yang
menggabungkan Computer-Assisted Software Engineering (CASE) atau tools, prototyping,
teknik pemrograman dan jadwal ketat dalam pengembangan software dalam mengembangkan
sistem yang baik, teruji dan memiliki kualitas yang baik.
Definisi dan model inilah yang menjadi alasan menggunakan RAD. Tim
pengembangan software adalah ketua dengan 7 orang mahasiswa yang akan mengembangkan
software dengan waktu yang sangat cepat. Waktu penelitian akan sebagian besar digunakan
untuk mengumpulkan dan menganalisa data hasil dari program. Selain itu, RAD cocok dengan
kasus ini karena ketua peneliti dan 7 mahasiswa adalah user yang akan menggunakan software
sehingga testing dan konfirmasi fungsi bisa langsung dilaksanakan. RAD juga memfasilitasi
penggunaan library dan tools dalam pengembangan perangkat lunak. Hal tersebut akan
diperlukan agar software bisa dibangun dengan cepat.
Gambar 16. Perbedaan alur pengembangan perangkat tradional dan RAD
I. Perangkat lunak pembantu yang akan digunakan.
Dalam penelitian ini untuk menganalisa clustering berbasis partisi akan menggunakan
beberapa perangakat lunak dibantu tools. Perangkat lunak ini akan digunakan mengolah data
yang telah dipilih dan menjalankan algoritma yang diseleksi. Beberapa software dan bahasa
pemrograman yang akan digunakan adalah pyton, R, Weka dan Rapid miner.
Pyton adalah Bahasa pemrograman yang interactive dan object-oriented yang sering
dibandingkan dengan Tcl, Perl.Sceme dan Java. Pyton memiliki library untuk kebutuhan dasar
data mining, NET, dan memiliki API untuk database.(Reed, 2004)
R adalah software statistika yang memiliki kemampuan untuk menganalisa data dan
memvisualisasi data. (Kassambara, 2015)
Weka adalah koleksi algoritma untuk menjalankan data mining. Weka mengandung
tools untuk mempersiapkan data klasifikasi, regresi, clustering, asosiasi dan visualisasi
data.(Machine Learning at Waikato University, 2019)
VI. LUARAN DAN TARGET CAPAIAN
Luaran dari penelitian diharapkan menghasilkan 1 publikasi yang akan diseminarkan di

Sisconia 2020, 1 paper yang akan dipublikasi di journal terakriditasi nasional, 1 software
clustering bersifat protoype dan 5 judul tugas akhir yang akan disiapkan oleh asisten penelitian.
Target Capaian adalah penelitan ini bisa menghasilkan paper yang dipublikasi.
Tabel 2. Table Luaran.
Indikator
No Jenis Luaran Capaian Keterngan
Seminar Internasional Bereputasi
dan terindex di data base Scopus -
1 publikasi
sisconia
1 paper
publiasi
Luaran Wajib Berupa Jurnal Nasional Terakreditasi 2 nasional
1 Publikasi Ilmiah Jurnal Internasional bereputasi -
Proses dan produk ipteks berupa

metode, blue print,prototipe,
sistem, kebijakan atau model
yang
bersifat strategis dan berskala 1 1 protoype
Produk teknologi tepat guna yang

langsung dapat dimanfaatkan
oleh
masyarakat; -
1 materi
pertemuan
Luaran Tambahan kelas data
2 berupa Buku/Bahan ajar 1 ming
Paten -
Luaran Tambahan
berupa
3 HKI Paten Sederhana -
Hak Cipta -
RAhasia Dagang -
Merek Dagang -
Desain Produk Industri -
Indikasi Geografis -
Perlindungan Varietas Tanaman -
Perlindungkan Topografi Sirkuit

terpadu -
VII. Angaran Biaya
Anggaran biaya berdasarkan pengaran biaya pada penelitian 2019. Pada penelitian ini
beberapa hal yang mempengaruhi permintaan penambahan anggaran adalah besarnya data
yang didadapat dapat. Pada penelitian sebelumnya data yang didapat berjumlah 350 data set
akan tetapi yang bisa diolah hanya 20% dan dari yang berhasil diolah hanya 10%
mengahasilkan data yang bisa digunakan untuk analisa. Akan tetapi dari 10% data tersebut
menghasilkan lebih dari 3 gigabyte data dan 1750 grafik. Pada penelitian ini diperkiraan akan
menghasilkan lebih banyak data dan grafik karena menggunakan lebih banyak algoritma.
Perincian dana bisa dilihat dari table dibawah ini.
Tabel 3. Rancangan Anggaran Biaya penelitian 2020

Biaya
No Kegiatan Jumlah Satuan satuan Total
I Persiapan Awal
mengadakan pertemuan
1 awal dengan Tim 2 Pertemuan Rp350.000 Rp700.000
2 Menetapkan Rencana Jadwal Kerja 2 Pertemuan Rp350.000 Rp700.000
3 Menetapkan desain penelitian 2 Pertemuan Rp350.000 Rp700.000
4 Menetapkan format pengumpulan data 2 Pertemuan Rp350.000 Rp700.000
II Persiapan Asisten Mahasiswa

5 training dasar data mining Mahasiswa 5 Pertemuan Rp200.000 Rp1.000.000
6 training Weka Mahasiswa 3 Pertemuan Rp200.000 Rp600.000
7 training Python Mahasiswa 5 Pertemuan Rp200.000 Rp1.000.000
8 Training R Mahasiswa 4 Pertemuan Rp200.000 Rp800.000
9 Training rapid miner Mahasiswa 3 Pertemuan Rp200.000 Rp600.000
III Barang habis pakai

10 Tinta Warna 1 Katridge Rp450.000 Rp450.000
11 tinta Hitam 1 Katridge Rp450.000 Rp450.000
12 Kertas 5 Rim Rp60.000 Rp300.000
13 Dvd 25 Keping Rp10.000 Rp250.000
14 Biaya Internet 11 bulan 11 Bulan Rp300.000 Rp3.300.000
15 Licensi Udacity 1 set Rp2.000.000 Rp2.000.000
16 Alat tulis dan perlengkapan Tulis 1 set Rp800.000 Rp800.000
Persiapan Data
17 Studi leteratur 15 buku Rp100.000 Rp1.500.000

18 penumpulan Data 1 set Rp2.000.000 Rp2.000.000
18 Pemroses dan pembersihan data 1 set Rp750.000 Rp750.000
18 Arsitektur data base 1 set Rp500.000 Rp500.000
Pembangunan perangkat Lunak dan

Pengumpulan clustering dari
IV perankat lunak
18 Pembuatan system menggunakan Pyton 1 set Rp800.000 Rp800.000
19 Pembuatan dan menjalankan script R 1 set Rp800.000 Rp800.000
Pengumpulan data dengan clustering
20 dengan tools data mining weka 1 set Rp800.000 Rp800.000
Pemrosesan data
21 Honor Mahasiswa (6 * 100000) Perorang 7 orang Rp600.000 Rp4.200.000
22 Pemrosesan data hasil clustering 1 paket Rp1.500.000 Rp1.500.000
V Laporan
23 Pembuatan Laporan dan publikasi 1 paket Rp700.000 Rp700.000
24 Pembuatan Journal 1 paket Rp500.000 Rp500.000
25 Dokementasi 1 set Rp600.000 Rp600.000
VI Dana persiapan publikasi

26 Registrasi Publikasi 1 set Rp2.000.000 Rp2.000.000
27 Biaya seminar (Tiket, Hotel) 1 paket Rp5.000.000 Rp5.000.000
VII Pajak
Pajak 10% penelitian 1 Pembayaran Rp4.000.000 Rp4.000.000
Total Rp40.000.000
VIII. Jadwal
Rancangan jadwal berbasis metoda penelitian yang telah disesuaikan dengan pengetahuan yang
didapat dari penlitian sebelumnya. Rancangan jadwal penelitian terpapar ditabel 3 dibawah.
Tabel 4. Table Rancangan Jadwal
Tahun 2020
Kegiatan/bulan 1 2 3 4 5 6 7 8 9 10 11
Perisapan Proposan
Training Mahasiswa
Studi letratur
Perancangan software
Pembangunan Software
Pengumpulan Data
Preproses Data
Testing Program
Mengumpulkan data dari program
Analisa Data Clustering
Pembuatan laporan
Publikasi dan refisi
IX. Daftar Pustaka
Abbar, S., Zanouda, T. and Borge-Holthoefer, J. (2018) ‘Structural robustness and service
reachability in urban settings’, Data Mining and Knowledge Discovery. doi: 10.1007/s10618-
018-0551-4.
Ahmad, A., Khan, S. S. and Ahmad, A. (2017) ‘Cluster center initialization algorithm for K-
means clustering Cluster center initialization algorithm for K -means clustering’, Pattern
Recognition Letters. doi: 10.1016/j.patrec.2004.04.007.
Bao, Y., Deng, S. W. and Lin, W. Q. (2015) ‘Research of Data Cleaning Methods Based on
Dependency Rules’, International Journal of Science, Engineering and Technology, 9(10),
pp. 2009–2013.
Clark, J. and Provost, F. (2019) ‘Unsupervised dimensionality reduction versus supervised
regularization for classification from sparse data’, Data Mining and Knowledge Discovery.
doi: 10.1007/s10618-019-00616-4.
Determining The Optimal Number Of Clusters: 3 Must Know Methods (2018)
Datanovia.com.
Han, J., Kamber, M. and Pei, J. (2012) Data Mining: Concepts and Techniques, Data
Mining: Concepts and Techniques. doi: 10.1016/C2009-0-61819-5.
Kassambara, A. (2015) ‘Practical Guide To Cluster Analysis in R (real version)’, pp. 1–187.
Available at:
https://pe56d.s3.amazonaws.com/o_1b64qp8fdsg81t4k1fongljq24m.pdf?AWSAccessKeyId=
AKIAIP3NFJ5OR5FTFOQQ&Signature=ekwWQ2FpwaTjBwVMF20SsNGBSR4%3D&Ex
pires=1522680996&response-content-
disposition=inline;filename=%22preview.pdf%22&response-content-type=applicati.
Khan, S. S. and Ahmad, A. (2013) ‘Cluster center initialization algorithm for K-modes
clustering’, Expert Systems with Applications. doi: 10.1016/j.eswa.2013.07.002.
Lu, J. F. et al. (2008) ‘Hierarchical initialization approach for K-Means clustering’, Pattern
Recognition Letters. doi: 10.1016/j.patrec.2007.12.009.
Machine Learning at Waikato University (2019). Available at:
https://www.cs.waikato.ac.nz/ml/weka/ (Accessed: 27 May 2019).
Pham, D. T., Dimov, S. S. and Nguyen, C. D. (2005) ‘Selection of K in K-means clustering’,
Proceedings of the Institution of Mechanical Engineers, Part C: Journal of Mechanical
Engineering Science, 219(1), pp. 103–119. doi: 10.1243/095440605X8298.
Pramesti, D. F., Furqon, M. T. and Dewi, C. (2017) ‘Implementasi Metode K-Medoids
Clustering Untuk Pengelompokan Data Potensi Kebakaran Hutan / Lahan Berdasarkan
Persebaran Titik Panas ( Hotspot )’, J-ptiik, 1(9), pp. 723–732.
Reed, D. (2004) ‘Rapid application development with {Python} and {Glade}’, Linux journal,
2004(123), p. ??--??
Savitri, A. D., Bachtiar, F. A. and Setiawan, N. Y. (2018) ‘Segmentasi Pelanggan
Menggunakan Metode K-Means Clustering Berdasarkan Model RFM Pada Klinik
Kecantikan (Studi Kasus : Belle Crown Malang)’, Jurnal Pengembangan Teknologi
Informasi dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya, 2(9), pp. 2957–2966.
Thinsungnoen, T. et al. (2015) ‘The Clustering Validity with Silhouette and Sum of Squared
Errors’, pp. 44–51. doi: 10.12792/iciae2015.012.
Lampiran
DAFTAR RIWAYAT HIDUP KETUA

Nama Lengkap : Danny Matthew Saputra
Tempat Tanggal Lahir : Palembang/ 10-05-1985
Jenis Kelamin : Pria
Pangkat/Golongan : IIIb
Fakultas/Jurusan : Ilmu Komputer/
Bidang Keahlian : Data Mining
Grup Riset : Data Mining
Alamat Kantor : Jalan Palembang -Prabumulih Km 32 Indralaya Ogan Ilir
Kode Pos 30662
Telepon/e-mail : 0711 353391 / danny.saputra@gmail.com
Alamat Rumah : Jalan Taman Siswa Lorong Lingkis No 45 Palembang
Pendidikan
1992-
SD Gledover Elemetary Kentucky USA 1994
1994-
SD SD Advent 1 Palembang 1998
1998-
SLTP SLTP Advent Palembang 2001
2001-
SMU SMU N 2 palemang 2003
2003-
S1 IT Telkom 2008
2010-
S2 Eastern Ketucky University 2013
Publikasi Ilmiah di Jurnal Nasional Terakreditasi/Tidak Terakreditasi/Internasional
Tahun Judul
Implementasi Metode Fuzzy Simple Additive Weighting (Fuzzy-Saw) Dalam
2018 Sistem Pendukung Keputusan Dengan Pendekatan Variabel Benefit Dan Cost
2017 Pelatihan 3D City Modeling Menggunakan Google Sketch Bagi Siswa SLTP Advent 1 Palembang
PELATIHAN PENGGUNAAN APLIKASI MOODLE SEBAGAI PERSIAPAN MENGHADAPI
2017 UJIAN NASIONAL BERBASIS KOMPUTER PADA SMK NEGERI 1 OGAN KOMERING UL
Pengalaman penelitian
total
Tahun Judul dana
2018 Implementasi Metode Fuzzy Simple Additive Weighting (Fuzzy-Saw) Dalam 15000000
Sistem Pendukung Keputusan Dengan Pendekatan Variabel Benefit Dan Cost
ANALISA TINGKAT KEAKURATAN GPS DISMART PHONE SEBAGAI BASIS

2017 PEMBANGUNAN SISTEM ABSENSI DOSEN BERBASIS GPS 17000000
Palembang, 24 Mei 2019
DannyMatthew Saputra
Anggota Peneliti: Prof. Dr. Ir. Daniel Saputra, MSA. Eng.
A. Identitas Diri
1 Nama Lengkap (dengan gelar) Prof. Dr. Ir. Daniel Saputra, M.S.A.Eng.
2. Jenis Kelamin L/P
3 Jabatan Fungsional Guru Besar
4 NIP/NIK 195808091985031003
5 NIDN 0009085802
6 Tempat dan Tanggal Lahir Padangsidempuan, 9 Agustus 1958
7 E-mail drdsaputra@unsri.ac.id
8 Alamat Rumah Jl. Taman Siswa, Lorong Lingkis No. 45/157 RT
03 RW 01
Palembang 30126
9 Nomor Telepon/HP. 0711-353391; 08127820729; 085279407485
10 Alamat Kantor Jurusan Teknologi Pertanian, Fakultas Pertanian
Universitas Sriwijaya,
Jl. Raya Palembang Prabumulih, Km 32
Ogan Ilir 30662
11 Nomor Telepon/Faks 0711-580664, 0711-580276
12 Lulusan yang telah dihasilkan Tidak terdata karena sudah banyak sekali
13 Mata Kuliah yang diampu 1.Teknik Pengolahan Pangan Lanjut (S3)
2. Filsafat Ilmu (S3)
3. Metode Penelitian Lanjut (S3)
4.Rekayasa dan Proses Pangan (S2)
5 Teknologi Pengolahan Pangan Lanjut (S2)
6.Metode Penelitian (S2)
7.Teknik Pengolahan Pangan (S1)
8. Sifat Thermal (S2)
9. Sifat Fisik Produk Pertanian (S1)
10. Teknik Pengolahan Hasil Pertanian (S1)
11. Termodinamika (S1)
12. Metode Ilmiah (S1)
13. Pindah Panas
B. Riwayat Pendidikan
Program : S-1 S-2 S-3
Nama Institut University of Kentucky, University of Kentucky,
Perguruan Pertanian Bogor USA USA
Tinggi (IPB)
Bidang Ilmu Mekanisasi Agricultural Agricultural Engineering
Pertanian Engineering
Tahun Masuk- 1978-1982 1985-1988 1991-1997
Lulus
Judul Skripsi Rancang Puffing Dehydrated Analysis of Enzymatic
/Tesis/Disertasi Bangun Tungku Green Bell Pepper with Hydrolysis of κ-Casein in
Sekam pada Alat CO2 Milk Using Diffuse
Pengering Tipe Reflectance of Near-
Vertikal dan Infrared Radiation
Kipas
Penghembus
Tipe Axial
Nama 1. Prof. Dr. Ir. 1. Prof. F.A. Payne Prof. F.A. Payne
Pembimbing Eriyatno, Prof. C.L. Hicks
/Promotor M.S.A.Eng
2. Dr Ir. Kohar
Irwanto.
C. Pengalaman Penelitian dalam 5 Tahun Terakhir
No. Tahun Judul Penelitian Pendanaan

(anggota / ketua peneliti) Sumber *) Jumlah
(Rp)
1 2012 Pengawetan Tempe dengan Pribadi
Karbondioksida bertekanan Tinggi
2 2012 Alat Pencuci Antibiotik Pada Produk Ristek 300.000.00
Perikanan Segar 0,-
D. Pengalaman Pengabdian Kepada Masyarakat dalam 5 Tahun terakhir.
No Tahu Judul Kegiatan Pengabdian kepada Pendanaan

. n Masyarakat, waktu dan lokasi Sumber *) Jumlah
(Rp)
1.
2.
3
E. Publikasi Artikel Ilmiah dalam Jurnal dalam 5-10 tahun terakhir (sebagai penulis
utama)
No. Tahun Judul Publikasi Volume Nama Jurnal
/Nomor
1 2012 Quality Changes of Exotic Tropical APS 2012 ISHS Acta Horticulturae 1011
Fruits During Packed In Semi-
Passive Modified atmosphere
2 2014 Modifikasi warna, tekstur dan Vol. 25(2), Jurnal Teknologi Dan Industri
aroma tempe setelah diproses Pangan
dengan karbon dioksida
superkritis.
3
F. Pemakalah Seminar Ilmiah (Oral Presentation) dalam 5 tahun terakhir.
No Nama Pertemuan Judul Artikel ilmiah Waktu dan

Ilmiah tempat
G. Karya Buku dalam 5 Tahun Terkahir
No. Judul Penelitian Tahun Jumlah Penerbit

Halaman
.
H. Perolehan HKI dalam 10 Tahun Terakhir
No Judul/Tema HKI Tahun Jenis Nomor P/ID
Saputra, D., Halimi, E.S., Paten biasa ID35665.

Pratama, F. 2014. Kantong IPC: B 65 D
Plastik Fleksibel Untuk 30/00
1. Memperpanjang Masa Simpan 2014 tanggal 13
Buah dan Sayuran Segar. Paten Maret 2014
Indonesia Granted.
Saputra, D. 2014. Proses Paten biasa ID35442.
Pengeringan Sayuran dan Buah- IPC: A 23 P
buahan Potng dengan 1/14 tanggal
2. Mengaplikasikan Teknologi 2014 10 Februari
Osmotic-Puffing Menggunakan 2014
Gas CO2. Paten Indonesia
Granted
Saputra, D., Yuliati, K., Paten Biasa ID35098.
Pratama F.2013. Alat Pencuci IPC: D06
3. Antibiotik Pada Produk Perikanan 2013 F35/00; D
Segar. Paten Indonesia, Granted 06 F 43/00
tanggal 5
Desember
2013
Saputra, D. 2008. Proses Paten Sederhana ID0021559.

Memperpanjang Masa Simpan IPC: A 23 L
Saus Cuka Pempek Palembang 1/39; A 23 L
4. Dengan Metoda vakum 2008 3/00
pengemasan panas. Paten
Indonesia, Granted
I. Pengalaman Merumuskan Kebijakan/Rekayasa Sosial Lainnya dalam 10 Tahun

Terakhir
Judul/Tema/Jenis
Tempat Respon
No Rekayasa Sosaial Lainnya Tahun
Penerapan Masyarakat
yang Telah Diterapkan
1.
2.
3.
4.
J. Penghargaan dalam 10 Tahun Terakhir (dari Pemerintah, asosiasi, atau Institusi)

Institusi
No Judul/Penghargaan Pemberi Tahun
Penghargaan
Nominasi Terbaik Penelitian Perguruan 2013
1. Dirjen Dikti
Tinggi Berorientasi Industri
2.
3.
4.
Semua data yang saya isikan dan tercantum daam biodata ini adalah benar dan dapat
dipertanggungjawabkan secara hukum. Apabila di kemudian hari ternyata dijumpai
ketidaksesuaian dengan kenyataan, saya menerima sanksi.
Demikian biodata ini saya buat dengan sebenarnya untuk memenuhi salah satu persyaratan
dalam pengajuan Hibah Penelitian Unggulan Kompetitif Universitas Sriwijaya Tahun 2016.
Inderalaya, 13 Mei 2016

Yang membuat,
Prof. Dr. Ir. Daniel Saputra, M.S.A.Eng.

Propsal Fix

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Propsal Fix

Diunggah oleh

Hak Cipta:

Format Tersedia

DIPA LPPM UNSRI

USUL PENELITIAN UNIVERSITAS

KETUA : DANNY MATTHEW SAPUTRA,S.T., M.SC.

Mengetahui, Indralaya, 24 Mei 2019

Jaidan Jauhari, M.T

a. Nama Lengkap dan Gelar : Danny Matthew Saputra,S.T., M.Sc.

b. Jenis Kelamin : Pria

c. NIP/NIDN : 198505102015041002/ 0010058507

d. Bidang Keahlian : Data Mining

e. Grup Riset : Data Mining

f. Pangkat/Golongan : Penatar Muda Tk II / III – B

g. Jabatan Fungsional/Struktural : Kepala lab RPL

h. Fakultas/Jurusan : Ilmu Komputer/

i. Waktu Penelitian : jam/minggu : 8jam / minggu

a. Nama Lengkap dan Gelar : dr. Liniyanti D. Oswari, M.Sc.

b. Jenis Kelamin : Wanita

d. Bidang Keahlian : Biokimia

f. Pangkat/Golongan : Lektor Kepala/ IV-B

g. Jabatan Fungsional/Struktural : Sekretaris Bagian

h. Fakultas/Jurusan : Kedokteran/ Kedokteran

i. Waktu Penelitian : jam/minggu : 2jam / minggu

b. Jenis Kelamin : Pria

d. Bidang Keahlian : Termodinamika

f. Pangkat/Golongan : Guru Besar / IV-E

g. Jabatan Fungsional/Struktural : Guru Besar

h. Fakultas/Jurusan : Falkultas Pertanian/ Teknik Pertanian

i. Waktu Penelitian : jam/minggu : 2jam / minggu

Mahasiswa yang terlibat

2. a. Nama Lengkap : Muhammad Rifqi

3. a. Nama Lengkap : Adryan Yudha Pratama

4. a. Nama Lengkap : Noordin As-Shiddiq Mangkunegara

5. a. Nama Lengkap : Nadya Parameswari Jasmine

6. a. Nama Lengkap : Dita Ayu Savitri

7. a. Nama Lengkap : Riska Wati Savitri

A. Road Map Penelitian

Gambar 1. Road Map Penerlitian

Gambar 8. Gambar hasil plot silhouette dengan K=2,3,4(Thinsungnoen et al., 2015)

𝑊𝑆𝑆 = ∑𝑖 ∑𝑥𝜖𝐶𝑖 (𝑥 − 𝑚𝑖 )2 …..(5)

𝐵𝑆𝑆 = ∑𝑖|𝐶𝑖 |(𝑚 − 𝑚𝑖 )2 …..(6)

Sering digunakan didalam algoritma elbow untuk menentukan jumlah K dalam

𝑚𝑖𝑛 𝑚𝑖𝑛 𝑑𝑖𝑠𝑠 (𝑐𝑖,𝑐𝑗)

B. Pemilihan Algoritma inisialisasi awal.

Gambar 11. Gambar hasil clustering K-means++ menggunakan Rstudio

Gambar 12. Gambar clustering Hierarchical K-means dengan R studio

C. Metode Penentuan Nilai K

Gambar 14. Gambar hasil coding gambar 14.

Gambar 14. Screen shot hasil clustering menggunakan cosine distance.

H. Metode Pengembangan Perangkat Lunak

Gambar 16. Perbedaan alur pengembangan perangkat tradional dan RAD

I. Perangkat lunak pembantu yang akan digunakan.

Luaran dari penelitian diharapkan menghasilkan 1 publikasi yang akan diseminarkan di

Tabel 2. Table Luaran.

Proses dan produk ipteks berupa

Produk teknologi tepat guna yang

Desain Produk Industri -

Perlindungan Varietas Tanaman -

Perlindungkan Topografi Sirkuit

Tabel 3. Rancangan Anggaran Biaya penelitian 2020

II Persiapan Asisten Mahasiswa

III Barang habis pakai

17 Studi leteratur 15 buku Rp100.000 Rp1.500.000

Pembangunan perangkat Lunak dan

VI Dana persiapan publikasi