Rebisi

i
KOMPARASI PENERAPAN CLUSTERING DENGAN METODE
K-MEANS DAN K-MEDOIDS DALAM MENENTUKAN
REHABILITASI NARKOBA
(Studi Kasus : BNN Provinsi Kalimantan Timur )
PROPOSAL PENELITIAN
Disusun oleh:
Rizki Afriani
1515015033
JURUSAN TEKNOLOGI INFORMASI DAN KOMUNIKASI
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI INFORMASI DAN KOMUNIKASI
UNIVERSITAS MULAWARMAN
SAMARINDA
2019
ii
LEMBAR PENGESAHAN
SEMINAR PROPOSAL PENELITIAN
KOMPARASI PENERAPAN CLUSTERING DENGAN METODE
K-MEANS DAN K-MEDOIDS DALAM MENENTUKAN
REHABILITASI NARKOBA
(Studi Kasus : BNN Provinsi Kalimantan Timur )
Yang dipersiapkan dan disusun oleh
Rizki Afriani
1515015033
Telah disetujui oleh
Dosen Pembimbing I Dosen Pembimbing II
Islamiyah, S.Kom, M.Kom Herman Santoso Pakpahan, M.PFis

NIP. 19870116 201504 2 001 NIDN. 0020099102
Mengetahui,
Koordinator Prodi Teknik Informatika,
Masna Wati, S.Si,. MT

NIP. 198511032014042002
iii
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i
LEMBAR PENGESAHAN .................................................................................... ii
DAFTAR ISI ............................................................................................................. iii
DAFTAR GAMBAR ................................................................................................ v
DAFTAR TABEL .................................................................................................... vi
BAB I PENDAHULUAN
1.1 Latar Belakang Masalah ....................................................................... 1
1.2 Rumusan Masalah ................................................................................. 3
1.3 Batasan Masalah ................................................................................... 3
1.4 Tujuan Penelitian .................................................................................. 4
1.5 Manfaat Penelitian ................................................................................ 4
1.6 Kontribusi Penelitian ............................................................................ 5
BAB II TINJAUAN PUSTAKA
2.1 Dasar Teori ........................................................................................... 6
2.1.1 Data Mining ................................................................................... 6
2.1.2 Pengelompokkan Data Mining ...................................................... 15
2.1.3 Metode Clustering ......................................................................... 18
2.1.4 Algoritma K-Means ........................ 20
2.1.5 Rapid Miner ................................................................................... 24
2.1.6 Rehabilitasi Narkoba ..................................................................... 25
2.2 Penelitian Terdahulu ............................................................................. 26

iv
BAB III METODE PENELITIAN
3.1 Waktu dan Tempat Penelitian ................................................................ 28
3.2 Jenis Penelitian....................................................................................... 28
3.3 Data dan Metode Pengumpulan Data .................................................... 29
3.3.1 Jenis Data ..................................................................................... 29
3.3.2 Metode Pengumpulan Data .......................................................... 29
3.4 Variabel dan definis Variabel ................................................................ 29
3.5 Perangkat Penelitian............................................................................... 30
3.6 Tahapan Penelitian ................................................................................. 30
DAFTAR PUSTAKA .............................................................................................. vii

v
DAFTAR GAMBAR
Gambar 2.1 Proses dari Data Mining....................................................... 11
Gambar 2.2 Proses Data Mining Menurut CRISP-DM ........................... 12

vi
DAFTAR TABEL
Tabel 2.1 Kumpulan Penelitian Terdahulu .............................................. 26
Tabel 2.2 Waktu Penelitian ...................................................................... 28

1
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Penyalahgunaan narkotika dan narkoba menunjukkan tren yang semakin
meningkat di Provinsi Kalimantan Timur. Terbukti dengan masuknya pada
peringkat 4 secara nasional dalam penyalahgunaan narkoba. Penyalahgunaan
narkoba pun tidak hanya di kalangan orang tua dan anak remaja tetapi sudah
merambah ke semua kalangan. Sebagian besar diawali dengan upaya coba-coba
dalam lingkungan pergaulan dan upaya yang dilakukan untuk pencandu narkotika
dan korban penyalagunaan narkotika wajib menjalani rehabilitasi. (Tribunkaltim,
2018).
Rehabilitasi narkoba adalah suatu proses pemulihan seseorang dari gangguan
penggunaan narkoba, pemulihan ini bersifat jangka pendek maupun panjang untuk
mengubah perilaku serta mengembalikan fungsi individu tersebut di masyarakat.
Bukan hanya penyalahgunaan narkoba yang masuk dalam kategori rehabilitasi
sedangkan penderita yang mempunyai penyakit serius dan orang yang cacat juga
memerlukan pengobatan medis untuk mencapai kemampuan fisik psikologis, dan
sosial yang maksimal. (David, 2009).
Rehabilitasi narkoba yang terjadi di provinsi Kalimantan Timur tercatat
sejumlah 672 pasien khususnya dibawah naungan Badan Narkotika Nasional
Provinsi Kalimantan Timur. Angka tersebut diperoleh dari hasil observasi
langsung yang terhitung dari tahun 2017 sampai dengan 2018. (Data Rehabilitasi
2
BNN Prov. Kaltim Tahun 2017-2018). Dalam pelayanan rehabilitasi di BNN
Provinsi Kalimantan Timur dibagi menjadi dua yaitu rehabilitasi rawat jalan dan
rawat inap. Rehabilitasi rawat jalan diberikan untuk pasien yang tingkat
ketergantungan narkoba dari skala ringan sampe sedang dan dilakukan kurang
lebih 8 kali pertemuan tatap muka antara pasien dan konselor rehab. Sedangkan
rehabilitasi rawat inap dikhususkan bagi pasien yang tingkat ketergantungan
narkobanya berskala sedang hingga berat dan dikirim ke balai rehabilitasi narkoba
yang berada di Tanah Merah Samarinda.
Dalam menentukan pelayanan rehabilitasi, BNN Provinsi Kalimantan Timur
melakukan proses assesmen. Assesmen adalah suatu kegiatan untuk mengetahui
tingkat keparahan penyalahgunaan narkoba yang nanti akan dijadikan
pertimbangan dalam penentuan rehabilitasi. Hasil dari assesmen diantaranya dari
membandingkan status medis, status pekerjaan, pola pekerjaan, skala pekerjaan,
lama penggunaan narkoba, status napza, status narkoba hingga keadaan keluarga
pasien itu sendiri. Namun terdapat beberapa masalah yang terjadi yaitu dari proses
assesmen yang dihasilkan kurang efektif dikarenakan hanya dilihat dari segi
keadaan pencandu dan tidak melihat dari record data sebelumnya dan
mengakibatkan tidak adanya konsistenan pada pola penentuan rehabilitasi.
Dari hal tersebut perlu diterapkan teknik data mining dalam pengelompokkan
data untuk penentuan rehabilitasi. Dalam data mining terdapat teknik Clustering
atau klasterisasi adalah metode pengelompokan data. Menurut Tan, 2006
Clustering adalah sebuah proses untuk mengelompokan data ke dalam beberapa
cluster atau kelompok sehingga data dalam satu cluster memiliki tingkat
3
kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang
minimum. Terdapat banyak metode dalam teknik Clustering yang sering
digunakan diantaranya Singkle Linkage Clustering, Complete Linkage Clustering,
Group Average Agglomerative Clustering, K-Means, dan K-Medoids.
Berdasarkan metode yang sering digunakan adalah K-Means. Kelebihan dari
metode dikembangkan oleh Mac Queen yaitu mampu mengelompokkan dokumen
dalam jumlah besar dengan waktu komputasi yang cepat. Prinsip dari metode ini
adalah mempartisi suatu koleksi dokumen menjadi beberapa cluster dan
menentukan centroid (titik pusat awal) secara acak. Tetapi, metode K-Means ini
memilik kelemhan yaitu sensitive terhadap outlier. Selain K-Means, terdapat
metode K-Medoids yang prinsip dari metode hampir sama dengan K-Means tetapi
terdapat perbedaan dalam menentukan centroid yaitu tidak mengambil nilai rata –
rata (mean) dari objek dalam cluster. Dalam metode K-Medoids menggunakan
medoid sebagai titik acuan yang merupakan objek dalam sebuah cluster yang
paling terpusat. Kelebihan dari metode ini adalah metode yang fleksibel karena
bekerja pada setiap jenis data matriks dan mampu menggelompokkan dokumen
dalam jumlah besar dan mengatasi outlier.
Berdasarkan uraian diatas penelitian ini akan menganalisis perbandingan
penerapan clustering dengan metode K-Means dan K-Medoids dalam menentukan
rehabilitasi narkoba.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang sudah diuraikan, maka rumusan masalah
dalam penelitian ini adalah bagaimanakah perbandingan penerapan teknik data

4
mining Clustering dengan metode K-Means dan K-Medoids dalam menentukan
rehabilitasi narkoba di Badan Narkotika Nasional Provinsi Kalimantan Timur ?
1.3 Batasan Masalah
Dalam memfokuskan masalah, peneliti memberikan batasan masalah sebagai
berikut :
(1) Penelitian ini menggunakan teknik data mining clustering dengan metode K-
Means dan K-Medoids.
(2) Data yang digunakan yaitu data rehabilitasi BNN Provinsi Kalimantan Timur
pada tahun 2017 sampai dengan 2018 yang berupa data hasil kesimpulan dari
assesmen diantaranya ada 9 variabel yaitu status medis, status pekerjaan, pola
pekerjaan, skala pekerjaan, lama penggunaan narkoba, status napza, status
legal, status keluarga/sosial dan status psikiatris.
1.4 Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mengetahui perbandingan dari
penerapan metode K-Means dan K-Medoids dalam menentukan rehabilitasi
narkoba agar dapat dikelompokkan berdasarkan tingkat keparahan
penyalahgunaan narkoba di Badan Narkotika Nasional Kalimantan Timur.
1.5 Manfaat Penelitian
Manfaat dari penelitian ini adalah sebagai berikut :
(1) Bagi Penulis
Penelitian ini dapat memperluas wawasan penulis dalam pemahaman tentang
proses analisis penerapan clustering dengan metode K-Means dan K-Medoids
dalam menentukan rehabilitasi narkoba di BNN Provinsi Kalimantan Timur.

5
(2) Bagi BNN
Penelitian ini dapat menentukan jenis pelayanan rehabilitasi dari tingkat
keparahan penyalahgunaan narkoba untuk dapat dijadikan pertimbangan
dalam penentuan rehabilitasi narkoba.
(3) Bagi Universitas Mulawarman
Dengan adanya penulisan ini dapat menambah karya ilmiah mahasiswa dalam
menyelesaikan pendidikan dalam bentuk laporan skripsi pada perpustakaan
Universitas Mulawarman yang mampu menjadi bahan panduan atau pedoman
bagi mahasiswa yang akan melakukan penelitian selanjutnya.
1.6 Kontribusi Penelitian
Kontribusi yang diharapkan dari penelitian adalah dengan dilakukannya
analisis komparasi penerapan clustering dengan metode K-Means dan K-Medoids
dapat diketahui cluster yang nantinya dapat dijadikan pertimbangan dalam
penentuan rehabilitasi narkoba.

6
BAB II
TINJAUAN PUSTAKA
2.1 Rehabilitasi Narkoba
Rehabilitasi adalah usaha pemulihan korban narkotika sehingga kembali
dapat melaksanakan fungsionalitas sosialnya yaitu dapat melaksanakan tugas
hidupnya secara normal dan wajar. Program rehabilitasi merupakan serangkaian
upaya yang terkoordinasi dan terpadu, terdiri atas upaya – upaya medis,
bimbingan mental, psikososial, keagamaan dan pendidikan untuk meningkatkan
kemampuan penyesuaian diri, kemandirian dan menolong diri sendri serta
mencapai kemampuan fungsional sesuai dengan potensi yang dimiliki baik fisik,
mental, sosial dan ekonomi. Pada akhirnya mereka yang diharapkan dapat
mengatasi masalah penyalahgunaan narkotika dan kembali berinteraksi dengan
masyarakat secara wajar.
Dalam pelaksanaan rehabilitasi terhadap mereka yang mengalami
ketergantungan narkotika berlandaskan beberapa peraturan yaitu :
a. Undang Undang republic Indonesia Nomor 22 tahun 1997 Pasal 45,
Pasal 46 ayat (1),(2),(3), Pasal 47, ayat (1) dan (2), Pasal 48 ayat (1) dan
(2), Pasal 49 ayat (1),(2),(3), Pasal 50.
b. Keputusan Presiden Republik Indonesia Nomor 17 Tahun 2002 Tentang
badan Narkotika Nasional.

7
2.2 Data Mining
Data mining adalah suatu istilah yang digunakan untuk menemukan
pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses
semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan
buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi
pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam
database besar. (Turban et al, 2005). Menurut Gartner Group data mining adalah
suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan
dengan menggunakan teknik pengenalan pola seperti teknik statistik dan
matematika (Larose, 2006).
Selain definisi di atas beberapa definisi juga diberikan seperti, “data mining
adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data
berupa pengetahuan yang selama ini tidak diketahui secara manual.”
(Pramudiono, 2006). “Data mining adalah analisis otomatis dari data yang
berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari keberadaannya.”
(Pramudiono, 2006).
“Data mining merupakan analisis dari peninjauan kumpulan data untuk
menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang
berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik
data.” (Larose, 2006). “Data mining merupakan bidang dari beberapa keilmuan
yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik,

8
database, dan visualisasi untuk penanganan permasalahan pengambilan informasi
dari database yang besar.” (Larose, 2006).
Kemajuan luar biasa yang terus berlanjut dalam bidang data mining
didorong oleh beberapa faktor, antara lain : (Larose, 2006)
1. Pertumbuhan yang cepat dalam kumpulan data.
2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan
memiliki akses ke dalam database yang baik.
3. Adanya peningkatan akses data melalui navigasi web dan intranet.
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam
globalisasi ekonomi.
5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan
teknologi).
6. Perkembangan yang hebat dalam kemampuan komputasi dan
pengembangan kapasitas media penyimpanan.
Berdasarkan definisi-definisi yang telah disampaikan, hal penting yang terkait
dengan data mining adalah :
1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.
2. Data yang akan diproses berupa data yang sangat besar.
3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin
memberikan indikasi yang bermanfaat.
Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau
lebih dalam satu dimensi. Misalnya dalam dimensi produk, dapat di lihat
keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu,
9
hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek.
(Ponniah, 2001).
Beberapa definisi awal dari data mining meyertakan fokus pada proses
otomatisasi. Berry dan Linoff, (2004) dalam buku Data Mining Technique for
Marketing, Sales, and Customer Support mendefinisikan data mining sebagai
suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis
terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan
yang berarti (Larose, 2006).
Istilah data mining dan Knowledge Discovery in Database (KDD) sering
kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu basis data yang besar.
Gambar 2.1 Proses dari Data Mining
Sumber: SPSS, 2004
Cross-Industry Standart Process for Data Mining (CRISP-DM) yang di
kembangkan tahun 1996 oleh analisis dari beberapa industri seperti Daimler
Chrysler, SPSS dan NCR. CRISP-DM menyediakan standar proses data mining
sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.
Dalam CRISP-DM sebuah proyek data mining memiliki siklus hidup yang terbagi
dalam enam fase Gambar 2.2. Keseluruhan fase berurutan yang ada tersebut
10
bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari
fase sebelumnya. Hubungan penting antar fase digambarkan dengan panah.
Sebagai contoh, jika proses berada pada fase modeling. Berdasar pada perilaku
dan karakteristik model, proses mungkin kembali kepada fase data preparation
untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase
evaluation.
Gambar 2.2 Proses Data Mining Menurut CRISP-DM
Sumber: CRISP, 2005
Enam fase CRISP-DM ( Cross Industry Standard Process for Data Mining)
(Larose, 2006).
1. Fase Pemahaman Bisnis ( Business Understanding Phase )
a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis
atau unit penelitian secara keseluruhan.

11
b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan
data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data ( Data Understanding Phase )
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data
dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin
mengandung pola dari permasalahan
3. Fase Pengolahan Data ( Data Preparation Phase )
a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang
perlu dilaksanakan secara intensif.
b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang
akan dilakukan.
c. Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan ( Modeling Phase )
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada
permasalahan data mining yang sama.

12
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
5. Fase Evaluasi ( Evaluation Phase )
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektivitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase
awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase Penyebaran (Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b. Contoh sederhana penyebaran: Pembuatan laporan.
c. Contoh kompleks Penyebaran: Penerapan proses data mining secara
paralel pada departemen lain.
2.2.1 Pengelompokan Data Mining
Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas yang
dapat dilakukan, yaitu :

13
(1) Klasifikasi (Classification)
Klasifikasi bertujuan untuk mengklasifikasikan item data menjadi satu dari
beberapa kelas standar. Sebagai contoh, suatu program email dapat
mengklasifikasikan email yang sah dengan email spam. Beberapa algoritma
klasifikasi antara lain pohon keputusan, nearest neighbor, naïve bayes, neural
networks dan support vector machines.
(2) Regresi (Regression)
Regresi merupakan pemodelan dan investigasi hubungan dua atau lebih
variabel. Dalam analisis regresi ada satu atau lebih variabel independentt /
prediktor yang biasa diwakili dengan notasi x dan satu variabel respon yang biasa
diwakili dengan notasi.
(3) Pengelompokan (Clustering)
Clustering merupakan metode pengelompokan sejumlah data ke dalam
klaster (group) sehingga dalam setiap klaster berisi data yang semirip mungkin.
(4) Pembelajaran Aturan Asosiasi (Association Rule Learning)
Pembelajaran aturan asosiasi mencari hubungan antara variabel. Sebagai
contoh suatu toko mengumpulkan data kebiasaan pelanggan dalam berbelanja.
Dengan menggunakan pembelajaran aturan asosiasi, toko tersebut dapat
menentuan produk yang sering dibeli bersamaan dan menggunakan informasi ini
untuk tujuan pemasaran.
Proses dari data mining mempunyai prosedur umum dengan langkah-langkah
sebagai berikut :
14
(1) Merumuskan permasalahan dan hipotesis
Pada langkah ini dispesifikasikan sekumpulan variabel yang tidak diketahui
hubungannya dan jika memungkinkan dispesifikasikan bentuk umum dari
keterkaitan variabel sebagai hipotesis awal.
(2) Mengoleksi data
Langkah ini menitikberatkan pada cara bagaimana data dihasilkan dan
dikoleksi. Secara umum ada dua kemungkinan yang berbeda. Yang pertama
adalah ketika proses pembangkitan data dibawah kendali dari ahli. Pendekatan ini
disebut juga dengan percobaan yang dirancang (designed experiment).
Kemungkinan yang kedua adalah ketika ahli tidak memiliki pengaruh pada proses
pembangkitan data, dikenal sebagai pendekatan observasional.
(3) Pra pengolahan data
Pra pengolahan data melibatkan dua tugas utama yaitu:
a. Deteksi dan pembuangan data asing (outlier)
Data asing merupakan data dengan nilai yang tidak dibutuhkan karena
tidak konsisten pada sebagian pengamatan. Biasanya data asing dihasilkan dari
kesalahan pengukuran, kesalahan pengkodean dan pencatatan dan beberapa nilai
abnormal yang wajar. Ada dua strategi untuk menangani data asing, yang pertama
mendeteksi dan berikutnya membuang data asing sebagai bagian dari fase pra
pengolahan. Yang kedua adalah mengembangkan metode pemodelan yang kuat
yang tidak merespon.
b. Pemberian skala, pengkodean dan seleksi fitur
Pra pengolahan data menyangkut beberapa langkah seperti memberikan

15
skala variabel dan beberapa jenis pengkodean. Sebagai contoh, satu fitur dengan
range [0, 1] dan yang lain dengan range [-100, 100] tidak akan memiliki bobot
yang sama pada teknik yang diaplikasikan dan akan berpengaruh pada hasil akhir
data mining. Oleh karena itu, disarankan untuk pemberian skala dan membawa
fitur-fitur tersebut ke bobot yang sama untuk analisis lebih lanjut.
(4) Mengestimasi model
Pemilihan dan implementasi dari tehnik data mining yang sesuai merupakan
tugas utama dari fase ini. Proses ini tidak mudah, biasanya dalam pelatihan,
implementasi berdasarkan pada beberapa model dan pemilihan model yang
terbaik merupakan tugas tambahan.
(5) Menginterpretasikan model dan menarik kesimpulan
Pada banyak kasus, model data mining akan membantu dalam pengambilan
keputusan. Metode data mining modern diharapkan akan menghasilkan hasil
akurasi yang tinggi dengan menggunakan model dimensi-tinggi. Pengetahuan
yang baik pada keseluruhan proses sangat penting untuk kesuksesan aplikasi.
Tidak perduli seberapa kuat metode data mining yang digunakan, hasil dari model
tidak akan valid jika pra pengolahan dan pengkoleksian data tidak benar atau jika
rumusan masalah tidak berarti.
2.2.2 Metode Clustering
Clustering merupakan proses melakukan partisi atau pemisahan satu set
item data ke himpunan bagian yang disebut cluster. Item yang dalam cluster-nya
memiliki karakteristik hampir sama antara satu dengan yang lain dan akan
berbeda dengan item dalam cluster lain. Partisi tidak dilakukan secara manual
16
karena pasti akan sulit mengingat banyaknya data yang akan dipartisi, sehingga
dibutuhkan suatu algoritma clustering. Oleh karena itu, clustering sangat berguna
terlebih dalam menemukan kelompok yang tidak dikenal dalam data. Clustering
juga dikenal sebagai data segmentasi karena mempartisi banyak data ke banyak
grup berdasar kesamaan.
Tan, dkk.([4]) membagi clustering dalam dua kelompok, yaitu hierarchical and
partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek‐
obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada
tepat di satu cluster. Hierarchical clustering adalah sekelopok cluster yang bersarang
seperti sebuah pohon berjenjang (hirarki).
William ([8]) membagi algoritma clustering ke dalam kelompok besar seperti
berikut:
1. Partitioning algorithms, merupakan algoritma yang cara kerjanya membentuk
berbagai macam partisi lalu mengevaluasinya berdasarkan kriteria tertentu.
2. Hierarchial algorithms, merupakan algoritma yang membentuk dekomposisi
hirarki dari sekumpulan data menggunakan beberapa kriteria.
3. Density based, merupakan algoritma yang membentuk cluster berdasar pada
koneksi dan fungsi densitas.
4. Grid-based, membentuk cluster berdasar struktur multiple level granularity.
5. Model-based, menganggap jika sebuah model adalah hipotesa untuk masing-
masing cluster dan model yang baik dipilih diantara model hipotesa tersebut.
Dalam melakukan proses clustering pun ada syarat-syaratnya sekaligus
tantangan yang harus dipenuhi oleh suatu algoritma clustering, menurut Jiawei
17
Han dan Micheline Kamber di dalam bukunya yang berjudul “Data Mining
Concepts And Techniques” yang dijelaskan sebagai berikut [15] :
1. Skalabilitas, yang artinya mengharuskan bahwa suatu metode clustering harus
mampu menangani data dalam jumlah yang besar bahkan sampai jutaan data.
2. Kemampuan analisa beragam bentuk data, yang artinya algoritma clustering
harus mampu diimplementasikan ke berbagai macam bentuk data seperti data
nominal, ordinal maupun gabungannya.
3. Menemukan cluster dengan bentuk-bentuk yang tidak terduga, artinya hasil
dari clustering dapat berbentuk aneh dan tidak sama antara satu data dengan
lainnya. Karena itu butuh kemampuan analisa cluster dengan bentuk apapun
pada suatu algoritma clustering.
4. Kemampuan untuk dapat menangani noise, yang artinya data itu tidak selalu
dalam keadaan baik. Terkadang ada data rusak, tidak dimengerti, atau hilang.
Karena itu, algoritma clustering harus mampu menangani data yang rusak.
5. Sensitifitas pada perubahan input, artinya perubahan input data menyebabkan
perubahan cluster yang ada bahkan menyebabkan perubahan mencolok jika
menggunakan algoritma clustering yang memiliki tingkat sensitifitas rendah.
6. Mampu meng-clustering data-data berdimensi tinggi, artinya suatu kelompok
data dapat berisi banyak dimensi atau atribut. Untuk itu algoritma clustering
harus mampu menangani data berdimensi tinggi tersebut.
7. Interpresasi dan kegunaan, artinya mengharuskan bahwa hasil dari proses
clustering dapat diinterpretasikan dan juga berguna.

18
2.2.3 Algoritma K-Means
Algoritma K-Means merupakan salah satu algoritma clustering pada data
mining non hierarki yang menganalisa data dengan pemodelan unsupervised
learning dan melakukan pengelompokan data dengan sistem partisi. Konsep
dalam clustering yaitu dengan mengelompokkan data-data menjadi beberapa
himpunan, yang mana data dalam satu kelompok mempunyai karakteristik yang
sama antara data satu dengan yang lainnya dan mempunyai karakteristik berbeda
dengan data yang ada dalam kelompok berbeda. Dengan maksud lain, metode k-
means ini melakukan peminimalan variasi antar data yang ada dalam suatu cluster
dan memaksimalkan variasi dengan data yang ada dalam cluster lainnya.
Dalam mengelompokkan data dengan k-means, didasarkan pada titik pusat
yang telah ditentukan sebelumnya. Dengan menggunakan rumus Euclidean
Distances, Clustering objek dilihat dari jarak objek dengan titik pusatnya yang
paling dekat, yang mana dalam mencari jarak terdekat kadang dibutuhkan hingga
beberapa perulangan atau iterasi sampai objek benar-benar mendekati ke titik
pusat cluster. Euclidean Distances sendiri merupakan perhitungan jarak dari 2
titik di euclidean space, dengan menghitung akar dari kuadrat perbedaan 2 vektor.
Setelah diketahui titik pusat terdekatnya dan posisi objek terhadap cluster-nya
tidak berubah-ubah lagi, objek dapat dipastikan masuk sebagai anggota cluster
tersebut. Sehingga diketahui bagaimana k-means mempartisi data-data ke dalam
kelompok masing-masing cluster, melalui proses perubahan posisi data yang
awalnya bergejolak menjadi tetap. Beberapa kelebihan dari algoritma k-means
antara lain sebagai berikut :

19
1. Karena algoritma k-means lebih sederhana dibandingkan algoritma lain
seperti fuzzy c-means, maka dalam implementasinya mudah dilakukan.
2. Dalam mempelajari k-means relatif cepat sehingga tidak perlu waktu lama.
3. Mudah untuk diadaptasikan dari satu masalah ke masalah lain selama data-
data yang digunakan juga cocok dilakukan peng-cluster-an.
4. Algoritma k-means sudah begitu banyak digunakan dalam berbagai masalah,
terlebih dalam penelitian-penelitian terdahulu.
Selain algoritma k-means itu sendiri, ternyata banyak algoritma yang didapat
dari hasil pengembangan atau variasi dari metode k-means sebagai berikut [17] :
1. K-means++, merupakan metode untuk menentukan nilai awal pada k-means.
Algoritma ini diperlukan dalam meminimalkan dampak buruk dari metode k-
means yang begitu bergantungan dari nilai awalnya.
2. K-medoids, merupakan algoritma yang berbasis prototype. Jika k-means perlu
titik tengah sebagai model dari peng-cluster-annya, maka untuk k-medoids ini
menggunakan rata-rata tengah.
3. Bisecting k-means, dasarnya memerlukan k-means sebagai pembagi 2 cluster.
Mulanya tiap-tiap objek tergabung dalam suatu cluster. Di tiap iterasi, dipilih
satu cluster untuk dibagikan 2 menggunakan k-means. Ini dilakukan sampai
tercipta k-cluster. Algoritma bisecting k-means kerjanya lebih cepat
dibanding k-means karena mereduksi jumlah objek yang dibandingkan di tiap
iterasinya.
Untuk menemukan pola-pola data dari proses clustering berbasis k-means,
berikut langkah-langkah yang perlu dilakukan :

20
1. Menentukan dahulu berapa jumlah cluster yang akan dibentuk (k-cluster).
2. Menentukan titik pusat cluster (centroid) secara acak.
Untuk menghasilkan cluster maksimal, titik awal partisi merupakan salah
satu faktor yang berpengaruh untuk itu pemilihan titik awal harus beralasan.
Dalam menentukan titik pusat awal cluster dapat dengan mengukur nilai titik
tengah segmentasi berdasarkan jumlah jarak terpendek antar anggota kelas
tersebut.
3. Menghitung jarak antara setiap data ke titik pusat terdekat.
Distance space digunakan dalam perhitungan jarak antara data dan titik
pusat. Salah satu persamaan yang dapat digunakan adalah Euclidean Distance
Space, yang sering digunakan dalam menghitung jarak. Hal tersebut
dikarenakan hasil perhitungan merupakan jarak terpendek antara dua titik
yang diperhitungkan. Berikut ini merupakan persamaannya yaitu :
𝐷 𝑝
𝑛(𝑥,𝑦)=√∑𝑘=1(𝑋𝑥𝑘 − 𝑌𝑦𝑘 )2̀
Dengan :
𝐷𝑛(𝑥,𝑦) = jarak objek antara objek i dan j
P = dimensi data
𝑋𝑥𝑘 = koordinat dari objek x pada dimensi k
𝑌𝑦𝑘 = koordinat dari objek y pada dimensi k

21
4. Mengalokasikan masing-masing data ke titik pusat terdekat, sehingga dalam
tahap ini setiap data sudah mulai bergerak ke cluster-nya masing-masing.
5. Menghitung titik pusat baru menggunakan jumlah keseluruhan per cluster.
Untuk menghitung titik pusat cluster yang baru ditentukan berdasarkan rata-
rata dari data-data yang ada di titik pusat yang sama. Berikut persamaannya :
𝐶 1 ∑ 𝑑𝑖
𝑘= ( )
𝑛𝑘
Dengan :
𝐶𝑘 = titik pusat baru
𝑛𝑘 = jumlah dokumen dalam cluster k
𝑑𝑖 = dokumen dalam cluster k
6. Kembali ke langkah 3, jika ada data yang berubah – ubah dari cluster atau
jika berubahnya nilai centroid melebihi nilai threshold atau jika berubahnya
nilai objective function yang digunakan melebihi nilai threshold yang
digunakan.
2.2.4 Algoritma K-Medoids
K-Medoids atau Partitioning Around Medoids (PAM) adalah algoritma
clustering yang mirip dan K-Means. Perbedaan dari kedua algoritma ini yaitu
algoritma K-Medoids atau PAM menggunakan objek sebagai perwakilan (medoid)
sebagai pusat cluster untuk setiap cluster, sedangkan K-Means menggunakan
nilai rata-rata (mean) sebagai pusat cluster [Kaur, dkk, 2014].

22
Menurut Han dan Kamber, algoritma K-Medoids adalah sebagai berikut.
1. Inisialisasi pusat cluster sebanyak k (jumlah cluster)
2. Alokasikan setiap data (objek) ke cluster terdekat menggunakan
persamaan ukuran jarak Euclidian Distance dengan persamaan:
𝑑(𝑥,𝑦)=‖𝑥−𝑦‖ 𝑛
√∑ (𝑥𝑖 − 𝑦𝑖 )²
𝑖=1
3. Pilih seara acak objek pada masng – masing cluster sebagai kandidat
medoid baru.
4. Hitung jarak setiap objek yang berada pada masing – masing cluster
dengan kandidat medoid baru.
5. Hitung total simpangan (S) dengan menghitung total distance baru – total
distance lama. Jika S < 0, maka tukar objek dengan cluster untuk
membentuk sekumpulan k objek baru sebagai medoid.
6. Ulangi langkah 3 sampai 5 hingga tidak terjadi perubahan medoid,
sehingga didapatkan cluster beserta anggota cluster masing – masing.
2.2.5 Rapid Miner
RapidMiner merupakan perangakat lunak yang bersifat terbuka (open
source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data
mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai
teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna
sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki
kurang lebih 500 operator data mining, termasuk operator untuk input, output,
23
data preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri
sendiri untuk analisis data dan sebagai mesin data mining yang dapat
diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan
bahasa java sehingga dapat bekerja di semua sistem operasi.
RapidMiner sebelumnya bernama YALE (Yet Another Learning
Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh
RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit
dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL
(GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan
aplikasi yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara.
RapidMiner sebagai software open source untuk data mining tidak perlu
diragukan lagi karena software ini sudah terkemuka di dunia. RapidMiner
menempati peringkat pertama sebagai Software data mining pada polling oleh
KDnuggets, sebuah portal data-mining pada 2010-2011.
RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang
sebuah pipeline analitis. GUI ini akan menghasilkan file XML )Extensible
Markup Language) yang mendefenisikan proses analitis keingginan pengguna
untuk diterpkan ke data. File ini kemudian dibaca oleh RapidMiner untuk
menjalankan analis secara otomatis.

24
2.3 Penelitian Terdahulu
Tabel 2.1 Kumpulan Penelitian Terdahulu
No Nama Tahun Judul Hasil

.
1. Anindya 2016 Dalam perangkingan
Khrisna Implementasi kesehatan pada suatu derah
Wardhani Algoritma K-Means dirumuskan inisialisasi jumlah
Untuk cluster sebanyak 2 buah
Pengelompokkan sehingga hasil akurat dari
Penyakit Pasien pengelompokkan mencapai
Puskesmas Kajen 79.55%
Pekalongan
2. Pengelompokka menghasilkan
5 cluster dengan cluster
pertama terdiri dari 909 record
transaksi, cluster kedua terdiri
dari 132 record transaksi,
cluster ketiga 66 record
Algoritma K-Medoids
Wiwit transaksi, cluster keempat
Untuk Penentuan
Agus 2015 terdiri dari 132 record
Strategi Pemasaran
Triyanto transaksi dan dalam startegi
Produk
pemasaran produk dilakukan
dengan melakukan promosi
pada cluster keempat yang
memiliki kombinasi jumlah
barang dibeli yang paling
tinggi.
3. Dengan menggunakan
perbandingan rasio simpangan
baku dari metode K-Means
Perbandingan K- dan K-Medoids Clustering,
Means dan K- maka diperoleh metode
Yunita
Medoids Clustering terbaik untuk pengklasteran
Hilda
2017 terhadap Kelayakam terhadap kelayakan Puskemas
Susanti,
Puskesmas di DIY di DIY adalah metode K-
dkk.
Tahun 2015 Means dengan rasio lebih
kecil dibandingkan dengan
metode K-Medoids Clustering
sebesar 54,96%.
4. Triastuti 2017 Pegelompokkan Analisis cluster dengan

25
Wuryanda Kabupaten / Kota metode K-Medoids bisa

ri, dkk. Berdasarkan digunakan jika obyek yang
Komoditas Pertanian akan dikelompokkan
Menggunakan jumlahnya banyak. Pada
Metode K-Medoids penelitian ini obyek yang akan
dikelompokkan adalah
kabutan’kota di provinsi Jawa
Tengah. Untuk menentukan
jumlah kelompok optimal
dengan melihat lebar slihoutte
utuk setiap komoditas.
Dengan melihat hasil
pengelompokan diharapkan
pemerintah bisa meningkatan
produksi pertanian
dibandingkan kabutan/kota
yang lain.
5. Kualitas clustering dihasilkan
berdasarkan proses pengujian
yang dilakukan didapatkan
hasil nilai Silhoutte Coefficient
tertinggi yaitu 0.567485053
dengan jumlah cluster 2 dan
jumlah data 7352.
Impelementasi
Berdasarkan hasil bahwa
Metode K-Medoids
jumlah cluster dan jumlah
Dyang Clustering Untuk
Falila Pengelompokan Data data mempengaruhi terhdap
2017 hasil kualitas dar cluster.
Pramesti, Potensi Kebakaran
Analisis penentuan potensi
dkk. Hutan/Lahan
tinggi terhadap kebakaran
Berdasarkan
Pesebaran Titik Panas hutan/lahan ditunjukkan
cluster 1 dengan confidence
(Hotspot)
87,08% dengan cluster 2
dengan confidence 58,73%.
Diman oitensi kebakaran
hutan/lahan dari cluster 1
yaitu tingkat kecerahan dan
cluster 2 yaitu indikasi api.
6. Wahidatin 2018 Analisis Clistering Algoritma K-Means dapat
H. Dengan Metode K- menggelompokkan kelulusan
Rahmah Means dalam mahasiswa berdsarkan nilai
Memprediksi mahasiswa
Kelulusan Mahasiswa
26
Dari beberapa penelitian diatas yang terkait data mining untuk clustering
menggunakan metode K-Means ataupun K-Medoids sudah banyak dilakukan
sebelumnya oleh beberapa peneliti dari berbagai studi kasus karena metode
tersebut sangant terkenal dalam data minning Clustering. Namun hanya beberapa
yang melakukan penelitian untuk membandingan penerapan metode K-Means dan
K-Medoids pada suatu studi kasus. Maka dalam penelitian ini akan diteliti
perbandingan penerapan metode K-Means dan K-Medoids dengan objek studi
kasus Rehabilitasi Narkoba untuk mengetahui pengelompokkan (cluster) mana
yang nantinya dapat dijadikan acuan dalam penentuan rehabilitasi narkoba dan
memperoleh metode pengklasteran terbaik pada penentuan rehabilitas narkoba.

27
BAB III
METODOLOGI PENELITIAN
3.1 Waktu dan Tempat Penelitian
Waktu penelitian dimulai dari bulan Oktober 2018 sampai Januari 2019 dan
dilaksanakan di Badan Narkotika Nasional Provinsi Kalimantan Timur yang
beralamat di Jl. Rapak Indah KM. 1 Samarinda, Kalimantan Timur.
Tabel 3.1 Waktu Penelitian
Tahun 2018
No Jenis Kegiatan
Oktober November Desember Januari
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
A. Tahap Pra Penelitian
1 Menentukan Judul Penelitian
Menyusun Rumusan
2
Masalah
3 Mencari Data Pendukung
Menyusun Metode
4
Penelitian
Menyusun Proposal
5
Penelitian
6 Revisi Proposal Penelitian
7 Seminar Proposal
B. Tahap Penelitian
1 Pengumpulan Data
2 Analisis Data
28
Tahun 2018
No Jenis Kegiatan
Oktober November Desember Januari
Pengujian Data Mencari

3 Bobot Dengan
Menggunakan Entropy
Pengujian Data Mencari

4 Bobot Dengan
Menggunakan Critic
C. Tahap Akhir Penelitian
1 Penyusunan Laporan
2 Evaluasi
3 Seminar Hasil
4 Revisi Seminar Hasil
5 Penyempurnaan Laporan
6 Publikasi Karya Ilmiah
3.2 Jenis Penelitian
Penelitian ini menggunakan pendekatan kuantitatif, karena penelitian ini
dilakukan untuk perbandingan penerapan clustering dengan metode K-Means dan
K-Medoids dalam menentukan rehabilitasi narkoba.
3.3 Data dan Metode Pengumpulan Data
3.3.1 Jenis Data
Data yang digunakan dalam penelitian adalah data primer yang didapat dari
database rehabilitasi BNN Provinsi Kalimantan Timur sebanyak 350 data pasien.
29
3.3.2 Metode Pengumpulan Data
Teknik pengumpulan data yang digunakan dalam penelitian ini adalah
sebagai berikut :
(1) Studi Literatur
Studi literatur adalah metode yang digunakan dalam penelitian untuk
menelusuri sumber – sumber yang berkaitan dengan penelitian yang diambil dari
jurnal, skripsi, buku referensi dan sumber terpercaya lainnya yang dapat dijadikan
referensi yang berhubungan dalam penelitian ini sehingga dapat menghasilkan
penelitian yang maksimal. Pada penelitian ini berdasarkan literature buku data
mining dan jurnal yang berkaitan dengan penggunaan metode K-Means dan K-
Medoids.
(2) Studi Lapangan
Pada penelitian ini studi lapangan di lakukan dengan observasi langsung pada
tempat penelitian yaitu di kantor Badan Narkotika Nasional Provinsi Kalimantan
Timur bidang rehabilitasi.
3.4 Variabel dan definisi Variabel
Variabel yang digunakan dalam penelitian ini ada 2 jenis yaitu variabel bebas
(independent) dan variabel terikat (dependent).
(1) Variabel bebas dalam penelitian ini diambil dari penelitian terdahulu yang
berkaitan dengan penentuan rehabilitasi narkoba yang disajikan pada Tabel
3.2
30
(2) Variabel terikat dalam penelitian ini adalah variabel status rehabilitas yang
menentukan jenis pelayananan dalam rehabilitasi narkoba yaitu rawat inap
atau rawat jalan.
Tabel 3.2 Daftar Variabel Penelitian
No. Nama Variabel Keterangan

1. Skala Medis 1 = 0-2 (Ringan)
2 = 3-5 (Sedang)
3 = 6-9 (Tinggi)
2. Status Pekerjaan 1 = Tidak Bekerja
2 = Bekerja
3 = Mahasiswa / Pelajar
4 = Ibu Rumah Tangga
3. Skala Pekerjaan 1= 0-2 (Ringan)
2 = 3-5 (Sedang)
3 = 6-9 (Tinggi)
4. Lama penggunaan narkoba Jumlah penggunaan narkoba pasien
5. Skala Napza
1= 0-2 (Ringan)
6. Skala Legal
2 = 3-5 (Sedang)
7. Skala Sosial
3 = 6-9 (Tinggi)
8. Skala Psikiatris
3.5 Perangkat Penelitian
Dalam penelitian ini penulis menggunakan perangkat lunak pengolah angka
Microsoft Excel (Office 356), dan perangkat lunak visualisasi prediktif
RapidMiner Studio 7.6 untuk membantu dalam proses perhitungan dan pemodelan
proses data mining yang digunakan.

31
3.6 Tahapan Penelitian
Dalam penelitian ini memiliki tahapan yakni pengumpulan data, analisis data,
mendeskritisasi data, analisis variabel, pengaplikasian variabel dengan teknik
clustering algoritma K-Means dari data rehabilitasi narkoba dan penarikan
kesimpulan.
Pengumpulan penelitian terdahulu

(mengumpulkan variabel yang biasa
digunakan)
Analisis Data
Pendeskripsian Data
Analisis Faktor untuk menentukan

variabel yang berpengaruh
Penentuan data training dan data

testing
Melakukan perhitungan K-Means

Cluster
Gambar 3.1 Alur Tahap Penelitian

32
Dalam penelitian ini menggunakan standar data mining yaitu Cross
Industry Standart Process (CRISP-DM) untuk data mining. Berikut adalah
langkah – langkah dari tahapan CRISP-DM sebagai berikut :
1. Bussiness Understanding
Dalam penelitian ini akan berfokus untuk mengetahui perbandingan
penerapan Clustering dengan metode K-Means dan K-Medoids untuk memperoleh
metode pengklasteran terbaik dalam penempatan bagi pencandu narokoba dengan
data yang diperoleh dari klinik Badan Narkotika dan Narkoba Provinsi
Kalimantan Timur.
2. Data Understanding
Pada tahap ini akan diperoleh data pasien dari bagian klinik BNN Prov
Kaltim yang diperoleh melalui bidang Rehabilitas BNN Provinsi Kaltim. Berikut
atribut dalam data yang diperoleh yang disajikan dalam tabel 3.3 dibawah ini :
Tabel 3.3 Keterangan Atribut Data Rehabilitas
No. Nama Atribut Keterangan
1. Nama Nama Pasien
2. Jenis Kelamin Jenis Kelamin Pasien
3. Status Perkawinan Status Perkawinan Pasien
4. Pendidikan Terakhir Pendidikan Terakhir Pasien
5. Skala Medis Skala Medis berskala 0-9
6. Status Pekerjaan Status Pekerjaan Pasien
7. Pola Kerja Pola Kerja Pasien

33
8. Dukungan Hidup Dukungan Hidup Pasien
9. Skala Pekerjaan Skala Pekerjaan berskala 0-9
10. Jumlah jenis zat yang Jumlah jenis yang dikonsumsi pasien
dikonsumsi
11. Zat utama dikonsumsi Zat utama yang dikonsumsi Pasien
12. Frekuensi Pemakaian Frekuensi Pemakaian Pasien
13. Lama Penggunaan Lama penggunaan narkoba sepanjang

Narkoba hidup pasien
14. Riwayat Rehabilitasi Riwayat Rehabilitasi Pasien
15. Riwayat Overdosis Riwayat Overdosis Pasien
16. Skala Napza Skala Napza berskala 0-9
17. Jumlah tindakan Jumlah tindakan asusila yang dilakukan

asusila Pasien sepanjang hidup
18. Skala Legal Skala Legal berskala 0-9
19. Status Tinggal Status tinggal Pasien
20. Riwayat Konflik Riwayat konflik Pasien
21. Skala social Skala Sosial berskala 0-9
22. Skala Psikiatris Skala Psikiatris berskala 0-9
23. Status Rehabilitasi Perawatan rehabilitas pasien
3. Data Preparation
Dari data yang diperoleh akan dilakukan pemilihan variabel yang ditentukan
oleh peneliti berdasarkan penelitian terdahulu. Kemudian setiap atribut akan diuji
yang disebut data cleaning dan data integration and transformation untuk
membersihkan data atau nilai atribut jika terjadi duplikasi data atau data yang
inkosisten yang dapat menghambat proses data.

34
a. Data Cleaning
Dari 350 data terdapat 50 data yang tergolong tidak lengkap (missing value)
dan harus dihapus dikarenakan dapat mengganggu aturan algoritma yang
akan dibentuk. Maka data yang digunakan sebanyak 300 data terhitung dari
tahun 2017-2018.
b. Data Integration dan Transformation
Untuk meningkatkan dan memudahkan dalam proses analisis maka dari 23
atribut yang diperoleh akan dipilih beberapa atribut inti sebagai penentuan
rehabilitiasi narkoba yang diantaranya pada tabel 3.4
Tabel 3.4 Tahap Integration dan Transformation Data
No. Nama Atribut Proses Keterangan
1. Nama Data Cleaning Nama Pasien
2. Jenis Kelamin Data Cleaning Jenis Kelamin Pasien
3. Status Data Cleaning Status Perkawinan Pasien

Perkawinan
4. Pendidikan Data Cleaning Pendidikan Terakhir Pasien

Terakhir
5. Skala Medis Digunakan Skala Medis berskala 0-9

Atribut
6. Status Pekerjaan Digunakan Status Pekerjaan Pasien

Atribut
7. Pola Kerja Data Cleaning Pola Kerja Pasien
8. Dukungan Hidup Data Cleaning Dukungan Hidup Pasien
9. Skala Pekerjaan Digunakan Skala Pekerjaan berskala 0-9

Atribut
35
No. Nama Atribut Proses Keterangan
10. Jumlah jenis zat Data Cleaning Jumlah jenis yang dikonsumsi
yang pasien
dikonsumsi
11. Zat utama Data Cleaning Zat utama yang dikonsumsi

dikonsumsi Pasien
12. Frekuensi Data Cleaning Frekuensi Pemakaian Pasien

Pemakaian
13. Lama Digunakan Lama penggunaan narkoba

Penggunaan Atribut sepanjang hidup pasien
Narkoba
14. Riwayat Data Cleaning Riwayat Rehabilitasi Pasien

Rehabilitasi
15. Riwayat Data Cleaning Riwayat Overdosis Pasien

Overdosis
16. Skala Napza Digunakan Skala Napza berskala 0-9

Atribut
17. Jumlah tindakan Data Cleaning Jumlah tindakan asusila yang

asusila dilakukan Pasien sepanjang
hidup
18. Skala Legal Digunakan Skala Legal berskala 0-9

Atribut
19. Status Tinggal Data Cleaning Status tinggal Pasien
20. Riwayat Konflik Data Cleaning Riwayat konflik Pasien
21. Skala social Digunakan Skala Sosial berskala 0-9

Atribut
22. Skala Psikiatris Digunakan Skala Psikiatris berskala 0-9

Atribut
23. Status Digunakan Sebagai variable dependen (

Rehabilitasi sebagai Label Rawat Inap dan Rawat Jalan )
36
Setelah dilakukan proses diatas melalui tahap integration dan
transformation data maka didapat atribut yang akan digunakan untuk
penentuan rehabilitasi narkoba pada Tabel 3.5 :
Tabel 3.5 Atribut Yang Digunakan
No. Nama Variabel Keterangan

1. Skala Medis 1 = 0-2 (Ringan)
5 = 3-5 (Sedang)
3 = 6-9 (Tinggi)
2. Status Pekerjaan 1 = Tidak Bekerja
2 = Bekerja
6 = Mahasiswa / Pelajar
7 = Ibu Rumah Tangga
3. Skala Pekerjaan 1= 0-2 (Ringan)
2 = 3-5 (Sedang)
3 = 6-9 (Tinggi)
4. Lama penggunaan narkoba Jumlah penggunaan narkoba pasien
5. Skala Napza
1= 0-2 (Ringan)
6. Skala Legal
2 = 3-5 (Sedang)
7. Skala Sosial
3 = 6-9 (Tinggi)
8. Skala Psikiatris
4. Modeling
Metode yang akan digunakan pada penelitian ini adalah metode K-Means dan
K-Medoids. Dalam pemodelan ini akan dicari performa dari metode K-Means dan
K-Medoids yaitu Confusion Matrix dalam menentukan rehabilitasi narkoba. Untuk
melakukan pengukuran dalam menggunakan algoritma data mining clustering
dengan metode K-Means dan K-Medoids menggunakan tool RapidMiner.

37
5. Evaluation
Pada tahap ini dilakukan pengujian untuk data awal menjadi data yang
memiliki variabel yang sudah dianalisis dan diaplikasikan ke dalam algoritma data
mining K-Means dan K-Medoids dan menghitung tingkat akurasi dari hasil
prediksi. Untuk pengukuran tingkat akurasi kedua model menggunakan metode
confussion matrix.
6. Deployment
Hasil dari penelitian ini berupa data pasien pencandu narkoba yang masuk
dalam cluster - cluster rehabilitas narkoba yang ditempatkan untuk menjalankan
rehabilitas yang sesuai dan mencari metode clustering terbaik dari perbandingan
yang sudah dihasilkan.

Rebisi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Rebisi

Diunggah oleh

Hak Cipta:

Format Tersedia

i

KOMPARASI PENERAPAN CLUSTERING DENGAN METODE

K-MEANS DAN K-MEDOIDS DALAM MENENTUKAN

(Studi Kasus : BNN Provinsi Kalimantan Timur )

JURUSAN TEKNOLOGI INFORMASI DAN KOMUNIKASI

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNOLOGI INFORMASI DAN KOMUNIKASI

SEMINAR PROPOSAL PENELITIAN

KOMPARASI PENERAPAN CLUSTERING DENGAN METODE

K-MEANS DAN K-MEDOIDS DALAM MENENTUKAN

(Studi Kasus : BNN Provinsi Kalimantan Timur )

Yang dipersiapkan dan disusun oleh

Telah disetujui oleh

Dosen Pembimbing I Dosen Pembimbing II

Islamiyah, S.Kom, M.Kom Herman Santoso Pakpahan, M.PFis

Masna Wati, S.Si,. MT

HALAMAN JUDUL ................................................................................................ i

LEMBAR PENGESAHAN .................................................................................... ii

DAFTAR ISI ............................................................................................................. iii

DAFTAR GAMBAR ................................................................................................ v

DAFTAR TABEL .................................................................................................... vi

1.1 Latar Belakang Masalah ....................................................................... 1

1.2 Rumusan Masalah ................................................................................. 3

1.3 Batasan Masalah ................................................................................... 3

1.4 Tujuan Penelitian .................................................................................. 4

1.5 Manfaat Penelitian ................................................................................ 4

1.6 Kontribusi Penelitian ............................................................................ 5

BAB II TINJAUAN PUSTAKA

2.1 Dasar Teori ........................................................................................... 6

2.1.1 Data Mining ................................................................................... 6

2.1.2 Pengelompokkan Data Mining ...................................................... 15

2.1.3 Metode Clustering ......................................................................... 18

2.1.4 Algoritma K-Means ........................ 20

2.1.5 Rapid Miner ................................................................................... 24

2.1.6 Rehabilitasi Narkoba ..................................................................... 25

2.2 Penelitian Terdahulu ............................................................................. 26

BAB III METODE PENELITIAN

3.1 Waktu dan Tempat Penelitian ................................................................ 28

3.2 Jenis Penelitian....................................................................................... 28

3.3 Data dan Metode Pengumpulan Data .................................................... 29

3.3.1 Jenis Data ..................................................................................... 29

3.3.2 Metode Pengumpulan Data .......................................................... 29

3.4 Variabel dan definis Variabel ................................................................ 29

3.5 Perangkat Penelitian............................................................................... 30

3.6 Tahapan Penelitian ................................................................................. 30

DAFTAR PUSTAKA .............................................................................................. vii

Gambar 2.1 Proses dari Data Mining....................................................... 11

Gambar 2.2 Proses Data Mining Menurut CRISP-DM ........................... 12

Tabel 2.1 Kumpulan Penelitian Terdahulu .............................................. 26

Tabel 2.2 Waktu Penelitian ...................................................................... 28

1.1 Latar Belakang Masalah

Penyalahgunaan narkotika dan narkoba menunjukkan tren yang semakin

meningkat di Provinsi Kalimantan Timur. Terbukti dengan masuknya pada

peringkat 4 secara nasional dalam penyalahgunaan narkoba. Penyalahgunaan

merambah ke semua kalangan. Sebagian besar diawali dengan upaya coba-coba

dan korban penyalagunaan narkotika wajib menjalani rehabilitasi. (Tribunkaltim,

Rehabilitasi narkoba adalah suatu proses pemulihan seseorang dari gangguan

mengubah perilaku serta mengembalikan fungsi individu tersebut di masyarakat.

Bukan hanya penyalahgunaan narkoba yang masuk dalam kategori rehabilitasi

memerlukan pengobatan medis untuk mencapai kemampuan fisik psikologis, dan

sosial yang maksimal. (David, 2009).

Rehabilitasi narkoba yang terjadi di provinsi Kalimantan Timur tercatat

sejumlah 672 pasien khususnya dibawah naungan Badan Narkotika Nasional