Anda di halaman 1dari 43

i

KOMPARASI PENERAPAN CLUSTERING DENGAN METODE

K-MEANS DAN K-MEDOIDS DALAM MENENTUKAN

REHABILITASI NARKOBA

(Studi Kasus : BNN Provinsi Kalimantan Timur )

PROPOSAL PENELITIAN

Disusun oleh:

Rizki Afriani

1515015033

JURUSAN TEKNOLOGI INFORMASI DAN KOMUNIKASI

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNOLOGI INFORMASI DAN KOMUNIKASI

UNIVERSITAS MULAWARMAN

SAMARINDA

2019
ii

LEMBAR PENGESAHAN

SEMINAR PROPOSAL PENELITIAN

KOMPARASI PENERAPAN CLUSTERING DENGAN METODE

K-MEANS DAN K-MEDOIDS DALAM MENENTUKAN

REHABILITASI NARKOBA

(Studi Kasus : BNN Provinsi Kalimantan Timur )

Yang dipersiapkan dan disusun oleh

Rizki Afriani

1515015033

Telah disetujui oleh

Dosen Pembimbing I Dosen Pembimbing II

Islamiyah, S.Kom, M.Kom Herman Santoso Pakpahan, M.PFis


NIP. 19870116 201504 2 001 NIDN. 0020099102

Mengetahui,
Koordinator Prodi Teknik Informatika,

Masna Wati, S.Si,. MT


NIP. 198511032014042002
iii

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

LEMBAR PENGESAHAN .................................................................................... ii

DAFTAR ISI ............................................................................................................. iii

DAFTAR GAMBAR ................................................................................................ v

DAFTAR TABEL .................................................................................................... vi

BAB I PENDAHULUAN

1.1 Latar Belakang Masalah ....................................................................... 1

1.2 Rumusan Masalah ................................................................................. 3

1.3 Batasan Masalah ................................................................................... 3

1.4 Tujuan Penelitian .................................................................................. 4

1.5 Manfaat Penelitian ................................................................................ 4

1.6 Kontribusi Penelitian ............................................................................ 5

BAB II TINJAUAN PUSTAKA

2.1 Dasar Teori ........................................................................................... 6

2.1.1 Data Mining ................................................................................... 6

2.1.2 Pengelompokkan Data Mining ...................................................... 15

2.1.3 Metode Clustering ......................................................................... 18

2.1.4 Algoritma K-Means ........................ 20

2.1.5 Rapid Miner ................................................................................... 24

2.1.6 Rehabilitasi Narkoba ..................................................................... 25

2.2 Penelitian Terdahulu ............................................................................. 26


iv

BAB III METODE PENELITIAN

3.1 Waktu dan Tempat Penelitian ................................................................ 28

3.2 Jenis Penelitian....................................................................................... 28

3.3 Data dan Metode Pengumpulan Data .................................................... 29

3.3.1 Jenis Data ..................................................................................... 29

3.3.2 Metode Pengumpulan Data .......................................................... 29

3.4 Variabel dan definis Variabel ................................................................ 29

3.5 Perangkat Penelitian............................................................................... 30

3.6 Tahapan Penelitian ................................................................................. 30

DAFTAR PUSTAKA .............................................................................................. vii


v

DAFTAR GAMBAR

Gambar 2.1 Proses dari Data Mining....................................................... 11

Gambar 2.2 Proses Data Mining Menurut CRISP-DM ........................... 12


vi

DAFTAR TABEL

Tabel 2.1 Kumpulan Penelitian Terdahulu .............................................. 26

Tabel 2.2 Waktu Penelitian ...................................................................... 28


1

BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Penyalahgunaan narkotika dan narkoba menunjukkan tren yang semakin

meningkat di Provinsi Kalimantan Timur. Terbukti dengan masuknya pada

peringkat 4 secara nasional dalam penyalahgunaan narkoba. Penyalahgunaan

narkoba pun tidak hanya di kalangan orang tua dan anak remaja tetapi sudah

merambah ke semua kalangan. Sebagian besar diawali dengan upaya coba-coba

dalam lingkungan pergaulan dan upaya yang dilakukan untuk pencandu narkotika

dan korban penyalagunaan narkotika wajib menjalani rehabilitasi. (Tribunkaltim,

2018).

Rehabilitasi narkoba adalah suatu proses pemulihan seseorang dari gangguan

penggunaan narkoba, pemulihan ini bersifat jangka pendek maupun panjang untuk

mengubah perilaku serta mengembalikan fungsi individu tersebut di masyarakat.

Bukan hanya penyalahgunaan narkoba yang masuk dalam kategori rehabilitasi

sedangkan penderita yang mempunyai penyakit serius dan orang yang cacat juga

memerlukan pengobatan medis untuk mencapai kemampuan fisik psikologis, dan

sosial yang maksimal. (David, 2009).

Rehabilitasi narkoba yang terjadi di provinsi Kalimantan Timur tercatat

sejumlah 672 pasien khususnya dibawah naungan Badan Narkotika Nasional

Provinsi Kalimantan Timur. Angka tersebut diperoleh dari hasil observasi

langsung yang terhitung dari tahun 2017 sampai dengan 2018. (Data Rehabilitasi
2

BNN Prov. Kaltim Tahun 2017-2018). Dalam pelayanan rehabilitasi di BNN

Provinsi Kalimantan Timur dibagi menjadi dua yaitu rehabilitasi rawat jalan dan

rawat inap. Rehabilitasi rawat jalan diberikan untuk pasien yang tingkat

ketergantungan narkoba dari skala ringan sampe sedang dan dilakukan kurang

lebih 8 kali pertemuan tatap muka antara pasien dan konselor rehab. Sedangkan

rehabilitasi rawat inap dikhususkan bagi pasien yang tingkat ketergantungan

narkobanya berskala sedang hingga berat dan dikirim ke balai rehabilitasi narkoba

yang berada di Tanah Merah Samarinda.

Dalam menentukan pelayanan rehabilitasi, BNN Provinsi Kalimantan Timur

melakukan proses assesmen. Assesmen adalah suatu kegiatan untuk mengetahui

tingkat keparahan penyalahgunaan narkoba yang nanti akan dijadikan

pertimbangan dalam penentuan rehabilitasi. Hasil dari assesmen diantaranya dari

membandingkan status medis, status pekerjaan, pola pekerjaan, skala pekerjaan,

lama penggunaan narkoba, status napza, status narkoba hingga keadaan keluarga

pasien itu sendiri. Namun terdapat beberapa masalah yang terjadi yaitu dari proses

assesmen yang dihasilkan kurang efektif dikarenakan hanya dilihat dari segi

keadaan pencandu dan tidak melihat dari record data sebelumnya dan

mengakibatkan tidak adanya konsistenan pada pola penentuan rehabilitasi.

Dari hal tersebut perlu diterapkan teknik data mining dalam pengelompokkan

data untuk penentuan rehabilitasi. Dalam data mining terdapat teknik Clustering

atau klasterisasi adalah metode pengelompokan data. Menurut Tan, 2006

Clustering adalah sebuah proses untuk mengelompokan data ke dalam beberapa

cluster atau kelompok sehingga data dalam satu cluster memiliki tingkat
3

kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang

minimum. Terdapat banyak metode dalam teknik Clustering yang sering

digunakan diantaranya Singkle Linkage Clustering, Complete Linkage Clustering,

Group Average Agglomerative Clustering, K-Means, dan K-Medoids.

Berdasarkan metode yang sering digunakan adalah K-Means. Kelebihan dari

metode dikembangkan oleh Mac Queen yaitu mampu mengelompokkan dokumen

dalam jumlah besar dengan waktu komputasi yang cepat. Prinsip dari metode ini

adalah mempartisi suatu koleksi dokumen menjadi beberapa cluster dan

menentukan centroid (titik pusat awal) secara acak. Tetapi, metode K-Means ini

memilik kelemhan yaitu sensitive terhadap outlier. Selain K-Means, terdapat

metode K-Medoids yang prinsip dari metode hampir sama dengan K-Means tetapi

terdapat perbedaan dalam menentukan centroid yaitu tidak mengambil nilai rata –

rata (mean) dari objek dalam cluster. Dalam metode K-Medoids menggunakan

medoid sebagai titik acuan yang merupakan objek dalam sebuah cluster yang

paling terpusat. Kelebihan dari metode ini adalah metode yang fleksibel karena

bekerja pada setiap jenis data matriks dan mampu menggelompokkan dokumen

dalam jumlah besar dan mengatasi outlier.

Berdasarkan uraian diatas penelitian ini akan menganalisis perbandingan

penerapan clustering dengan metode K-Means dan K-Medoids dalam menentukan

rehabilitasi narkoba.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang sudah diuraikan, maka rumusan masalah

dalam penelitian ini adalah bagaimanakah perbandingan penerapan teknik data


4

mining Clustering dengan metode K-Means dan K-Medoids dalam menentukan

rehabilitasi narkoba di Badan Narkotika Nasional Provinsi Kalimantan Timur ?

1.3 Batasan Masalah

Dalam memfokuskan masalah, peneliti memberikan batasan masalah sebagai

berikut :

(1) Penelitian ini menggunakan teknik data mining clustering dengan metode K-

Means dan K-Medoids.

(2) Data yang digunakan yaitu data rehabilitasi BNN Provinsi Kalimantan Timur

pada tahun 2017 sampai dengan 2018 yang berupa data hasil kesimpulan dari

assesmen diantaranya ada 9 variabel yaitu status medis, status pekerjaan, pola

pekerjaan, skala pekerjaan, lama penggunaan narkoba, status napza, status

legal, status keluarga/sosial dan status psikiatris.

1.4 Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk mengetahui perbandingan dari

penerapan metode K-Means dan K-Medoids dalam menentukan rehabilitasi

narkoba agar dapat dikelompokkan berdasarkan tingkat keparahan

penyalahgunaan narkoba di Badan Narkotika Nasional Kalimantan Timur.

1.5 Manfaat Penelitian

Manfaat dari penelitian ini adalah sebagai berikut :

(1) Bagi Penulis

Penelitian ini dapat memperluas wawasan penulis dalam pemahaman tentang

proses analisis penerapan clustering dengan metode K-Means dan K-Medoids

dalam menentukan rehabilitasi narkoba di BNN Provinsi Kalimantan Timur.


5

(2) Bagi BNN

Penelitian ini dapat menentukan jenis pelayanan rehabilitasi dari tingkat

keparahan penyalahgunaan narkoba untuk dapat dijadikan pertimbangan

dalam penentuan rehabilitasi narkoba.

(3) Bagi Universitas Mulawarman

Dengan adanya penulisan ini dapat menambah karya ilmiah mahasiswa dalam

menyelesaikan pendidikan dalam bentuk laporan skripsi pada perpustakaan

Universitas Mulawarman yang mampu menjadi bahan panduan atau pedoman

bagi mahasiswa yang akan melakukan penelitian selanjutnya.

1.6 Kontribusi Penelitian

Kontribusi yang diharapkan dari penelitian adalah dengan dilakukannya

analisis komparasi penerapan clustering dengan metode K-Means dan K-Medoids

dapat diketahui cluster yang nantinya dapat dijadikan pertimbangan dalam

penentuan rehabilitasi narkoba.


6

BAB II

TINJAUAN PUSTAKA

2.1 Rehabilitasi Narkoba

Rehabilitasi adalah usaha pemulihan korban narkotika sehingga kembali

dapat melaksanakan fungsionalitas sosialnya yaitu dapat melaksanakan tugas

hidupnya secara normal dan wajar. Program rehabilitasi merupakan serangkaian

upaya yang terkoordinasi dan terpadu, terdiri atas upaya – upaya medis,

bimbingan mental, psikososial, keagamaan dan pendidikan untuk meningkatkan

kemampuan penyesuaian diri, kemandirian dan menolong diri sendri serta

mencapai kemampuan fungsional sesuai dengan potensi yang dimiliki baik fisik,

mental, sosial dan ekonomi. Pada akhirnya mereka yang diharapkan dapat

mengatasi masalah penyalahgunaan narkotika dan kembali berinteraksi dengan

masyarakat secara wajar.

Dalam pelaksanaan rehabilitasi terhadap mereka yang mengalami

ketergantungan narkotika berlandaskan beberapa peraturan yaitu :

a. Undang Undang republic Indonesia Nomor 22 tahun 1997 Pasal 45,

Pasal 46 ayat (1),(2),(3), Pasal 47, ayat (1) dan (2), Pasal 48 ayat (1) dan

(2), Pasal 49 ayat (1),(2),(3), Pasal 50.

b. Keputusan Presiden Republik Indonesia Nomor 17 Tahun 2002 Tentang

badan Narkotika Nasional.


7

2.2 Data Mining

Data mining adalah suatu istilah yang digunakan untuk menemukan

pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses

semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan

buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi

pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam

database besar. (Turban et al, 2005). Menurut Gartner Group data mining adalah

suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan

memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan

dengan menggunakan teknik pengenalan pola seperti teknik statistik dan

matematika (Larose, 2006).

Selain definisi di atas beberapa definisi juga diberikan seperti, “data mining

adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data

berupa pengetahuan yang selama ini tidak diketahui secara manual.”

(Pramudiono, 2006). “Data mining adalah analisis otomatis dari data yang

berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau

kecenderungan yang penting yang biasanya tidak disadari keberadaannya.”

(Pramudiono, 2006).

“Data mining merupakan analisis dari peninjauan kumpulan data untuk

menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang

berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik

data.” (Larose, 2006). “Data mining merupakan bidang dari beberapa keilmuan

yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik,


8

database, dan visualisasi untuk penanganan permasalahan pengambilan informasi

dari database yang besar.” (Larose, 2006).

Kemajuan luar biasa yang terus berlanjut dalam bidang data mining

didorong oleh beberapa faktor, antara lain : (Larose, 2006)

1. Pertumbuhan yang cepat dalam kumpulan data.

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan

memiliki akses ke dalam database yang baik.

3. Adanya peningkatan akses data melalui navigasi web dan intranet.

4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam

globalisasi ekonomi.

5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan

teknologi).

6. Perkembangan yang hebat dalam kemampuan komputasi dan

pengembangan kapasitas media penyimpanan.

Berdasarkan definisi-definisi yang telah disampaikan, hal penting yang terkait

dengan data mining adalah :

1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.

2. Data yang akan diproses berupa data yang sangat besar.

3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin

memberikan indikasi yang bermanfaat.

Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau

lebih dalam satu dimensi. Misalnya dalam dimensi produk, dapat di lihat

keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu,
9

hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek.

(Ponniah, 2001).

Beberapa definisi awal dari data mining meyertakan fokus pada proses

otomatisasi. Berry dan Linoff, (2004) dalam buku Data Mining Technique for

Marketing, Sales, and Customer Support mendefinisikan data mining sebagai

suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis

terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan

yang berarti (Larose, 2006).

Istilah data mining dan Knowledge Discovery in Database (KDD) sering

kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi

tersembunyi dalam suatu basis data yang besar.

Gambar 2.1 Proses dari Data Mining

Sumber: SPSS, 2004

Cross-Industry Standart Process for Data Mining (CRISP-DM) yang di

kembangkan tahun 1996 oleh analisis dari beberapa industri seperti Daimler

Chrysler, SPSS dan NCR. CRISP-DM menyediakan standar proses data mining

sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.

Dalam CRISP-DM sebuah proyek data mining memiliki siklus hidup yang terbagi

dalam enam fase Gambar 2.2. Keseluruhan fase berurutan yang ada tersebut
10

bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari

fase sebelumnya. Hubungan penting antar fase digambarkan dengan panah.

Sebagai contoh, jika proses berada pada fase modeling. Berdasar pada perilaku

dan karakteristik model, proses mungkin kembali kepada fase data preparation

untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase

evaluation.

Gambar 2.2 Proses Data Mining Menurut CRISP-DM

Sumber: CRISP, 2005

Enam fase CRISP-DM ( Cross Industry Standard Process for Data Mining)

(Larose, 2006).

1. Fase Pemahaman Bisnis ( Business Understanding Phase )

a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis

atau unit penelitian secara keseluruhan.


11

b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan

data mining.

c. Menyiapkan strategi awal untuk mencapai tujuan.

2. Fase Pemahaman Data ( Data Understanding Phase )

a. Mengumpulkan data.

b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data

dan pencarian pengetahuan awal.

c. Mengevaluasi kualitas data.

d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin

mengandung pola dari permasalahan

3. Fase Pengolahan Data ( Data Preparation Phase )

a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk

keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang

perlu dilaksanakan secara intensif.

b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang

akan dilakukan.

c. Lakukan perubahan pada beberapa variabel jika dibutuhkan.

d. Siapkan data awal sehingga siap untuk perangkat pemodelan.

4. Fase Pemodelan ( Modeling Phase )

a. Pilih dan aplikasikan teknik pemodelan yang sesuai.

b. Kalibrasi aturan model untuk mengoptimalkan hasil.

c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada

permasalahan data mining yang sama.


12

d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk

menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi

kebutuhan teknik data mining tertentu.

5. Fase Evaluasi ( Evaluation Phase )

a. Mengevaluasi satu atau lebih model yang digunakan dalam fase

pemodelan untuk mendapatkan kualitas dan efektivitas sebelum

disebarkan untuk digunakan.

b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase

awal.

c. Menentukan apakah terdapat permasalahan penting dari bisnis atau

penelitian yang tidak tertangani dengan baik.

d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data

mining.

6. Fase Penyebaran (Deployment Phase)

a. Menggunakan model yang dihasilkan. Terbentuknya model tidak

menandakan telah terselesaikannya proyek.

b. Contoh sederhana penyebaran: Pembuatan laporan.

c. Contoh kompleks Penyebaran: Penerapan proses data mining secara

paralel pada departemen lain.

2.2.1 Pengelompokan Data Mining

Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas yang

dapat dilakukan, yaitu :


13

(1) Klasifikasi (Classification)

Klasifikasi bertujuan untuk mengklasifikasikan item data menjadi satu dari

beberapa kelas standar. Sebagai contoh, suatu program email dapat

mengklasifikasikan email yang sah dengan email spam. Beberapa algoritma

klasifikasi antara lain pohon keputusan, nearest neighbor, naïve bayes, neural

networks dan support vector machines.

(2) Regresi (Regression)

Regresi merupakan pemodelan dan investigasi hubungan dua atau lebih

variabel. Dalam analisis regresi ada satu atau lebih variabel independentt /

prediktor yang biasa diwakili dengan notasi x dan satu variabel respon yang biasa

diwakili dengan notasi.

(3) Pengelompokan (Clustering)

Clustering merupakan metode pengelompokan sejumlah data ke dalam

klaster (group) sehingga dalam setiap klaster berisi data yang semirip mungkin.

(4) Pembelajaran Aturan Asosiasi (Association Rule Learning)

Pembelajaran aturan asosiasi mencari hubungan antara variabel. Sebagai

contoh suatu toko mengumpulkan data kebiasaan pelanggan dalam berbelanja.

Dengan menggunakan pembelajaran aturan asosiasi, toko tersebut dapat

menentuan produk yang sering dibeli bersamaan dan menggunakan informasi ini

untuk tujuan pemasaran.

Proses dari data mining mempunyai prosedur umum dengan langkah-langkah

sebagai berikut :
14

(1) Merumuskan permasalahan dan hipotesis

Pada langkah ini dispesifikasikan sekumpulan variabel yang tidak diketahui

hubungannya dan jika memungkinkan dispesifikasikan bentuk umum dari

keterkaitan variabel sebagai hipotesis awal.

(2) Mengoleksi data

Langkah ini menitikberatkan pada cara bagaimana data dihasilkan dan

dikoleksi. Secara umum ada dua kemungkinan yang berbeda. Yang pertama

adalah ketika proses pembangkitan data dibawah kendali dari ahli. Pendekatan ini

disebut juga dengan percobaan yang dirancang (designed experiment).

Kemungkinan yang kedua adalah ketika ahli tidak memiliki pengaruh pada proses

pembangkitan data, dikenal sebagai pendekatan observasional.

(3) Pra pengolahan data

Pra pengolahan data melibatkan dua tugas utama yaitu:

a. Deteksi dan pembuangan data asing (outlier)

Data asing merupakan data dengan nilai yang tidak dibutuhkan karena

tidak konsisten pada sebagian pengamatan. Biasanya data asing dihasilkan dari

kesalahan pengukuran, kesalahan pengkodean dan pencatatan dan beberapa nilai

abnormal yang wajar. Ada dua strategi untuk menangani data asing, yang pertama

mendeteksi dan berikutnya membuang data asing sebagai bagian dari fase pra

pengolahan. Yang kedua adalah mengembangkan metode pemodelan yang kuat

yang tidak merespon.

b. Pemberian skala, pengkodean dan seleksi fitur

Pra pengolahan data menyangkut beberapa langkah seperti memberikan


15

skala variabel dan beberapa jenis pengkodean. Sebagai contoh, satu fitur dengan

range [0, 1] dan yang lain dengan range [-100, 100] tidak akan memiliki bobot

yang sama pada teknik yang diaplikasikan dan akan berpengaruh pada hasil akhir

data mining. Oleh karena itu, disarankan untuk pemberian skala dan membawa

fitur-fitur tersebut ke bobot yang sama untuk analisis lebih lanjut.

(4) Mengestimasi model

Pemilihan dan implementasi dari tehnik data mining yang sesuai merupakan

tugas utama dari fase ini. Proses ini tidak mudah, biasanya dalam pelatihan,

implementasi berdasarkan pada beberapa model dan pemilihan model yang

terbaik merupakan tugas tambahan.

(5) Menginterpretasikan model dan menarik kesimpulan

Pada banyak kasus, model data mining akan membantu dalam pengambilan

keputusan. Metode data mining modern diharapkan akan menghasilkan hasil

akurasi yang tinggi dengan menggunakan model dimensi-tinggi. Pengetahuan

yang baik pada keseluruhan proses sangat penting untuk kesuksesan aplikasi.

Tidak perduli seberapa kuat metode data mining yang digunakan, hasil dari model

tidak akan valid jika pra pengolahan dan pengkoleksian data tidak benar atau jika

rumusan masalah tidak berarti.

2.2.2 Metode Clustering

Clustering merupakan proses melakukan partisi atau pemisahan satu set

item data ke himpunan bagian yang disebut cluster. Item yang dalam cluster-nya

memiliki karakteristik hampir sama antara satu dengan yang lain dan akan

berbeda dengan item dalam cluster lain. Partisi tidak dilakukan secara manual
16

karena pasti akan sulit mengingat banyaknya data yang akan dipartisi, sehingga

dibutuhkan suatu algoritma clustering. Oleh karena itu, clustering sangat berguna

terlebih dalam menemukan kelompok yang tidak dikenal dalam data. Clustering

juga dikenal sebagai data segmentasi karena mempartisi banyak data ke banyak

grup berdasar kesamaan.

Tan, dkk.([4]) membagi clustering dalam dua kelompok, yaitu hierarchical and

partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek‐

obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada

tepat di satu cluster. Hierarchical clustering adalah sekelopok cluster yang bersarang

seperti sebuah pohon berjenjang (hirarki).

William ([8]) membagi algoritma clustering ke dalam kelompok besar seperti

berikut:

1. Partitioning algorithms, merupakan algoritma yang cara kerjanya membentuk

berbagai macam partisi lalu mengevaluasinya berdasarkan kriteria tertentu.

2. Hierarchial algorithms, merupakan algoritma yang membentuk dekomposisi

hirarki dari sekumpulan data menggunakan beberapa kriteria.

3. Density based, merupakan algoritma yang membentuk cluster berdasar pada

koneksi dan fungsi densitas.

4. Grid-based, membentuk cluster berdasar struktur multiple level granularity.

5. Model-based, menganggap jika sebuah model adalah hipotesa untuk masing-

masing cluster dan model yang baik dipilih diantara model hipotesa tersebut.

Dalam melakukan proses clustering pun ada syarat-syaratnya sekaligus

tantangan yang harus dipenuhi oleh suatu algoritma clustering, menurut Jiawei
17

Han dan Micheline Kamber di dalam bukunya yang berjudul “Data Mining

Concepts And Techniques” yang dijelaskan sebagai berikut [15] :

1. Skalabilitas, yang artinya mengharuskan bahwa suatu metode clustering harus

mampu menangani data dalam jumlah yang besar bahkan sampai jutaan data.

2. Kemampuan analisa beragam bentuk data, yang artinya algoritma clustering

harus mampu diimplementasikan ke berbagai macam bentuk data seperti data

nominal, ordinal maupun gabungannya.

3. Menemukan cluster dengan bentuk-bentuk yang tidak terduga, artinya hasil

dari clustering dapat berbentuk aneh dan tidak sama antara satu data dengan

lainnya. Karena itu butuh kemampuan analisa cluster dengan bentuk apapun

pada suatu algoritma clustering.

4. Kemampuan untuk dapat menangani noise, yang artinya data itu tidak selalu

dalam keadaan baik. Terkadang ada data rusak, tidak dimengerti, atau hilang.

Karena itu, algoritma clustering harus mampu menangani data yang rusak.

5. Sensitifitas pada perubahan input, artinya perubahan input data menyebabkan

perubahan cluster yang ada bahkan menyebabkan perubahan mencolok jika

menggunakan algoritma clustering yang memiliki tingkat sensitifitas rendah.

6. Mampu meng-clustering data-data berdimensi tinggi, artinya suatu kelompok

data dapat berisi banyak dimensi atau atribut. Untuk itu algoritma clustering

harus mampu menangani data berdimensi tinggi tersebut.

7. Interpresasi dan kegunaan, artinya mengharuskan bahwa hasil dari proses

clustering dapat diinterpretasikan dan juga berguna.


18

2.2.3 Algoritma K-Means

Algoritma K-Means merupakan salah satu algoritma clustering pada data

mining non hierarki yang menganalisa data dengan pemodelan unsupervised

learning dan melakukan pengelompokan data dengan sistem partisi. Konsep

dalam clustering yaitu dengan mengelompokkan data-data menjadi beberapa

himpunan, yang mana data dalam satu kelompok mempunyai karakteristik yang

sama antara data satu dengan yang lainnya dan mempunyai karakteristik berbeda

dengan data yang ada dalam kelompok berbeda. Dengan maksud lain, metode k-

means ini melakukan peminimalan variasi antar data yang ada dalam suatu cluster

dan memaksimalkan variasi dengan data yang ada dalam cluster lainnya.

Dalam mengelompokkan data dengan k-means, didasarkan pada titik pusat

yang telah ditentukan sebelumnya. Dengan menggunakan rumus Euclidean

Distances, Clustering objek dilihat dari jarak objek dengan titik pusatnya yang

paling dekat, yang mana dalam mencari jarak terdekat kadang dibutuhkan hingga

beberapa perulangan atau iterasi sampai objek benar-benar mendekati ke titik

pusat cluster. Euclidean Distances sendiri merupakan perhitungan jarak dari 2

titik di euclidean space, dengan menghitung akar dari kuadrat perbedaan 2 vektor.

Setelah diketahui titik pusat terdekatnya dan posisi objek terhadap cluster-nya

tidak berubah-ubah lagi, objek dapat dipastikan masuk sebagai anggota cluster

tersebut. Sehingga diketahui bagaimana k-means mempartisi data-data ke dalam

kelompok masing-masing cluster, melalui proses perubahan posisi data yang

awalnya bergejolak menjadi tetap. Beberapa kelebihan dari algoritma k-means

antara lain sebagai berikut :


19

1. Karena algoritma k-means lebih sederhana dibandingkan algoritma lain

seperti fuzzy c-means, maka dalam implementasinya mudah dilakukan.

2. Dalam mempelajari k-means relatif cepat sehingga tidak perlu waktu lama.

3. Mudah untuk diadaptasikan dari satu masalah ke masalah lain selama data-

data yang digunakan juga cocok dilakukan peng-cluster-an.

4. Algoritma k-means sudah begitu banyak digunakan dalam berbagai masalah,

terlebih dalam penelitian-penelitian terdahulu.

Selain algoritma k-means itu sendiri, ternyata banyak algoritma yang didapat

dari hasil pengembangan atau variasi dari metode k-means sebagai berikut [17] :

1. K-means++, merupakan metode untuk menentukan nilai awal pada k-means.

Algoritma ini diperlukan dalam meminimalkan dampak buruk dari metode k-

means yang begitu bergantungan dari nilai awalnya.

2. K-medoids, merupakan algoritma yang berbasis prototype. Jika k-means perlu

titik tengah sebagai model dari peng-cluster-annya, maka untuk k-medoids ini

menggunakan rata-rata tengah.

3. Bisecting k-means, dasarnya memerlukan k-means sebagai pembagi 2 cluster.

Mulanya tiap-tiap objek tergabung dalam suatu cluster. Di tiap iterasi, dipilih

satu cluster untuk dibagikan 2 menggunakan k-means. Ini dilakukan sampai

tercipta k-cluster. Algoritma bisecting k-means kerjanya lebih cepat

dibanding k-means karena mereduksi jumlah objek yang dibandingkan di tiap

iterasinya.

Untuk menemukan pola-pola data dari proses clustering berbasis k-means,

berikut langkah-langkah yang perlu dilakukan :


20

1. Menentukan dahulu berapa jumlah cluster yang akan dibentuk (k-cluster).

2. Menentukan titik pusat cluster (centroid) secara acak.

Untuk menghasilkan cluster maksimal, titik awal partisi merupakan salah

satu faktor yang berpengaruh untuk itu pemilihan titik awal harus beralasan.

Dalam menentukan titik pusat awal cluster dapat dengan mengukur nilai titik

tengah segmentasi berdasarkan jumlah jarak terpendek antar anggota kelas

tersebut.

3. Menghitung jarak antara setiap data ke titik pusat terdekat.

Distance space digunakan dalam perhitungan jarak antara data dan titik

pusat. Salah satu persamaan yang dapat digunakan adalah Euclidean Distance

Space, yang sering digunakan dalam menghitung jarak. Hal tersebut

dikarenakan hasil perhitungan merupakan jarak terpendek antara dua titik

yang diperhitungkan. Berikut ini merupakan persamaannya yaitu :

𝐷 𝑝
𝑛(𝑥,𝑦)=√∑𝑘=1(𝑋𝑥𝑘 − 𝑌𝑦𝑘 )2̀

Dengan :

𝐷𝑛(𝑥,𝑦) = jarak objek antara objek i dan j

P = dimensi data

𝑋𝑥𝑘 = koordinat dari objek x pada dimensi k

𝑌𝑦𝑘 = koordinat dari objek y pada dimensi k


21

4. Mengalokasikan masing-masing data ke titik pusat terdekat, sehingga dalam

tahap ini setiap data sudah mulai bergerak ke cluster-nya masing-masing.

5. Menghitung titik pusat baru menggunakan jumlah keseluruhan per cluster.

Untuk menghitung titik pusat cluster yang baru ditentukan berdasarkan rata-

rata dari data-data yang ada di titik pusat yang sama. Berikut persamaannya :

𝐶 1 ∑ 𝑑𝑖
𝑘= ( )
𝑛𝑘
Dengan :

𝐶𝑘 = titik pusat baru

𝑛𝑘 = jumlah dokumen dalam cluster k

𝑑𝑖 = dokumen dalam cluster k

6. Kembali ke langkah 3, jika ada data yang berubah – ubah dari cluster atau

jika berubahnya nilai centroid melebihi nilai threshold atau jika berubahnya

nilai objective function yang digunakan melebihi nilai threshold yang

digunakan.

2.2.4 Algoritma K-Medoids

K-Medoids atau Partitioning Around Medoids (PAM) adalah algoritma

clustering yang mirip dan K-Means. Perbedaan dari kedua algoritma ini yaitu

algoritma K-Medoids atau PAM menggunakan objek sebagai perwakilan (medoid)

sebagai pusat cluster untuk setiap cluster, sedangkan K-Means menggunakan

nilai rata-rata (mean) sebagai pusat cluster [Kaur, dkk, 2014].


22

Menurut Han dan Kamber, algoritma K-Medoids adalah sebagai berikut.

1. Inisialisasi pusat cluster sebanyak k (jumlah cluster)

2. Alokasikan setiap data (objek) ke cluster terdekat menggunakan

persamaan ukuran jarak Euclidian Distance dengan persamaan:

𝑑(𝑥,𝑦)=‖𝑥−𝑦‖ 𝑛
√∑ (𝑥𝑖 − 𝑦𝑖 )²
𝑖=1

3. Pilih seara acak objek pada masng – masing cluster sebagai kandidat

medoid baru.

4. Hitung jarak setiap objek yang berada pada masing – masing cluster

dengan kandidat medoid baru.

5. Hitung total simpangan (S) dengan menghitung total distance baru – total

distance lama. Jika S < 0, maka tukar objek dengan cluster untuk

membentuk sekumpulan k objek baru sebagai medoid.

6. Ulangi langkah 3 sampai 5 hingga tidak terjadi perubahan medoid,

sehingga didapatkan cluster beserta anggota cluster masing – masing.

2.2.5 Rapid Miner

RapidMiner merupakan perangakat lunak yang bersifat terbuka (open

source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data

mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai

teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna

sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki

kurang lebih 500 operator data mining, termasuk operator untuk input, output,
23

data preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri

sendiri untuk analisis data dan sebagai mesin data mining yang dapat

diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan

bahasa java sehingga dapat bekerja di semua sistem operasi.

RapidMiner sebelumnya bernama YALE (Yet Another Learning

Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh

RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit

dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL

(GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan

aplikasi yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara.

RapidMiner sebagai software open source untuk data mining tidak perlu

diragukan lagi karena software ini sudah terkemuka di dunia. RapidMiner

menempati peringkat pertama sebagai Software data mining pada polling oleh

KDnuggets, sebuah portal data-mining pada 2010-2011.

RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang

sebuah pipeline analitis. GUI ini akan menghasilkan file XML )Extensible

Markup Language) yang mendefenisikan proses analitis keingginan pengguna

untuk diterpkan ke data. File ini kemudian dibaca oleh RapidMiner untuk

menjalankan analis secara otomatis.


24

2.3 Penelitian Terdahulu

Tabel 2.1 Kumpulan Penelitian Terdahulu

No Nama Tahun Judul Hasil


.
1. Anindya 2016 Dalam perangkingan
Khrisna Implementasi kesehatan pada suatu derah
Wardhani Algoritma K-Means dirumuskan inisialisasi jumlah
Untuk cluster sebanyak 2 buah
Pengelompokkan sehingga hasil akurat dari
Penyakit Pasien pengelompokkan mencapai
Puskesmas Kajen 79.55%
Pekalongan
2. Pengelompokka menghasilkan
5 cluster dengan cluster
pertama terdiri dari 909 record
transaksi, cluster kedua terdiri
dari 132 record transaksi,
cluster ketiga 66 record
Algoritma K-Medoids
Wiwit transaksi, cluster keempat
Untuk Penentuan
Agus 2015 terdiri dari 132 record
Strategi Pemasaran
Triyanto transaksi dan dalam startegi
Produk
pemasaran produk dilakukan
dengan melakukan promosi
pada cluster keempat yang
memiliki kombinasi jumlah
barang dibeli yang paling
tinggi.

3. Dengan menggunakan
perbandingan rasio simpangan
baku dari metode K-Means
Perbandingan K- dan K-Medoids Clustering,
Means dan K- maka diperoleh metode
Yunita
Medoids Clustering terbaik untuk pengklasteran
Hilda
2017 terhadap Kelayakam terhadap kelayakan Puskemas
Susanti,
Puskesmas di DIY di DIY adalah metode K-
dkk.
Tahun 2015 Means dengan rasio lebih
kecil dibandingkan dengan
metode K-Medoids Clustering
sebesar 54,96%.

4. Triastuti 2017 Pegelompokkan Analisis cluster dengan


25

Wuryanda Kabupaten / Kota metode K-Medoids bisa


ri, dkk. Berdasarkan digunakan jika obyek yang
Komoditas Pertanian akan dikelompokkan
Menggunakan jumlahnya banyak. Pada
Metode K-Medoids penelitian ini obyek yang akan
dikelompokkan adalah
kabutan’kota di provinsi Jawa
Tengah. Untuk menentukan
jumlah kelompok optimal
dengan melihat lebar slihoutte
utuk setiap komoditas.
Dengan melihat hasil
pengelompokan diharapkan
pemerintah bisa meningkatan
produksi pertanian
dibandingkan kabutan/kota
yang lain.
5. Kualitas clustering dihasilkan
berdasarkan proses pengujian
yang dilakukan didapatkan
hasil nilai Silhoutte Coefficient
tertinggi yaitu 0.567485053
dengan jumlah cluster 2 dan
jumlah data 7352.
Impelementasi
Berdasarkan hasil bahwa
Metode K-Medoids
jumlah cluster dan jumlah
Dyang Clustering Untuk
Falila Pengelompokan Data data mempengaruhi terhdap
2017 hasil kualitas dar cluster.
Pramesti, Potensi Kebakaran
Analisis penentuan potensi
dkk. Hutan/Lahan
tinggi terhadap kebakaran
Berdasarkan
Pesebaran Titik Panas hutan/lahan ditunjukkan
cluster 1 dengan confidence
(Hotspot)
87,08% dengan cluster 2
dengan confidence 58,73%.
Diman oitensi kebakaran
hutan/lahan dari cluster 1
yaitu tingkat kecerahan dan
cluster 2 yaitu indikasi api.
6. Wahidatin 2018 Analisis Clistering Algoritma K-Means dapat
H. Dengan Metode K- menggelompokkan kelulusan
Rahmah Means dalam mahasiswa berdsarkan nilai
Memprediksi mahasiswa
Kelulusan Mahasiswa
26

Dari beberapa penelitian diatas yang terkait data mining untuk clustering

menggunakan metode K-Means ataupun K-Medoids sudah banyak dilakukan

sebelumnya oleh beberapa peneliti dari berbagai studi kasus karena metode

tersebut sangant terkenal dalam data minning Clustering. Namun hanya beberapa

yang melakukan penelitian untuk membandingan penerapan metode K-Means dan

K-Medoids pada suatu studi kasus. Maka dalam penelitian ini akan diteliti

perbandingan penerapan metode K-Means dan K-Medoids dengan objek studi

kasus Rehabilitasi Narkoba untuk mengetahui pengelompokkan (cluster) mana

yang nantinya dapat dijadikan acuan dalam penentuan rehabilitasi narkoba dan

memperoleh metode pengklasteran terbaik pada penentuan rehabilitas narkoba.


27

BAB III

METODOLOGI PENELITIAN

3.1 Waktu dan Tempat Penelitian

Waktu penelitian dimulai dari bulan Oktober 2018 sampai Januari 2019 dan

dilaksanakan di Badan Narkotika Nasional Provinsi Kalimantan Timur yang

beralamat di Jl. Rapak Indah KM. 1 Samarinda, Kalimantan Timur.

Tabel 3.1 Waktu Penelitian

Tahun 2018
No Jenis Kegiatan
Oktober November Desember Januari

1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

A. Tahap Pra Penelitian

1 Menentukan Judul Penelitian

Menyusun Rumusan
2
Masalah

3 Mencari Data Pendukung

Menyusun Metode
4
Penelitian

Menyusun Proposal
5
Penelitian

6 Revisi Proposal Penelitian

7 Seminar Proposal

B. Tahap Penelitian

1 Pengumpulan Data

2 Analisis Data
28

Tahun 2018
No Jenis Kegiatan
Oktober November Desember Januari

Pengujian Data Mencari


3 Bobot Dengan
Menggunakan Entropy

Pengujian Data Mencari


4 Bobot Dengan
Menggunakan Critic

C. Tahap Akhir Penelitian

1 Penyusunan Laporan

2 Evaluasi

3 Seminar Hasil

4 Revisi Seminar Hasil

5 Penyempurnaan Laporan

6 Publikasi Karya Ilmiah

3.2 Jenis Penelitian

Penelitian ini menggunakan pendekatan kuantitatif, karena penelitian ini

dilakukan untuk perbandingan penerapan clustering dengan metode K-Means dan

K-Medoids dalam menentukan rehabilitasi narkoba.

3.3 Data dan Metode Pengumpulan Data

3.3.1 Jenis Data

Data yang digunakan dalam penelitian adalah data primer yang didapat dari

database rehabilitasi BNN Provinsi Kalimantan Timur sebanyak 350 data pasien.
29

3.3.2 Metode Pengumpulan Data

Teknik pengumpulan data yang digunakan dalam penelitian ini adalah

sebagai berikut :

(1) Studi Literatur

Studi literatur adalah metode yang digunakan dalam penelitian untuk

menelusuri sumber – sumber yang berkaitan dengan penelitian yang diambil dari

jurnal, skripsi, buku referensi dan sumber terpercaya lainnya yang dapat dijadikan

referensi yang berhubungan dalam penelitian ini sehingga dapat menghasilkan

penelitian yang maksimal. Pada penelitian ini berdasarkan literature buku data

mining dan jurnal yang berkaitan dengan penggunaan metode K-Means dan K-

Medoids.

(2) Studi Lapangan

Pada penelitian ini studi lapangan di lakukan dengan observasi langsung pada

tempat penelitian yaitu di kantor Badan Narkotika Nasional Provinsi Kalimantan

Timur bidang rehabilitasi.

3.4 Variabel dan definisi Variabel

Variabel yang digunakan dalam penelitian ini ada 2 jenis yaitu variabel bebas

(independent) dan variabel terikat (dependent).

(1) Variabel bebas dalam penelitian ini diambil dari penelitian terdahulu yang

berkaitan dengan penentuan rehabilitasi narkoba yang disajikan pada Tabel

3.2
30

(2) Variabel terikat dalam penelitian ini adalah variabel status rehabilitas yang

menentukan jenis pelayananan dalam rehabilitasi narkoba yaitu rawat inap

atau rawat jalan.

Tabel 3.2 Daftar Variabel Penelitian

No. Nama Variabel Keterangan


1. Skala Medis 1 = 0-2 (Ringan)
2 = 3-5 (Sedang)
3 = 6-9 (Tinggi)
2. Status Pekerjaan 1 = Tidak Bekerja
2 = Bekerja
3 = Mahasiswa / Pelajar
4 = Ibu Rumah Tangga
3. Skala Pekerjaan 1= 0-2 (Ringan)
2 = 3-5 (Sedang)
3 = 6-9 (Tinggi)
4. Lama penggunaan narkoba Jumlah penggunaan narkoba pasien
5. Skala Napza
1= 0-2 (Ringan)
6. Skala Legal
2 = 3-5 (Sedang)
7. Skala Sosial
3 = 6-9 (Tinggi)
8. Skala Psikiatris

3.5 Perangkat Penelitian

Dalam penelitian ini penulis menggunakan perangkat lunak pengolah angka

Microsoft Excel (Office 356), dan perangkat lunak visualisasi prediktif

RapidMiner Studio 7.6 untuk membantu dalam proses perhitungan dan pemodelan

proses data mining yang digunakan.


31

3.6 Tahapan Penelitian

Dalam penelitian ini memiliki tahapan yakni pengumpulan data, analisis data,

mendeskritisasi data, analisis variabel, pengaplikasian variabel dengan teknik

clustering algoritma K-Means dari data rehabilitasi narkoba dan penarikan

kesimpulan.

Pengumpulan penelitian terdahulu


(mengumpulkan variabel yang biasa
digunakan)

Analisis Data

Pendeskripsian Data

Analisis Faktor untuk menentukan


variabel yang berpengaruh

Penentuan data training dan data


testing

Melakukan perhitungan K-Means


Cluster

Gambar 3.1 Alur Tahap Penelitian


32

Dalam penelitian ini menggunakan standar data mining yaitu Cross

Industry Standart Process (CRISP-DM) untuk data mining. Berikut adalah

langkah – langkah dari tahapan CRISP-DM sebagai berikut :

1. Bussiness Understanding

Dalam penelitian ini akan berfokus untuk mengetahui perbandingan

penerapan Clustering dengan metode K-Means dan K-Medoids untuk memperoleh

metode pengklasteran terbaik dalam penempatan bagi pencandu narokoba dengan

data yang diperoleh dari klinik Badan Narkotika dan Narkoba Provinsi

Kalimantan Timur.

2. Data Understanding

Pada tahap ini akan diperoleh data pasien dari bagian klinik BNN Prov

Kaltim yang diperoleh melalui bidang Rehabilitas BNN Provinsi Kaltim. Berikut

atribut dalam data yang diperoleh yang disajikan dalam tabel 3.3 dibawah ini :

Tabel 3.3 Keterangan Atribut Data Rehabilitas

No. Nama Atribut Keterangan

1. Nama Nama Pasien

2. Jenis Kelamin Jenis Kelamin Pasien

3. Status Perkawinan Status Perkawinan Pasien

4. Pendidikan Terakhir Pendidikan Terakhir Pasien

5. Skala Medis Skala Medis berskala 0-9

6. Status Pekerjaan Status Pekerjaan Pasien

7. Pola Kerja Pola Kerja Pasien


33

8. Dukungan Hidup Dukungan Hidup Pasien

9. Skala Pekerjaan Skala Pekerjaan berskala 0-9

10. Jumlah jenis zat yang Jumlah jenis yang dikonsumsi pasien
dikonsumsi

11. Zat utama dikonsumsi Zat utama yang dikonsumsi Pasien

12. Frekuensi Pemakaian Frekuensi Pemakaian Pasien

13. Lama Penggunaan Lama penggunaan narkoba sepanjang


Narkoba hidup pasien

14. Riwayat Rehabilitasi Riwayat Rehabilitasi Pasien

15. Riwayat Overdosis Riwayat Overdosis Pasien

16. Skala Napza Skala Napza berskala 0-9

17. Jumlah tindakan Jumlah tindakan asusila yang dilakukan


asusila Pasien sepanjang hidup

18. Skala Legal Skala Legal berskala 0-9

19. Status Tinggal Status tinggal Pasien

20. Riwayat Konflik Riwayat konflik Pasien

21. Skala social Skala Sosial berskala 0-9

22. Skala Psikiatris Skala Psikiatris berskala 0-9

23. Status Rehabilitasi Perawatan rehabilitas pasien

3. Data Preparation

Dari data yang diperoleh akan dilakukan pemilihan variabel yang ditentukan

oleh peneliti berdasarkan penelitian terdahulu. Kemudian setiap atribut akan diuji

yang disebut data cleaning dan data integration and transformation untuk

membersihkan data atau nilai atribut jika terjadi duplikasi data atau data yang

inkosisten yang dapat menghambat proses data.


34

a. Data Cleaning

Dari 350 data terdapat 50 data yang tergolong tidak lengkap (missing value)

dan harus dihapus dikarenakan dapat mengganggu aturan algoritma yang

akan dibentuk. Maka data yang digunakan sebanyak 300 data terhitung dari

tahun 2017-2018.

b. Data Integration dan Transformation

Untuk meningkatkan dan memudahkan dalam proses analisis maka dari 23

atribut yang diperoleh akan dipilih beberapa atribut inti sebagai penentuan

rehabilitiasi narkoba yang diantaranya pada tabel 3.4

Tabel 3.4 Tahap Integration dan Transformation Data

No. Nama Atribut Proses Keterangan

1. Nama Data Cleaning Nama Pasien

2. Jenis Kelamin Data Cleaning Jenis Kelamin Pasien

3. Status Data Cleaning Status Perkawinan Pasien


Perkawinan

4. Pendidikan Data Cleaning Pendidikan Terakhir Pasien


Terakhir

5. Skala Medis Digunakan Skala Medis berskala 0-9


Atribut

6. Status Pekerjaan Digunakan Status Pekerjaan Pasien


Atribut

7. Pola Kerja Data Cleaning Pola Kerja Pasien

8. Dukungan Hidup Data Cleaning Dukungan Hidup Pasien

9. Skala Pekerjaan Digunakan Skala Pekerjaan berskala 0-9


Atribut
35

No. Nama Atribut Proses Keterangan

10. Jumlah jenis zat Data Cleaning Jumlah jenis yang dikonsumsi
yang pasien
dikonsumsi

11. Zat utama Data Cleaning Zat utama yang dikonsumsi


dikonsumsi Pasien

12. Frekuensi Data Cleaning Frekuensi Pemakaian Pasien


Pemakaian

13. Lama Digunakan Lama penggunaan narkoba


Penggunaan Atribut sepanjang hidup pasien
Narkoba

14. Riwayat Data Cleaning Riwayat Rehabilitasi Pasien


Rehabilitasi

15. Riwayat Data Cleaning Riwayat Overdosis Pasien


Overdosis

16. Skala Napza Digunakan Skala Napza berskala 0-9


Atribut

17. Jumlah tindakan Data Cleaning Jumlah tindakan asusila yang


asusila dilakukan Pasien sepanjang
hidup

18. Skala Legal Digunakan Skala Legal berskala 0-9


Atribut

19. Status Tinggal Data Cleaning Status tinggal Pasien

20. Riwayat Konflik Data Cleaning Riwayat konflik Pasien

21. Skala social Digunakan Skala Sosial berskala 0-9


Atribut

22. Skala Psikiatris Digunakan Skala Psikiatris berskala 0-9


Atribut

23. Status Digunakan Sebagai variable dependen (


Rehabilitasi sebagai Label Rawat Inap dan Rawat Jalan )
36

Setelah dilakukan proses diatas melalui tahap integration dan

transformation data maka didapat atribut yang akan digunakan untuk

penentuan rehabilitasi narkoba pada Tabel 3.5 :

Tabel 3.5 Atribut Yang Digunakan

No. Nama Variabel Keterangan


1. Skala Medis 1 = 0-2 (Ringan)
5 = 3-5 (Sedang)
3 = 6-9 (Tinggi)
2. Status Pekerjaan 1 = Tidak Bekerja
2 = Bekerja
6 = Mahasiswa / Pelajar
7 = Ibu Rumah Tangga
3. Skala Pekerjaan 1= 0-2 (Ringan)
2 = 3-5 (Sedang)
3 = 6-9 (Tinggi)
4. Lama penggunaan narkoba Jumlah penggunaan narkoba pasien
5. Skala Napza
1= 0-2 (Ringan)
6. Skala Legal
2 = 3-5 (Sedang)
7. Skala Sosial
3 = 6-9 (Tinggi)
8. Skala Psikiatris

4. Modeling

Metode yang akan digunakan pada penelitian ini adalah metode K-Means dan

K-Medoids. Dalam pemodelan ini akan dicari performa dari metode K-Means dan

K-Medoids yaitu Confusion Matrix dalam menentukan rehabilitasi narkoba. Untuk

melakukan pengukuran dalam menggunakan algoritma data mining clustering

dengan metode K-Means dan K-Medoids menggunakan tool RapidMiner.


37

5. Evaluation

Pada tahap ini dilakukan pengujian untuk data awal menjadi data yang

memiliki variabel yang sudah dianalisis dan diaplikasikan ke dalam algoritma data

mining K-Means dan K-Medoids dan menghitung tingkat akurasi dari hasil

prediksi. Untuk pengukuran tingkat akurasi kedua model menggunakan metode

confussion matrix.

6. Deployment

Hasil dari penelitian ini berupa data pasien pencandu narkoba yang masuk

dalam cluster - cluster rehabilitas narkoba yang ditempatkan untuk menjalankan

rehabilitas yang sesuai dan mencari metode clustering terbaik dari perbandingan

yang sudah dihasilkan.

Anda mungkin juga menyukai