Muhammad Hanif Santoso - Metodologi Penelitian - Uas
Muhammad Hanif Santoso - Metodologi Penelitian - Uas
PROPOSAL SKRIPSI
Disusun Oleh :
Pembimbing 1 : -
Pembimbing 2 : -
DAFTAR ISI.....................................................................................................................................i
DAFTAR GAMBAR.........................................................................................................................ii
DAFTAR TABLE.............................................................................................................................iii
BAB I.............................................................................................................................................1
PENDAHULUAN............................................................................................................................1
1.1 Latar Belakang.......................................................................................................................1
1.2 Permasalahan.........................................................................................................................4
1.3 Batasan Masalah....................................................................................................................4
1.4 Tujuan....................................................................................................................................4
1.5 Pertanyaan Penelitian.............................................................................................................4
BAB II............................................................................................................................................6
KAJIAN PUSTAKA..........................................................................................................................6
2.1 Diabetes Mellitus...................................................................................................................6
2.2 Data Mining...........................................................................................................................7
2.3 Klasifikasi..............................................................................................................................8
2.4 K-Nearest Neighbour (KNN).................................................................................................9
2.5 Particle Swarm Optimization...............................................................................................10
2.6 Penelitian Terkait.................................................................................................................10
BAB III.........................................................................................................................................14
METODE USULAN........................................................................................................................14
3.1 Data Set................................................................................................................................14
3.2 Skenario...............................................................................................................................15
3.2.1. Developing And Understanding...................................................................................16
3.2.2. Selecting And Create Dataset......................................................................................16
3.2.3. Preprocessing and Cleansing.......................................................................................16
3.2.4. Data transforming........................................................................................................16
3.2.5. Chossing the Appropriate the Data Mining.................................................................16
3.2.6. Chossing the Data Mining Algorithm..........................................................................16
3.2.7. Employing the Data Mining Algorithm.......................................................................16
3.2.8. Evalution......................................................................................................................16
3.2.9. Using the Discovered Knowledge................................................................................16
3.3 Metode Usulan.....................................................................................................................17
REFERENCES................................................................................................................................18
i
DAFTAR GAMBAR
ii
DAFTAR TABLE
iii
BAB I
PENDAHULUAN
Diabetes adalah penyakit kronis serius yang terjadi ketika pankreas tidak
menghasilkan cukup insulin (hormon yang mengatur gula darah, atau glukosa), atau
ketika tubuh tidak dapat menggunakan insulin secara efektif. Insulin merupakan
hormone yang diciptakan oleh pankreas, yang berfungsi seperti kunci agar glukosa dari
makanan yang manusia makan mengalir ke sel-sel dari darah dalam tubuh yang yang
kemudian menghasilkan energi [1].
karena penyebab lain, misalnya sindrom diabetes monogenik (seperti diabetes neonatus
dan diabetes onset maturitas pada usia muda), penyakit pankreas eksokrin (seperti
cystic fibrosis dan pankreatitis), dan diabetes yang diinduksi obat atau bahan kimia
(seperti penggunaan glukokortikoid, pengobatan HIV/AIDS, atau setelah transplantasi
organ), diabetes mellitus gestasional (diabetes yang didiagnosis pada trimester kedua
atau ketiga pada saat kehamilan yang tidak jelas atau bisa disebut sebagai diabetes
sebelum kehamilan) [4].
Pada tahun yang sama yaitu tahun 2020, Achmad Ridwan melakukan penelitian
dengan studi kasus penerapan algoritma naïve bayes untuk klasifikasi penyakit diabetes
mellitus. Penelitian ini menggunakan dataset yang diambil dari website UCI Mechine
Learning yaitu dataset untuk melihat tanda-tanda awal terjadinya penyakit diabetes.
Sama halnya dengan peneilitan sebelumnya dataset ini terdiri dari 17 atribut yaitu 16
atribut sebagai parameter utama dan 1 atribut lagi sebagai label. Penelitian ini
menggunakan metode naïve bayes, naïve bayes sendiri adalah metode pengklasifikasian
sekumpulan data statistika yang berguna untuk melakukan prediksi dengan menghitung
nilai semua probabilitas tiap anggota suatu class. Pada penlitian ini juga mengguna
evaluasi confusion matrix, evaluasi ini digunakan untuk melakukan evaluasi terhadap
model klasifikasi berdasarkan perhitungan data testing mana yang di prediksi benar dan
salah, dengan menggunakan metode ini nantinya mendapat beberapa hasil penilaian
mulai dari nilai akurasi, nilai sensitivity, dan nilai presisi. Dari penilitian ini didapat nilai
akurasi sebesar 90,20%, nilai presisi 82,35%, dan nilai sensitivity sebesar 87,50%. Adapun
nilai AUC yang didapat dari kurva ROC sebesar 0,995 [6].
3
informasi buat memasukannya kedalam kelas tertentu dari jumlah kelas yang ada.
Klasifikasi menerapkan pembangunan model bersumber pada informasi latih yang
terdapat, setelah itu memakai model tersebut untuk dibuatkan klasifikasi pada informasi
yang baru.
Dari beberapa penelitian yang telah disebutkan diatas, maka dilakukan penelitian
untuk melakukan klasifikasi data penderita diabetes dengan algoritma K-Nearest
Neighboor dan melakukan seleksi fitur. Seleksi fitur yang di pilih adalah menggunakan
algoritma Particle Swarm Optimization. Dari pernyataan tersebut dinyatakan sebuah
permasalah pada penelitian ini yaitu “ KLASIFIKASI PENDERITA PENYAKIT DIABETES
MELITUS MENGGUNAKAN KOMBINASI METODE K-NEAREST NEIGHBOUR (KNN)
DENGAN SELEKSI FITUR ALGORITMA PARTICLE SWARM OPTIMIZATION (PSO) ”.
Sistem ini diharapkan mampu melakukan klasifikasi data penyakit diabetes
berdasarkan data tanda-tanda penyakit diabetes yang sudah ada. Dataset yang di
gunakan pada penilitian ini diambil melalui website Kaggle.com yaitu Pima Indians
Diabetes Database.
1.2 Permasalahan
Bagaimana penggunaan metode K-Nearest Neighbour (KNN) dengan Particle
Swarm Optimization pada proses pengklasifikasian penyakit diabetes mellitus untuk
menghasilkan hasil prediksi dan akurasi yang terbaik?
1.4 Tujuan
Adapun tujuan dari penelitian ini adalah untuk mengatahui pengaruh akurasi
penggunaan metode Particle Swarm Optimization sebagai seleksi fitur yang di
kombinasikan dengan metode K-Nearest Neighbour (KNN) dalam melakukan klasifikasi
data penderita diabetes mellitus.
diabetes [3].
Gambar 2.2 menampilkan Prevalensi penderita Diabetes Melitus pada Riset
Kesehatan dasar pada tahun 2013-2018.
2.3 Klasifikasi
Klasifikasi adalah proses yang digunakan untuk menemukan sebuah model atau
fungsi yang nantinya model tersebut menggambarkan perbedaan antara sebuah kelas
yang terdapat pada data atau konsep. Model yang di gunakan dalam klasifikasi ini
berdasarkan dari analisis sekumpulan data pelatihan, yaitu objek data yang label
kelasnya sudah diketahui. Data platihan ini nantinya akan di proses menjadi sebuah
model yang nantinya dapat digunakan untuk memprediksi label kelas pada objek data
yang label kelasnya belum diketahui. Klasifikasi juga dapat didefinisikan selaku
pekerjaan yang melaksanakan pelatihan/ pembelajaran terhadap fungsi target yang
memetakan tiap set fitur (atribute) ke satu jumlah label kelas yang ada [11].
Klasifikasi data adalah proses dua langkah, yang terdiri dari langkah
pembelajaran (di mana model klasifikasi dibangun) dan langkah klasifikasi (di mana
model digunakan untuk memprediksi label kelas untuk data yang diberikan). Pada
langkah pertama, pengklasifikasi dibuat untuk mendeskripsikan kumpulan kelas atau
konsep data yang telah ditentukan sebelumnya. Ini adalah langkah pembelajaran (atau
fase training), di mana algoritma klasifikasi membangun pengklasifikasian dengan
menganalisis atau belajar dari set pelatihan yang terdiri dari tupel pada dataset dan
label kelas yang digunakan pada dataset. Atribut label kelas memiliki nilai diskrit dan
tidak terurut, yang bersifat categorical atau numerical di mana setiap nilai berfungsi
sebagai kategori atau kelas [14].
Pada langkah kedua, model digunakan untuk melakukan klasifikasi. Pada tahap
ini akurasi dari prediksi klasifikasi di perkirakan atau di tentukan. Pada saat melakukan
prediksi jika menggunakan data training untuk mengukur akurasi pengklasifikasian di
perkirakan akurasi yang dihasilkan akan memiliki nilai yang besar dengan tingkat
optimalisasi yang baik, hal ini di karenakan proses klasifikasi cenderung akan
menyesuaikan dengan datanya [14].
9
Nilai akurasi pada proses klasifikasi data yang di berikan akan berupa sebuah
presentase nilai dari dataset yang berhasil di klasifikasikan dengan benar. Label kelas
yang di dapat dari setiap data uji akan dibandingkan dengan prediksi kelas data
training yang sudah di masukkan pada tahap pertama sebelumnya. Jika hasil akurasi
proses klasifikasi mendapatkan nilai yang terbaik maka pengklasifikasian tersebut
dapat di terima dan dapat digunakan untuk melakukan klasifikasi data baru dari
inputan pengguna yang label kelasnya belum diketahui atau data yang akan di lakukan
prediksi [14].
√∑
n
2
d ( x , y )= (x i− y i )
i−1
Keterangan:
x i = Data Training
y i = Data Testing
4. Tentukan Nilai K data training yang memiliki jarak terdekat dengan data testing.
5. Periksa label dari K data training terdekat
6. Tentukan label yang frekuensinya paling banyak muncul
7. Masukkan data testing kedalam kelas dengan frekuensi yang paling banyak
muncul, jika nilai K nya sama dengan yang telah di tentukan.
K-Nearest Neighbor (K-NN) memiliki kelebihan yaitu dapat menghasilkan data
yang kuat atau jelas dan efektif jika digunakan pada data yang besar. K-Nearest Neighbor
juga memiliki kekurangan yaitu membutuhkan nilai k, jarak dari data percobaan tidak
jelas dengan tipe jarak yang digunakan, untuk memperoleh hasil yang terbaik, maka
harus menggunakan semua atribut atau hanya satu atribut yang telah pasti [16].
Particle Swarm Optimization (PSO) adalah suatu teknik optimasi yang sangat
sederhana untuk menerapkan dan memodifikasi beberapa parameter. PSO banyak
digunakan untuk memecahkan masalah optimasi bobot dan seleksi fitur (feature
selection) [15]. Berikut merupakan tahapan algortima Particle Swarm Optimization:
1. Inisialisasi populasi (posisi dan kecepatan acak) dalam hyperspace.
2. Evaluasi fitness partikel individu.
3. Modifikasi kecepatan berdasarkan terbaik sebelumnya (previous best:pbest)
dan terbaik global atau local (global or neighborhood best; gbest).
V i ( t ) =V i ( t −1 ) + c1 r 1 [ X pbest −X i ( t ) ]+ c 2 r 2 [ X Gbest − X i ( t ) ] −X i ( t )
i i
Dimana:
V i ( t ) : kecepatan partikel i saat iterasi t
X i ( t ) : posisi partikel i saat iterasi t
c 1 dan c 2 : learning rates untuk kemampuan individu (cognitive)
dan pengaruh sosial (group)
r 1 dan r 2 : bilangan random yang berdistribusi uniformal dalam
interval 0 dan 1
X pbest : posisi terbaik partikel i
i
keberhasilan sebesar
90 %. berdasarkan
jumlah data training
yang lebih banyak,
jumlah data yang di
testing adalah 25.
Hasil pengujian
berdasarkan jumlah
data training pada
KNearest Neighbor
(K-NN) adalah 96 %
denga
menggunakan
algoritma knn.
Adapun kenaikan
akurasi tertinggi
didapatkan pada
nilai treshold 0,152
dengan hanya
mempertahankan 4
atribut dari
keseluruhan 8
atribut data.
Akurasi yang di
dapatkan sebesar
75,28%.
Muhammad Pembuatan model K-Nearest asil dari pembuatan
Sholeh, data mining Neighboor model ini
Dina Andayati, klasifikasi dengan menunjukkan
Rr. Yuliana menggunakan proses normalisasi
Rachmawati,
2022
algoritma k-NN dan dapat memberikan
dilakukan nilai akurasi yang
normalisasi data lebih baik. Model
yang
dikembangkan
tanpa normalisasi
menghasilkan nilai
k=5 dengan akurasi
70%, normalisasi
dengan metode Z-
Score
menghasilkan nilai
k=21 dengan
akurasi 72%,
normalisasi dengan
Min Max
menghasilkan nilai
k=3 dengan akurasi
74%.
Regression, Naïve
Bayes Dan Neural
Network berada
pada range good
classification,
sementara Random
Forest dan K-NN
berada pada range
fair classification
sedangkan
Decision Tree
berada pada range
poor classification
berdasarkan Area
Under Curve dan
berdasarkan
perhitungan akurasi
berdasarkan
metode confusion
matrik rata – rata
nilai akurasi diatas
70%.
BAB III
METODE USULAN
No Parameter Keterangan
Dataset ini
diperoleh dari situs Parameter untuk menyatakan berapa
1 Pregnancies banyak kehamilan yang telah di alami
oleh pasien.
Dimana :
X* = data hasil normalisasi
X = data yang akan dinormalisasi atau data asli
min = nilai minimum semua data asli
max = nilai maksimum semua data asli
3.2.5. Chossing the Appropriate the Data Mining.
Pada tahap ini bertujuan untuk memilih teknik data mining yang akan di
gunakan. Pada penelitian ini teknik data mining yang digunakan adalah Teknik
klasifikasi data.
3.2.6. Chossing the Data Mining Algorithm.
Tapah ini untuk memilih algoritma yang digunakan pada proses data
mining. algoritma yang digunakan untuk klasifikasi pada penelitian ini adalah
algoritma K-Nearest Neighboor. Adapun algoritma untuk melakukan optimasi
data yaitu algoritma Particle Swarm Optimization.
3.2.7. Employing the Data Mining Algorithm.
Pada tahap ini melakukan proses kalasifikasi pada dataset dengan
menggunakan dua peroses klasifikasi yaitu klasifikasi menggunakan algoritma K-
Nearest Neighboor dan juga klasifikasi menggunakan algoritma K-Nearest
Neighboor dan optimasi data menggunakan algoritma particle swarm
optimization.
3.2.8. Evalution.
Pada tahap ini melakukan evaluasi hasil klasifikasi untuk mengukur
tingkat akurasi pada saat membuat klasifikasi penderita penyakit diabetes
melitus. Evaluasi hasil menggunakan metode confusion matrix.
3.2.9. Using the Discovered Knowledge
Tahapan yang terakhir ini untuk menampilkan hasil dari klasifikasi
17
penderita penyakit diabetes melitus dan juga hasil akurasi yang di dapatkan
pada saat melakukan klasifikasi dengan algoritma K-Nearest Neighboor dan
Particle Swarm Optimization.
3.3 Metode Usulan
Metode yang digunakan pada klasifikasi penderita penyakit diabetes
melitus dengan menggunakan algoritma K-Nearest Neighboor yang
dikombinasikan dengan Particle Swarm Optimization sebagai algoritma untuk
seleksi fitur.
REFERENCES
18