Dosen Pengampu :
Dr. Sajarwo Anggai, S.ST.,M.T
Oleh:
Machine Learning (ML) adalah bagaimana membuat mesin bekerja lebih baik pada beberapa
tugas, menggunakan data yang diberikan. Machine learning adalah bidang ilmu komputer yang
mempelajari bagaimana membangun algoritma yang membuat mesin mampu belajar dari data
masukan.
Machine learning juga dapat didefinisikan sebagai proses penyelesaian masalah praktis dengan 1)
mengumpulkan dataset, dan 2) secara algoritmik membangun model statistik berdasarkan pada
dataset tersebut. Model statistik itu diasumsikan digunakan entah bagaimana untuk menyelesaikan
masalah praktis.
Implementasi machine learning sendiri dapat dilihat pada diagram berikut ini:
Metode pembelajaran mesin berdasarkan data latih dikelompokkan ke dalam supervised, semi-
supervised, unsupervised and reinforcement.
1) Supervised Learning
Algoritma supervised learning digunakan untuk menyelesaikan berbagai persoalan yang
terkait dengan:
• Classification (klasifikasi)
• Regression (regresi)
Algoritma supervised learning membutuhkan sekumpulan data set yang “berpasangan”, yaitu
data set yang memiliki input variable dan output variable. Data set ini digunakan dalam proses
training untuk melatih komputer. Umumnya data set yang tersedia berjumlah sangat banyak,
sehingga sangat sulit untuk dievaluasi tanpa bantuan komputer.
Selama proses training inilah komputer akan belajar memahami data set guna menghasilkan
model yang diharapkan. Data set (D) yang digunakan oleh algoritma supervised learning
didefinisikan:
D = {(x0,y0), (x1,y1), … , (xn,yn)}
Supervised learning menggunakan labeled training data (training set yang sudah diberi label)
untuk belajar melakukan mapping fungsi (function). Function ini menghubungkan input (x)
dengan output (y). Kaitan keduanya dirumuskan sebagai:
y = f(x)
Setelah proses traning selesai maka akan terbentuk sebuah model. Model ini perlu diuji
kembali dengan data set lain, bukan data set yang digunakan selama training (test set) sehingga
dapat diketahui apakah fase training sudah dianggap berhasil atau tidak. Selanjutnya, untuk
mengetahui apakah model yang dihasilkan sudah cukup bagus maka dilakukan uji statistika.
Pada Supervised Learning memiliki karakteristik sebagai berikut :
(1) komputer dituntun melakukan sesuatu;
(2) dataset berpasangan ada variabel input dan output D = {(x0,y0), (x1,y1), … , (xn,yn)}; dan
(3) digunakan menyelesaikan masalah yang berkaitan dengan Classification, dan Regression.
Algoritma yang termasuk supervised learning:
• Support Vector Machine
• Linear Regression
• Logistic Regression
• Naïve Bayes
• Linear Discriminant Analysis (LDA)
• Decision Tree
• K-nearest neighbor
• Neural Networks (multilayer perceptron)
• Similiarity Learning
2) Unsupervised Learning
Jika pada algoritma Supervised Machine Learning komputer “dituntun” untuk belajar, maka
pada Unsupervised Machine Learning komputer “dibiarkan” belajar sendiri. Karena pada
Unsupervised Machine Learning data set hanya berisi input variable saja tanpa output atau data
yang diinginkan.
Unsupervised Machine Learning cocok diunakan jika dataset yang dimiliki pasangan input-
output, hanya ada input variable tanpa output variable. Dengan demikian komputer harus
belajar sendiri memahami pola data set yang di berikan.
Data set (D) yang digunakan pada Unsupervised Machine Learning didefinisikan sebagai
berikut :
D = {x0, x1, … , xn};
Unsupervised Machine Learning banyak digunakan untuk menangani permasalahan terkait
dengan :
• Association
• Clustering
Pada Unsupervised Learning memiliki karakteristik sebagai berikut:
(1) komputer dibiarkan belajar sendiri;
(2) dataset tidak berpasangan hanya variabel input D = {x0, x1, … , xn}; dan
(3) digunakan untuk menyelesaikan persoalan Association, dan Clustering. Algoritma yang
termasuk unsupervised learning:
• K-means
• Hierarchical Clustering
• DBSCAN
• Fuzzy C-means
• Local Outlier Factor
• Deep Belief Nets
• Generative Adversarial Networks
• Expectation Maximization (EM), dll
3) Reinforcement Learning
reinforcement learning adalah subbidang machine learning dimana mesin bisa “hidup” dalam
lingkungan dan mampu memahami state lingkungan tersebut sebagai vektor fitur. Mesin
dapat menjalankan action di setiap state. Action yang berbeda membawa reward yang
berbeda dan juga dapat memindahkan mesin ke state lingkungan lain.
Tujuan dari algoritma reinforcement learning adalah untuk mempelajari suatu policy. Policy
adalah fungsi f (mirip dengan model dalam supervised learning) yang mengambil vektor fitur
suatu state sebagai masukan dan keluaran sebagai action optimal untuk dijalankan dalam state
tersebut. Action akan menjadi optimal jika memaksimalkan expected avearge reward.
Reinforcement Machine Learning akan mencoba berbagai opsi dan kemungkinan yang
berbeda, melakukan pengamatan (observation) dan evaluasi (evaluation) setiap pencapaian.
Reinforcement Machine Learning banyak digunakan pada berbagai mesin video game sperti
PS, XBOX, dll. Reinforcement Machine Learning banyak dimanfaatkan untuk menyelesaikan
permasalahan berkaitan dengan :
• Classification
• Control
Referensi :
1) https://yunusmuhammad007.medium.com/2-supervised-vs-unsupervised-vs-
reinforcement-ml-dd880c03c1bc
2) https://vpslabs.net/supervised-unsupervised-reinforcement-learning/#google_vignette
Pertemuan ke-2
(Simulasi Regresi Linier)
1) Model Regresi Linier Sederhana
Dalam simulasi regresi linier sederhana ini, saya mengambil dataset penggunaan bensin
terhadap jarak yang dapat ditempuh. Dari dataset yang ada akan diketahui model hubungan
antara variable bebas dalam hal ini penggunaan bensin dalam satuan liter terhadap variable
terikat (target) dalam dataset ini adalah jarak yang ditempuh dalam satuan kilometer (KM).
a. Data training yang dipersiapkan dalam bentuk csv dengan nama bensin.csv, isi data
tersebut adalah jumlah penggunaan liter bensin dan jarak yang telah ditempuh sebanyak
65 baris data. Berikut data training yang digunakan :
b. Untuk melihat visualisasi sebaran data dan hubungan antar variable dapat dilihat melalui
fitur scatter plot yang ada pada orange datamining, berikut adalah hasil scaterplotnya.
c. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining untuk mendapatkan model regresi linier sederhana dengan rumus regresi
linier sederhana Y = a + bX, sehingga nanti akan diperoleh berapa nilai intercept(a) dan
slope(b) yaitu sebagai berikut.
Dari hasil model tersebut diperoleh hasil regresi dengan intercept = 7.345 dengan
slope(liter) = 6.568
Sehingga diperoleh model hubungan antara penggunaan bensin (variable bebas) terhadap
jarak yang ditempuh (variable terikat) yaitu : Y = 7.345 + 6.567X
Berdasarkan perhitungan manual menggunakan Excel untuk mencari nilai a dan b sesuai
dengan rumus berikut :
n å XY - å X å Y
b=
nå X 2 - (å X )
2
a=
å Y - bå X
n
Maka :
No Liter (x) jarak (y) X2 y2 x.y
1 20 142.00 400 20164 2840
2 25 177.00 625 31329 4425
3 20 144.00 400 20736 2880
4 30 203.00 900 41209 6090
5 40 273.00 1600 74529 10920
6 35 239.00 1225 57121 8365
7 30 201.00 900 40401 6030
8 30 195.00 900 38025 5850
9 25 175.00 625 30625 4375
10 25 169.00 625 28561 4225
11 25 179.00 625 32041 4475
12 28 180.00 784 32400 5040
13 15 98.00 225 9604 1470
14 20 139.00 400 19321 2780
15 29 212.10 841 44986.41 6150.9
16 28 210.40 784 44268.16 5891.2
17 30 205.30 900 42148.09 6159
18 35 240.60 1225 57888.36 8421
19 25 180.90 625 32724.81 4522.5
20 25 170.10 625 28934.01 4252.5
21 25 174.30 625 30380.49 4357.5
22 25 169.60 625 28764.16 4240
23 25 166.20 625 27622.44 4155
24 25 172.70 625 29825.29 4317.5
25 35 252.00 1225 63504 8820
26 14 100.00 196 10000 1400
27 10 65.00 100 4225 650
28 25 175.00 625 30625 4375
29 25 173.00 625 29929 4325
30 25 167.00 625 27889 4175
31 30 204.00 900 41616 6120
32 30 211.00 900 44521 6330
33 35 242.00 1225 58564 8470
34 40 278.00 1600 77284 11120
35 20 144.00 400 20736 2880
36 15 102.00 225 10404 1530
37 26 177.00 676 31329 4602
38 20 141.00 400 19881 2820
39 19 136.00 361 18496 2584
40 30 211.00 900 44521 6330
41 35 241.00 1225 58081 8435
42 30 201.00 900 40401 6030
43 30 212.00 900 44944 6360
44 25 177.00 625 31329 4425
45 18 143.00 324 20449 2574
46 15 102.00 225 10404 1530
47 17 111.00 289 12321 1887
48 6 32.00 36 1024 192
49 25 173.00 625 29929 4325
50 22 148.00 484 21904 3256
51 23 151.00 529 22801 3473
52 21 141.00 441 19881 2961
53 24 169.00 576 28561 4056
54 45 262.00 2025 68644 11790
55 33 233.00 1089 54289 7689
56 32 239.00 1024 57121 7648
57 31 221.00 961 48841 6851
58 41 255.00 1681 65025 10455
59 27 181.00 729 32761 4887
60 30 214.00 900 45796 6420
61 31 203.00 961 41209 6293
62 37 241.00 1369 58081 8917
63 23 142.00 529 20164 3266
64 36 241.00 1296 58081 8676
65 23 142.00 529 20164 3266
d. Selanjutnya adalah mencari nilai koefisien korelasi, yaitu suatu analisis korelasi yang
bertujuan untuk mendapatkan nilai kekuatan hubungan antar dua variabel. Dimana
hasilnya dapat memperlihatkan kekuatan hubungan, signifikansi hubungan, dan arah
hubungan. Nilai korelasi yang mendekati -1 atau +1 artinya menyatakan hubungan yang
makin kuat. Nilai di atas nol akan menunjukkan korelasi positif, sedangkan nilai di bawah
nol berarti menunjukkan korelasi negatif. Semakin tinggi nilai r maka semakin bagus
model dibuat.
n ( å XY ) - ( å X )( å Y )
r =
én
ë ( å X ) - ( å X ) ùû éën ( åY ) - ( åY ) ùû
2 2 2 2
Pada aplikasi orange datamining dapat diketahui nilai r (korelasinya) adalah +0,98, artinya
98% model regresi yang dibuat sangat baik dalam memprediksi data baru.
e. Selanjutnya karena telah memiliki model regresi linier, maka model tersebut harus diuji
dengan test dataset berikut adalah hasil test data menggunakan orange datamining.
Dari hasil test dan score diketahui bahwa nilai MSE (Mean Square Eror) adalah 109.115
lalu, RMSE (Root Mean Square Eror) adalah 10.446, lalu MAE (Mean Absolute Eror)
adalah 7.452 dan R2 (R Square Value) adalah 0.952.
Dalam simulasi regresi linier berganda ini, saya mengambil dataset penggunaan bensin
terhadap jarak yang dapat ditempuh. Dari dataset yang ada akan diketahui model hubungan
antara variable bebas dalam hal ini penggunaan bensin dalam satuan liter dan kecepatan
kendaraan terhadap variable terikat (target) dalam dataset ini adalah jarak yang ditempuh
dalam satuan kilometer (KM).
a. Data training yang dipersiapkan dalam bentuk csv dengan nama bensin3.csv, isi data
tersebut adalah jumlah penggunaan liter bensin dan jarak yang telah ditempuh sebanyak
65 baris data. Berikut data training yang digunakan :
b. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining untuk mendapatkan model regresi linier sederhana dengan rumus regresi
linier sederhana Y = a + bX1 + bX2, sehingga nanti akan diperoleh berapa nilai intercept(a)
dan slope(b) yaitu sebagai berikut.
Dari hasil model tersebut diperoleh hasil regresi dengan intercept = -0.622668 dengan
slope(liter) = 6.4663 dan (kecepatan) = 0.117446
Sehingga diperoleh model hubungan antara penggunaan bensin (variable bebas) terhadap
jarak yang ditempuh (variable terikat) yaitu : Y = - 0.6226 + 6.4663X1 + 0.1174X2
Berdasarkan perhitungan manual menggunakan Excel untuk mencari nilai a dan b sesuai
dengan rumus berikut :
Selanjutnya masukan nilai sesuai dengan kolom yang sudah disediakan pada matriks
menjadi :
65 1719 5910 11769,2
A = 1719 48989 159375 H = 334425,1
5910 159375 592950 1096526
A = 12133271775
Selanjutnya membuat matrik untuk A1 ,A2 dan A3 dengan mengubah satu kolom dengan
matrik H rinciannya sebagai berikut :
• Untuk matriks A1, salin kolom matriks A lalu ganti kolom pertama dengan matriks H.
• Untuk matriks A1, salin kolom matriks A lalu ganti kolom kedua dengan matriks H.
• Untuk matriks A1, salin kolom matriks A lalu ganti kolom ketiga dengan matriks H.
65 11769,2 5910
A2 = 1719 334425,1 159375 = 78457361745
5910 1096526 592950
65 1719 11769,2
A3 = 1719 48989 334425,1 = 1425003732,5
5910 159375 1096526
Masukan nilai determinan (A) untuk menentukan nilai b0 , b1 dan b2 sesuai rumus diatas :
!𝟕𝟓𝟓𝟒𝟗𝟗𝟓𝟕𝟔𝟎
𝒃𝟎 = 𝟏𝟐𝟏𝟑𝟑𝟐𝟕𝟏𝟕𝟕𝟓
= - 0.6226
𝟕𝟖𝟒𝟓𝟕𝟑𝟔𝟏𝟕𝟒𝟓
𝒃𝟏 = 𝟏𝟐𝟏𝟑𝟑𝟐𝟕𝟏𝟕𝟕𝟓
= 6.4662
𝟏𝟒𝟐𝟓𝟎𝟎𝟑𝟕𝟑𝟐,𝟓
𝒃𝟐 = 𝟏𝟐𝟏𝟑𝟑𝟐𝟕𝟏𝟕𝟕𝟓
= 0.1174
c. Selanjutnya adalah mencari nilai koefisien korelasi, yaitu suatu analisis korelasi yang
bertujuan untuk mendapatkan nilai kekuatan hubungan antar dua variabel. Dimana
hasilnya dapat memperlihatkan kekuatan hubungan, signifikansi hubungan, dan arah
hubungan. Nilai korelasi yang mendekati -1 atau +1 artinya menyatakan hubungan yang
makin kuat. Nilai di atas nol akan menunjukkan korelasi positif, sedangkan nilai di bawah
nol berarti menunjukkan korelasi negatif. Semakin tinggi nilai r maka semakin bagus
model dibuat.
n ( å XY ) - ( å X )( å Y )
r =
én
ë ( å X ) - ( å X ) ùû éën ( åY ) - ( åY ) ùû
2 2 2 2
Pada aplikasi orange datamining dapat diketahui nilai r (korelasinya) adalah +0,98 dan
+0,282 , artinya 98% model regresi yang dibuat sangat baik dalam memprediksi data baru.
d. Selanjutnya karena telah memiliki model regresi linier, maka model tersebut harus diuji
dengan test dataset berikut adalah hasil test data menggunakan orange datamining.
Dari hasil test dan score diketahui bahwa nilai MSE (Mean Square Eror) adalah 101.637
lalu, RMSE (Root Mean Square Eror) adalah 10.082, lalu MAE (Mean Absolute Eror)
adalah 7.120 dan R2 (R Square Value) adalah 0.958.
4) Overfitting
Overfitting adalah perilaku pembelajaran mesin yang tidak diinginkan yang terjadi ketika model
pembelajaran mesin memberikan prediksi akurat untuk data pelatihan tetapi tidak untuk data
baru. Ketika ilmuwan data menggunakan model pembelajaran mesin untuk membuat prediksi,
mereka pertama-tama melatih model pada kumpulan data yang diketahui. Kemudian,
berdasarkan informasi ini, model mencoba memprediksi hasil untuk kumpulan data baru. Model
overfit dapat memberikan prediksi yang tidak akurat dan tidak dapat bekerja dengan baik untuk
semua jenis data baru.
Untuk mendapatkan prediksi yang akurat jika model machine learning menggeneralisasi semua
tipe data dalam domainnya. Overfitting terjadi saat model tidak dapat menggeneralisasi dan
justru terlalu pas dengan set data pelatihan. Overfitting terjadi karena beberapa alasan, seperti:
• Ukuran data pelatihan terlalu kecil dan tidak mengandung sampel data yang cukup untuk
secara akurat merepresentasikan semua kemungkinan nilai data input.
• Data pelatihan berisi banyak informasi yang tidak relevan, yang disebut data tidak berarti.
• Model melatih terlalu lama dalam satu set data sampel.
• Model sangat kompleks sehingga model mempelajari data tidak berarti dalam data
pelatihan.
Metode terbaik untuk mendeteksi model overfit adalah dengan menguji model machine
learning di lebih banyak data dengan representasi komprehensif dari kemungkinan nilai dan
tipe data input. Biasanya, bagian dari data pelatihan digunakan sebagai data uji untuk
memeriksa overfitting. Tingkat kesalahan yang tinggi dalam data pengujian
menunjukkan overfitting. Salah satu metode pengujian untuk overfitting diberikan di bawah ini.
Validasi silang K-fold
Validasi silang adalah salah satu metode pengujian yang digunakan dalam praktik. Dalam
metode ini, ilmuwan data membagi set pelatihan menjadi subset berukuran sama K atau set
sampel yang disebut fold. Proses pelatihan terdiri dari serangkaian iterasi. Dalam setiap iterasi,
langkah-langkahnya adalah:
1. Simpan satu subset sebagai data validasi dan latih model machine learning di subset K-1
yang tersisa.
2. Amati bagaimana performa model sampel validasi.
3. Beri skor untuk performa model berdasarkan kualitas data output.
Untuk dapat mencegah overfitting dengan mendiversifikasi dan menskalakan set data pelatihan
menggunakan beberapa strategi ilmu data, seperti yang diberikan di bawah ini.
• Penghentian awal
Penghentian awal menjeda fase pelatihan sebelum model machine learning mempelajari
data tidak berarti dalam data. Namun, ketepatan waktu sangat penting; jika tidak, model
tetap tidak akan memberikan hasil yang akurat.
• Pemangkasan.
Mengidentifikasi beberapa fitur atau parameter yang memengaruhi prediksi akhir saat
membuat model. Pemilihan fitur—atau pemangkasan — mengidentifikasi fitur terpenting
dalam set pelatihan dan menghilangkan fitur yang tidak relevan. Misalnya, untuk
memprediksi apakah gambar adalah hewan atau manusia, Anda dapat melihat berbagai
parameter input seperti bentuk wajah, posisi telinga, struktur tubuh, dll. Anda dapat
memprioritaskan bentuk wajah dan mengabaikan bentuk mata.
• Regularisasi
Regularisasi adalah kumpulan teknik pelatihan/optimasi yang berusaha
mengurangi overfitting. Metode ini mencoba menghilangkan faktor-faktor yang tidak
memengaruhi hasil prediksi dengan menilai fitur berdasarkan penting tidaknya fitur.
Misalnya, perhitungan matematis menerapkan nilai penalti ke fitur dengan dampak
minimal. Pertimbangkan model statistik yang mencoba memprediksi harga hunian sebuah
kota dalam 20 tahun. Regularisasi akan memberikan nilai penalti yang lebih rendah untuk
fitur seperti pertumbuhan populasi dan pendapatan tahunan rata-rata, tetapi nilai penalti
yang lebih tinggi untuk temperatur rata-rata tahunan kota tersebut.
• Penggabungan
Penggabungan menggabungkan prediksi dari beberapa algoritme machine learning yang
terpisah. Beberapa model disebut pemelajar yang lemah karena hasilnya sering kali tidak
akurat. Metode penggabungan menggabungkan semua pemelajar yang lemah untuk
mendapatkan hasil yang lebih akurat. Metode ini menggunakan beberapa model untuk
menganalisis data sampel dan memilih hasil yang paling akurat. Dua metode
penggabungan utama adalah bagging dan boosting. Boosting melatih berbagai
model machine learning berbeda satu demi satu untuk mendapatkan hasil akhir,
sedangkan bagging melatih model secara paralel.
• Augmentasi data
Augmentasi data adalah teknik machine learning yang sedikit mengubah data sampel
setiap kali model memproses data tersebut. Anda dapat melakukan ini dengan mengubah
data input dengan cara yang sederhana. Saat dilakukan dengan cermat, augmentasi data
membuat set pelatihan terlihat unik untuk model dan mencegah model mempelajari
karakteristik set tersebut. Misalnya, menerapkan transformasi seperti terjemahan,
pembalikkan, dan rotasi ke gambar input.
Referensi :
1. Buku Machine Learning untuk pemula penulis, Irwansyah Saputra, Dinar Ajeng Kristiyanti
penerbit Informatika
2. Buku Pengenalan Machine Learning dengan Python, penulis Dios Kurniawan, M.Sc, penerbit
PT Elex Media Komputindo
3. https://www.statmat.net/regresi-linier-berganda/
4. https://aws.amazon.com/id/what-is/overfitting/
5. https://www.youtube.com/watch?v=HX-9akRkAA8
6. https://www.youtube.com/watch?v=H8e7-ubPCiA
7. https://www.youtube.com/watch?v=D4cWL0wEXLk
Pertemuan ke-3
(Simulasi Regresi Logistik)
1) Model Regresi Logistik
Dalam simulasi regresi logistik ini, saya mengambil dataset prediksi diagnosis kanker ganas
atau lunak. Dataset yang saya ambil dari https://www.kaggle.com/code/khadafii/praktikum-
3-regresi-logistik/input akan diketahui sebuah model prediksi berapa besar kemungkinan
seorang pasien di diagnosis kanker ganas atau kanker lunak.
dalam perhitungan diatas digunakan inisial Solver Decision Variabels untuk b0 = 0.01, b1
= 0.01 dan b2 = 0.01, dimana diagnose 1 = M dan 0 = B.
1,000
0,800
0,600
0,400
0,200
0,000
-15,000 -10,000 -5,000 0,000 5,000 10,000 15,000 20,000 25,000 30,000
Untuk mengukur accuracy (CA) model. Persamaannya adalah prediksi yang benar
dibagi dengan total seluruh populasi
./0.1
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ./0.102/021
3340546 :68
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 3340546057038 = :;7
= 0,913884 = 91,3%
Artinya akurasi model ini bernilai 91,3%, yang berarti sudah sangat baik. Karena skala
yang menjadi acuan secara umum apabila model dengan skala diatas 70% sudah bisa
digolongkan sebagai model yang berkinerja cukup baik.
Untuk mengukur precision model. Mengukur jumlah data yang sukses diprediksi sebagai
positif dibandingkan dengan seluruh data yang diprediksi positif baik yang kenyataannya
benar maupun tidak benar, dengan Persamaannya sebagai berikut.
𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃 + 𝐹𝑃
334
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 334057 = 0.9467 = 94,67%
Precision memberikan petunjuk seberapa baik model dapat menangkap prediksi yang
positif sebanyak banyak FP atau model sering salah memprediksi kemunculan data
sebagai positif, maka angka precision akan semakin rendah.
Selanjutnya mengukur sensitivity atau disebut juga recall yaitu mengukur banyaknya data
sukses diprediksi sebagai positif dibandingkan seluruh data yang pada kenyataan positif
dengan persamaan sebagai berikut :
𝑇𝑃
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 =
𝑇𝑃 + 𝐹𝑁
338
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = = 0,9184 = 91,84%
338 + 30
Sensitivity memberikan petunjuk seberapa banyak model telah luput dalam menangkap
kasus-kasus yang seharusnya diprediksi positif .
b. Kekurangan
• Regresi Logistik adalah model analisis statistik yang mencoba memprediksi hasil
probabilistik yang tepat berdasarkan fitur independen. Pada kumpulan data
berdimensi tinggi , hal ini dapat menyebabkan model menjadi terlalu sesuai pada
kumpulan pelatihan , yang berarti melebih-lebihkan keakuratan prediksi pada
kumpulan pelatihan sehingga model mungkin tidak dapat memprediksi hasil yang
akurat pada kumpulan pengujian . Hal ini biasanya terjadi ketika model dilatih
pada sedikit data pelatihan dengan banyak fitur. Jadi pada kumpulan data
berdimensi tinggi, teknik Regularisasi harus dipertimbangkan untuk menghindari
over-fitting (tetapi hal ini membuat model menjadi rumit). Faktor regularisasi
yang sangat tinggi bahkan dapat menyebabkan model kurang sesuai dengan data
pelatihan.
• Masalah non linier tidak dapat diselesaikan dengan regresi logistik karena
permukaan keputusannya linier . Data yang dapat dipisahkan secara linier jarang
ditemukan dalam skenario dunia nyata. Maka diperlukan transformasi fitur non
linier yang dapat dilakukan dengan memperbanyak jumlah fitur sehingga data
menjadi dapat dipisahkan secara linier pada dimensi yang lebih tinggi.
• Sulit untuk menangkap hubungan yang kompleks menggunakan regresi
logistik. Algoritme yang lebih kuat dan kompleks seperti Neural Networks dapat
dengan mudah mengungguli algoritma ini.
• Fitur pelatihan dikenal sebagai variabel independen. Regresi
Logistik memerlukan multikolinieritas yang moderat atau tidak ada sama sekali
antar variabel independen . Artinya, jika dua variabel independen mempunyai
korelasi yang tinggi, maka hanya satu saja yang boleh digunakan. Pengulangan
informasi dapat menyebabkan pelatihan parameter (bobot) yang salah selama
meminimalkan fungsi biaya. Multikolinearitas dapat dihilangkan dengan
menggunakan teknik reduksi dimensi.
• Dalam Regresi Linier, variabel bebas dan terikat harus berhubungan secara
linier. Tetapi Regresi Logistik mensyaratkan bahwa variabel independen
berhubungan secara linier dengan log odds (log(p/(1-p)) .
• Hanya fitur-fitur penting dan relevan yang boleh digunakan untuk membangun
model, jika tidak maka prediksi probabilistik yang dibuat oleh model mungkin
salah dan nilai prediksi model dapat menurun .
• Adanya nilai data yang menyimpang dari kisaran yang diharapkan dalam
kumpulan data dapat menyebabkan hasil yang salah karena algoritme ini sensitif
terhadap outlier .
• Regresi Logistik memerlukan kumpulan data yang besar dan juga contoh
pelatihan yang memadai untuk semua kategori yang perlu diidentifikasi.
• Setiap contoh pelatihan harus independen terhadap semua contoh lain dalam
kumpulan data . Jika keduanya terkait dalam beberapa hal, maka model akan
mencoba untuk lebih mementingkan contoh pelatihan spesifik tersebut . Jadi, data
pelatihan tidak boleh berasal dari data yang cocok atau pengukuran
berulang. Misalnya, beberapa teknik penelitian ilmiah mengandalkan beberapa
observasi pada individu yang sama. Teknik ini tidak dapat digunakan dalam kasus
seperti ini.
Referensi :
1. https://iq.opengenus.org/advantages-and-disadvantages-of-logistic-regression/
2. https://www.kaggle.com/code/khadafii/praktikum-3-regresi-logistik/input
Pertemuan ke-4
(Decision Tree)
1) Model Decision Tree
Algoritma decision tree adalah sebuah metode untuk membuat keputusan berdasarkan
serangkaian pertanyaan yang terstruktur dalam bentuk pohon keputusan. Setiap simpul pada
pohon keputusan mewakili sebuah pertanyaan atau kondisi, dan setiap cabang dari simpul
tersebut mewakili jawaban atau aksi yang diambil berdasarkan kondisi tersebut. Proses
membuat keputusan dimulai dari simpul paling atas (root node) dan bergerak ke bawah pohon
sesuai dengan jawaban atau kondisi yang dipilih pada setiap simpul. Algoritma decision
tree biasa digunakan dalam aplikasi machine learning untuk memprediksi keputusan atau
klasifikasi suatu data berdasarkan fitur-fitur yang ada.
Konsep entropi digunakan untuk penentuan pada atribut mana sebuah pohon akan terbagi
(split). Semakin tinggi entropy sebuah sampel, semakin tidak murni sampel tersebut. Rumus
yang digunakan untuk menghitung entropy sampel S adalah Entropy(S) = −p1log2p1–p2log2p2
Entropi adalah ukuran keacakan informasi yang sedang diproses. Semakin tinggi entropinya,
semakin sulit menarik kesimpulan dari informasi tersebut. Melempar koin merupakan salah
satu contoh tindakan yang memberikan informasi yang bersifat acak.
Dalam simulasi Decision Tree, saya mengambil dataset prediksi risiko Fraud pada penyaluran
dana Bantuan Sosial PIP. Dataset yang saya ambil dari http://sipintar.kemdikbud.go.id dan
http://dapo.kemdikbud.go.id diketahui prediksi berapa besar kemungkinan sekolah melakukan
potensi fraud.
c. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining yaitu sebagai berikut.
Untuk mengukur accuracy (CA) model. Persamaannya adalah prediksi yang benar
dibagi dengan total seluruh populasi
./0.1
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ./0.102/021
:56605;<3
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = :56605;<306:40=6< = 0.908
Artinya akurasi model ini bernilai 90,8%, yang berarti sudah sangat baik. Karena skala
yang menjadi acuan secara umum apabila model dengan skala diatas 70% sudah bisa
digolongkan sebagai model yang berkinerja cukup baik.
Untuk mengukur precision model. Mengukur jumlah data yang sukses diprediksi sebagai
positif dibandingkan dengan seluruh data yang diprediksi positif baik yang kenyataannya
benar maupun tidak benar, dengan Persamaannya sebagai berikut.
./
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ./02/
Precision memberikan petunjuk seberapa baik model dapat menangkap prediksi yang
positif sebanyak banyak FP atau model sering salah memprediksi kemunculan data
sebagai positif, maka angka precision akan semakin rendah.
Selanjutnya mengukur sensitivity atau disebut juga recall yaitu mengukur banyaknya data
sukses diprediksi sebagai positif dibandingkan seluruh data yang pada kenyataan positif
dengan persamaan sebagai berikut :
./
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = ./021
Sensitivity memberikan petunjuk seberapa banyak model telah luput dalam menangkap
kasus-kasus yang seharusnya diprediksi tinggi .
Terlihat masih terdapat data yang masuk kategori rendah namun dinyatakan tinggi begitu
juga Ketika data masuk kategori tinggi namun model menyatakan rendah
3) Kelebihan dan Kekurangan Decision Tree
a. Kelebihan
• Mudah dipahami karena mengikuti proses yang sama seperti cara manusia saat
membuat keputusan dalam kehidupan nyata.
• Sangat berguna untuk memecahkan masalah terkait keputusan.
• Membantu untuk memikirkan semua kemungkinan hasil untuk suatu masalah.
• Data cleaning cenderung lebih sedikit dibandingkan dengan algoritma lain.
b. Kekurangan
• Mengandung banyak layer yang membuat algoritma ini cukup rumit.
• Dapat terjadi masalah overfitting, namun dapat diselesaikan dengan menggunakan
algoritma Random Forest.
• Untuk label kelas yang cenderung banyak, kompleksitas komputasi dari Decision
tree dapat meningkat.
g. Pentingnya efisiensi dalam ruang pohon keputusan aturan pencarian C4.5 algoritma
telah menjadi fokus banyak peneliti. Oleh karena itu, pembangunan perlu dilakukan
dilakukan untuk membentuk metode baru yang lebih efisien namun tidak dapat
dipisahkan dari keakuratan analisis sebagai hasil dari algoritma itu sendiri. Untuk itu,
dengan menggunakan algoritma genetika (GA), diharapkan dapat lebih
mengoptimalkan dan menyederhanakan aturan pencarian kombinasi yang kompleks.
Penggunaan C4.5 dengan algoritma genetika Hybrid untuk pencarian yang lebih
banyak aturan yang efektif memerlukan pemahaman yang lebih baik dan waktu yang
lama. Namun kegunaan keduanya Algoritma akan paling efektif jika kasus yang
dihadapi sangat kompleks dan memiliki lebih banyak kasus kondisi bercabang dan
sangat akurat. Sumber: Irfan Sudahri Damanik , Agus Perdana Windarto , Anjar Wanto
, Poningsih , Sundari Retno Andani , Widodo Saputra, IOP Conf. Series: Journal of
Physics: Conf. Series 1255 (2019) 012012.
h. Penerapan pembelajaran mesin dapat ditemukan di sektor ritel, perbankan, pendidikan,
kesehatan, dll. Untuk memproses data berukuran besar. Berasal dari berbagai sektor,
para peneliti mengembangkan algoritma yang berbeda dengan menggunakan keahlian
dari beberapa bidang dan pengetahuan tentang algoritma yang ada. Algoritme pohon
keputusan pembelajaran mesin yang mencakup ID3, C4.5, C5.0, dan CART (Pohon
Klasifikasi dan Regresi) cukup kuat. ID3 dan C4.5 sebagian besar digunakan dalam
masalah klasifikasi, dan memang demikian fokus penelitian ini. C4.5 adalah versi
perbaikan dari ID3 yang dikembangkan oleh Ross Quinlan. Kinerja prediksi ini
algoritma sangatlah penting. Dalam tulisan ini, kinerja prediksi algoritma pohon
keputusan akan dipelajari secara mendalam tinjauan akan dilakukan terhadap
penelitian relevan yang berupaya meningkatkan kinerja algoritma dan berbagai
lainnya metode yang digunakan. Perbandingan juga akan dilakukan antara berbagai
algoritma berbasis pohon. Kontribusi utama dari ulasan ini adalah untuk memberikan
kemajuan yang dicapai sejauh ini kepada para peneliti, karena belum ada literatur yang
relevan perbaikan algoritma berbasis pohon keputusan, dan terakhir meletakkan dasar
untuk penelitian dan perbaikan di masa depan. Sumber: Ibomoiye Domor Mienyea ,
Yanxia Sun, Zenghui Wang, Prediction performance of improved decision tree-based
algorithms: a review 2351-9789 © 2019 The Authors. Published by Elsevier B.V.
i. Energy security (ES) berdampak besar pada jaringan listrik. Oleh karena itu penting
adanya power security service (PSS). PSS harus dirancang untuk menangani gangguan
dan serangan interupsi pada jaringan listrik. Serangan interferensi dan interupsi pada
jaringan ditangani oleh incursion-detection system (IDS). IDS adalah strategi yang
paling mudah diperoleh untuk merasakan dan mengklasifikasikan berbagai masalah
keamanan dan masalah abnormal yang terjadi di jaringan listrik. Oleh karena itu IDS
harus selalu mengetahui isu-isu terkini yang terjadi di seluruh jaringan. Konsep yang
diusulkan menggambarkan pengumpulan data dengan mengacu pada serangan intrusi
pada jaringan listrik dan untuk menguji serta mengevaluasi berbagai strategi
pembelajaran mesin untuk menggambarkan berbagai serangan dan masalah yang
terjadi pada jaringan sistem tenaga listrik. Pekerjaan penelitian diilustrasikan dengan
algoritma pohon keputusan J48 yang dimodifikasi. Sumber: K. Ramya, Yuvaraja
Teekaraman, K. A. Ramesh Kumar, Department of Energy Science, Periyar
University, Salem City, India – 636 011, Vol. 12(2), 2019, pp. 1173–1178.
j. Penelitian ini menyajikan modifikasi algoritma Quinlan C4.5 untuk klasifikasi data
tidak seimbang. Sedangkan algoritma C4.5 menggunakan perbedaan entropi informasi
untuk menentukan kebaikan terpisah, metode yang diusulkan, yang diberi nama
AUC4.5, menguji perbedaan area di bawah ROC kurva (AUC) dari perpecahan. Ini
menyiratkan bahwa metode kami berupaya memaksimalkan nilai AUC dari keputusan
terlatih pohon untuk mengatasi ketidakseimbangan kelas dalam data. Sebuah studi
eksperimental ekstensif dilakukan pada 20 real kumpulan data dari repositori
pembelajaran mesin di Universitas California di Irvine, Irvine. Yang diusulkan
Algoritma AUC C4.5 menunjukkan klasifikasi yang lebih baik daripada algoritma
C4.5 standar dan sensitif terhadap biaya. Sumber: Jong-Seok Lee, AUC4.5: AUC-
Based C4.5 Decision Tree Algorithm for Imbalanced Data Classification Received
June 29, 2019, accepted July 25, 2019, date of publication July 29, 2019, date of
current version August 15, 2019.
Pertemuan ke-5
(Naïve Bayes)
1) Model Naïve Bayes
a. Naïve Bayes merupakan algoritma yang mengandalkan probabilitas atau kemungkinan
dalam menyelesaikan kasusnya. Algoritma ini akan menghitung nilai berdasarkan
kemungkinan munculnya kategori berdasarkan kelas targetnya, dengan persamaan
sebagai berikut.
!"𝑋#𝐻 $!(&)
𝑃(𝐻|𝑋) = !(()
Di mana X adalah bukti, lalu H adalah hipotesa, sementara P(H|X) adalah probabilitas
bahwa hipotesis H benar untuk bukti X atau dengan kata lain P(H|X) merupakan
probabilitas posterior H dengan syarat X, selanjutnya penjelasan dari P(X|H) adalah
probabilitas bahwa bukti X untuk hipotets H atau probabilitas posterior X dengan syarat
H, P(H) adalah probabilitas prior hipotesis H dan P(X) adalah probabilitas prior Bukti X.
Apabila himpunan data memiliki banyak atribut, maka dapat mereduksi kompleksitas
penghitungan P(X|H1) dengan asumsi naif tentang independensi bersyarat kelas, yaitu
nilai-nilai atribut adalah saling independen tidak ketergantungan sama sekali. Dengan
demikian, naïve bayes classifier memaksimalkan persamaan berikut.
𝑃(𝐻1|𝑋) = ∏-).* 𝑃(𝑥) |𝐻* ) = 𝑃(𝑥* |𝐻+ ). 𝑃(𝑥, |𝐻+ ) … 𝑃(𝑥- |𝐻+ )
Sementara untuk atribut yang bernilai kontinu, yang umumnya diasumsikan memiliki
Distribusi Gaussian, P(xk|Hi) di definisikan sebagai berikut.
($%&!" )
*
𝑃(𝑥) |𝐻+ ) = / 𝑒 () (
!"
!"√,1
Dimana µHi dan σHi adalah rata-rata dan deviasi standar dari nilai-nilai pada atribut Xk
untuk kelas Hi
Untuk mengukur accuracy (CA) model. Persamaannya adalah prediksi yang benar
dibagi dengan total seluruh populasi
./0.1
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ./0.102/021
accuracy (CA) memberikan petunjuk dalam mengukur persentase prediksi yang benar
dari seluruh prediksi.
Untuk mengukur precision model. Mengukur jumlah data yang sukses diprediksi sebagai
positif dibandingkan dengan seluruh data yang diprediksi positif baik yang kenyataannya
benar maupun tidak benar, dengan Persamaannya sebagai berikut.
./
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ./02/
Precision memberikan petunjuk seberapa baik model dapat menangkap prediksi yang
positif sebanyak banyak FP atau model sering salah memprediksi kemunculan data
sebagai positif, maka angka precision akan semakin rendah.
Selanjutnya mengukur sensitivity atau disebut juga recall yaitu mengukur banyaknya data
sukses diprediksi sebagai positif dibandingkan seluruh data yang pada kenyataan positif
dengan persamaan sebagai berikut :
./
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = ./021
Sensitivity memberikan petunjuk seberapa banyak model telah luput dalam menangkap
kasus-kasus yang seharusnya diprediksi tinggi .
Berikut hasil test dari aplikasi Orange datamining
Berdasarkan hasil test diketahui Naïve bayes memiliki tingkat akurasi lebih rendah dari
Decision Tree namun naïve bayes memiliki nilai Logloss 0.487 yang lebih baik
dibandingkan Decision Tree terdapat nilai Logloss 1.682, artinya model tidak dapat
memprediksi dengan baik dikarenakan masih adanya data yang overviting dan penyebaran
data antara kategori rendah dengan kategori tinggi masih terjadi ketimpangan.
Terlihat masih terdapat data yang masuk kategori rendah namun dinyatakan tinggi begitu
juga ketika data masuk kategori tinggi namun model menyatakan kategori rendah.
3) Kelebihan dan Kekurangan Naïve Bayes
a. Kelebihan
• Bisa dipakai untuk data kuantitatif maupun kualitatif
• Tidak memerlukan jumlah data yang banyak
• Tidak perlu melakukan data training yang banyak
• Jika ada nilai yang hilang, maka bisa diabaikan dalam perhitungan.
• Perhitungannya cepat dan efisien
• Mudah dipahami
• Mudah dibuat
• Pengklasifikasian dokumen bisa dipersonalisasi, disesuaikan dengan kebutuhan
setiap orang
• Jika digunakan dalaam bahasa pemrograman, code-nya sederhana
• Bisa digunakan untuk klasifikasi masalah biner ataupun multiclass
b. Kekurangan
• Apabila probabilitas kondisionalnya bernilai nol, maka probabilitas prediksi
juga akan bernilai nol
• Asumsi bahwa masing-masing variabel independen membuat berkurangnya
akurasi, karena biasanya ada korelasi antara variabel yang satu dengan variabel
yang lain
• Keakuratannya tidak bisa diukur menggunakan satu probabilitas saja. Butuh
bukti-bukti lain untuk membuktikannya.
• Untuk membuat keputusan, diperlukan pengetahuan awal atau pengetahuan
mengenai masa sebelumnya. Keberhasilannya sangat bergantung pada
pengetahuan awal tersebut Banyak celah yang bisa mengurangi efektivitasnya
• Dirancang untuk mendeteksi kata-kata saja, tidak bisa berupa gambar
a. K Nearest Neighbors atau KNN adalah salah satu algoritma pembelajaran mesin untuk
melakukan klasifikasi terhadap objek baru berdasarkan sejumlah k tetangga terdekatnya.
KNN bekerja dengan mencari sejumlah k objek data atau pola (dari semua pola latiha
yang ada) yang paling dekat dengan pola masukan, kemudian memilih kelas dengan
jumlah pola terbanyak di antara k pola tersebut. KKN mengklasifikasikan pola dengan
cara voting, seperti ilustrasi. (Dr. Suyanto, 2018)
Karena algoritma ini bergantung pada jarak, maka untuk melakukan pengukuran jarak
dengan salah satu metode yang paling umum digunakan untuk menghitung jarak pada
KNN adalah Euclidean distance dengan persamaan sebagai berikut. (Irwansyah Saputra &
Dinar Ajeng Kristiyanti,2021)
Untuk mengukur accuracy (CA) model. Persamaannya adalah prediksi yang benar
dibagi dengan total seluruh populasi
./0.1
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ./0.102/021
accuracy (CA) memberikan petunjuk dalam mengukur persentase prediksi yang benar
dari seluruh prediksi.
Untuk mengukur precision model. Mengukur jumlah data yang sukses diprediksi sebagai
positif dibandingkan dengan seluruh data yang diprediksi positif baik yang kenyataannya
benar maupun tidak benar, dengan Persamaannya sebagai berikut.
./
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ./02/
Precision memberikan petunjuk seberapa baik model dapat menangkap prediksi yang
positif sebanyak banyak FP atau model sering salah memprediksi kemunculan data
sebagai positif, maka angka precision akan semakin rendah.
Selanjutnya mengukur sensitivity atau disebut juga recall yaitu mengukur banyaknya data
sukses diprediksi sebagai positif dibandingkan seluruh data yang pada kenyataan positif
dengan persamaan sebagai berikut :
./
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = ./021
Sensitivity memberikan petunjuk seberapa banyak model telah luput dalam menangkap
kasus-kasus yang seharusnya diprediksi tinggi .
Berikut hasil test dari aplikasi Orange datamining
Berdasarkan hasil test diketahui kNN memiliki tingkat akurasi lebih rendah dari Decision
Tree namun berada diatas dari algoritma naïve bayes, sementara untuk nilai Logloss kNN
lebih baik dari decision Tree namun nilainya masih lebih tinggi dari algoritma naïve bayes
memiliki nilai Logloss 0.487.
Terlihat masih terdapat data yang masuk kategori rendah namun dinyatakan tinggi begitu
juga ketika data masuk kategori tinggi namun model menyatakan kategori rendah.
5) Kelebihan dan Kekurangan kNN
a. Kelebihan
• Mudah diimplementasikan : kNN adalah algoritma sederhana dan intuitif yang
mudah dipahami dan diimplementasikan, menjadikannya pilihan yang baik bagi
pemula dalam ilmu data
• Dapat beradaptasi dengan data baru : kNN dapat dengan mudah beradaptasi
dengan data pelatihan baru, menjadikannya algoritma yang fleksibel yang dapat
menangani perubahan pada dataset
• Efektif untuk kumpulan data yang besar : kNN efektif untuk kumpulan data yang
besar, karena tidak memerlukan seluruh kumpulan data untuk dimuat ke dalam
memori sekaligus
• Kuat terhadap data yang berisik : kNN kuat terhadap data yang berisik, karena
dapat menangani outlier dan kesalahan dalam kumpulan data.
• Serbaguna : kNN dapat digunakan untuk klasifikasi, regresi, dan pencarian data,
menjadikannya algoritma serbaguna yang dapat diterapkan pada berbagai
masalah
b. Kekurangan
• Biaya komputasi : kNN bisa menjadi mahal secara komputasi, terutama untuk
kumpulan data yang besar, karena memerlukan penyimpanan seluruh kumpulan
data pelatihan dan penghitungan jarak antara observasi baru dan semua observasi
pelatihan
• Kecepatan prediksi yang lambat : Dengan kumpulan data yang besar, tahap
prediksi kNN mungkin lambat
• Masalah memori dan penyimpanan : kNN memerlukan penyimpanan memori
yang tinggi, karena kNN menyimpan semua data pelatihan, yang dapat menjadi
masalah untuk kumpulan data besar.
• Peka terhadap skala data : kNN sensitif terhadap skala data, karena kNN
menggunakan metrik jarak untuk menemukan k observasi yang paling
mirip. Oleh karena itu, penting untuk menskalakan data sebelum menerapkan
kNN pengetahuan awal tersebut Banyak celah yang bisa mengurangi
efektivitasnya
• Kutukan dimensi : Seiring bertambahnya jumlah fitur, kinerja kNN menurun
karena kutukan dimensi. Hal ini dapat diatasi dengan menggunakan teknik
pemilihan fitur, reduksi dimensi, atau pembobotan
• Tidak ada penjelasan atau keyakinan untuk prediksi : kNN tidak memberikan
penjelasan atau keyakinan apa pun atas prediksinya, sehingga membatasi
kemampuan interpretasinya
f. Artikel merupakan salah satu bentuk karya ilmiah yang dituangkan dalam bentuk
tulisan dan mengandung banyak informasi yang berguna didalamnya. Banyak artikel
yang ada dengan berbagai macam judul dan metode yang digunakan, namun tidak
menutup kemungkinan adanya kemiripan dari judul artikel yang ada. Penelitian ini
bertujuan untuk menentukan tingkat kemiripan antara artikel jurnal dilihat dari judul
artikel jurnal dengan menggunakan algoritma vector space model dan
membandingkannya dengan algoritma k-nearest neghbour. Data yang digunakan yaitu
10 judul artikel jurnal dengan kata kunci Information Retrieval. Pengujian data dengan
kata kunci tersebut menghasilkan dokumen dengan tingkat kemiripan tertinggi pada
metode VSM yaitu pada Dok 5, Dok 7, Dok 8 dan Dok 4. Sedangkan untuk KNN
menghasilkan tingkat kemiripan pada range Doc7,Doc10 | Doc8,Doc10 | Doc4,D10 |
Doc5,Doc10 | Doc3,Doc10. Sehingga menyimpulkan bahwa terjadinya penambahan
kriteria dokumen yang similaritas dengan kata kunci setelah menggunakan algoritma
K-Nearest Neghbour. Sumber: Siti Fauziah, Daning Nur Sulistyowati, Taufik Asra,
Optimasi Algoritma Vector Space Model Dengan Algoritma K-Nearest Neighbour
Pada Pencarian Judul Artikel Jurnal, Jurnal PILAR Nusa Mandiri Vol. 15, No. 1 Maret
2019.
g. Penentuan status keluarga miskin sebagai penerima bantuan merupakan hal yang
sangat penting agar bantuan penanggulangan kemiskinan dari pemerintah dapat
disalurkan secara tepat sasaran. Data mining memanfaatkan pengalaman atau bahkan
kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil
analisisnya, salah satunya dengan kemampuan yang dimiliki teknik data mining yaitu
klasifikasi. Tujuan penelitian ini adalah untuk melakukan pengujian K-Fold Cross
Validation pada algoritma K-Nearst Neighbors dalam memprediksi penerimaan dana
bantuan desa. Dalam dataset penerima bantuan yang digunakan dalam penelitian ini,
terdapat 159 record atau tuple dengan empat atribut (kondisi rumah, penghasilan,
pekerjaan dan jumlah tanggungan). Prediksi kategori data baru dilakukan dengan
menggunakan tahapan perhitungan manual Euclidean Distance dari lima nilai K yang
berbeda. Sedangkan penggunakan aplikasi Rapidminer bertujuan untuk menguji
akurasi dataset dalam lima nilai K yang berbeda. Hasilnya menunjukkan bahwa
dengan K=15 dan K=30 data baru (D160) memiliki kategori “Tidak Layak” dengan
tingkat akurasi sebesar 100%. Kemudian dengan K=45, K=60 dan K=75 data baru
(D160) memiliki kategori “Layak” dengan tingkat akurasi sebesar 81,25%. Sumber:
Riyan Latifahul Hasanah, Muhamad Hasan, Witriana Endah Pangesti, Fanny Fatma
Wati, Windu Gata, Klasifikasi Penerima Dana Bantuan Desa Menggunakan Metode
Knn (K-Nearest Neighbor), Jurnal TECHNO Nusa Mandiri Vol. 16, No. 1 Maret 2019.
h. Pemilihan tomat dapat menggunakan beberapa indikator. Salah satu indikatornya
adalah warna buah. Dalam pengolahan citra digital, salah satu informasi warna yang
dapat digunakan adalah Hue, Saturation, dan Value (HSV). Pada penelitian ini, HSV
diusulkan sebagai fitur model warna untuk informasi kematangan tomat. Total data
gambar tomat yang digunakan dalam penelitian ini sebanyak 400 gambar dari empat
sisi. Tingkat kematangan buah tomat menggunakan lima tingkatan yaitu hijau, balik,
merah jambu, merah muda, dan merah. Proses pembagian data menggunakan K-Fold
Cross Validation dengan sepuluh lipatan. Metode yang digunakan untuk klasifikasi
adalah k- Nearest Neighbor (kNN). Skenario pengujian yang dilakukan adalah
menggabungkan ukuran citra dengan nilai parameter tetangga (k). Ukuran gambar
yang diuji adalah 100x100 piksel, 300x300 piksel, 600x600 piksel, dan 1000x1000
piksel. Nilai “k” yang diuji adalah 1, 3, 5, 7, 9, 11, dan 13. Akurasi tertinggi mencapai
92,5% pada gambar berukuran 1000x1000 piksel dengan parameter “k” adalah 3. Hasil
percobaan menunjukkan bahwa ukuran citra mempunyai pengaruh yang signifikan
terhadap akurasi, namun nilai parameter tetangga (k) mempunyai pengaruh yang tidak
terlalu signifikan. Sumber: Suwanto Sanjaya, Morina Lisa Pura, Siska Kurnia Gusti,
Febi Yanto, Fadhilah Syafria, K-Nearest Neighbor for Classification of Tomato
Maturity Level Based on Hue, Saturation, and Value Colors, Indonesian Journal of
Artificial Intelligence and Data Mining (IJAIDM), Vol 2, No.2, September 2019, pp.
101 – 106.
i. Peramalan diterapkan karena kompleksitas dan ketidakpastian yang dihadapi oleh data
berdimensi tinggi yang tersedia di bidang bioinformatika, kemometri, perbankan dan
aplikasi lainnya. Proses memperkirakan secara sistematis apa yang paling mungkin
terjadi di masa depan berdasarkan data masa lalu dan masa kini memerlukan suatu
model peramalan yang tepat, sehingga perbedaan antara apa yang terjadi dengan hasil
perkiraan dapat diminimalkan. Untuk mendapatkan metode yang tepat diperlukan
suatu teknik pengukuran untuk mendeteksi keakuratan nilai peramalan. Pada tulisan
ini dibahas teknik pengukuran akurasi peramalan dengan Mean Square Error (MSE)
dan Mean Absolute Percentage Error (MAPE) dengan menggunakan metode Random
K-Nearest Neighbor (RKNN). Dengan kedua teknik pengukuran pemodelan
horizontal di atas, dipilih nilai MSE dan MAPE terkecil (nilai error terkecil). Dari hasil
analisis perhitungan nilai pengukuran akurasi peramalan pada saat pelatihan dengan
RKNN diperoleh nilai akurasi MAPE sebesar 0.728427% dan MSE sebesar 0.545751,
sedangkan nilai akurasi terkecil diperoleh dengan menggunakan MSE yaitu sebesar
0.545751. Sumber: S Prayudani, A Hizriadi, Y Y Lase, Y Fatmi, Al-Khowarizmi,
Analysis Accuracy Of Forecasting Measurement Technique On Random K-Nearest
Neighbor (RKNN) Using MAPE And MSE, Journal of Physics: Conference Series
1361 (2019) 012089 doi:10.1088/1742-6596/1361/1/012089.
j. Penelitian mengenai pengenalan karakter plat nomor kendaraan atau Automatic
License Plate Detection (ALPR) sudah banyak dilakukan. Berbagai metode machine
learning digunakan pada proses pengenalan karakter plat nomor kendaraan. Pada
penelitian ini akan membandingkan metode K-Nearest Neighbor (KNN) dan Support
Vector Machine (SVM) dalam pengenalan karakter plat nomor kendaraan. Pengujian
sistem pada 20 pengujian didapatkan hasil sebagai berikut: Akurasi pengujian
pengenalan plat kendaraan dengan metode Support Vector Machine dengan akurasi
95%. Sedangkan menggunakan metode KNN mendapatkan akurasi pengujian 80%.
Sumber: Aris Budianto, Dwi Maryono, Rosihan Ariyuana, Perbandingan K-Nearest
Neighbor (Knn) Dan Support Vector Machine (Svm) Dalam Pengenalan Karakter Plat
Kendaraan Bermotor, JIPTEK, Vol. 11 No.1 , 2018