Anda di halaman 1dari 66

LAPORAN MINGGUAN

MATAKULIAH DATA MINING

Dosen Pengampu :
Dr. Sajarwo Anggai, S.ST.,M.T

Oleh:

Rizki Izandi Gumay


231012000086

PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA


PROGRAM PASCASARJANA
UNIVERSITAS PAMULANG
TANGERANG SELATAN
2023
Pertemuan ke-1
(Pengenalan Machine Learning)
Machine Learning adalah bidang keilmuan computer science yang sifatnya umum. Machine
learning dapat diklasifikasikan menjadi tiga kelas yaitu supervised learning, unsupervised
learning, dan reinforcement learning. Ketiga pengelompokan ini digunakan di berbagai aplikasi
cerdas.

Machine Learning (ML) adalah bagaimana membuat mesin bekerja lebih baik pada beberapa
tugas, menggunakan data yang diberikan. Machine learning adalah bidang ilmu komputer yang
mempelajari bagaimana membangun algoritma yang membuat mesin mampu belajar dari data
masukan.

Machine learning juga dapat didefinisikan sebagai proses penyelesaian masalah praktis dengan 1)
mengumpulkan dataset, dan 2) secara algoritmik membangun model statistik berdasarkan pada
dataset tersebut. Model statistik itu diasumsikan digunakan entah bagaimana untuk menyelesaikan
masalah praktis.

Implementasi machine learning sendiri dapat dilihat pada diagram berikut ini:
Metode pembelajaran mesin berdasarkan data latih dikelompokkan ke dalam supervised, semi-
supervised, unsupervised and reinforcement.

1) Supervised Learning
Algoritma supervised learning digunakan untuk menyelesaikan berbagai persoalan yang
terkait dengan:
• Classification (klasifikasi)
• Regression (regresi)

Algoritma supervised learning membutuhkan sekumpulan data set yang “berpasangan”, yaitu
data set yang memiliki input variable dan output variable. Data set ini digunakan dalam proses
training untuk melatih komputer. Umumnya data set yang tersedia berjumlah sangat banyak,
sehingga sangat sulit untuk dievaluasi tanpa bantuan komputer.
Selama proses training inilah komputer akan belajar memahami data set guna menghasilkan
model yang diharapkan. Data set (D) yang digunakan oleh algoritma supervised learning
didefinisikan:
D = {(x0,y0), (x1,y1), … , (xn,yn)}
Supervised learning menggunakan labeled training data (training set yang sudah diberi label)
untuk belajar melakukan mapping fungsi (function). Function ini menghubungkan input (x)
dengan output (y). Kaitan keduanya dirumuskan sebagai:
y = f(x)
Setelah proses traning selesai maka akan terbentuk sebuah model. Model ini perlu diuji
kembali dengan data set lain, bukan data set yang digunakan selama training (test set) sehingga
dapat diketahui apakah fase training sudah dianggap berhasil atau tidak. Selanjutnya, untuk
mengetahui apakah model yang dihasilkan sudah cukup bagus maka dilakukan uji statistika.
Pada Supervised Learning memiliki karakteristik sebagai berikut :
(1) komputer dituntun melakukan sesuatu;
(2) dataset berpasangan ada variabel input dan output D = {(x0,y0), (x1,y1), … , (xn,yn)}; dan
(3) digunakan menyelesaikan masalah yang berkaitan dengan Classification, dan Regression.
Algoritma yang termasuk supervised learning:
• Support Vector Machine
• Linear Regression
• Logistic Regression
• Naïve Bayes
• Linear Discriminant Analysis (LDA)
• Decision Tree
• K-nearest neighbor
• Neural Networks (multilayer perceptron)
• Similiarity Learning

2) Unsupervised Learning
Jika pada algoritma Supervised Machine Learning komputer “dituntun” untuk belajar, maka
pada Unsupervised Machine Learning komputer “dibiarkan” belajar sendiri. Karena pada
Unsupervised Machine Learning data set hanya berisi input variable saja tanpa output atau data
yang diinginkan.
Unsupervised Machine Learning cocok diunakan jika dataset yang dimiliki pasangan input-
output, hanya ada input variable tanpa output variable. Dengan demikian komputer harus
belajar sendiri memahami pola data set yang di berikan.
Data set (D) yang digunakan pada Unsupervised Machine Learning didefinisikan sebagai
berikut :
D = {x0, x1, … , xn};
Unsupervised Machine Learning banyak digunakan untuk menangani permasalahan terkait
dengan :
• Association
• Clustering
Pada Unsupervised Learning memiliki karakteristik sebagai berikut:
(1) komputer dibiarkan belajar sendiri;
(2) dataset tidak berpasangan hanya variabel input D = {x0, x1, … , xn}; dan
(3) digunakan untuk menyelesaikan persoalan Association, dan Clustering. Algoritma yang
termasuk unsupervised learning:
• K-means
• Hierarchical Clustering
• DBSCAN
• Fuzzy C-means
• Local Outlier Factor
• Deep Belief Nets
• Generative Adversarial Networks
• Expectation Maximization (EM), dll

3) Reinforcement Learning
reinforcement learning adalah subbidang machine learning dimana mesin bisa “hidup” dalam
lingkungan dan mampu memahami state lingkungan tersebut sebagai vektor fitur. Mesin
dapat menjalankan action di setiap state. Action yang berbeda membawa reward yang
berbeda dan juga dapat memindahkan mesin ke state lingkungan lain.
Tujuan dari algoritma reinforcement learning adalah untuk mempelajari suatu policy. Policy
adalah fungsi f (mirip dengan model dalam supervised learning) yang mengambil vektor fitur
suatu state sebagai masukan dan keluaran sebagai action optimal untuk dijalankan dalam state
tersebut. Action akan menjadi optimal jika memaksimalkan expected avearge reward.
Reinforcement Machine Learning akan mencoba berbagai opsi dan kemungkinan yang
berbeda, melakukan pengamatan (observation) dan evaluasi (evaluation) setiap pencapaian.
Reinforcement Machine Learning banyak digunakan pada berbagai mesin video game sperti
PS, XBOX, dll. Reinforcement Machine Learning banyak dimanfaatkan untuk menyelesaikan
permasalahan berkaitan dengan :
• Classification
• Control

Pada Reinforcement Learning memiliki karakteristik sebagai berikut:


(1) komputer melakukan pencarian sendiri –self discovery dengan cara berinteraksi dengan
lingkungan;
(2) dataset didapatkan dari pengalaman / experience, input didapatkan dari proses training;
dan
(3) digunakan untuk menyelesaikan persoalan Classification, dan Control.Algoritma yang
termasuk reinforcement learning: Q-Learning, State-Action-Reward-State-Action
(SARSA), Deep Q Network (DQN), Deep Deterministic Policy Gradient (DDPG), Actor
Critic, Monte Carlo Tree Search (MCTS).

Referensi :
1) https://yunusmuhammad007.medium.com/2-supervised-vs-unsupervised-vs-
reinforcement-ml-dd880c03c1bc
2) https://vpslabs.net/supervised-unsupervised-reinforcement-learning/#google_vignette
Pertemuan ke-2
(Simulasi Regresi Linier)
1) Model Regresi Linier Sederhana
Dalam simulasi regresi linier sederhana ini, saya mengambil dataset penggunaan bensin
terhadap jarak yang dapat ditempuh. Dari dataset yang ada akan diketahui model hubungan
antara variable bebas dalam hal ini penggunaan bensin dalam satuan liter terhadap variable
terikat (target) dalam dataset ini adalah jarak yang ditempuh dalam satuan kilometer (KM).

a. Data training yang dipersiapkan dalam bentuk csv dengan nama bensin.csv, isi data
tersebut adalah jumlah penggunaan liter bensin dan jarak yang telah ditempuh sebanyak
65 baris data. Berikut data training yang digunakan :

b. Untuk melihat visualisasi sebaran data dan hubungan antar variable dapat dilihat melalui
fitur scatter plot yang ada pada orange datamining, berikut adalah hasil scaterplotnya.
c. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining untuk mendapatkan model regresi linier sederhana dengan rumus regresi
linier sederhana Y = a + bX, sehingga nanti akan diperoleh berapa nilai intercept(a) dan
slope(b) yaitu sebagai berikut.

Dari hasil model tersebut diperoleh hasil regresi dengan intercept = 7.345 dengan
slope(liter) = 6.568
Sehingga diperoleh model hubungan antara penggunaan bensin (variable bebas) terhadap
jarak yang ditempuh (variable terikat) yaitu : Y = 7.345 + 6.567X

Berdasarkan perhitungan manual menggunakan Excel untuk mencari nilai a dan b sesuai
dengan rumus berikut :

Nilai b (slope garis regresi):

n å XY - å X å Y
b=
nå X 2 - (å X )
2

Dan mencari Nilai a (intersep garis regresi):

a=
å Y - bå X
n
Maka :
No Liter (x) jarak (y) X2 y2 x.y
1 20 142.00 400 20164 2840
2 25 177.00 625 31329 4425
3 20 144.00 400 20736 2880
4 30 203.00 900 41209 6090
5 40 273.00 1600 74529 10920
6 35 239.00 1225 57121 8365
7 30 201.00 900 40401 6030
8 30 195.00 900 38025 5850
9 25 175.00 625 30625 4375
10 25 169.00 625 28561 4225
11 25 179.00 625 32041 4475
12 28 180.00 784 32400 5040
13 15 98.00 225 9604 1470
14 20 139.00 400 19321 2780
15 29 212.10 841 44986.41 6150.9
16 28 210.40 784 44268.16 5891.2
17 30 205.30 900 42148.09 6159
18 35 240.60 1225 57888.36 8421
19 25 180.90 625 32724.81 4522.5
20 25 170.10 625 28934.01 4252.5
21 25 174.30 625 30380.49 4357.5
22 25 169.60 625 28764.16 4240
23 25 166.20 625 27622.44 4155
24 25 172.70 625 29825.29 4317.5
25 35 252.00 1225 63504 8820
26 14 100.00 196 10000 1400
27 10 65.00 100 4225 650
28 25 175.00 625 30625 4375
29 25 173.00 625 29929 4325
30 25 167.00 625 27889 4175
31 30 204.00 900 41616 6120
32 30 211.00 900 44521 6330
33 35 242.00 1225 58564 8470
34 40 278.00 1600 77284 11120
35 20 144.00 400 20736 2880
36 15 102.00 225 10404 1530
37 26 177.00 676 31329 4602
38 20 141.00 400 19881 2820
39 19 136.00 361 18496 2584
40 30 211.00 900 44521 6330
41 35 241.00 1225 58081 8435
42 30 201.00 900 40401 6030
43 30 212.00 900 44944 6360
44 25 177.00 625 31329 4425
45 18 143.00 324 20449 2574
46 15 102.00 225 10404 1530
47 17 111.00 289 12321 1887
48 6 32.00 36 1024 192
49 25 173.00 625 29929 4325
50 22 148.00 484 21904 3256
51 23 151.00 529 22801 3473
52 21 141.00 441 19881 2961
53 24 169.00 576 28561 4056
54 45 262.00 2025 68644 11790
55 33 233.00 1089 54289 7689
56 32 239.00 1024 57121 7648
57 31 221.00 961 48841 6851
58 41 255.00 1681 65025 10455
59 27 181.00 729 32761 4887
60 30 214.00 900 45796 6420
61 31 203.00 961 41209 6293
62 37 241.00 1369 58081 8917
63 23 142.00 529 20164 3266
64 36 241.00 1296 58081 8676
65 23 142.00 529 20164 3266

∑ 1,719.00 11,769.20 48,989.00 2,289,337.22 334,425.10


Selanjutnya dimasukan ke dalam rumus diatas untuk mencari nilai slope sebagai berikut :
b = 65 (334.425,10) – (1.719)(11.769,20)
65 (48.989) – (1.719)2
b = 6.5688
setelah dapat diketahui nilai slope maka dapat dicari nilai intercept (a) sebagai berikut :
a = (11.769) – (6.5688)(1.719)
65
a = 7.3459

sehingga perhitungan manual dengan menggunakan aplikasi orangedatamining memiliki


hasil yang sama yaitu : Y = 7.345 + 6.567X.

d. Selanjutnya adalah mencari nilai koefisien korelasi, yaitu suatu analisis korelasi yang
bertujuan untuk mendapatkan nilai kekuatan hubungan antar dua variabel. Dimana
hasilnya dapat memperlihatkan kekuatan hubungan, signifikansi hubungan, dan arah
hubungan. Nilai korelasi yang mendekati -1 atau +1 artinya menyatakan hubungan yang
makin kuat. Nilai di atas nol akan menunjukkan korelasi positif, sedangkan nilai di bawah
nol berarti menunjukkan korelasi negatif. Semakin tinggi nilai r maka semakin bagus
model dibuat.

Untuk menentukan nilai koefisien korelasi menggunakan persamaan sebagai berikut :

n ( å XY ) - ( å X )( å Y )
r =
én
ë ( å X ) - ( å X ) ùû éën ( åY ) - ( åY ) ùû
2 2 2 2

Pada aplikasi orange datamining dapat diketahui nilai r (korelasinya) adalah +0,98, artinya
98% model regresi yang dibuat sangat baik dalam memprediksi data baru.
e. Selanjutnya karena telah memiliki model regresi linier, maka model tersebut harus diuji
dengan test dataset berikut adalah hasil test data menggunakan orange datamining.
Dari hasil test dan score diketahui bahwa nilai MSE (Mean Square Eror) adalah 109.115
lalu, RMSE (Root Mean Square Eror) adalah 10.446, lalu MAE (Mean Absolute Eror)
adalah 7.452 dan R2 (R Square Value) adalah 0.952.

Penjelasan masing-masing fungi adalah sebagai berikut :


1. MSE (Mean Square Eror) fungsi test ini adalah untuk mencari nilai rata-rata error dari
model regresi yang telah dibuat dan memberikan informasi terhadap nilai yang tidak
terduga dan perlu perhatian khusus.
2. RMSE (Root Mean Square Eror) fungsi test ini hanya melakukan akar kuadrat
terhadap hasil dari MSE. Sehingga dampaknya semakin terlihat karena angkanya
berlipat ganda yang dihasilkan oleh MSE menjadi normal kembali.
3. MAE (Mean Absolute Eror) fungsi ini untuk menunjukan nilai kesalahan rata-rata
yang eror dari nilai actual dan nilai prediksi.
4. R2 (R Square Value) merupakan nilai yang berkisar dari 0 – 1untuk menjelaskan
besarnya variasi dari variable independent terhadap variable dependent.

Berikut adalah data hasil pengujian :


2) Model Regresi Linier Berganda

Dalam simulasi regresi linier berganda ini, saya mengambil dataset penggunaan bensin
terhadap jarak yang dapat ditempuh. Dari dataset yang ada akan diketahui model hubungan
antara variable bebas dalam hal ini penggunaan bensin dalam satuan liter dan kecepatan
kendaraan terhadap variable terikat (target) dalam dataset ini adalah jarak yang ditempuh
dalam satuan kilometer (KM).

a. Data training yang dipersiapkan dalam bentuk csv dengan nama bensin3.csv, isi data
tersebut adalah jumlah penggunaan liter bensin dan jarak yang telah ditempuh sebanyak
65 baris data. Berikut data training yang digunakan :

b. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining untuk mendapatkan model regresi linier sederhana dengan rumus regresi
linier sederhana Y = a + bX1 + bX2, sehingga nanti akan diperoleh berapa nilai intercept(a)
dan slope(b) yaitu sebagai berikut.
Dari hasil model tersebut diperoleh hasil regresi dengan intercept = -0.622668 dengan
slope(liter) = 6.4663 dan (kecepatan) = 0.117446

Sehingga diperoleh model hubungan antara penggunaan bensin (variable bebas) terhadap
jarak yang ditempuh (variable terikat) yaitu : Y = - 0.6226 + 6.4663X1 + 0.1174X2

Berdasarkan perhitungan manual menggunakan Excel untuk mencari nilai a dan b sesuai
dengan rumus berikut :

Untuk menentukan nilai b0 , b1 dan b2 dapat digunakan determinan matriks.


𝒅𝒆𝒕 (𝑨𝟏) 𝒅𝒆𝒕 (𝑨𝟐) 𝒅𝒆𝒕 (𝑨𝟑)
𝒃𝟎 = 𝒃𝟏 = 𝒃𝟐 =
𝑫𝒆𝒕(𝑨) 𝒅𝒆𝒕 (𝑨) 𝒅𝒆𝒕 (𝑨)
Maka :
No Kilometer (Y) Liter (X1) Kecepatan (X2) X1.Y X2.Y X1.X2 X1. X1 X2.X2
1 142 20 100 2,840.00 14,200.00 2,000.00 400.00 10,000.00
2 177 25 100 4,425.00 17,700.00 2,500.00 625.00 10,000.00
3 144 20 100 2,880.00 14,400.00 2,000.00 400.00 10,000.00
4 203 30 120 6,090.00 24,360.00 3,600.00 900.00 14,400.00
5 273 40 120 10,920.00 32,760.00 4,800.00 1,600.00 14,400.00
6 239 35 120 8,365.00 28,680.00 4,200.00 1,225.00 14,400.00
7 201 30 120 6,030.00 24,120.00 3,600.00 900.00 14,400.00
8 195 30 110 5,850.00 21,450.00 3,300.00 900.00 12,100.00
9 175 25 110 4,375.00 19,250.00 2,750.00 625.00 12,100.00
10 169 25 110 4,225.00 18,590.00 2,750.00 625.00 12,100.00
11 179 25 110 4,475.00 19,690.00 2,750.00 625.00 12,100.00
12 180 28 110 5,040.00 19,800.00 3,080.00 784.00 12,100.00
13 98 15 80 1,470.00 7,840.00 1,200.00 225.00 6,400.00
14 139 20 50 2,780.00 6,950.00 1,000.00 400.00 2,500.00
15 212.1 29 120 6,150.90 25,452.00 3,480.00 841.00 14,400.00
16 210.4 28 120 5,891.20 25,248.00 3,360.00 784.00 14,400.00
17 205.3 30 120 6,159.00 24,636.00 3,600.00 900.00 14,400.00
18 240.6 35 120 8,421.00 28,872.00 4,200.00 1,225.00 14,400.00
19 180.9 25 110 4,522.50 19,899.00 2,750.00 625.00 12,100.00
20 170.1 25 110 4,252.50 18,711.00 2,750.00 625.00 12,100.00
21 174.3 25 110 4,357.50 19,173.00 2,750.00 625.00 12,100.00
22 169.6 25 110 4,240.00 18,656.00 2,750.00 625.00 12,100.00
23 166.2 25 110 4,155.00 18,282.00 2,750.00 625.00 12,100.00
24 172.7 25 110 4,317.50 18,997.00 2,750.00 625.00 12,100.00
25 252 35 120 8,820.00 30,240.00 4,200.00 1,225.00 14,400.00
26 100 14 80 1,400.00 8,000.00 1,120.00 196.00 6,400.00
27 65 10 50 650.00 3,250.00 500.00 100.00 2,500.00
28 175 25 50 4,375.00 8,750.00 1,250.00 625.00 2,500.00
29 173 25 50 4,325.00 8,650.00 1,250.00 625.00 2,500.00
30 167 25 50 4,175.00 8,350.00 1,250.00 625.00 2,500.00
31 204 30 120 6,120.00 24,480.00 3,600.00 900.00 14,400.00
32 211 30 120 6,330.00 25,320.00 3,600.00 900.00 14,400.00
33 242 35 120 8,470.00 29,040.00 4,200.00 1,225.00 14,400.00
34 278 40 120 11,120.00 33,360.00 4,800.00 1,600.00 14,400.00
35 144 20 120 2,880.00 17,280.00 2,400.00 400.00 14,400.00
36 102 15 120 1,530.00 12,240.00 1,800.00 225.00 14,400.00
37 177 26 120 4,602.00 21,240.00 3,120.00 676.00 14,400.00
38 141 20 120 2,820.00 16,920.00 2,400.00 400.00 14,400.00
39 136 19 120 2,584.00 16,320.00 2,280.00 361.00 14,400.00
40 211 30 120 6,330.00 25,320.00 3,600.00 900.00 14,400.00
No Kilometer (Y) Liter (X1) Kecepatan (X2) X1.Y X2.Y X1.X2 X1. X1 X2.X2
41 241 35 120 8,435.00 28,920.00 4,200.00 1,225.00 14,400.00
42 201 30 120 6,030.00 24,120.00 3,600.00 900.00 14,400.00
43 212 30 50 6,360.00 10,600.00 1,500.00 900.00 2,500.00
44 177 25 100 4,425.00 17,700.00 2,500.00 625.00 10,000.00
45 143 18 50 2,574.00 7,150.00 900.00 324.00 2,500.00
46 102 15 50 1,530.00 5,100.00 750.00 225.00 2,500.00
47 111 17 50 1,887.00 5,550.00 850.00 289.00 2,500.00
48 32 6 50 192.00 1,600.00 300.00 36.00 2,500.00
49 173 25 50 4,325.00 8,650.00 1,250.00 625.00 2,500.00
50 148 22 50 3,256.00 7,400.00 1,100.00 484.00 2,500.00
51 151 23 50 3,473.00 7,550.00 1,150.00 529.00 2,500.00
52 141 21 50 2,961.00 7,050.00 1,050.00 441.00 2,500.00
53 169 24 90 4,056.00 15,210.00 2,160.00 576.00 8,100.00
54 262 45 50 11,790.00 13,100.00 2,250.00 2,025.00 2,500.00
55 233 33 50 7,689.00 11,650.00 1,650.00 1,089.00 2,500.00
56 239 32 95 7,648.00 22,705.00 3,040.00 1,024.00 9,025.00
57 221 31 50 6,851.00 11,050.00 1,550.00 961.00 2,500.00
58 255 41 50 10,455.00 12,750.00 2,050.00 1,681.00 2,500.00
59 181 27 100 4,887.00 18,100.00 2,700.00 729.00 10,000.00
60 214 30 90 6,420.00 19,260.00 2,700.00 900.00 8,100.00
61 203 31 65 6,293.00 13,195.00 2,015.00 961.00 4,225.00
62 241 37 70 8,917.00 16,870.00 2,590.00 1,369.00 4,900.00
63 142 23 80 3,266.00 11,360.00 1,840.00 529.00 6,400.00
64 241 36 50 8,676.00 12,050.00 1,800.00 1,296.00 2,500.00
65 142 23 80 3,266.00 11,360.00 1,840.00 529.00 6,400.00
∑ 11,769.20 1,719.00 5,910.00 334,425.10 1,096,526.00 159,375.00 48,989.00 592,950.00

Selanjutnya masukan nilai sesuai dengan kolom yang sudah disediakan pada matriks
menjadi :
65 1719 5910 11769,2
A = 1719 48989 159375 H = 334425,1
5910 159375 592950 1096526

A = 12133271775

Selanjutnya membuat matrik untuk A1 ,A2 dan A3 dengan mengubah satu kolom dengan
matrik H rinciannya sebagai berikut :
• Untuk matriks A1, salin kolom matriks A lalu ganti kolom pertama dengan matriks H.
• Untuk matriks A1, salin kolom matriks A lalu ganti kolom kedua dengan matriks H.
• Untuk matriks A1, salin kolom matriks A lalu ganti kolom ketiga dengan matriks H.

Sehingga seluruh matrik akan berubah menjadi :


11769,2 1719 5910
A1 = 334425,1 48989 159375 = -7554995760
1096526 159375 592950

65 11769,2 5910
A2 = 1719 334425,1 159375 = 78457361745
5910 1096526 592950

65 1719 11769,2
A3 = 1719 48989 334425,1 = 1425003732,5
5910 159375 1096526

Masukan nilai determinan (A) untuk menentukan nilai b0 , b1 dan b2 sesuai rumus diatas :

!𝟕𝟓𝟓𝟒𝟗𝟗𝟓𝟕𝟔𝟎
𝒃𝟎 = 𝟏𝟐𝟏𝟑𝟑𝟐𝟕𝟏𝟕𝟕𝟓
= - 0.6226

𝟕𝟖𝟒𝟓𝟕𝟑𝟔𝟏𝟕𝟒𝟓
𝒃𝟏 = 𝟏𝟐𝟏𝟑𝟑𝟐𝟕𝟏𝟕𝟕𝟓
= 6.4662

𝟏𝟒𝟐𝟓𝟎𝟎𝟑𝟕𝟑𝟐,𝟓
𝒃𝟐 = 𝟏𝟐𝟏𝟑𝟑𝟐𝟕𝟏𝟕𝟕𝟓
= 0.1174

sehingga perhitungan manual dengan menggunakan aplikasi orangedatamining memiliki


hasil yang sama yaitu : Y = -0.6226 + 6.4662 X1 + 0.1174 X2

c. Selanjutnya adalah mencari nilai koefisien korelasi, yaitu suatu analisis korelasi yang
bertujuan untuk mendapatkan nilai kekuatan hubungan antar dua variabel. Dimana
hasilnya dapat memperlihatkan kekuatan hubungan, signifikansi hubungan, dan arah
hubungan. Nilai korelasi yang mendekati -1 atau +1 artinya menyatakan hubungan yang
makin kuat. Nilai di atas nol akan menunjukkan korelasi positif, sedangkan nilai di bawah
nol berarti menunjukkan korelasi negatif. Semakin tinggi nilai r maka semakin bagus
model dibuat.

Untuk menentukan nilai koefisien korelasi menggunakan persamaan sebagai berikut :

n ( å XY ) - ( å X )( å Y )
r =
én
ë ( å X ) - ( å X ) ùû éën ( åY ) - ( åY ) ùû
2 2 2 2

Pada aplikasi orange datamining dapat diketahui nilai r (korelasinya) adalah +0,98 dan
+0,282 , artinya 98% model regresi yang dibuat sangat baik dalam memprediksi data baru.
d. Selanjutnya karena telah memiliki model regresi linier, maka model tersebut harus diuji
dengan test dataset berikut adalah hasil test data menggunakan orange datamining.

Dari hasil test dan score diketahui bahwa nilai MSE (Mean Square Eror) adalah 101.637
lalu, RMSE (Root Mean Square Eror) adalah 10.082, lalu MAE (Mean Absolute Eror)
adalah 7.120 dan R2 (R Square Value) adalah 0.958.

Penjelasan masing-masing fungi adalah sebagai berikut :


1. MSE (Mean Square Eror) fungsi test ini adalah untuk mencari nilai rata-rata error dari
model regresi yang telah dibuat dan memberikan informasi terhadap nilai yang tidak
terduga dan perlu perhatian khusus.
2. RMSE (Root Mean Square Eror) fungsi test ini hanya melakukan akar kuadrat
terhadap hasil dari MSE. Sehingga dampaknya semakin terlihat karena angkanya
berlipat ganda yang dihasilkan oleh MSE menjadi normal kembali.
3. MAE (Mean Absolute Eror) fungsi ini untuk menunjukan nilai kesalahan rata-rata
yang eror dari nilai actual dan nilai prediksi.
4. R2 (R Square Value) merupakan nilai yang berkisar dari 0 – 1untuk menjelaskan
besarnya variasi dari variable independent terhadap variable dependent.
Berikut adalah data hasil pengujian :

3) Kelebihan dan Kekurangan Linier Regression


a. Kelebihan Regresi linier
Beberapa kelebihan Regresi linier adalah
1. Mudah diterapkan dan dijelaskan hasil koefisiennya
2. Ketika telah diketahui adanya hubungan linier antara variable independent dan variable
dependennya, maka algoritma ini adalah yang terbaik untuk digunakan karena
kompleksitasnya lebih sedikit dibandingkan dengan algoritma lain
3. Algoritma ini memang rentan terhadap nilai outlier, namun dapat dihindari dengan
standarisasi, Teknik dimensionality reduction, Teknik regularisasi atau cross validation

b. Kekurangan Regresi linier


Sedangkan beberapa kekurangan regresi linier adalah :
1. Jika terdapat nilai outlier dan gagal terdeteksi, maka dapat memiliki efek yang sangat
besar pada regresi dan batas-batas linier dalam algoritma ini
2. Algoritma ini tidak dapat menangkap seluruh variable independent yang mempengaruhi
variable dependennya.

4) Overfitting
Overfitting adalah perilaku pembelajaran mesin yang tidak diinginkan yang terjadi ketika model
pembelajaran mesin memberikan prediksi akurat untuk data pelatihan tetapi tidak untuk data
baru. Ketika ilmuwan data menggunakan model pembelajaran mesin untuk membuat prediksi,
mereka pertama-tama melatih model pada kumpulan data yang diketahui. Kemudian,
berdasarkan informasi ini, model mencoba memprediksi hasil untuk kumpulan data baru. Model
overfit dapat memberikan prediksi yang tidak akurat dan tidak dapat bekerja dengan baik untuk
semua jenis data baru.
Untuk mendapatkan prediksi yang akurat jika model machine learning menggeneralisasi semua
tipe data dalam domainnya. Overfitting terjadi saat model tidak dapat menggeneralisasi dan
justru terlalu pas dengan set data pelatihan. Overfitting terjadi karena beberapa alasan, seperti:

• Ukuran data pelatihan terlalu kecil dan tidak mengandung sampel data yang cukup untuk
secara akurat merepresentasikan semua kemungkinan nilai data input.
• Data pelatihan berisi banyak informasi yang tidak relevan, yang disebut data tidak berarti.
• Model melatih terlalu lama dalam satu set data sampel.
• Model sangat kompleks sehingga model mempelajari data tidak berarti dalam data
pelatihan.
Metode terbaik untuk mendeteksi model overfit adalah dengan menguji model machine
learning di lebih banyak data dengan representasi komprehensif dari kemungkinan nilai dan
tipe data input. Biasanya, bagian dari data pelatihan digunakan sebagai data uji untuk
memeriksa overfitting. Tingkat kesalahan yang tinggi dalam data pengujian
menunjukkan overfitting. Salah satu metode pengujian untuk overfitting diberikan di bawah ini.
Validasi silang K-fold

Validasi silang adalah salah satu metode pengujian yang digunakan dalam praktik. Dalam
metode ini, ilmuwan data membagi set pelatihan menjadi subset berukuran sama K atau set
sampel yang disebut fold. Proses pelatihan terdiri dari serangkaian iterasi. Dalam setiap iterasi,
langkah-langkahnya adalah:
1. Simpan satu subset sebagai data validasi dan latih model machine learning di subset K-1
yang tersisa.
2. Amati bagaimana performa model sampel validasi.
3. Beri skor untuk performa model berdasarkan kualitas data output.
Untuk dapat mencegah overfitting dengan mendiversifikasi dan menskalakan set data pelatihan
menggunakan beberapa strategi ilmu data, seperti yang diberikan di bawah ini.

• Penghentian awal
Penghentian awal menjeda fase pelatihan sebelum model machine learning mempelajari
data tidak berarti dalam data. Namun, ketepatan waktu sangat penting; jika tidak, model
tetap tidak akan memberikan hasil yang akurat.

• Pemangkasan.
Mengidentifikasi beberapa fitur atau parameter yang memengaruhi prediksi akhir saat
membuat model. Pemilihan fitur—atau pemangkasan — mengidentifikasi fitur terpenting
dalam set pelatihan dan menghilangkan fitur yang tidak relevan. Misalnya, untuk
memprediksi apakah gambar adalah hewan atau manusia, Anda dapat melihat berbagai
parameter input seperti bentuk wajah, posisi telinga, struktur tubuh, dll. Anda dapat
memprioritaskan bentuk wajah dan mengabaikan bentuk mata.

• Regularisasi
Regularisasi adalah kumpulan teknik pelatihan/optimasi yang berusaha
mengurangi overfitting. Metode ini mencoba menghilangkan faktor-faktor yang tidak
memengaruhi hasil prediksi dengan menilai fitur berdasarkan penting tidaknya fitur.
Misalnya, perhitungan matematis menerapkan nilai penalti ke fitur dengan dampak
minimal. Pertimbangkan model statistik yang mencoba memprediksi harga hunian sebuah
kota dalam 20 tahun. Regularisasi akan memberikan nilai penalti yang lebih rendah untuk
fitur seperti pertumbuhan populasi dan pendapatan tahunan rata-rata, tetapi nilai penalti
yang lebih tinggi untuk temperatur rata-rata tahunan kota tersebut.

• Penggabungan
Penggabungan menggabungkan prediksi dari beberapa algoritme machine learning yang
terpisah. Beberapa model disebut pemelajar yang lemah karena hasilnya sering kali tidak
akurat. Metode penggabungan menggabungkan semua pemelajar yang lemah untuk
mendapatkan hasil yang lebih akurat. Metode ini menggunakan beberapa model untuk
menganalisis data sampel dan memilih hasil yang paling akurat. Dua metode
penggabungan utama adalah bagging dan boosting. Boosting melatih berbagai
model machine learning berbeda satu demi satu untuk mendapatkan hasil akhir,
sedangkan bagging melatih model secara paralel.

• Augmentasi data
Augmentasi data adalah teknik machine learning yang sedikit mengubah data sampel
setiap kali model memproses data tersebut. Anda dapat melakukan ini dengan mengubah
data input dengan cara yang sederhana. Saat dilakukan dengan cermat, augmentasi data
membuat set pelatihan terlihat unik untuk model dan mencegah model mempelajari
karakteristik set tersebut. Misalnya, menerapkan transformasi seperti terjemahan,
pembalikkan, dan rotasi ke gambar input.

Referensi :
1. Buku Machine Learning untuk pemula penulis, Irwansyah Saputra, Dinar Ajeng Kristiyanti
penerbit Informatika
2. Buku Pengenalan Machine Learning dengan Python, penulis Dios Kurniawan, M.Sc, penerbit
PT Elex Media Komputindo
3. https://www.statmat.net/regresi-linier-berganda/
4. https://aws.amazon.com/id/what-is/overfitting/
5. https://www.youtube.com/watch?v=HX-9akRkAA8
6. https://www.youtube.com/watch?v=H8e7-ubPCiA
7. https://www.youtube.com/watch?v=D4cWL0wEXLk

Pertemuan ke-3
(Simulasi Regresi Logistik)
1) Model Regresi Logistik
Dalam simulasi regresi logistik ini, saya mengambil dataset prediksi diagnosis kanker ganas
atau lunak. Dataset yang saya ambil dari https://www.kaggle.com/code/khadafii/praktikum-
3-regresi-logistik/input akan diketahui sebuah model prediksi berapa besar kemungkinan
seorang pasien di diagnosis kanker ganas atau kanker lunak.

a. Data training yang dipersiapkan dalam bentuk csv dengan nama


data_Logistik_Regresi_Diagnosis_kanker_payudara.csv, isi data tersebut adalah
sebanyak 569 baris data yang memiliki 30 Feature dan 1 Target dengan kategori M
(Malignant) dan B (Beningn), namun berdasarkan ranking terdapat 2 feature yang
berpengaruh. Berikut dataset yang digunakan :
b. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining untuk mendapatkan model regresi logistisk dengan rumus regresi linier
sederhana Y = b + b1X1 + b2X2 + ….. +bnXn, sehingga nanti akan diperoleh berapa nilai
intercept(a) dan slope(b) yaitu sebagai berikut.

Berdasarakan pengukuran regresi logistic menggunakan Excel, dengan cara sebagai


berikut (sebagain dari 569 bari data di hide agar dapat terlihat rata-rata Log likely-Hood:
diagnosis radius_worst peri1eter_worst X e^X P(X) Log Likeli-hood
1 25.38 184.6 2.110 8.247 0.892 -0.114
1 24.99 158.8 1.848 6.346 0.864 -0.146
1 23.57 152.5 1.771 5.875 0.855 -0.157
1 14.91 98.87 1.148 3.151 0.759 -0.276
1 22.54 152.2 1.757 5.797 0.853 -0.159
1 15.47 103.4 1.199 3.316 0.768 -0.264
1 22.88 153.2 1.771 5.876 0.855 -0.157
1 17.06 110.6 1.287 3.620 0.784 -0.244
1 15.49 106.2 1.227 3.411 0.773 -0.257
1 15.09 97.65 1.137 3.119 0.757 -0.278
1 19.19 123.8 1.440 4.220 0.808 -0.213
1 20.42 136.5 1.579 4.851 0.829 -0.187
1 20.96 151.7 1.737 5.678 0.850 -0.162
1 16.84 112 1.298 3.663 0.786 -0.241
1 15.03 108.8 1.248 3.484 0.777 -0.252
1 17.46 124.1 1.426 4.160 0.806 -0.215
1 25.74 184.6 2.113 8.276 0.892 -0.114
0 9.456 59.16 0.696 2.006 0.667 -1.101
∑ -512.603

dalam perhitungan diatas digunakan inisial Solver Decision Variabels untuk b0 = 0.01, b1
= 0.01 dan b2 = 0.01, dimana diagnose 1 = M dan 0 = B.

1. Untuk mencari nilai X digunakan persamaan sebagai berikut :


Logit = X = b0 +( b1 x radius) + (b2 x Perimeter)

2. Selanjutnya nilai X di eksponenkan;

3. Selanjutnya mencari nilai probabilitas terjadinya X dengan persamaan Sigmoid


Fungsion :
𝑒-
𝑃(𝑋) =
1 + 𝑒-

Berdasarkan perhitungan tersebut nilai X terhadap P(X) diketahui grafik sebagai


berikut :
P(X)
1,200

1,000

0,800

0,600

0,400

0,200

0,000
-15,000 -10,000 -5,000 0,000 5,000 10,000 15,000 20,000 25,000 30,000

4. Untuk menghitung nilai Log Likelihood menggunakan fungsi Ln dengan persamaan


berikut :
Log = (Diagnosis * (Ln(Px))+((1 + Diagnosis) * Ln(1-(Px))
5. Selanjutnya mencari total nilai Log likelihood dari 569 data dan diperoleh nilai
-512.603.
6. Dengan menggunakan fitur Solver Analys dalam aplikasi Excel diperoleh nilai :
• b0 = -18.9064
• b1 = -0.31038
• b2 = 0.218816
7. berdasarkan percobaan pada aplikasi Orange datamining dengan model berikut
diperoleh hasil regresi dengan intercept (b0) = -18.9447 dengan nilai b1 = -0.271688
dan b2 = 0.213325.
Sehingga diperoleh model probabilitas kemungkinan (diagnosis) seseorang mengindap
kanker yaitu : Y = -18.9447 + (-0.271688X1) + 0.213325X2

2) Matrik Pengukuran Regresi Logistik + Confusion Matrik


Ada beberapa cara untuk mengukur kinerja suatu model yang menghasilkan binary
classification, yang pertama adalah konsep true positive (TP), true negative (TN), false
positive (FP) dan false negative (FN) atau sering disebut juga table “prediksi vs
kenyataan” , table ini juga sering disebut juga confusion matrix.
Adapun secara singkat bisa dikatakan sebagai berikut :
• TP : Model sukses memprediksi positif (‘Ya’), karena kenyataannya memang positif
(‘Ya’)
• TN : Model sukses memprediksi positif (‘Tidak’), karena kenyataannya memang
positif (‘Tidak’)
• FP : Model memprediksi positif (‘Ya’), namun salah karena kenyataannya negatif
(‘Tidak’)
• FN : Model memprediksi negatif (‘Ya’), namun salah karena kenyataannya positif
(‘ya’)
Dalam percobaan kali ini berdasarkan aplikasi orange datamining diketahui confusion
matrix sebagai berikut :

Dari table diatas dapat dijelaskan sebagai berikut :


• Angka TP = 338 dan FP = 19 artinya model memprediksi 338 kasus positif yang tepat
dan 19 kasus postif yang tidak tepat.
• Angka FN = 30 dan TN = 182 berarti model memprediksi 30 kasus negative yang
tepat dan 182 kasus yang negative yang keliru.

Untuk mengukur accuracy (CA) model. Persamaannya adalah prediksi yang benar
dibagi dengan total seluruh populasi

./0.1
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ./0.102/021

3340546 :68
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 3340546057038 = :;7
= 0,913884 = 91,3%

Artinya akurasi model ini bernilai 91,3%, yang berarti sudah sangat baik. Karena skala
yang menjadi acuan secara umum apabila model dengan skala diatas 70% sudah bisa
digolongkan sebagai model yang berkinerja cukup baik.
Untuk mengukur precision model. Mengukur jumlah data yang sukses diprediksi sebagai
positif dibandingkan dengan seluruh data yang diprediksi positif baik yang kenyataannya
benar maupun tidak benar, dengan Persamaannya sebagai berikut.

𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃 + 𝐹𝑃

334
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 334057 = 0.9467 = 94,67%

Precision memberikan petunjuk seberapa baik model dapat menangkap prediksi yang
positif sebanyak banyak FP atau model sering salah memprediksi kemunculan data
sebagai positif, maka angka precision akan semakin rendah.

Selanjutnya mengukur sensitivity atau disebut juga recall yaitu mengukur banyaknya data
sukses diprediksi sebagai positif dibandingkan seluruh data yang pada kenyataan positif
dengan persamaan sebagai berikut :

𝑇𝑃
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 =
𝑇𝑃 + 𝐹𝑁

338
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = = 0,9184 = 91,84%
338 + 30

Sensitivity memberikan petunjuk seberapa banyak model telah luput dalam menangkap
kasus-kasus yang seharusnya diprediksi positif .

3) Kelebihan dan Kekurangan Regresi Logistik


a. Kelebihan
• Regresi Logistik adalah salah satu algoritme pembelajaran mesin yang paling
sederhana dan mudah diterapkan namun memberikan efisiensi pelatihan yang baik
dalam beberapa kasus. Karena alasan ini pula, melatih model dengan algoritme ini
tidak memerlukan daya komputasi yang tinggi.
• Parameter yang diprediksi (bobot yang dilatih) memberikan kesimpulan tentang
pentingnya setiap fitur . Arah asosiasi yaitu positif atau negatif juga
diberikan. Jadi kita bisa menggunakan regresi logistik untuk mengetahui
hubungan antar fitur.
• Algoritme ini memungkinkan model diperbarui dengan mudah untuk
mencerminkan data baru , tidak seperti pohon keputusan atau mesin vektor
pendukung. Pembaruan dapat dilakukan dengan menggunakan penurunan gradien
stokastik.
• Regresi Logistik menghasilkan probabilitas yang terkalibrasi dengan
baik bersama dengan hasil klasifikasi. Ini merupakan keunggulan dibandingkan
model yang hanya memberikan hasil klasifikasi akhir. Jika contoh pelatihan
memiliki probabilitas 95% untuk suatu kelas, dan contoh pelatihan lain memiliki
probabilitas 55% untuk kelas yang sama, kita mendapatkan kesimpulan tentang
contoh pelatihan mana yang lebih akurat untuk masalah yang dirumuskan.
• Dalam kumpulan data berdimensi rendah yang memiliki jumlah contoh pelatihan
yang memadai, regresi logistik tidak terlalu rentan terhadap over-fitting .
• Daripada langsung memulai dengan model yang kompleks, regresi logistik
terkadang digunakan sebagai model tolok ukur untuk mengukur kinerja , karena
penerapannya relatif cepat dan mudah.
• Regresi Logistik terbukti sangat efisien ketika kumpulan data memiliki fitur yang
dapat dipisahkan secara linier .
• Ini memiliki hubungan yang sangat erat dengan jaringan
saraf. Representasi jaringan saraf dapat dianggap sebagai kumpulan
pengklasifikasi regresi logistik kecil .
• Karena interpretasi probabilistiknya yang sederhana, waktu pelatihan algoritma
regresi logistik menjadi jauh lebih sedikit dibandingkan algoritma paling
kompleks , seperti Jaringan Syaraf Tiruan.
• Algoritme ini dapat dengan mudah diperluas ke klasifikasi kelas
jamak menggunakan pengklasifikasi softmax, yang dikenal sebagai Regresi
Logistik Multinomial.
• Bobot yang dihasilkan setelah pelatihan model regresi logistik ternyata sangat
dapat diinterpretasikan . Bobot w_i dapat diartikan sebagai jumlah log odds yang
akan bertambah, jika x_i bertambah 1 dan semua x lainnya tetap konstan. i di sini
mengacu pada contoh pelatihan apa pun dari i = 0 hingga n .

b. Kekurangan
• Regresi Logistik adalah model analisis statistik yang mencoba memprediksi hasil
probabilistik yang tepat berdasarkan fitur independen. Pada kumpulan data
berdimensi tinggi , hal ini dapat menyebabkan model menjadi terlalu sesuai pada
kumpulan pelatihan , yang berarti melebih-lebihkan keakuratan prediksi pada
kumpulan pelatihan sehingga model mungkin tidak dapat memprediksi hasil yang
akurat pada kumpulan pengujian . Hal ini biasanya terjadi ketika model dilatih
pada sedikit data pelatihan dengan banyak fitur. Jadi pada kumpulan data
berdimensi tinggi, teknik Regularisasi harus dipertimbangkan untuk menghindari
over-fitting (tetapi hal ini membuat model menjadi rumit). Faktor regularisasi
yang sangat tinggi bahkan dapat menyebabkan model kurang sesuai dengan data
pelatihan.
• Masalah non linier tidak dapat diselesaikan dengan regresi logistik karena
permukaan keputusannya linier . Data yang dapat dipisahkan secara linier jarang
ditemukan dalam skenario dunia nyata. Maka diperlukan transformasi fitur non
linier yang dapat dilakukan dengan memperbanyak jumlah fitur sehingga data
menjadi dapat dipisahkan secara linier pada dimensi yang lebih tinggi.
• Sulit untuk menangkap hubungan yang kompleks menggunakan regresi
logistik. Algoritme yang lebih kuat dan kompleks seperti Neural Networks dapat
dengan mudah mengungguli algoritma ini.
• Fitur pelatihan dikenal sebagai variabel independen. Regresi
Logistik memerlukan multikolinieritas yang moderat atau tidak ada sama sekali
antar variabel independen . Artinya, jika dua variabel independen mempunyai
korelasi yang tinggi, maka hanya satu saja yang boleh digunakan. Pengulangan
informasi dapat menyebabkan pelatihan parameter (bobot) yang salah selama
meminimalkan fungsi biaya. Multikolinearitas dapat dihilangkan dengan
menggunakan teknik reduksi dimensi.
• Dalam Regresi Linier, variabel bebas dan terikat harus berhubungan secara
linier. Tetapi Regresi Logistik mensyaratkan bahwa variabel independen
berhubungan secara linier dengan log odds (log(p/(1-p)) .
• Hanya fitur-fitur penting dan relevan yang boleh digunakan untuk membangun
model, jika tidak maka prediksi probabilistik yang dibuat oleh model mungkin
salah dan nilai prediksi model dapat menurun .
• Adanya nilai data yang menyimpang dari kisaran yang diharapkan dalam
kumpulan data dapat menyebabkan hasil yang salah karena algoritme ini sensitif
terhadap outlier .
• Regresi Logistik memerlukan kumpulan data yang besar dan juga contoh
pelatihan yang memadai untuk semua kategori yang perlu diidentifikasi.
• Setiap contoh pelatihan harus independen terhadap semua contoh lain dalam
kumpulan data . Jika keduanya terkait dalam beberapa hal, maka model akan
mencoba untuk lebih mementingkan contoh pelatihan spesifik tersebut . Jadi, data
pelatihan tidak boleh berasal dari data yang cocok atau pengukuran
berulang. Misalnya, beberapa teknik penelitian ilmiah mengandalkan beberapa
observasi pada individu yang sama. Teknik ini tidak dapat digunakan dalam kasus
seperti ini.

4) 10 (Sepuluh) Jurnal terkait pemanfaatan Regresi Logistik


Berikut adalah jurnal terkait dengan pemanfaatam regresi logistic :
a. Penelitian ini dilakukan pada sebuah perusahaan distribusi dan perdagangan yang
bergerak di bidang penyediaan suku cadang otomotif. Karena kelompok pelanggan
yang paling menguntungkan adalah bengkel mobil lokal, maka kelompok inilah yang
menjadi sasaran analisis. Penelitian menunjukkan variabel mana yang (dan seberapa
kuat) mempengaruhi variabel dependen, yang memungkinkan modifikasi strategi dan
penerapan solusi baru untuk meningkatkan jumlah pelanggan yang puas. Sumber:
Anna Borucka. Logistic regression in modeling and assessment of transport services.
Journal of Open Access. 2020; 10: 26-34.
b. Regresi logistik digunakan dengan tujuan untuk menilai tingkat pengaruh dari peubah
penjelas/peubah bebas terhadap perubahan hutan dan untuk memprediksi
kemungkinan terjadinya deforestasi. Faktor- faktor penyebab deforestasi yaitu
penyebab terdekat dan penyebab yang mendasari terjadinya deforestasi menjadi
peubah bebas dari sebuah model spasial pada regresi logistik Faktor deforestasi yang
disebabkan oleh aktivitas manusia dipengaruhi oleh peubah-peubah dari faktor
terdekat antara lain jarak hutan dari jalan (aksesbilitas), jarak dari pemukiman. Regresi
Logistik Model untuk memprediksi deforestasi dilakukan dengan menggunakan
regresi logistik. Regresi logistik digunakan untuk menjelaskan hubungan antara
variabel respon yang berupa data dikotomik/biner dengan variabel bebas yang berupa
data berskala ratio dan atau kategorik. Model peluang deforestasi yang dibangun
berdasarkan persamaan regresi logistik layak untuk digunakan karena telah melewati
persyaratan dalam membangun model yaitu uji Hosmer Lemeshow. Hasil uji Hosmer
Lemeshow adalah 0.063 > 0.05 dari yang ditetapkan sehingga model cocok (fit) untuk
digunakan. Sedangkan nilai Nagelkerke R2 diperoleh sebesar 37.3%, hal ini
menggambarkan bahwa 37.3% variable bebas dapat menjelaskan model, sedangkan
sisanya dijelaskan variable lain diluar model. Sumber: Indri Febriani, Lilik Budi Prasetyo,
Arya Hadi Dharmawan. Analisis Deforestasi Menggunakan Regresi Logistik Model Di Tahura
Sekitar Tanjung Provinsi Jambi. Jurnal Pengelolaan Sumberdaya Alam dan Lingkungan Vol. 7
No. 3 (Desember 2017): 195-203.
c. Penelitian ini bertujuan untuk menemukan model terbaik untuk memprediksi
keberhasilan siswa berdasarkan regresi logistik biner. Analisis ini juga digunakan
untuk mengetahui faktor-faktor yang mempengaruhi keberhasilan siswa pada Mata
Pelajaran Statistika. Lima set partisi data yang berbeda digunakan. Hasilnya
menunjukkan bahwa data dengan himpunan partisi 70% untuk himpunan estimasi dan
30% untuk himpunan evaluasi merupakan model yang paling sesuai dengan
menggunakan enam variabel independen. Prediktor yang diselidiki adalah prestasi
penilaian seperti tes 1, tes 2, kuis, tugas, tugas kelompok, dan nilai ujian akhir. Hasil
menunjukkan perbedaan yang signifikan pada tes 2 dan nilai tes akhir dalam
menentukan faktor yang mempengaruhi hasil mata pelajaran. Selain itu, model
keseluruhan menjelaskan lebih lanjut bahwa 95,8% sampel diklasifikasikan dengan
benar. Penelitian ini dilakukan dengan menggunakan software SPSS dan excel. Untuk
mengetahui variabel yang signifikan dapat dilakukan penelitian lebih lanjut dengan
menggunakan metode analisis regresi linier. Sumber: Nur Syuhada Muhammat Pazil,
Norwaziah Mahmud, Nuridawati Baharom, Siti Hafawati Jamaluddin. Logistic
Regression in Determining Affecting Factors Student Success in an Introductory
Statistics Subject. Jurnal Intelek Volume 18 Issue 1 (Februari) 2023.
d. Corona Virus Disease 2019 atau biasa disebut Covid-19 merupakan salah satu jenis
virus yang dapat menginfeksi paru-paru manusia dan dapat menyebabkan penyakit
fatal seperti Middle East Respiratory Syndrome (MERS) dan Severe Acute
Respiratory Syndrome (SARS). Risiko penyebaran virus ini tinggi, sedang, dan
rendah. Metode Regresi Logistik Ordinal merupakan salah satu metode yang dapat
digunakan untuk memodelkan faktor-faktor yang diduga mempengaruhi tingkat risiko
penyebaran virus corona di Jawa Timur, karena regresi logistik ordinal mempunyai
variabel respon yang berskala ordinal sesuai dengan tingkat penyebaran yang terjadi.
Hasil analisis uji kesesuaian model menunjukkan bahwa model logit layak digunakan.
Pengujian estimasi parameter secara simultan dengan nilai G2 = 25,64 berarti model
logit secara simultan signifikan terhadap variabel respon. Pemilihan model eliminasi
mundur menunjukkan bahwa jumlah kematian akibat Covid-19 dan rata-rata anggota
rumah tangga berpengaruh signifikan terhadap risiko penyebaran Covid-19 di Jawa
Timur. Rasio odds jumlah kematian akibat Covid-19 adalah 1,044. Hal ini
menunjukkan bahwa setiap kenaikan satu satuan jumlah kematian akibat Covid-19,
maka suatu daerah yang berstatus risiko rendah atau sedang sebesar 1,044 kali akan
menjadi berisiko sedang dan tinggi. Nilai odds rasio rata-rata jumlah rumah tangga
adalah sebesar 0,079 yang menunjukkan bahwa setiap peningkatan satu satuan rata-
rata jumlah rumah tangga maka suatu wilayah yang berstatus risiko rendah atau sedang
sebesar 0,079 kali akan berada pada risiko sedang dan tinggi. Sumber: Wara Pramesti,
Windi Utami, Fenny Fitriani. Regresi Logistik Backward Elimination pada Risiko
Penyebaran Covid-19 di Jawa Timur. Journal of Statistics and Its Application on
Teaching and Research ISSN 2684-7590 (Online) Vol. 3 No. 3 (2021), 162-170.
e. Penelitian ini mengeksplorasi dan meninjau model regresi logistik (LR), sebuah
metode multivariabel untuk memodelkan hubungan antara beberapa variabel
independen dan variabel dependen kategoris, dengan penekanan pada penelitian
medis. Tiga puluh tujuh artikel penelitian yang diterbitkan antara tahun 2000 dan 2018
yang menggunakan regresi logistik sebagai alat statistik utama serta enam buku teks
tentang regresi logistik telah ditinjau. Konsep regresi logistik seperti odds, odds rasio,
transformasi logit, kurva logistik, asumsi, pemilihan variabel dependen dan
independen, penyesuaian model, pelaporan dan interpretasi disajikan. Setelah
membaca literatur dengan teliti, ditemukan banyak kekurangan dalam penggunaan dan
pelaporan LR. Bagi banyak penelitian, rasio jumlah peristiwa hasil terhadap variabel
prediktor (peristiwa per variabel) cukup kecil sehingga mempertanyakan keakuratan
model regresi. Selain itu, sebagian besar penelitian tidak melaporkan analisis validasi,
diagnostik regresi, atau ukuran goodness-of-fit; langkah-langkah yang mengotentikasi
kekokohan model LR. Di sini, kami menunjukkan contoh penerapan model LR dengan
menggunakan data yang diperoleh dari kohort wanita hamil dan faktor-faktor yang
mempengaruhi keputusan mereka untuk memilih operasi caesar atau kelahiran normal.
Disarankan agar peneliti lebih teliti dan memberikan perhatian lebih besar terhadap
pedoman mengenai penggunaan dan pelaporan model LR. Sumber: Ernest Yeboah
Boateng, Daniel A. Abaye. A Review of the Logistic Regression Model with Emphasis
on Medical Research. Journal of Data Analysis and Information Processing, 2019, 7,
190-207.
f. Industri agribisnis merupakan salah satu tempat kerja yang paling berbahaya dalam
hal kecelakaan kerja yang tidak fatal. Istilah “keadaan pasca-insiden” digunakan untuk
menggambarkan status kesehatan orang yang terluka ketika telah terjadi kecelakaan
kerja yang tidak fatal, pada periode pasca-insiden ketika pekerja kembali bekerja, baik
segera setelah nol hari tidak bekerja. (keadaan medis) atau setelah masa kecacatan
(keadaan kecacatan). Analisis terhadap hampir 14.000 insiden kerja dalam operasi
agribisnis memungkinkan klasifikasi kondisi pasca-insiden sebagai kondisi medis atau
disabilitas (masing-masing 77% dan 23% kasus). Karena besarnya dampak insiden
kerja terhadap hasil pasar tenaga kerja, mengidentifikasi faktor-faktor yang
mempengaruhi tingkat keparahan insiden tersebut memainkan peran penting dalam
meningkatkan keselamatan di tempat kerja, melindungi pekerja, dan mengurangi biaya
akibat cedera pasca-insiden. Selain itu, biaya rata-rata di negara bagian disabilitas jauh
lebih tinggi dibandingkan biaya di negara bagian medis. Oleh karena itu, penelitian ini
bertujuan untuk mengidentifikasi faktor-faktor yang berkontribusi terhadap negara-
negara pasca-insiden dengan regresi logistik menggunakan informasi dari klaim
kompensasi pekerja yang dicatat antara tahun 2008 dan 2016 di wilayah Midwest
Amerika Serikat. Persamaan regresi logistik diturunkan untuk menghitung peluang
kecacatan pasca-insiden. Hasil penelitian menunjukkan bahwa faktor-faktor yang
mempengaruhi keadaan pasca-insiden meliputi bagian tubuh yang cedera, sifat cedera,
dan usia, pengalaman, dan pekerjaan pekerja, serta industri, dan merupakan prediktor
yang signifikan secara statistik terhadap keadaan pasca-insiden. Insiden-insiden
spesifik yang dapat memprediksi akibat dari kecacatan termasuk terjepit/di
antara/bawah, cedera terjatuh/terpeleset/tersandung, dan terkilir/cedera oleh.
Metodologi dan hasil estimasi memberikan pemahaman yang mendalam tentang
faktor-faktor yang mempengaruhi cedera medis/cacat, selain sebagai referensi
bermanfaat untuk mengembangkan tindakan pencegahan yang efektif untuk
pencegahan insiden kerja. Sumber: Fatemeh Davoudi Kakhki, Steven A. Freeman and
Gretchen A. Mosher. Use of Logistic Regression to Identify Factors Influencing the
Post-Incident State of Occupational Injuries in Agribusiness Operations. MDPI Appl.
Sci. 2019, 9, 3449.
g. Kursus pengantar STEM yang besar secara historis memiliki tingkat kegagalan yang
tinggi, dan kegagalan kursus tersebut sering kali menyebabkan siswa berpindah
jurusan atau bahkan keluar dari perguruan tinggi. Inovasi pembelajaran seperti model
Asisten Pembelajaran dapat mempengaruhi tren ini dengan mengubah norma-norma
kelembagaan. Bekerja sama dengan fakultas yang mengajar kursus pengantar STEM
dalam jumlah besar, asisten pembelajaran sarjana (LA) menggunakan strategi
pengajaran berbasis penelitian yang dirancang untuk mendorong keterlibatan siswa
aktif dan memperoleh pemikiran siswa. Inovasi pembelajaran ini membantu siswa
menguasai jenis keterampilan yang diperlukan untuk keberhasilan perguruan tinggi
seperti berpikir kritis dan mempertahankan ide. Dalam studi ini, kami menggunakan
regresi logistik dengan data kelembagaan yang sudah ada untuk menyelidiki hubungan
antara paparan terhadap dukungan LA dalam kursus pengantar STEM yang besar dan
tingkat kegagalan umum dalam kursus pengantar yang sama dan kursus pengantar
lainnya di University of Colorado Boulder. Hasil kami menunjukkan bahwa paparan
terhadap dukungan LA dalam kursus gerbang STEM apa pun dikaitkan dengan
penurunan peluang kegagalan sebesar 63% pada laki-laki dan pengurangan peluang
kegagalan sebesar 55% pada perempuan pada kursus gerbang STEM berikutnya.
Sumber: Jessica L. Alzen, Laurie S. Langdon and Valerie K. Otero. A logistic
regression investigation of the relationship between the Learning Assistant model and
failure rates in introductory STEM courses. Alzen et al. International Journal of STEM
Education (2018) 5:56.
h. Tujuan dari makalah ini adalah untuk mempelajari faktor-faktor terpenting yang
mempengaruhi diabetes menggunakan metode regresi logistik dan untuk melakukan
semua pengujian untuk metode ini (uji Hosmer dan Lemeshow, uji Omnibus koefisien
model, ...dll.). Sampel yang diacak mencakup (150) orang lanjut usia di kota Al-Hilla,
penelitian ini mencakup fokus pada (14) variabel independen dan sebagian besar
variabel ini ditemukan memiliki signifikansi, pengaruh, dan kontribusi terhadap
regresi logistik - respons biner (tidak model sakit(0), sakit(1)) adalah (4) variabel
(merokok, olah raga, vitamin (D), tekanan darah), yang mempengaruhi diabetes, dan
variabel selebihnya tidak mempunyai signifikansi atau pengaruh. Pengklasifikasian
observasi menggunakan model regresi logistik-respons biner cukup akurat, dengan
tingkat klasifikasi benar secara keseluruhan (92,7%) sedangkan tingkat klasifikasi
salah secara keseluruhan (7,3%). Sumber: Zainab Abood Ahmed AL_Bairmani, Aasha
Abdulkhleq Ismael. Using Logistic Regression Model to Study the Most Important
Factors Which Affects Diabetes for The Elderly in The City of Hilla / 2019. Journal
of Physics: Conference Series 1818 (2021) 012016.
i. Makalah ini menyelidiki faktor-faktor yang mempengaruhi preferensi pengguna parkir
online di Kabupaten Sidoarjo Indonesia, dengan menggunakan pendekatan model
regresi logistik biner. Model ini dapat memprediksi preferensi pengguna antara sistem
parkir online dan offline. Melalui teknik nonprobability convenience sampling,
kuesioner terstruktur digunakan untuk mengumpulkan data primer dari 384 responden
di tiga lokasi parkir berbeda di Sidoarjo. Hasil model regresi logistik biner
menunjukkan bahwa jenis kelamin, usia, frekuensi parkir, dan durasi parkir
merupakan empat faktor utama yang secara signifikan mempengaruhi keputusan
pengguna parkir. Hal ini tentunya akan sangat membantu pemerintah Dinas
Perhubungan sebagai pengambil kebijakan parkir untuk mengembangkan strategi
dalam mendorong masyarakat menggunakan parkir online. Sumber: E Widodo, R N
Harnaningrum, Suparno and A Santoso. Logistic regression model for user preference
of online parking: A study case of Sidoarjo. IOP Conf. Series: Materials Science and
Engineering 885 (2020) 012056.
j. Regresi Logistik (Logit) merupakan suatu metode analisis statistika yang
mendeskripsikan hubungan antara peubah respon (dependent variable) yang bersifat
kualitatif memiliki dua kategori atau lebih dengan satu atau lebih peubah penjelas
(independent variable) berskala kategori atau interval. Tulisan ini bertujuan
mengelaborasi penerapan Model Regresi Logistik dalam menganalisis adopsi
teknologi pertanian, kasus adopsi VUB padi. Sumber data memanfaatkan hasil survey
kepada 155 orang petani responden di lahan rawa lebak di Kabupaten HSU
Kalimantan Selatan, tahun 2009. Model dirancang dengan memasukkan unsur adopsi
sebagai peubah respon, dihubungkan dengan 13 unsur peubah penjelas. Dari aplikasi
model dengan metoda penduga maximum likelihood menggunakan Minitab Versi 16,
diperoleh gambaran: (1) Penerapan Regresi Logistik dengan nilai duga maksimum
likelihood menggunakan Minitab dapat direkomendasikan untuk menganalisis adopsi
teknologi pertanian pada kasus adopsi teknologi VUB padi. Hal itu didukung fakta
hasil analisis yang ditunjukkan oleh signifikansi model yang tinggi, hasil uji parsial
yang efektif, penafsiran hasil melalui Odd ratio, dan tampilan ukuran asosiasi antara
peubah respon dengan peubah penjelas menunjukkan hubungan yang kuat dan
sekaligus menunjukkan semakin baiknya daya prediksi model sebagaimana
ditunjukkan oleh besarnya nilai Concordant serta kecilnya nilai Discordant dan Ties;
(2) Faktor kunci untuk mendapatkan hasil duga Regresi Logistik yang baik, adalah
besaran jumlah responden yang representatif dengan keragaman relatif tinggi. Oleh
karena itu validasi data menjadi faktor penentu dan krusial dilakukan sebelum analisis
data. Sumber: Rahmat Hendayana. Penerapan Metode Regresi logistic dalam
menganalisis Adopsi Teknologi Pertanian. Informatika Pertanian Vol.22 No. 1 Juni
2013.

Referensi :
1. https://iq.opengenus.org/advantages-and-disadvantages-of-logistic-regression/
2. https://www.kaggle.com/code/khadafii/praktikum-3-regresi-logistik/input
Pertemuan ke-4
(Decision Tree)
1) Model Decision Tree
Algoritma decision tree adalah sebuah metode untuk membuat keputusan berdasarkan
serangkaian pertanyaan yang terstruktur dalam bentuk pohon keputusan. Setiap simpul pada
pohon keputusan mewakili sebuah pertanyaan atau kondisi, dan setiap cabang dari simpul
tersebut mewakili jawaban atau aksi yang diambil berdasarkan kondisi tersebut. Proses
membuat keputusan dimulai dari simpul paling atas (root node) dan bergerak ke bawah pohon
sesuai dengan jawaban atau kondisi yang dipilih pada setiap simpul. Algoritma decision
tree biasa digunakan dalam aplikasi machine learning untuk memprediksi keputusan atau
klasifikasi suatu data berdasarkan fitur-fitur yang ada.

Konsep entropi digunakan untuk penentuan pada atribut mana sebuah pohon akan terbagi
(split). Semakin tinggi entropy sebuah sampel, semakin tidak murni sampel tersebut. Rumus
yang digunakan untuk menghitung entropy sampel S adalah Entropy(S) = −p1log2p1–p2log2p2

Entropi adalah ukuran keacakan informasi yang sedang diproses. Semakin tinggi entropinya,
semakin sulit menarik kesimpulan dari informasi tersebut. Melempar koin merupakan salah
satu contoh tindakan yang memberikan informasi yang bersifat acak.

Dalam simulasi Decision Tree, saya mengambil dataset prediksi risiko Fraud pada penyaluran
dana Bantuan Sosial PIP. Dataset yang saya ambil dari http://sipintar.kemdikbud.go.id dan
http://dapo.kemdikbud.go.id diketahui prediksi berapa besar kemungkinan sekolah melakukan
potensi fraud.

a. Data training yang dipersiapkan dalam bentuk xlsx dengan nama


FraudCianjurPIPNormal.xlsx, isi data tersebut adalah sebanyak 1869 baris data yang
memiliki 18 Feature dan 1 Target dengan kategori tinggi, sedang dan rendah, namun
berdasarkan ranking terdapat 2 feature yang berpengaruh. Berikut dataset yang digunakan
:

c. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining yaitu sebagai berikut.

- Berdasarkan sebaran data menggunakan scatterplot diperoleh informasi data sebagai


berikut.
- Berdasarkan tree viewer diketahui informasi sebagai berikut

2) Matrik Pengukuran Confusion Matrik


Dalam percobaan kali ini berdasarkan aplikasi orange datamining diketahui confusion
matrix dengan data latih 80% dan data test 20% sebagai berikut :
Dari table diatas dapat dijelaskan sebagai berikut :
• Angka TP = 5122 dan FP = 258 artinya model memprediksi 5122risiko rendah yang
tepat dan 258 risiko rendah yang tidak tepat.
• Angka FN = 427 dan TN = 1673 berarti model memprediksi 427 risiko tinggi yang
tepat dan 1673 risiko tinggi yang keliru.

Untuk mengukur accuracy (CA) model. Persamaannya adalah prediksi yang benar
dibagi dengan total seluruh populasi

./0.1
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ./0.102/021

:56605;<3
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = :56605;<306:40=6< = 0.908

Artinya akurasi model ini bernilai 90,8%, yang berarti sudah sangat baik. Karena skala
yang menjadi acuan secara umum apabila model dengan skala diatas 70% sudah bisa
digolongkan sebagai model yang berkinerja cukup baik.

Untuk mengukur precision model. Mengukur jumlah data yang sukses diprediksi sebagai
positif dibandingkan dengan seluruh data yang diprediksi positif baik yang kenyataannya
benar maupun tidak benar, dengan Persamaannya sebagai berikut.

./
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ./02/

Precision memberikan petunjuk seberapa baik model dapat menangkap prediksi yang
positif sebanyak banyak FP atau model sering salah memprediksi kemunculan data
sebagai positif, maka angka precision akan semakin rendah.

Selanjutnya mengukur sensitivity atau disebut juga recall yaitu mengukur banyaknya data
sukses diprediksi sebagai positif dibandingkan seluruh data yang pada kenyataan positif
dengan persamaan sebagai berikut :

./
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = ./021

Sensitivity memberikan petunjuk seberapa banyak model telah luput dalam menangkap
kasus-kasus yang seharusnya diprediksi tinggi .

Berikut hasil test dari aplikasi Orange datamining


Berdasarkan hasil test diketahui terdapat nilai Logloss 1.682, artinya model tidak dapat
memprediksi dengan baik dikarenakan masih adanya data yang overviting dan penyebaran
data antara kategori rendah dengan kategori tinggi masih terjadi ketimpangan.

- Berikut hasil distribusi prediksi

Terlihat masih terdapat data yang masuk kategori rendah namun dinyatakan tinggi begitu
juga Ketika data masuk kategori tinggi namun model menyatakan rendah
3) Kelebihan dan Kekurangan Decision Tree
a. Kelebihan
• Mudah dipahami karena mengikuti proses yang sama seperti cara manusia saat
membuat keputusan dalam kehidupan nyata.
• Sangat berguna untuk memecahkan masalah terkait keputusan.
• Membantu untuk memikirkan semua kemungkinan hasil untuk suatu masalah.
• Data cleaning cenderung lebih sedikit dibandingkan dengan algoritma lain.

b. Kekurangan
• Mengandung banyak layer yang membuat algoritma ini cukup rumit.
• Dapat terjadi masalah overfitting, namun dapat diselesaikan dengan menggunakan
algoritma Random Forest.
• Untuk label kelas yang cenderung banyak, kompleksitas komputasi dari Decision
tree dapat meningkat.

4) 10 (Sepuluh) Jurnal terkait pemanfaatan Decision Tree


Berikut adalah jurnal terkait dengan pemanfaatam Decision Tree :
a. Pembelajaran mesin adalah mempelajari mesin berdasarkan berbagai data pelatihan
dan pengujian dan menentukan hasilnya setiap kondisi tanpa diprogram secara
eksplisit. Salah satu teknik pembelajaran mesin adalah Decision Tree. Bidang yang
berbeda menggunakan algoritma Decision Tree dan menggunakannya pada
aplikasinya masing-masing. Algoritma ini dapat digunakan untuk mencari data
prosedur statistik pengganti, untuk mengekstrak teks, bidang bersertifikat medis dan
juga di mesin pencari. Pohon Keputusan yang berbeda algoritma telah dibangun sesuai
dengan keakuratan dan efektivitas biayanya. Untuk menggunakan algoritma terbaik
dalam setiap situasi pengambilan keputusan sangatlah penting untuk kita ketahui.
Makalah ini mencakup tiga algoritma Pohon Keputusan yang berbeda yaitu ID3, C4.5
dan Cart. Sumber: Harsh H. Patel, Purvi Prajapati. Study and Analysis of Decision
Tree Based Classification Algorithms. IOP Conf. Series: Vol.-6, Issue-10, Oct. 2018
E-ISSN: 2347-2693.
b. Dalam penambangan data, klasifikasi adalah salah satu teknik penting yang dapat
diterapkan dalam deteksi penipuan, kecerdasan buatan, Diagnosis Medis, dan banyak
bidang lainnya. Klasifikasi objek berdasarkan ciri-cirinya ke dalam kategori yang telah
ditentukan merupakan masalah yang banyak dipelajari. Pohon keputusan sangat
berguna untuk mendiagnosis masalah pasien oleh dokter. Pengklasifikasi pohon
keputusan digunakan secara luas untuk diagnosis tumor payudara dalam gambar
ultrasonik, kanker ovarium, dan diagnosis suara jantung. Dalam makalah ini, kinerja
pengklasifikasi induksi pohon keputusan pada berbagai kumpulan data medis dalam
hal akurasi dan kompleksitas waktu dianalisis. Sumber: D.Lavanya, Dr. K.Usha Rani.
Performance Evaluation of Decision Tree Classifiers on Medical Datasets. Volume
26– No.4, July 2011 International Journal of Computer Applications (0975 – 8887).
c. Pertumbuhan suatu lembaga pendidikan dapat diukur dengan istilah siswa yang sukses
di institut tersebut. Analisis terkait dengan prediksi prestasi akademik siswa lebih
tinggipendidikan nampaknya merupakan kebutuhan penting untuk perbaikan dalam
pendidikan yang berkualitas. Teknik data mining memainkan peran peranan penting
dalam analisis data. Untuk pembangunan a model klasifikasi yang dapat memprediksi
kinerja siswa, khususnya untuk cabang teknik, pohon keputusan algoritma yang terkait
dengan teknik data mining yang dimiliki pernah digunakan dalam penelitian tersebut.
Sejumlah faktor dapat mempengaruhi kinerja siswa. Di sini ada beberapa faktor
penting yang berperan telah dipertimbangkan saat membangun pohon keputusan
mengelompokkan siswa menurut atributnya (nilai). Di dalam makalah ini empat
algoritma pohon keputusan yang berbeda J48, NBtree, Reptree dan Simple cart
dibandingkan dan pohon keputusan J48 algoritma ditemukan sebagai algoritma yang
paling cocok untuk model konstruksi. Metode validasi silang dan pembagian
persentase metode yang digunakan untuk mengevaluasi efisiensi yang berbeda
algoritma. Proses KDD tradisional telah digunakan sebagai metodologi. WEKA
(Lingkungan Waikato untuk Analisis Pengetahuan) alat digunakan untuk analisis dan
ramalan. . Hasil yang diperoleh dalam penelitian ini mungkin membantu untuk
mengidentifikasi siswa yang lemah sehingga manajemen dapat mengambil tindakan
yang tepat, dan tingkat keberhasilan siswa dapat ditingkatkan secara memadai.
Sumber: Mrinal Pandey, Vivek Kumar Sharma, PhD. A Decision Tree Algorithm
Pertaining to the Student Performance Analysis and Prediction. Volume 61– No.13,
January 2013. International Journal of Computer Applications (0975 – 8887).
d. Saat ini, jumlah data yang disimpan dalam database pendidikan meningkat pesat. Basis
data ini berisi informasi tersembunyi untuk peningkatan kinerja siswa. Klasifikasi
objek data adalah teknik penambangan data dan manajemen pengetahuan yang
digunakan dalam mengelompokkan objek data serupa. Ada banyak algoritma
klasifikasi yang tersedia dalam literatur tetapi pohon keputusan adalah yang paling
umum digunakan karena kemudahan eksekusi dan lebih mudah dipahami
dibandingkan dengan algoritma klasifikasi lainnya. Algoritma pohon keputusan ID3,
C4.5 dan CART diterapkan pada data siswa untuk memprediksi kinerja mereka.
Namun semua ini hanya digunakan untuk kumpulan data kecil dan mengharuskan
seluruh atau sebagian dari keseluruhan kumpulan data tetap tersimpan secara
permanen di memori. Hal ini membatasi kesesuaiannya untuk menambang database
besar. Masalah ini diselesaikan dengan algoritma pohon keputusan SPRINT dan SLIQ.
Dalam implementasi serial SPRINT dan SLIQ, kumpulan data pelatihan dipartisi
secara rekursif menggunakan teknik broadth-first. Dalam tulisan ini, seluruh algoritma
dijelaskan satu per satu. Kinerja dan hasil semua algoritma dibandingkan dan evaluasi
dilakukan berdasarkan kumpulan data yang sudah ada. Semua algoritma memiliki
kinerja yang memuaskan tetapi akurasi lebih terlihat pada algoritma SPRINT. Sumber:
Anuja Priyam , Abhijeet , Rahul Gupta , Anju Rathee , Saurabh Srivastava.
Comparative Analysis of Decision Tree Classification Algorithms. Vol.3, No.2 (June
2013). International Journal of Current Engineering and Technology ISSN 2277 –
4106.
e. Pengurai bahasa alami sintaksis miliki menunjukkan diri mereka tidak memadai untuk
memproses kosakata besar yang sangat ambigu teks, sebagaimana dibuktikan oleh
kinerja buruk mereka di domain seperti Wall Street Jurnal, dan dengan menjauh dari
pendekatan berbasis parsing hingga pemrosesan teks secara umum. Dalam tulisan ini,
saya menjelaskan SPATTER, berbasis parser statistic tentang teknik pembelajaran
pohon keputusan yang menyusun penguraian lengkap untuk setiap kalimat dan
mencapai tingkat akurasi yang jauh lebih baik daripada hasil apa pun yang
dipublikasikan. Pekerjaan ini didasarkan pada premis-premis berikut: (1) tata
bahasanya terlalu rumit dan mendetail kembangkan secara manual untuk sebagian
besar domain menarik; (2) model parsing harus sangat bergantung pada informasi
leksikal dan kontekstual untuk menganalisis kalimat secara akurat; dan (3) yang ada
teknik pemodelan n-gram adalah tidak memadai untuk mengurai model. Dalam
percobaan membandingkan SPATTER dengan IBM parser manual komputer,
SPATTER secara signifikan mengungguli berbasis tata Bahasa pengurai.
Mengevaluasi SPATTER terhadap Korpus Jurnal Penn Treebank Wall Street
menggunakan ukuran PARSEVAL, SPATTER mencapai presisi 86%, recall 86%, dan
1,3 tanda kurung silang per kalimat untuk kalimat yang terdiri dari 40 kata atau kurang,
dan presisi 91%, recall 90%, dan tanda kurung silang 0,5 untuk kalimat antara 10 dan
20 kata dalam panjang. Sumber: David M. Magerman. Statistical Decision-Tree
Models for Parsing. Bolt Beranek and Newman Inc 70 Fawcett Street, Room 15/148
Cambridge, MA 02138, USA.
f. Pengklasifikasi pohon keputusan dianggap sebagai salah satu metode paling terkenal
untuk representasi klasifikasi data dari pengklasifikasi. Peneliti yang berbeda dari
berbagai bidang dan latar belakang telah mempertimbangkan masalah perluasan pohon
keputusan dari data yang tersedia, seperti studi mesin, pengenalan pola, dan statistik.
Di berbagai bidang seperti analisis penyakit medis, klasifikasi teks, klasifikasi ponsel
cerdas pengguna, gambar, dan banyak lagi, penggunaan pengklasifikasi pohon
keputusan telah diusulkan dalam banyak cara. Makalah ini memberikan pendekatan
rinci terhadap pohon keputusan. Selain itu, makalah spesifik, seperti
algoritma/pendekatan yang digunakan, kumpulan data, dan hasil yang dicapai,
dievaluasi dan diuraikan secara komprehensif. Selain itu, semua pendekatan yang
dianalisis dibahas untuk mengilustrasikan tema penulis dan mengidentifikasi
pengklasifikasi yang paling akurat. Hasilnya, penggunaan berbagai jenis kumpulan
data didiskusikan dan temuannya dianalisis. Sumber: Bahzad Taha Jijo, Adnan Mohsin
Abdulazeez, Classification Based on Decision Tree Algorithm for Machine Learning,
Vol. 02, No. 01, pp. 20 – 28 (2021), ISSN: 2708-0757.

g. Pentingnya efisiensi dalam ruang pohon keputusan aturan pencarian C4.5 algoritma
telah menjadi fokus banyak peneliti. Oleh karena itu, pembangunan perlu dilakukan
dilakukan untuk membentuk metode baru yang lebih efisien namun tidak dapat
dipisahkan dari keakuratan analisis sebagai hasil dari algoritma itu sendiri. Untuk itu,
dengan menggunakan algoritma genetika (GA), diharapkan dapat lebih
mengoptimalkan dan menyederhanakan aturan pencarian kombinasi yang kompleks.
Penggunaan C4.5 dengan algoritma genetika Hybrid untuk pencarian yang lebih
banyak aturan yang efektif memerlukan pemahaman yang lebih baik dan waktu yang
lama. Namun kegunaan keduanya Algoritma akan paling efektif jika kasus yang
dihadapi sangat kompleks dan memiliki lebih banyak kasus kondisi bercabang dan
sangat akurat. Sumber: Irfan Sudahri Damanik , Agus Perdana Windarto , Anjar Wanto
, Poningsih , Sundari Retno Andani , Widodo Saputra, IOP Conf. Series: Journal of
Physics: Conf. Series 1255 (2019) 012012.
h. Penerapan pembelajaran mesin dapat ditemukan di sektor ritel, perbankan, pendidikan,
kesehatan, dll. Untuk memproses data berukuran besar. Berasal dari berbagai sektor,
para peneliti mengembangkan algoritma yang berbeda dengan menggunakan keahlian
dari beberapa bidang dan pengetahuan tentang algoritma yang ada. Algoritme pohon
keputusan pembelajaran mesin yang mencakup ID3, C4.5, C5.0, dan CART (Pohon
Klasifikasi dan Regresi) cukup kuat. ID3 dan C4.5 sebagian besar digunakan dalam
masalah klasifikasi, dan memang demikian fokus penelitian ini. C4.5 adalah versi
perbaikan dari ID3 yang dikembangkan oleh Ross Quinlan. Kinerja prediksi ini
algoritma sangatlah penting. Dalam tulisan ini, kinerja prediksi algoritma pohon
keputusan akan dipelajari secara mendalam tinjauan akan dilakukan terhadap
penelitian relevan yang berupaya meningkatkan kinerja algoritma dan berbagai
lainnya metode yang digunakan. Perbandingan juga akan dilakukan antara berbagai
algoritma berbasis pohon. Kontribusi utama dari ulasan ini adalah untuk memberikan
kemajuan yang dicapai sejauh ini kepada para peneliti, karena belum ada literatur yang
relevan perbaikan algoritma berbasis pohon keputusan, dan terakhir meletakkan dasar
untuk penelitian dan perbaikan di masa depan. Sumber: Ibomoiye Domor Mienyea ,
Yanxia Sun, Zenghui Wang, Prediction performance of improved decision tree-based
algorithms: a review 2351-9789 © 2019 The Authors. Published by Elsevier B.V.
i. Energy security (ES) berdampak besar pada jaringan listrik. Oleh karena itu penting
adanya power security service (PSS). PSS harus dirancang untuk menangani gangguan
dan serangan interupsi pada jaringan listrik. Serangan interferensi dan interupsi pada
jaringan ditangani oleh incursion-detection system (IDS). IDS adalah strategi yang
paling mudah diperoleh untuk merasakan dan mengklasifikasikan berbagai masalah
keamanan dan masalah abnormal yang terjadi di jaringan listrik. Oleh karena itu IDS
harus selalu mengetahui isu-isu terkini yang terjadi di seluruh jaringan. Konsep yang
diusulkan menggambarkan pengumpulan data dengan mengacu pada serangan intrusi
pada jaringan listrik dan untuk menguji serta mengevaluasi berbagai strategi
pembelajaran mesin untuk menggambarkan berbagai serangan dan masalah yang
terjadi pada jaringan sistem tenaga listrik. Pekerjaan penelitian diilustrasikan dengan
algoritma pohon keputusan J48 yang dimodifikasi. Sumber: K. Ramya, Yuvaraja
Teekaraman, K. A. Ramesh Kumar, Department of Energy Science, Periyar
University, Salem City, India – 636 011, Vol. 12(2), 2019, pp. 1173–1178.
j. Penelitian ini menyajikan modifikasi algoritma Quinlan C4.5 untuk klasifikasi data
tidak seimbang. Sedangkan algoritma C4.5 menggunakan perbedaan entropi informasi
untuk menentukan kebaikan terpisah, metode yang diusulkan, yang diberi nama
AUC4.5, menguji perbedaan area di bawah ROC kurva (AUC) dari perpecahan. Ini
menyiratkan bahwa metode kami berupaya memaksimalkan nilai AUC dari keputusan
terlatih pohon untuk mengatasi ketidakseimbangan kelas dalam data. Sebuah studi
eksperimental ekstensif dilakukan pada 20 real kumpulan data dari repositori
pembelajaran mesin di Universitas California di Irvine, Irvine. Yang diusulkan
Algoritma AUC C4.5 menunjukkan klasifikasi yang lebih baik daripada algoritma
C4.5 standar dan sensitif terhadap biaya. Sumber: Jong-Seok Lee, AUC4.5: AUC-
Based C4.5 Decision Tree Algorithm for Imbalanced Data Classification Received
June 29, 2019, accepted July 25, 2019, date of publication July 29, 2019, date of
current version August 15, 2019.
Pertemuan ke-5
(Naïve Bayes)
1) Model Naïve Bayes
a. Naïve Bayes merupakan algoritma yang mengandalkan probabilitas atau kemungkinan
dalam menyelesaikan kasusnya. Algoritma ini akan menghitung nilai berdasarkan
kemungkinan munculnya kategori berdasarkan kelas targetnya, dengan persamaan
sebagai berikut.
!"𝑋#𝐻 $!(&)
𝑃(𝐻|𝑋) = !(()

Di mana X adalah bukti, lalu H adalah hipotesa, sementara P(H|X) adalah probabilitas
bahwa hipotesis H benar untuk bukti X atau dengan kata lain P(H|X) merupakan
probabilitas posterior H dengan syarat X, selanjutnya penjelasan dari P(X|H) adalah
probabilitas bahwa bukti X untuk hipotets H atau probabilitas posterior X dengan syarat
H, P(H) adalah probabilitas prior hipotesis H dan P(X) adalah probabilitas prior Bukti X.

Apabila himpunan data memiliki banyak atribut, maka dapat mereduksi kompleksitas
penghitungan P(X|H1) dengan asumsi naif tentang independensi bersyarat kelas, yaitu
nilai-nilai atribut adalah saling independen tidak ketergantungan sama sekali. Dengan
demikian, naïve bayes classifier memaksimalkan persamaan berikut.
𝑃(𝐻1|𝑋) = ∏-).* 𝑃(𝑥) |𝐻* ) = 𝑃(𝑥* |𝐻+ ). 𝑃(𝑥, |𝐻+ ) … 𝑃(𝑥- |𝐻+ )

Sementara untuk atribut yang bernilai kontinu, yang umumnya diasumsikan memiliki
Distribusi Gaussian, P(xk|Hi) di definisikan sebagai berikut.
($%&!" )
*
𝑃(𝑥) |𝐻+ ) = / 𝑒 () (
!"
!"√,1

Dimana µHi dan σHi adalah rata-rata dan deviasi standar dari nilai-nilai pada atribut Xk
untuk kelas Hi

b. Data training yang dipersiapkan dalam bentuk xlsx dengan nama


FraudCianjurPIPNormal1.xlsx, isi data tersebut adalah sebanyak 1869 baris data yang
memiliki 18 Feature dan 1 Target dengan kategori tinggi, sedang dan rendah, namun
berdasarkan ranking terdapat 2 feature yang berpengaruh. Berikut dataset yang digunakan
c. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining yaitu sebagai berikut.

- Berdasarkan sebaran data menggunakan scatterplot diperoleh informasi data sebagai


berikut.

2) Matrik Pengukuran Confusion Matrik


Dalam percobaan kali ini berdasarkan aplikasi orange datamining diketahui confusion
matrix dengan data latih 80% dan data test 20% sebagai berikut :
Dari table diatas dapat dijelaskan sebagai berikut :
• Angka TP = 4450 dan FP = 930 artinya model memprediksi 4450 risiko rendah yang
tepat dan 930 risiko rendah yang tidak tepat.
• Angka FN = 523 dan TN = 1577 berarti model memprediksi 523 risiko tinggi yang
tepat dan 1577 risiko tinggi yang keliru.

Untuk mengukur accuracy (CA) model. Persamaannya adalah prediksi yang benar
dibagi dengan total seluruh populasi
./0.1
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ./0.102/021

accuracy (CA) memberikan petunjuk dalam mengukur persentase prediksi yang benar
dari seluruh prediksi.
Untuk mengukur precision model. Mengukur jumlah data yang sukses diprediksi sebagai
positif dibandingkan dengan seluruh data yang diprediksi positif baik yang kenyataannya
benar maupun tidak benar, dengan Persamaannya sebagai berikut.
./
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ./02/

Precision memberikan petunjuk seberapa baik model dapat menangkap prediksi yang
positif sebanyak banyak FP atau model sering salah memprediksi kemunculan data
sebagai positif, maka angka precision akan semakin rendah.
Selanjutnya mengukur sensitivity atau disebut juga recall yaitu mengukur banyaknya data
sukses diprediksi sebagai positif dibandingkan seluruh data yang pada kenyataan positif
dengan persamaan sebagai berikut :
./
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = ./021

Sensitivity memberikan petunjuk seberapa banyak model telah luput dalam menangkap
kasus-kasus yang seharusnya diprediksi tinggi .
Berikut hasil test dari aplikasi Orange datamining

Berdasarkan hasil test diketahui Naïve bayes memiliki tingkat akurasi lebih rendah dari
Decision Tree namun naïve bayes memiliki nilai Logloss 0.487 yang lebih baik
dibandingkan Decision Tree terdapat nilai Logloss 1.682, artinya model tidak dapat
memprediksi dengan baik dikarenakan masih adanya data yang overviting dan penyebaran
data antara kategori rendah dengan kategori tinggi masih terjadi ketimpangan.

- Berikut hasil distribusi prediksi

Terlihat masih terdapat data yang masuk kategori rendah namun dinyatakan tinggi begitu
juga ketika data masuk kategori tinggi namun model menyatakan kategori rendah.
3) Kelebihan dan Kekurangan Naïve Bayes
a. Kelebihan
• Bisa dipakai untuk data kuantitatif maupun kualitatif
• Tidak memerlukan jumlah data yang banyak
• Tidak perlu melakukan data training yang banyak
• Jika ada nilai yang hilang, maka bisa diabaikan dalam perhitungan.
• Perhitungannya cepat dan efisien
• Mudah dipahami
• Mudah dibuat
• Pengklasifikasian dokumen bisa dipersonalisasi, disesuaikan dengan kebutuhan
setiap orang
• Jika digunakan dalaam bahasa pemrograman, code-nya sederhana
• Bisa digunakan untuk klasifikasi masalah biner ataupun multiclass

b. Kekurangan
• Apabila probabilitas kondisionalnya bernilai nol, maka probabilitas prediksi
juga akan bernilai nol
• Asumsi bahwa masing-masing variabel independen membuat berkurangnya
akurasi, karena biasanya ada korelasi antara variabel yang satu dengan variabel
yang lain
• Keakuratannya tidak bisa diukur menggunakan satu probabilitas saja. Butuh
bukti-bukti lain untuk membuktikannya.
• Untuk membuat keputusan, diperlukan pengetahuan awal atau pengetahuan
mengenai masa sebelumnya. Keberhasilannya sangat bergantung pada
pengetahuan awal tersebut Banyak celah yang bisa mengurangi efektivitasnya
• Dirancang untuk mendeteksi kata-kata saja, tidak bisa berupa gambar

4) 10 (Sepuluh) Jurnal terkait pemanfaatan Naïve Bayes


Berikut adalah jurnal terkait dengan pemanfaatam Naïve Bayes :
a. Pengumpulan data alumni mahasiswa sangat perlu dilakukan untuk memprediksi
kelulusan mahasiswa apakah mahasiswa tersebut dapat lulus tepat waktu atau
terlambat sesuai dengan waktu tempuh normal yang dilalui dalam perguruan tinggi
ataupun universitas. Selama ini para mahasiswa belum dapat memprediksi nantinya
apakah mereka akan lulus tepat ataupun terlamba, hal ini dapat mempengaruhi faktor
akreditas dari perguruan tinggi tersebut yang dapat menyebabkan beberapa kerugian
baik dari mahasiswa ataupun dari pihak perguruan tinggi. Untuk memprediksi
kelulusan mahasiswa tersebut menggunakan algoritma Naive Bayes. Pemilihan
algoritma ini Naive Bayes dapat digunakan untuk melakukan prediksi probabilitas
keanggotaan suatu class. Dengan adanya prediksi kelulusan diharapkan mampu
memantu memprediksi tingkat kelulusan mahasiwa. Fitur – fitur yang digunakan
dalam prediksi kelulusan mahasiswa yaiitu Jenis Kelamin, Status Pernikahan,Status
Pekerjaan, dan IPS1,IPS2,IPS3,IPS4.Prediksi kelulusan menggunakan data alumni
yang sudah lulus. Berdasarkan perhitungan akurasi Naive Bayes menggunkan k-fold
cross validation dengan hasil perhitungan rata-rata k=5 adalah sebesar 95%, dan
perhitungan rata-rata k=10 sebesar 94% Berdasarkan hasil tersebut maka algoritma
Naive Bayes bisa digunakan untuk prediksi kelulusan mahasiswa. Sumber: Arisa Dwi
Cahyo, Metode Naive Bayes Untuk Klasifikasi Masa Studi Sarjana,
Teknologipintar.org, Volume 3 (4), 2023.
b. Indonesia merupakan negara dengan jumlah penduduk lebih dari 267,7 juta jiwa yang
juga menyebabkan laju pertumbuhan penduduk yang sangat cepat. Seiring dengan
pertumbuhan penduduk yang pesat, lahan kosong yang dapat digunakan untuk
perumahan juga semakin menyusut, oleh karena itu KPR sangat disarankan bagi Anda
yang ingin memiliki rumah namun belum memiliki lahan. Karena dengan perumahan,
tempat tinggal yang ideal dapat tercipta dan dalam tata ruang yang terstruktur. Dengan
menggunakan algoritma Naive Bayes, setiap keluarga atau orang yang menginginkan
KPR dapat dengan mudah diidentifikasi sesuai dengan syarat yang berlaku untuk bisa
mendapatkan KPR. Dari data yang diperoleh, tampaknya hanya orang dengan gaji di
atas 2 juta yang bisa mendapatkan KPR Subsidi. Dari pembahasan dan hasil yang
telah didapatkan maka penulis ber kersimpulan bahwa dengan menggunakan algoritma
Naive Bayes data yang dihasilkan agar dapat mengajukan KPR Perumahan Subsidi
harus memenuhi syarat lebih dari 2 juta, lama bekerja lebih dari 2 tahun dan tidak
memiliki cicilan. Sesuai data yang di hasilkan algoritma Naive Bayes bisa digunakan
dalam penentuan dalam kasus ini. Sumber: Dena Mellynia, Rido Febryansyah,
Klasifikasi Pengajuan KPR Perumahan Subsidi Menggunakan Algoritma Naive Bayes
Di Perumahan Sakura Residence, Ilmudata.org, Volume 2 (12), 2022.
c. Prediksi di perusahaan pada umumnya masih dilakukan secara manual dan ditangani
oleh seorang karyawan yang dipercaya oleh perusahaan tersebut. Karena hanya
melihat perkiraan berdasarkan penjualan yang telah terjadi bulan sebelumnya tanpa
mempertimbangkan tingkat persaingan pasar Salah satu alat bantu yang dapat
mendukung menyelesaikan masalah tersebut adalah komputer. Dengan adanya sistem
komputerisasi, maka akan dibuat program bantu prediksi penjualan dan persediaan
stok barang untuk menyelesaikanmasalah yang dihadapi perusahaan.Tahapan dari
proses algoritma Naive Bayes adalah: Menghitung jumlah kelas / label, Menghitung
Jumlah Kasus Per Kelas, Kalikan Semua Variable Kelas, Bandingkan Hasil Per
KelasBerdasarkan hasil dari pengolahan data, menjelaskan bahwa data yang diambil
dari Januari sampai dengan Maret 2020 tentan distributor kabel di PT. Dharma
Electrindo Manufacturing, PT. Dharma Electrindo Manufacturing, menggunakan
model naïve bayes menghasilkan akurasi sebesar 56,52% bahwa nilai akurasi sebesar
78,14% dengan rincian sebagai berikut. Prediksi Over dan Ternyata True Over Sebesar
62. Prediksi Over dan Ternyata True Cukup Sebesar 0. Prediksi Cukup dan Ternyata
Over Sebesar 32. Prediksi Cukup dan Ternyata True Cukup Sebesar 52. Dengan class
recall layak sebesar 65,96% dan Class Recall Tidak Layak Sebesar 100%. Sumber:
Arisa Dwi Cahyo, Metode Naive Bayes Untuk Klasifikasi Masa Studi Sarjana,
Teknologipintar.org, Volume 3 (4), 2023. Sumber : Kokom Komariah, Rahaditya
Dasuki, Dias Bayu Saputra, Saeful Anwar, Gifthera Dwilestari, Klasifikasi Stok
Barang Menggunakan Algoritma Naïve Bayes Pada PT.Dharma Electrindo
Manufacturing, KOPERTIP: Jurnal Ilmiah Manajemen Informatika dan Komputer E-
ISSN: 2549-9351, Vol. 04, No. 02, Juni 2020, pp. 35-41 P-ISSN : 2549-211X.
d. Kepuasan masyarakat terhadap layanan dokumen kependudukan merupakan hal yang
sangat penting dalam peningkatan kualitas layanan sesuai yang diinginkan oleh
masyarakat pada Dinas Kependudukan dan Pencatatan Sipil. Tujuan dari Penelitian ini
adalah untuk memprediksi tingkat kepuasan masyarakat terhadap kualitas layanan dan
untuk mengetahui hasil dari akurasi yang telah didapatkan dengan menggunakan
algoritma Naïve Bayes. Data yang diolah merupakan data layanan kependudukan
Tahun 2022. Dari hasil data yang diolah, bisa digunakan untuk meningkatkan kualitas
dalam pelayanan dokumen kependudukan dan juga bisa digunakan untuk
mengevaluasi kinerja pelayanannya. Hal ini dilakukan untuk mengetahui sejauh mana
nilai dan kualitas dari pelayanan yang diberikan oleh Dinas Kependudukan dan
Pencatatan Sipil Kota Pariaman kepada Masyarakat. Metode Naïve Bayes yang
digunakan dalam penelitian ini untuk mencoba memprediksi kepuasan masyarakat
terhadap kualitas pelayanan pada Dinas Kependudukan dan Pencatatan Sipil. Hasil
dari indeks kepuasan terhadap pelayanan dokumen kependudukan pada Dinas
Kependudukan dan Pencatatan Sipil menggunakan metode Naïve Bayes mendapatkan
hasil yang baik. Sumber : Susi Wirma, Data Mining Dengan Metode Naïves Bayes
Classifer dalam Memprediksi Tingkat Kepuasan Pelayanan Dokumen Kependudukan,
Jurnal Informatika Ekonomi Bisnis, 2022 Vol. 4 No. 3 Hal: 119-123 e-ISSN: 2714-
8491.
e. Hipertensi adalah suatu gangguan pada pembuluh darah yang mengakibatkan suplai
oksigen dan nutrisi yang dibawa oleh darah terhambat sampai ke jaringan tubuh yang
membutuhkan. Hipertensi sering kali disebut sebagai pembunuh gelap (Silent Killer),
karena termasuk penyakit yang mematikan tanpa disertai dengan gejalanya sebagai
peringatan bagi korbannya. Penderita hipertensi berkisar dari umur 40 tahun keatas
sampai dengan seumur hidup. Pada umumnya Hipertensi disebakan karena faktor
keturunan, gaya hidup tidak sehat, mengkonsumsi garam berlebihan, minuman
beralkohol serta stres. Sistem pakar bisa menjadi solusi untuk memecahkan masalah
karena sistem ini bekerja layaknya seperti pakar dan dirancang menggunakan metode
naive bayes dengan melihat rule dan basis aturan yang ada pada penyakit hipertensi.
Melalui aplikasi ini, pengguna dapat melakukan konsultasi dengan sistem layaknya
berkonsultasi dengan seorang pakar untuk mendiagnosa gejala yang terjadi pada
pengguna serta menemukan solusi atas permasalahan yang dihadapi. Sumber:
Misrawati Aprilyana Puspa, Sistem Pakar Diagnosa Penyakit Hipertensi
Menggunakan Metode Naive Bayes Pada Rsud Aloe Saboe Kota Gorontalo, Ilkom
Jurnal Ilmiah Volume 10 Nomor 2 Agustus 2018, P-Issn 2087-1716.
f. Salah satu kendala dari macetnya pembayaran adalah kurangnya analisis dalam proses
penerimaan pelanggan baru yang hanya ditinjau dari formulir yang diberikan pada saat
pendaftaran, adapun tujuan penelitian ini untuk mengetahui hasil akurasi tertinggi dari
komparasi Algoritma Naïve Bayes, SVM dan K-NN. Dapat diketahui bahwa algoritma
Naïve Bayes yang memiliki nilai accuracy yang paling tinggi yaitu 96 %, sementara
algoritma K-Neural Network didapatkan accuracy tertinggi yaitu pada Nilai K = 3
yaitu 92% , sementara pada Support Vector Machine hanya mendapatkan accuracy
sebesar 66 %. Hasil ROC Curve menunjukkan bahwa Naïve Bayes mencapai nilai
AUC yang terbaik yaitu 0.99. Komparasi antara algoritma klasfikasi data mining yaitu
Naïve Bayes, K-Neural Network dan Support Vector Machine untuk prediksi
kelancaran pembayaran dengan menggunakan tipe data multivariat, metode Naïve
Bayes merupakan algoritma yang akurat dan metode ini juga sangat dominan terhadap
metode lain. Berdasarkan Accuracy, AUC dan T-tes metode ini masuk dalam kategori
klasifikasi terbaik. Sumber: Mohamad Efendi Lasulika, Komparasi Naïve Bayes,
Support Vector Machine Dan K- Nearest Neighbor Untuk Mengetahui Akurasi
Tertinggi Pada Prediksi Kelancaran Pembayaran TV Kabel, Ilkom Jurnal Ilmiah
Volume 11 Nomor 1 April 2019, P-Issn 2087-1716.
g. Program Keluarga Harapan (PKH) bertujuan untuk meningkatkan taraf hidup melalui
layanan pendidikan, kesehatan, dan kesejahteraan sosial. Akan tetapi, dalam proses
pemilihan penerimanya seringkali dianggap tidak tepat sasaran dan proses yang lama,
sehingga, diperlukan sistem pengambilan keputusan dalam menentukan kelayakan
penerima bantuan Program Keluarga Harapan yang tepat. Penelitian ini bertujuan
untuk menentukan kelayakan penerima bantuan Program Keluarga Harapan di Desa
Petatal, Kabupaten Batubara dengan menggunakan metode Naïve Bayes. Jumlah data
yang digunakan dalam penelitian ini sebanyak 100 data training dan 20 data testing
dengan 8 kriteria. Penerapan metode Naïve Bayes dalam penelitian ini memperoleh
tingkat akurasi sebesar 100% dan tingkat error 0% dengan menggunakan Rapid Miner
dan teknik Confusion Matrix. Sumber : Nurul Rahmadani, Risnawati, Maulana Dwi
Sena, Penerapan Algoritma Naïve Bayes Dalam Penentuan Kelayakan Penerima
Bantuan Program Keluarga Harapan, Agustus 2023, Vol 3, No 2, Hlm. 40 – 48, E-
ISSN: 2775-0965
h. Kinerja diukur untuk mengetahui sejauh mana tujuan direalisasikan sehingga
manajemen bisa bertindak cepat dalam mengambil keputusan. Ukuran kinerja pada
setiap instansi adalah key performance Indikator (KPI). Penelitian dilakukan dengan
menggunakan metodologi CRISP-DM (Cross Industry Standard Process Model for
Data Mining). Pengambilan data dilakukan pada Twitter dengan mengambil Tweet
Opini penggunaan KPI (Key Performance Indicator) dan akan dianalisis menggunakan
RapidMiner dengan algoritma Naive Bayes dan Support Vector Machine (SVM).
Hasil penelitian didapatkan akurasi dengan menggunakan algoritma SVM dengan
SMOTE menunjukan hasil 72.32% lebih tinggi dibandingkan algoritma Naïve Bayes
yang memperoleh hasil 60.95%. AUC algoritma Naïve Bayes dengan SMOTE sebesar
0.875 dan AUC algoritma Support Vector Machice (SVM) dengan SMOTE sebesar
0.772. Dari hasil ini dapat diketahui bahwa algoritma SVM akan memprediksi lebih
baik daripada algoritma Naïve Bayes pada penelitian ini untuk menganalisis sentiment
pada fungsi penggunaan KPI (Key Performance Indicator). Sumber: Elwin Dewi
Nurhazizah, Ira Puspitasari, Opinion Mining Fungsi KPI (Key Performance Indikator)
Dengan Algoritma Naïve Bayes Clasifier Dan Support Vector Machine (SVM), Jurnal
Cahaya Mandalika (JCM).
i. Oversampling merupakan teknik menyeimbangkan jumlah data dengan men-generate
data dengan jumlah record yang sedikit pada suatu kelas, sehingga jumlahnya
seimbang dengan data dengan kelas yang jumlah record-nya banyak. Oversampling
pada penelitian ini diterapkan pada dataset hipertensi dimana kelas hipertensi memiliki
jumlah record yang sedikit bila dibandingkan dengan jumlah record untuk kelas tidak
hipertensi. Penelitian ini bertujuan untuk mengevaluasi pengaruh oversampling pada
klasifikasi data hipertensi yang terdiri dari kelas hipertensi dan tidak hipertensi dengan
memanfaatkan Algoritma Naïve Bayes, Decision Tree, dan Artificial Neural Network
(ANN) sekaligus mencari model terbaik dari tiga algoritma tersebut. Evaluasi
penggunaan oversampling pada data hipertensi ini dilakukan dengan mempraproses
data dengan mengimputasi missing value, melakukan oversampling, dan
mentransformasi data kedalam range yang sama, kemudian menggunakan algoritma
Naïve Bayes, Decision Tree, dan ANN untuk membangun model klasifikasi. Dengan
pembagian data 80% sebagai data training untuk membangun model dan 20% sebagai
data validasi untuk menguji model, diperoleh peningkatan performa klasifikasi berupa
akurasi, precision, dan recall pada data yang di-oversampling bila dibandingkan tanpa
oversampling, Performa terbaik dalam penelitian ini menghasilkan akurasi tertinggi
menggunakan algoritma ANN dengan 0.91, precision 0.86 dan recall 0.99. Nurul
Chamidah, Mayanda Mega Santoni, Nurhafifah Matondang, Pengaruh Oversampling
pada Klasifikasi Hipertensi dengan Algoritma Naïve Bayes, Decision Tree, dan
Artificial Neural Network (ANN), Vol. 4 No. 4 (2020) 635 - 641 ISSN Media
Elektronik: 2580-0760.
j. BKPSDM Kota Palembang saat ini menghadapi tantangan dalam pelayanan
pemberkasan kepegawaian yang kurang efektif dan efisien. Penelitian ini berfokus
pada pengembangan sistem informasi yang memanfaatkan metode machine learning
dengan algoritma Naive Bayes untuk mengklasifikasikan berkas kepegawaian yang
dimasukkan. Metode ini diharapkan dapat mempermudah pegawai dalam mengajukan
berkas dengan mengurangi kesalahan saat pengunggahan dan mempercepat proses
pengajuan. Temuan penelitian menunjukkan bahwa sistem informasi yang
diimplementasikan algoritma Naive Bayes berhasil mencapai tingkat akurasi dengan
perhitungan precision, recall, dan accuracy sebesar 95,83% dalam mengklasifikasikan
berkas kepegawaian dengan tepat. Penelitian ini memberikan kontribusi yang
signifikan dalam meningkatkan kualitas pelayanan pemberkasan kepegawaian di
BKPSDM Kota Palembang, serta diharapkan mampu memberikan landasan bagi
pengembangan sistem informasi serupa dalam konteks e-Government. Sumber: Arief
Algiffary , Tata Sutabri, Implementasi Machine Learning dengan Algoritma Naive
Bayes Terhadap Sistem Informasi Pelayanan Pemberkasan Kepegawaian di BKPSDM
Kota Palembang, ISSN 2302-4364, Vol. 12, No. 3, Ed. 2023.
Pertemuan ke-6
(K-Nearest Neighbor (KNN))
1) Model K- Nearest Neighbor

a. K Nearest Neighbors atau KNN adalah salah satu algoritma pembelajaran mesin untuk
melakukan klasifikasi terhadap objek baru berdasarkan sejumlah k tetangga terdekatnya.
KNN bekerja dengan mencari sejumlah k objek data atau pola (dari semua pola latiha
yang ada) yang paling dekat dengan pola masukan, kemudian memilih kelas dengan
jumlah pola terbanyak di antara k pola tersebut. KKN mengklasifikasikan pola dengan
cara voting, seperti ilustrasi. (Dr. Suyanto, 2018)

Penentuan k pola terdekat dilakukan berdasarkan ukuran jarak, similarity atau


dissimilarity, bergantung jenis atributnya. Misal nilai k=3, maka setiap data testing
dihitung jaraknya terhadap data training dan dipilih 3 data training yang jaraknya paling
dekat dengan data testing. Tujuan penggunaan KNN adalah untuk memprediksi objek,
apakah objek tersebut masuk dalam satu golongan tertentu atau golongan yang lain. Pada
KNN data akan dinyatakan dalam ruang vector. Sesuai dengan namanya, “nearest
neighbor”, KNN menggunakan klasifikasi berdasarkan “kedekatan” dengan tetangga.

Karena algoritma ini bergantung pada jarak, maka untuk melakukan pengukuran jarak
dengan salah satu metode yang paling umum digunakan untuk menghitung jarak pada
KNN adalah Euclidean distance dengan persamaan sebagai berikut. (Irwansyah Saputra &
Dinar Ajeng Kristiyanti,2021)

𝑑(𝑃, 𝑄) = ||𝑃> − 𝑄> ||8 = U∑?>@5(𝑝> − 𝑞> )6

b. Data training yang dipersiapkan dalam bentuk xlsx dengan nama


FraudCianjurPIPNormal.xlsx, isi data tersebut adalah sebanyak 1869 baris data yang
memiliki 18 Feature dan 1 Target dengan kategori tinggi, sedang dan rendah, namun
berdasarkan ranking terdapat 2 feature yang berpengaruh. Berikut dataset yang digunakan
c. Untuk mencari model yang digunakan, telah diujicobakan simulasi pada aplikasi orange
datamining yaitu sebagai berikut.

- Berdasarkan sebaran data menggunakan scatterplot diperoleh informasi data sebagai


berikut.
3) Matrik Pengukuran Confusion Matrik
Dalam percobaan kali ini berdasarkan aplikasi orange datamining diketahui confusion
matrix dengan data latih 80% dan data test 20% sebagai berikut :

Dari table diatas dapat dijelaskan sebagai berikut :


• Angka TP = 5184 dan FP = 196 artinya model memprediksi 5184 risiko rendah yang
tepat dan 196 risiko rendah yang tidak tepat.
• Angka FN = 516 dan TN = 1584 berarti model memprediksi 516 risiko tinggi yang
tepat dan 1584 risiko tinggi yang keliru.

Untuk mengukur accuracy (CA) model. Persamaannya adalah prediksi yang benar
dibagi dengan total seluruh populasi
./0.1
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ./0.102/021

accuracy (CA) memberikan petunjuk dalam mengukur persentase prediksi yang benar
dari seluruh prediksi.
Untuk mengukur precision model. Mengukur jumlah data yang sukses diprediksi sebagai
positif dibandingkan dengan seluruh data yang diprediksi positif baik yang kenyataannya
benar maupun tidak benar, dengan Persamaannya sebagai berikut.
./
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ./02/

Precision memberikan petunjuk seberapa baik model dapat menangkap prediksi yang
positif sebanyak banyak FP atau model sering salah memprediksi kemunculan data
sebagai positif, maka angka precision akan semakin rendah.
Selanjutnya mengukur sensitivity atau disebut juga recall yaitu mengukur banyaknya data
sukses diprediksi sebagai positif dibandingkan seluruh data yang pada kenyataan positif
dengan persamaan sebagai berikut :
./
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = ./021
Sensitivity memberikan petunjuk seberapa banyak model telah luput dalam menangkap
kasus-kasus yang seharusnya diprediksi tinggi .
Berikut hasil test dari aplikasi Orange datamining

Berdasarkan hasil test diketahui kNN memiliki tingkat akurasi lebih rendah dari Decision
Tree namun berada diatas dari algoritma naïve bayes, sementara untuk nilai Logloss kNN
lebih baik dari decision Tree namun nilainya masih lebih tinggi dari algoritma naïve bayes
memiliki nilai Logloss 0.487.

- Berikut hasil distribusi prediksi

Terlihat masih terdapat data yang masuk kategori rendah namun dinyatakan tinggi begitu
juga ketika data masuk kategori tinggi namun model menyatakan kategori rendah.
5) Kelebihan dan Kekurangan kNN
a. Kelebihan
• Mudah diimplementasikan : kNN adalah algoritma sederhana dan intuitif yang
mudah dipahami dan diimplementasikan, menjadikannya pilihan yang baik bagi
pemula dalam ilmu data
• Dapat beradaptasi dengan data baru : kNN dapat dengan mudah beradaptasi
dengan data pelatihan baru, menjadikannya algoritma yang fleksibel yang dapat
menangani perubahan pada dataset
• Efektif untuk kumpulan data yang besar : kNN efektif untuk kumpulan data yang
besar, karena tidak memerlukan seluruh kumpulan data untuk dimuat ke dalam
memori sekaligus
• Kuat terhadap data yang berisik : kNN kuat terhadap data yang berisik, karena
dapat menangani outlier dan kesalahan dalam kumpulan data.
• Serbaguna : kNN dapat digunakan untuk klasifikasi, regresi, dan pencarian data,
menjadikannya algoritma serbaguna yang dapat diterapkan pada berbagai
masalah

b. Kekurangan
• Biaya komputasi : kNN bisa menjadi mahal secara komputasi, terutama untuk
kumpulan data yang besar, karena memerlukan penyimpanan seluruh kumpulan
data pelatihan dan penghitungan jarak antara observasi baru dan semua observasi
pelatihan
• Kecepatan prediksi yang lambat : Dengan kumpulan data yang besar, tahap
prediksi kNN mungkin lambat
• Masalah memori dan penyimpanan : kNN memerlukan penyimpanan memori
yang tinggi, karena kNN menyimpan semua data pelatihan, yang dapat menjadi
masalah untuk kumpulan data besar.
• Peka terhadap skala data : kNN sensitif terhadap skala data, karena kNN
menggunakan metrik jarak untuk menemukan k observasi yang paling
mirip. Oleh karena itu, penting untuk menskalakan data sebelum menerapkan
kNN pengetahuan awal tersebut Banyak celah yang bisa mengurangi
efektivitasnya
• Kutukan dimensi : Seiring bertambahnya jumlah fitur, kinerja kNN menurun
karena kutukan dimensi. Hal ini dapat diatasi dengan menggunakan teknik
pemilihan fitur, reduksi dimensi, atau pembobotan
• Tidak ada penjelasan atau keyakinan untuk prediksi : kNN tidak memberikan
penjelasan atau keyakinan apa pun atas prediksinya, sehingga membatasi
kemampuan interpretasinya

6) 10 (Sepuluh) Jurnal terkait pemanfaatan kNN


Berikut adalah jurnal terkait dengan pemanfaatam kNN :
a. Tujuan utama setiap alumni setelah lulus di perguruan tinggi adalah mendapatkan
pekerjaan. Setiap alumni tentu memiliki rentang waktu yang berbeda untuk
mendapatkan pekerjaan setelah lulus, maka dari itu diperlukan metode untuk
memprediksi seberapa lama waktu yang diperlukan oleh alumni dalam mendapatkan
pekerjaan setelah lulus. Dalam penelitian ini dilakukan perbandingan metode antara
Naïve Bayes dan K-Nearest Neighbor dengan nilai K = 3, 5, 7, dan 9. Parameter yang
digunakan sebagai acuan prediksi rentang waktu dalam mendapatkan pekerjaan adalah
masa studi, jenis kelamin, dan IPK terakhir. Prediksi yang dihasilkan adalah berupa
keterangan cepat yang berarti tiga bulan ke bawah dan lama yang berarti di atas tiga
bulan. Data yang digunakan sebanyak 1669, dimana 80% atau 1335 sebagai data
training dan 20% ata 334 sebagai data testing. Hasil yang diperoleh adalah Naïve
Bayes memiliki akurasi dan MAPE yang lebih baik yaitu 83.83% dan 16.17%,
dibandingkan dengan K-Nearest Neighbor dengan nilai K terbaik yaitu 9 yang
memiliki akurasi 82.34% dan MAPE 17.66%. Berdasarkan ketentuan rentang nilai
MAPE, baik Naïve Bayes dan K-Nearest Neighbor dengan nilai K=9 memiliki arti
bahwa metode tersebut baik dalam kasus ini, namun Naïve Bayes sedikit lebih baik.
Sumber: M. Azman Maricar, Dian Pramana, Perbandingan Akurasi Naïve Bayes dan
K-Nearest Neighbor pada Klasifikasi untuk Meramalkan Status Pekerjaan Alumni ITB
STIKOM Bali, p-ISSN: 1858-473X, e-ISSN: 2460-3732, DOI:
10.30864/jsi.v14i1.233, Jurnal Sistem Dan Informatika (JSI).
b. Saat ini industry membuat jenis barang yang memiliki bahan dasar kaca diantaranya
kaca mobil float, jendela bangunan non float, lampu, Toples, dan Peralatan Makan.
memiliki bahan produksi yang sama, yang membedakan antara satu dan lainya adalah
komposisi bahan produksinya. Algoritma K-Nearest Neighbor (KNN)) yang
merupakan salah satu metode klasifikasi pada data mining dan juga menjadi algoritma
supervised learning pada machine learning adalah sebuah Kaca–kaca tersebut metode
untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang
jaraknya paling dekat dengan objek tersebut. Penelitian ini mencakup pengukuran
performa (akurasi, presisi, recall dan f-measure) metode KNN dengan berbagai
macam nilai K pada objek 1000 data produksi jenis kaca yang diperoleh dari pusat
dataset. dapat disimpulkan bahwa dengan menguji nilai K=3 hingga K=9 maka
diperoleh nilai performa paling baik pada K=3, dimana tingkat akurasi mencapai 64%,
presisi 63%, recall 71%, dan F-Measure sebesar 67%. Sumber: Mus Mulyadi
Baharuddin, Tasrif Hasanuddin, Huzain Azis, Analisis Performa Metode K-Nearest
Neighbor Untuk Identifikasi Jenis Kaca, Ilkom Jurnal Ilmiah Volume 11 Nomor 3
Desember 2019 , p-ISSN 2087-1716.
c. Pada proses klasifikasi buah jeruk nipis yang sebelumnya dilakukan manual
menggunakan mata manusia merupakan hal yang sangat sulit dilakukan. Hal ini
dibuktikan dengan tidak konsisten serta bersifat subyektif sehingga menyebabkan
tingkat akurasi yang rendah. Terkadang ada pula perbedaan pendapat dari mata
manusia satu dengan lainnya. Oleh karena itu, untuk meningkatkan tingkat akurasi
serta mengurangi sifat subyektifitas mata manusia, penelitian ini mengusulkan
algoritma yang dipergunakan untuk mengklasifikasikan tingkat kematangan jeruk
nipis yakni K- Nearest Neighbor berdasar kepada warna kulit yang ada pada jeruk nipis
tersebut. Pada penelitian ini, nilai K yang dipergunakan yakni 9, 7, 5, 3 serta 1 untuk
menguji coba pencarian jarak Euclidean distance dan cityblock distance pada citra
dengan ukuran pixel 512x512, 256x256 dan 128x128. Pada tahap prerosesing, untuk
proses fitur ekstraksinya menggunakan mean RGB. Penelitian yang telah dilakukan
membuktikan bahwa dengan jarak Euclidean k=7 dan k=3memiliki nilai prosentase
92% dan jarak cityblock distance k=1 dan k=3 memiliki nilai prosentase sebesar 88%.
Berdasarkan tingkat akurasi yang dimiliki, fitur warna k=3 menunjukkan nilai k
terbaik pada klasifikasi tingkat kematangan buah jeruk nipis. Sumber: Cinantya
Paramita, Eko Hari Rachmawanto, Christy Atika Sari, De Rosal Ignatius Moses
Setiadi, Klasifikasi Jeruk Nipis Terhadap Tingkat Kematangan Buah Berdasarkan
Fitur Warna Menggunakan K-Nearest Neighbor, Jurnal Informatika: Jurnal
Pengembangan IT (JPIT), Vol.04, No.1, Januari 2019 ISSN: 2477-5126.
d. Akreditasi merupakan salah satu bentuk penilaian mutu dan kelayakan program studi
di perguruan tinggi. Ketepatan waktu mahasiswa dalam menyelesaikan studi dan
proporsi mahasiswa yang menyelesaikan studi dalam batas masa studi termasuk dalam
elemen penilaian akreditasi. Hal tersebut menunjukkan diperlukan pemantauan
terhadap masa studi mahasiswa. Rata-rata masa studi mahasiswa di Departemen
Informatika Universitas Diponegoro masih di atas 4 tahun sehingga perlu dilakukan
evaluasi dengan membangun aplikasi pengklasifikasian masa studi mahasiswa.
Dengan mempertimbangkan keseimbangan data maka pengklasifikasian masa studi
mahasiswa menggunakan kelas target masa studi <5 tahun dan >=5 tahun. Pada
penelitian ini menggunakan data riwayat mahasiswa tahun angkatan 2007 sampai
dengan 2011 yang telah lulus dengan jumlah data sebanyak 377 orang dengan 72
atribut nilai mata kuliah dan 1 kelas target berupa masa studi. Penelitian ini dilakukan
dengan mengikuti tahap pengerjaan data mining yang mengacu pada proses knowledge
discovery in database (KDD). Pengklasifikasian dilakukan dengan menggunakan
algoritma K-Nearest Neighbor. Aplikasi data mining berhasil dibangun dengan hasil
percobaan menunjukkan bahwa hasil klasifikasi masa studi terbaik diperoleh dengan
memilih atribut dari semua mata kuliah pilihan dengan nilai akurasi 75.95%. Sumber:
Inna Alvi Nikmatun, Indra Waspada, Implementasi Data Mining Untuk Klasifikasi
Masa Studi Mahasiswa Menggunakan Algoritma K-Nearest Neighbor, Jurnal
SIMETRIS, Vol. 10 No. 2 November 2019 P-ISSN: 2252-4983, E-ISSN: 2549-3108.
e. Pendidikan tinggi mempunyai peranan besar dalam meningkatkan mutu pendidikan di
Indonesia. Lembaga BAN-PT yang didirikan pemerintah mempunyai standar
akreditasi perguruan tinggi dan akreditasi program studi. Dengan adanya instrumen
akreditasi berbasis 4.0 mendorong pimpinan perguruan tinggi untuk meningkatkan
mutu dan mutu pendidikannya. Salah satu indikator yang menentukan akreditasi
program studi adalah kelulusan mahasiswa tepat waktu. Penelitian ini menggunakan
algoritma K-Nearest Neighbor untuk memprediksi waktu kelulusan siswa. IPK
mahasiswa pada saat semester tujuh akan dijadikan data latih, dan data mahasiswa
yang lulus dijadikan data sampel. K-Nearest Neighbor bekerja sesuai dengan data
sampel yang diberikan. Hasil pengujian prediksi terhadap 60 data siswa tahun ajaran
2015-2016, diperoleh tingkat akurasi tertinggi sebesar 98,5% dapat dicapai ketika k =
3. Hasil prediksi tergantung pada pola data yang dimasukkan, semakin banyak sampel
dan data latih yang digunakan, perhitungan algoritma K-Nearest Neighbor juga lebih
akurat. Sumber: Rizki Muliono, Juanda Hakim Lubis, Nurul Khairina, Analysis K-Nearest
Neighbor Algorithm for Improving Prediction Student Graduation Time, SinkrOn : Jurnal dan
Penelitian Teknik Informatika, Volume 4, Number 2, April 2020 e-ISSN : 2541-2019.

f. Artikel merupakan salah satu bentuk karya ilmiah yang dituangkan dalam bentuk
tulisan dan mengandung banyak informasi yang berguna didalamnya. Banyak artikel
yang ada dengan berbagai macam judul dan metode yang digunakan, namun tidak
menutup kemungkinan adanya kemiripan dari judul artikel yang ada. Penelitian ini
bertujuan untuk menentukan tingkat kemiripan antara artikel jurnal dilihat dari judul
artikel jurnal dengan menggunakan algoritma vector space model dan
membandingkannya dengan algoritma k-nearest neghbour. Data yang digunakan yaitu
10 judul artikel jurnal dengan kata kunci Information Retrieval. Pengujian data dengan
kata kunci tersebut menghasilkan dokumen dengan tingkat kemiripan tertinggi pada
metode VSM yaitu pada Dok 5, Dok 7, Dok 8 dan Dok 4. Sedangkan untuk KNN
menghasilkan tingkat kemiripan pada range Doc7,Doc10 | Doc8,Doc10 | Doc4,D10 |
Doc5,Doc10 | Doc3,Doc10. Sehingga menyimpulkan bahwa terjadinya penambahan
kriteria dokumen yang similaritas dengan kata kunci setelah menggunakan algoritma
K-Nearest Neghbour. Sumber: Siti Fauziah, Daning Nur Sulistyowati, Taufik Asra,
Optimasi Algoritma Vector Space Model Dengan Algoritma K-Nearest Neighbour
Pada Pencarian Judul Artikel Jurnal, Jurnal PILAR Nusa Mandiri Vol. 15, No. 1 Maret
2019.
g. Penentuan status keluarga miskin sebagai penerima bantuan merupakan hal yang
sangat penting agar bantuan penanggulangan kemiskinan dari pemerintah dapat
disalurkan secara tepat sasaran. Data mining memanfaatkan pengalaman atau bahkan
kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil
analisisnya, salah satunya dengan kemampuan yang dimiliki teknik data mining yaitu
klasifikasi. Tujuan penelitian ini adalah untuk melakukan pengujian K-Fold Cross
Validation pada algoritma K-Nearst Neighbors dalam memprediksi penerimaan dana
bantuan desa. Dalam dataset penerima bantuan yang digunakan dalam penelitian ini,
terdapat 159 record atau tuple dengan empat atribut (kondisi rumah, penghasilan,
pekerjaan dan jumlah tanggungan). Prediksi kategori data baru dilakukan dengan
menggunakan tahapan perhitungan manual Euclidean Distance dari lima nilai K yang
berbeda. Sedangkan penggunakan aplikasi Rapidminer bertujuan untuk menguji
akurasi dataset dalam lima nilai K yang berbeda. Hasilnya menunjukkan bahwa
dengan K=15 dan K=30 data baru (D160) memiliki kategori “Tidak Layak” dengan
tingkat akurasi sebesar 100%. Kemudian dengan K=45, K=60 dan K=75 data baru
(D160) memiliki kategori “Layak” dengan tingkat akurasi sebesar 81,25%. Sumber:
Riyan Latifahul Hasanah, Muhamad Hasan, Witriana Endah Pangesti, Fanny Fatma
Wati, Windu Gata, Klasifikasi Penerima Dana Bantuan Desa Menggunakan Metode
Knn (K-Nearest Neighbor), Jurnal TECHNO Nusa Mandiri Vol. 16, No. 1 Maret 2019.
h. Pemilihan tomat dapat menggunakan beberapa indikator. Salah satu indikatornya
adalah warna buah. Dalam pengolahan citra digital, salah satu informasi warna yang
dapat digunakan adalah Hue, Saturation, dan Value (HSV). Pada penelitian ini, HSV
diusulkan sebagai fitur model warna untuk informasi kematangan tomat. Total data
gambar tomat yang digunakan dalam penelitian ini sebanyak 400 gambar dari empat
sisi. Tingkat kematangan buah tomat menggunakan lima tingkatan yaitu hijau, balik,
merah jambu, merah muda, dan merah. Proses pembagian data menggunakan K-Fold
Cross Validation dengan sepuluh lipatan. Metode yang digunakan untuk klasifikasi
adalah k- Nearest Neighbor (kNN). Skenario pengujian yang dilakukan adalah
menggabungkan ukuran citra dengan nilai parameter tetangga (k). Ukuran gambar
yang diuji adalah 100x100 piksel, 300x300 piksel, 600x600 piksel, dan 1000x1000
piksel. Nilai “k” yang diuji adalah 1, 3, 5, 7, 9, 11, dan 13. Akurasi tertinggi mencapai
92,5% pada gambar berukuran 1000x1000 piksel dengan parameter “k” adalah 3. Hasil
percobaan menunjukkan bahwa ukuran citra mempunyai pengaruh yang signifikan
terhadap akurasi, namun nilai parameter tetangga (k) mempunyai pengaruh yang tidak
terlalu signifikan. Sumber: Suwanto Sanjaya, Morina Lisa Pura, Siska Kurnia Gusti,
Febi Yanto, Fadhilah Syafria, K-Nearest Neighbor for Classification of Tomato
Maturity Level Based on Hue, Saturation, and Value Colors, Indonesian Journal of
Artificial Intelligence and Data Mining (IJAIDM), Vol 2, No.2, September 2019, pp.
101 – 106.
i. Peramalan diterapkan karena kompleksitas dan ketidakpastian yang dihadapi oleh data
berdimensi tinggi yang tersedia di bidang bioinformatika, kemometri, perbankan dan
aplikasi lainnya. Proses memperkirakan secara sistematis apa yang paling mungkin
terjadi di masa depan berdasarkan data masa lalu dan masa kini memerlukan suatu
model peramalan yang tepat, sehingga perbedaan antara apa yang terjadi dengan hasil
perkiraan dapat diminimalkan. Untuk mendapatkan metode yang tepat diperlukan
suatu teknik pengukuran untuk mendeteksi keakuratan nilai peramalan. Pada tulisan
ini dibahas teknik pengukuran akurasi peramalan dengan Mean Square Error (MSE)
dan Mean Absolute Percentage Error (MAPE) dengan menggunakan metode Random
K-Nearest Neighbor (RKNN). Dengan kedua teknik pengukuran pemodelan
horizontal di atas, dipilih nilai MSE dan MAPE terkecil (nilai error terkecil). Dari hasil
analisis perhitungan nilai pengukuran akurasi peramalan pada saat pelatihan dengan
RKNN diperoleh nilai akurasi MAPE sebesar 0.728427% dan MSE sebesar 0.545751,
sedangkan nilai akurasi terkecil diperoleh dengan menggunakan MSE yaitu sebesar
0.545751. Sumber: S Prayudani, A Hizriadi, Y Y Lase, Y Fatmi, Al-Khowarizmi,
Analysis Accuracy Of Forecasting Measurement Technique On Random K-Nearest
Neighbor (RKNN) Using MAPE And MSE, Journal of Physics: Conference Series
1361 (2019) 012089 doi:10.1088/1742-6596/1361/1/012089.
j. Penelitian mengenai pengenalan karakter plat nomor kendaraan atau Automatic
License Plate Detection (ALPR) sudah banyak dilakukan. Berbagai metode machine
learning digunakan pada proses pengenalan karakter plat nomor kendaraan. Pada
penelitian ini akan membandingkan metode K-Nearest Neighbor (KNN) dan Support
Vector Machine (SVM) dalam pengenalan karakter plat nomor kendaraan. Pengujian
sistem pada 20 pengujian didapatkan hasil sebagai berikut: Akurasi pengujian
pengenalan plat kendaraan dengan metode Support Vector Machine dengan akurasi
95%. Sedangkan menggunakan metode KNN mendapatkan akurasi pengujian 80%.
Sumber: Aris Budianto, Dwi Maryono, Rosihan Ariyuana, Perbandingan K-Nearest
Neighbor (Knn) Dan Support Vector Machine (Svm) Dalam Pengenalan Karakter Plat
Kendaraan Bermotor, JIPTEK, Vol. 11 No.1 , 2018

Anda mungkin juga menyukai