Anda di halaman 1dari 38

PERBANDINGAN ALGORITMA LOGISTIC

REGRESSION, DECISION TREE DAN SVM DALAM


MEMPREDIKSI HARI BAIK PERNIKAHAN
BERDASARKAN WARIGA

PROPOSAL TESIS

Oleh
ANAK AGUNG GDE WAHYU SUKMA ERLANGGA
NIM 2229101028

PROGRAM STUDI ILMU KOMPUTER


PASCASARJANA
UNIVERSITAS PENDIDIKAN GANESHA
2022
PERBANDINGAN ALGORITMA LOGISTIC
REGRESSION, DECISION TREE DAN SVM DALAM
MEMPREDIKSI HARI BAIK PERNIKAHAN
BERDASARKAN WARIGA

PROPOSAL TESIS

Oleh
ANAK AGUNG GDE WAHYU SUKMA ERLANGGA
NIM 2229101028

PROGRAM STUDI ILMU KOMPUTER


PASCASARJANA
UNIVERSITAS PENDIDIKAN GANESHA
2022
DAFTAR ISI

DAFTAR ISI.............................................................................................................i

DAFTAR TABEL..................................................................................................iii

DAFTAR GAMBAR..............................................................................................iv

DAFTAR RUMUS..................................................................................................v

BAB I PENDAHULUAN........................................................................................1

1.1 Latar Belakang.........................................................................................1

1.2 Identifikasi Masalah.................................................................................5

1.3 Batasan Masalah......................................................................................5

1.4 Rumusan Masalah....................................................................................6

1.5 Tujuan Penelitian.....................................................................................6

1.6 Manfaat Penelitian...................................................................................7


1.6.1 Manfaat Teoritik..............................................................................7
1.6.2 Manfaat Praktis................................................................................7

BAB II KAJIAN TEORI..........................................................................................8

2.1 Wariga......................................................................................................8

2.2 Machine Learning....................................................................................9

2.3 Python....................................................................................................11

2.4 Jupyter Notebook...................................................................................12

2.5 Logistic Regression................................................................................12

2.6 Decision Tree.........................................................................................13


2.6.1 Model Decision Tree......................................................................14

2.7 Support Vector Machine........................................................................16


2.8 Confusion Matrix...................................................................................17

2.9 Kajian Hasil Penelitian yang Relevan....................................................19

BAB III METODOLOGI PENELITIAN..............................................................26

3.1 Studi Literatur........................................................................................26

3.2 Pengumpulan Data.................................................................................26

3.3 Penyusunan dan Labeling Dataset.........................................................26

3.4 Data Preprocessing................................................................................27

3.5 Data Splitting.........................................................................................27

3.6 Modeling................................................................................................27

3.7 Evaluasi..................................................................................................27

3.8 Penarikan Kesimpulan...........................................................................28

DAFTAR PUSTAKA............................................................................................29
DAFTAR TABEL

Tabel 2.1 Confusion Matrix...................................................................................18


DAFTAR GAMBAR

Gambar 2.1 Struktur Decision Tree.......................................................................14


DAFTAR RUMUS

(2.1)........................................................................................................................13

(2.2)........................................................................................................................13

(2.3)........................................................................................................................15

(2.4)........................................................................................................................15

(2.5)........................................................................................................................16

(2.6)........................................................................................................................16

(2.7)........................................................................................................................17

(2.8)........................................................................................................................18

(2.9)........................................................................................................................18

(2.10)......................................................................................................................18

(2.11)......................................................................................................................19
BAB I

PENDAHULUAN

1.1 Latar Belakang

Masyarakat Bali adalah masyarakat yang menjunjung tinggi nilai dan

budaya yang mereka anut. Masyarakat yang mayoritasnya pemeluk Agama Hindu

tersebut begitu taat dan mempercayai setiap ajaran yang mereka anut. Salah satu

diantaranya adalah kepercayaan terhadap baik buruknya hari. Masyarakat Bali

mempercayai bahwa keberhasilan segala bentuk kegiatan mulai dari upacara

agama maupaun pekerjaan sehari-hari juga ditentukan oleh hari pelaksanaannya.

Baik buruknya hari dapat ditentukan perhitungan waktu tradisional Bali yang

disebut dengan wariga, dimana wariga Bali berfungsi sebagai petunjuk jalan bagi

manusia untuk mencapai yang terbaik (wakhyuningngarsih, 2019).

Pada dasarnya wariga merupakan ajaran yang bersumber pada ilmu

astronomi. Ilmu tersebut adalah ilmu yang memiliki kaitan dengan pengamatan

dan penjelasan mengenai kejadian yang terjadi di luar Bumi dan atmosfernya,

mulai dari asal mula, rotasi, evolusi serta sifat fisik dan kimiawi dari suatu bintang

maupun benda-benda langit lainnya. Agama Hindu, khususnya di India lebih

mengenal ilmu astronomi dengan nama Jyotisa. Jyotisa merupakan salah satu

bagian dari kitab suci Weda atau lebih tepatnya termasuk ke dalam Wedangga.

Bersumber dari ajaran tersebut di Bali pun ajaran tersebut lebih dikenal dengan

1
2

wariga yang dapat digunakan untuk perhitungan baik buruknya hari (Kemenag

Buleleng, 2018).

Semua upacara keagamaan di Bali dapat ditentukan menggunakan wariga,

salah satunya adalah upacara pawiwahan atau pernikahan. Namun, tidak semua

orang dan hanya orang tertentu saja yang mengetahui dasar perhitungan Wariga.

Selain itu, dalam menentukan atau melakukan klasifikasi terhadap baik buruknya

hari kerap kali memakan waktu yang cukup lama. Hal itu disebabkan karena cara

yang dipakai adalah cara manual yaitu dengan cara membaca kalender Bali yang

diterbitkan oleh media cetak.

Berikut ini beberapa penelitian yang memiliki kaitan dengan penelitian

yang penulis lakukan, yaitu penelitian yang dilakukan oleh Anak Agung Gede Adi

Mega Putra dengan judul “Kalender Bali dalam Kehidupan Umat Hindu di Bali

(Perspektif Pendidikan Sosio-Religius)” pada tahun 2020. Pada penelitian tersebut

menjelaskan mengenai penggunaan kalender Bali dalam kehidupan sosio-religius

seperti menggunakan ala ayuning dewasa dalam setiap kegiatan adat, budaya dan

agama. Selain itu, penelitian ini juga menjelaskan mengenai hal-hal yang diatur

kalender Bali sebagai pedoman dalam kehidupan sosio-religius, serta implikasi

kalender Bali dalam kehidupan sosio-religius umat Hindu di Bali. Namun, pada

penelitian ini tidak dijelaskan mengenai bagaimana perhitungan dari Wariga.

Penelitian selanjutnya yang dilakukan oleh I Wayan Swandana, Gede

Mahendrayana, dan Luh Gede Eka Wahyuni yang berjudul “Pemaknaan Tanda

dalam Ala Ayuning Dewasa Berdasarkan Wewaran pada Kalender Caka Bali”

pada tahun 2017. Penelitian ini membahas mengenai pemaknaan hubungan


3

konotoasi, denotasi, dan konotasi-denotasi (campuran) dari istilah-istilah yang ada

pada ala ayuning dewasa berdasarkan wewaean pada kalender Bali. Sama seperti

penelitian sebelumnya, penelitian ini juga tidak membahas mengenai perhitungan

Wariga.

Berikutnya adalah penelitian yang dilakuakn oleh E W Hary Candana, I

Gede Aris Gunadi dan D G H Divayana dengan judul “Perbandingan Fuzzy

Tsukamoto, Mamdani, dan Sugeno dalam Penentuan Hari Baik Pernikahan

Berdasarkan Wariga Menggunakan Confusion Matrix” pada tahun 2021.

Penelitian ini melakukan perbandingan antara metode fuzzy Tsukamoto,

Mamdani, dan Sugeno dalam menentukan hari baik pernikahan di Bali

berdasarkan perhitungan Wariga. Akurasi yang dihasilkan dari setiap metode

dibandingkan dengan prediksi hari baik dari ahli wariga dengan menggunakan

confusion matrix, dimana dihasilkan nilai accuracy 99,32%, precision 92,31%,

recall 75%, dan F1 score sebesar 82,76% dari metode Sugeno yang merupakan

nilai tertinggi dibandingkan dengan dua metode lainnya. Pengujian dari penelitian

tersebut dilakukan dengan sistem berbasis web dengan jumlah hari yang diuji

sebanyak 731 hari yaitu dari tahun 2020-2021.

Kemudian penelitian yang dilakukan oleh Neni Alya Firdausanti, Ratih

Ardiati Ningrum, dan Siti Qomariyah pada tahun 2022 yaitu “Comparisons of

Logistic Regression and Support Vector Machines in Classification of

Echocardiogram Dataset”. Penelitian ini melakukan perbandingan antara metode

Logistic Regression dengan Support Vector Mechine (SVM) untuk mengklasifikasi

apakah pasien akan bertahan hidup atau tidak dimana dataset yang digunakan
4

adalah Echocardiogram Dataset yang memiliki 7 fitur. Dijelaskan setelah melalui

beberapa preprocessing seperti imputasi data kosong menggunakan median,

outlier detection dan pemilihan fitur menggunakan metode backward ditemukan

bahwa SVM memiliki akurasi yang lebih baik untuk melakukan klasifikasi yaitu

sebesar 91,54%.

Lalu, penelitian oleh Artika Arista pada tahun 2022 yaitu “Comparison

Decision Tree and Logistic Regression Machine Learning Classification

Algorithms to determine Covid-19” merupakan penelitian yang membandingkan

algoritma Decision Tree dan Logistic Regression dalam menentukan atau

mengklasifikasi Covid-19, dimana Decision Tree memperoleh rata-rata cross-

validation dan akurasi yang lebih baik dibandingkan dengan Logistic Regression

dengan 98% akurasi cross-validation dan 98% akurasi untuk pengujian performa.

Berdasarkan pemaparan tersebut, maka pada penelitian ini penulis akan

mencoba melakukan klasifikasi untuk menentukan baik buruknya hari pernikahan

berdasarkan Wariga dengan menggunakan beberapa metode mechine learning.

Metode yang akan digunakan antara lain Logistic Regression, Support Vector

Mehcine, dan Decision Tree. Penelitian ini akan membandingan ketiga metode

tersebut dan menentukan metode terbaik untuk melakukan klasifikasi terhadap

baik buruknya hari pernikahan berdasarkan Wariga. Dengan adanya penelitan ini

diharapkan dapat ditemukan model mechine learning yang dapat membantu

dalam menentukan baik buruknya hari untuk pernikahan. Selain itu, peneliti

berharap penelitian ini dapat menjadi salah satu upaya dalam melestarikan budaya

Bali yang sudah diwariskan secara turun-temurun.


5

1.2 Identifikasi Masalah

Berdasarkan latar belakang yang sudah dijelaskan sebelumnya, maka

beberapa permasalahan yang dapat diidentifikasi adalah sebagai berikut.

1. Proses penentuan atau klasifikasi baik buruknya hari untuk pernikahan masih

dilakukan secara manual, dimana harus menemui ahli Wariga dan prosesnya

biasanya cukup lama.

2. Hanya orang-orang terentu yang mengetahui perhitungan Wariga seperti

pemangku dan sulinggih.

3. Belum pernah dilakukan penelitian mengenai klasifikasi hari baik pernikahan

berdasarkan Wariga menggunakan metode mechine learning, dimana pada

penelitian sebelumnya penelitian hanya dilakukan menggunakan 3 metode

fuzzy yaitu metode Tsukamoto, Mamdani dan Sugeno. Pada penelitian itu

metode Sugeno memperoleh accuracy, precision, recall, dan F1 score

tertinggi dibandingkan metode lainnya ketika diuji menggunakan confusion

matrix.

1.3 Batasan Masalah

Adapun batas permasalahan dalam penelitian yang peneliti lakukan adalah

sebagai berikut.

1. Aplikasi yang akan digunakan untuk melakukan pengolahan data adalah

Jupyter Notebook dengan bahasa pemrograman Python.


6

2. Hari baik ditentukan melalui ajaran Wariga seperti, alahaning dewasa, tanggal

alahaning sasih, wewaran alahaning wuku, dan wuku alahaning tanggal.

3. Terdapat preprocessing berupa konversi fitur bertipe kategorikal

menggunakan one hot encoding.

4. Data diklasifikasi menggunakan metode mechine learning yaitu, Logistic

Regresion, Support Vector Mechine (SVM), dan Decision Tree.

5. Output prediksi yang dihasilkan hanya merepresentasikan baik atau buruknya

hari untuk pernikahan.

6. Hasil prediksi akan dievaluasi menggunakan confusion matrix.

7. Penelitian ini dibatasi dengan hanya mewawancara 2 orang sulinggih dan

seorang ahli Wariga.

1.4 Rumusan Masalah

Adapaun rumusan masalah pada penelitian ini berdasarkan dengan latar

belakang yang sudah dijelaskan sebelumnya adalah bagaimana perbandingan

akurasi metode Logistic Regresion, Support Vector Mechine (SVM), dan Decision

Tree dalam melakukan klasifikasi terhadap baik buruknya hari pernikahan

berdasarkan ajaran Wariga?

1.5 Tujuan Penelitian

Berdasarkan rumusan masalah diatas adapun tujuan dari penelitian ini

adalah untuk membandingkan akurasi metode Logistic Regresion, Support Vector


7

Mechine (SVM), dan Decision Tree dalam melakukan klasifikasi terhadap baik

buruknya hari pernikahan berdasarkan ajaran Wariga.

1.6 Manfaat Penelitian

1.6.1 Manfaat Teoritik

Penelitian ini dimaksudkan untuk dapat membantu dalam pengembangan

ilmu tentang proses penerapan metode mechine learning yaitu Logistic Regresion,

Support Vector Mechine (SVM), dan Decision Tree dalam melakukan klasifikasi

terhadap baik buruknya hari untuk melakukan pernikahan di Bali.

1.6.2 Manfaat Praktis

Peneliti juga berharap dengan penelitian ini manfaat praktis bisa dicapai,

diantarnya:

1. Dapat memberikan manfaat bagi peneliti lainnya karena peneliti

menggunakan dataset yang peneliti dapatkan secara langsung dari sulinggih

dan ahli Wariga sehingga dapat dikembangkan lebih lanjut pada penelitian

yang akan datang.

2. Dapat melestarikan ajaran Wariga dalam bentuk model mechine learning.

3. Model mechine learning yang dihasilkan dapat digunakan untuk

mengembangkan aplikasi berbasiskan mechine learning.

4. Dapat membantu dan mempermudah orang yang ingin menentukan baik atau

buruknya hari untuk melangsungkan pernikahan secara lebih mandiri.


BAB II

KAJIAN TEORI

2.1 Wariga

Wariga merupakan istilah yang sudah dikenal secara luas oleh masyarakat

Bali. Wariga merupakan suatu ajaran yang bersumber atau berpangkal dari Jyotisa

di India. Jyotisa merupakan pelengkap Weda yang isinya memuat pokok-pokok

ajaran astronomi yang diperlukan untuk pedoman dalam melakukan yadnya,

isinya dalah membahas tata surya, bulan dan benda angkasa lainnya yang

dianggap mempunyai pengaruh di dalam pelaksanaan yadnya (Imron, 2015). Pada

Weda Jyotisa termasuk ke dalam kelompok wedangga, dimana kemudian diadopsi

dan lebih dikenal sebagai wariga oleh masyarakat Bali.

Pada wariga terdapat sistem atau aturan untuk menentukan baik buruknya

hari. Wariga dinyatakan berasal dari dari kata “Wara” yang berarti mulia atau

sempurna, “I” berarti mengarah, dan “Ga” berarti jalan atau pergi, sehingga istilah

wariga diartikan pula sebagai jalan untuk menuju pada yang sempurna

(perhitungan hari sebagai petunjuk untuk menuju ke arah yang lebih baik)

(Widana, 2022). Melalui ajaran wariga umat Hindu dituntun menggunakan waktu

sebaik-baiknya, sebab hal ini memegang peranan penting dalam kehidupan

manusia maupun lainnya (Indradewa, 2021). Umat Hindu selalu memperhatikan

faktor-faktor pendukung yang dapat memengaruhi keberhasilan atau kesuksesan

setiap kegiatan adat, budaya dan agama yang mereka lakukan. Padewasan/ala

8
9

ayuning dewasa adalah salah satu yang perlu diperhatikan, dimana padewasan

berasal dari kata dasar dewasa (mendapat awalan pa- dan akhiran -an) yang

artinya hari baik (Adi Mega Putra, 2020).

2.2 Machine Learning

Artificial Intelligent (AI) semakin berkembang dari waktu ke waktu,

hampir semua hal menggunakan AI mulai dari perbankan, pendidikan, hingga

kesehatan. Salah satu bagian AI yang paling popular dan penting untuk banyak

aplikasi komersil saat ini adalah Machine Learning (ML). Machine Laerning

adalah subset kecerdasan buatan (AI) yang menyediakan kemampuan bagi sistem

untuk secara untuk secara otomatis belajar dan meningkatkan dari pengalaman

tanpa diprogram secara eksplisit (Tahyudin, 2020). Pada bidang kecerdasan

buatan, machine learning (ML) mengombinasikan statistik dan ilmu komputer

untuk membuat algoritme yang menjadi lebih efisien jika diberikan data yang

relevan daripada instruksi yang tepat (Arista, 2022). Kemampuan utama dari

machine learning adalah pengambilan keputusan otomatisnya, dimana

kemampuan itu didapatkan melalui pengalaman dalam mempelajari data yang

telah diberikan. Machine learning dapat dibagi menjadi tiga jenis yaitu,

Supervised Learning, Unsupervised Learning dan Reinforcement Learning.

Berikut ini merupakan penjelasan dari ketiga jenis machine learning tersebut.

1. Supervised Learning

Supervised learning adalah salah satu jenis mechine learning yang paling

banyak dan umum digunakan oleh para praktisi. Algoritma supervised learning
10

merupakan algoritma pembelajaran mesin yang dapat diartikan pembelajaran yang

diawasi (Tri Yunardi & Zata Dina, 2022). Dataset yang yang dapat digunakan

sebagai data latih pada algoritma ini adalah dataset yang sudah diberikan label.

Berdasarkan data latih yang terlabel tersebut akan dibangun model yang nantinya

dapat digunakan untuk melakukan prediksi pada data yand diinputkan. Terdapat

dua tipe masalah supervised learning yaitu klasifikasi dan regresi (Müller &

Guido, 2017). Klasifikasi adalah tipe supervised learning yang bertujuan untuk

menentukan atau memprediksi label dari data input, dimana label tersebut sudah

didefiniskan sebelumnya pada label data training. Terdapat dua jenis klasifikasi

seperti binary classification untuk menentukan label antara 0 atau 1 serta

multiclass classification yang dapat menentukan lebih dari dua label. Tipe

selanjutnya adalah regresi, dimana regresi bertujuan untuk menentukan atau

memprediksi nilai yang bersifat continuous, contohnya seperti memprediksi harga

suatu rumah atau meramalkan hasil penjualan yang akan datang.

2. Unsupervised Learning

Berbanding terbalik dengan supervised learning, unsupervised learning

merupakan algoritma mechine learning yang digunakan pada data yang tidak

memiliki informasi atau lagel yang akan dijadikan acuan sebelumnya (Tri Yunardi

& Zata Dina, 2022). Pada unsupervised learning algortima pembelajaran hanya

menunjukan data input dan diminta untuk mengekstrak pengetahuan dari data

tersebut (Müller & Guido, 2017). Contoh dari unsupervised learning adalah
11

clustering, dimana clustering atau klasterisasi adalah metode pengelompokan data

(Id, 2021).

3. Reinforcement Learning

Reinforcement learning adalah bagian dari artificial intelligence yang melatih

algoritma dengan sistem trial and error (Andreanus & Kurniawan, 2017). Jika

mesin berhasil dalam melakukan pekerjaannya maka mesin akan mendapatkan

reward atau hadiah, dimana layaknya manusia dapat membuat mesin bekerja lebih

maksimal sedangkan jika mesin mengalami kegagalan dalam pekerjaannya maka

mesin akan mendapatkan suatu penalti atau hukuman. Contohnya pada permainan

catur atau self-driving car, dimana komputer yang berinteraksi dengan lingkungan

dnimas dalam melakukan tugas tertentu dan algoritma akan membuat mesin

belajar untuk membuat suatu keputusan spesifik pada lingkungan yang berubah-

ubah.

2.3 Python

Python adalah bahasa pemrograman yang diciptakan oleh Guido van

Rossum pada tahun 1991 dan merupakan bahasa pemrograman tingkat tinggi

(Saputra dkk., 2020). Saat ini bahasa pemrograman python sangat banyak

digunakan karena sintaks dan kodenya sederhana serta mudah untuk dibaca.

Selain itu, python juga bahasa pemrogaman yang dapat digunakan dalam banyak

bidang oleh sebab itu, python dikatakan sebagai general purpose programming

language. Data science adalah salah satu bidang yang menggunakan python.

Python dipilih karena python memiliki banyak library untuk data loading,
12

visualisasi, statistic, natural language processing (NLP), image processing, dan

masih banyak lainnya (Müller & Guido, 2017).

2.4 Jupyter Notebook

Jupyter Notebook merupakan salah satu IDE (Integrated Development

Environment) yang paling popular dalam data science menggunakan bahasa

pemrograman Python. Jupyter Notebook memungkinkan kita untuk

mengkombinasikan teks naratif, kode, persamaan atau rumus, dimana semuanya

hasilnya ditampilkan pada interactive notebook yang berjalan di browser

(McLevey, 2021). Aplikasi ini banyak digunakan karena kemampuannya yang

sudah disebutkan sebelumnya, dimana hal itu sangat memudahkan contohnya

ketika melakukan exploratory data analysis (EDA). Sayangnya Jupyter Notebook

hanya bisa dijalankan secara lokal dengan server lokal, namun ada Google Colabs

yang dapat menggantikan perannya jika harus bekerja secara online.

2.5 Logistic Regression

Logistic Regression atau regresi logistik adalah metode yang bersumber

dari ilmu statistiik yang diadopsi oleh machine learning untuk melakukan

klasifikasi (Id, 2021). Metode ini digunakan untuk menggambarkan hubungan

antara variabel respon dengan sekumpulan variabel prediktor, dimana variabel

respon bersifat biner atau dikotomus (Pamungkas dkk., 2019). Oleh sebab itu,

biasanya algoritma ini digunakan untuk melakukan klasifikasi biner atau binary

classification. Contoh masalah yang diselesaikan seperti kemungkinan seseoarang

mengalami kematian karena penyakit diabetes berdasarkan variabel-variabel


13

prediktornya seperti umur, riwayat penyakit keluarga, dan indeks massa tubuh,

dimana kelas dari variabel respon akan bernilai 1 dan 0. Fungsi yang digunakan

pada regresi logistic adalah fungsi logistic atau yang juga dikenal dengan nama

fungsi sigmoid, berikut ini merupakan formula dari fungsi tersebut.

1 (2.1)
Sigmoid ( x )= −1
1+e

Secara teknis, regresi logistik merupakan regresi linear yang

disubstitusikan ke dalam fungsi logistik. Berikut ini merupakan persamaan regresi

logistik yang dapat dilihat pada formula dibawah ini.

1 (2.2)
Y= −(b0+b1 X1 +b2 X 2 +b3 X 3 …+bn X n)
1+e

2.6 Decision Tree

Decision Tree adalah salah satu algoritma supervised learning yang paling

banyak digunakan untuk melakukan tugas klasifikasi (Arista, 2022). Algoritma

tersebut merupakan metode-metode yang digunakan untuk membuat sebuah

model pengambilan keputusan berbentuk tree/pohon berdasarkan atribut data

mining (Id, 2021). Pada dasarnya metode atau algoritma ini mempelajari

mempelajari pertanyaan if/else untuk mendapatkan suatu keputusan.


14

2.6.1 Model Decision Tree

Strukutur data tree adalah struktur data yang menyusun model dari pohon

keputusan atau decision tree. Sama seperti struktur data tree pohon keputusan

juga terdiri atas node-node, dimana terdapat 3 jenis node yaitu:

1. Root Node

Root node yaitu node yang terletak paling atas sehingga tidak memiliki input

serta hanya punya satu output.

2. Internal Node

Internal node adalah node percabangan sehingga memiliki satu input dan

lebih dari dua output.

3. Leaf Node

Leaf Node atau terminal node merupakan node yang terletak di ujung

sehingga hanya punya satu input dan tidak terdapat output, dan leaf juga biasanya

merepresentasikan suatu kelas dari data.

Gambar 2.1 Struktur Decision Tree


15

Untuk dapat membentuk suatu decision tree atau pohon keputusan seperti

pada Gambar 2.1 diatas digunakan entropy (S) dimana, entropy digunakan untuk

menentukan jumlah bit dalam proses ekstrasi kelas + dan – dari sejumlah data

acak pada ruang sampel S dan juga digunakan sebagai kebutuhan bit untuk

menyatakan suatu kelas. Berikut ini merupakan formula untuk menghitung nilai

dari entropy (Indah Werdiningsih dkk., 2020).

Entropy ( S ) =− p⊕ log 2 p⊕ − p⊖ log 2 p ⊖ (2.3)

Keterangan:

S = Data atau ruang sampel untuk training.

p⊕ = Jumlah solusi positif pada data sampel unutk kriteria tertentu.

p⊖ = Jumlah solusi negatif pada data sampel unutk kriteria tertentu.

Selain entropy nilai yang juga berguna untuk membuat suatu pohon

keputusan adalah Gain. Gain berfungsi sebagai ukuran seberapa baik suatu atribut

dalam memisahkan training example ke kelas target dimana atribut dengan nilai

informasi gain tertinggi akan dipilih (Indah Werdiningsih dkk., 2020). Berikut ini

merupakan formula atau persamaan yang untuk melakukan perhitungan nilai

informasi gain.

|S v| (2.4)
Gain ( S , A )=Entropy ( S )−∑v ∈Values ( A ) Entropy (S v )
|S|

Keterangan:

S = Data atau ruang sampel untuk training.

A = Atribut.

V = Nilai atribut A.
16

Nilai( A) = Himpunan yang mungkin untuk atribut A.

|S v| = Jumlah sampel untuk nilai V.

|S| = Jumlah seluruh data sampel.

Entropy ( S v ) = Entropi untuk sampel-sampel yang memiliki nilai V.

2.7 Support Vector Machine (SVM)

Support Vector Machine (SVM) merupakan algoritma atau metode yang

memiliki tujuan untuk mencari suatu hyperline optimal dengan tujuan untuk

membagi kelas dengan jarak margin terjauh antar kelas (Pamungkas dkk., 2019).

Hyperline itu nantinya akan memisahkan data yang memiliki nilai variabel target

yang berbeda dan membantu untuk memisahkan data yang sulit untuk dipisahkan

(Werdiningsih dkk., 2022). Namun, hyperline memiliki suatu kekurangan dimana

tidak bisa memisahkan data yang tidak linear, akan tetapi masalah itu dapat

dipecahkan dengan bantuan kernel. Kernel bertujuan untuk memetakan ruang

input (input space) ke dimensi yang lebih tinggi (feature space) (Werdiningsih

dkk., 2022). Terdapat tiga jenis kernel yaitu linear, polynomial, serta gaussian

radial basis function dan persamaannya dapat dilihat pada persamaan 2.5, 2.6, dan

2.7.

1. Persamaan Kernel Linear:


T
K ( x 1 , x 2 ) = ⟦ xi ⟧ x j (2.5)

2. Persamaan Kernel Polynomial:


17

⟦ ⟧
d
KK ( x1 , x2 ) = ( t+ ⟦ x i ⟧ x j )
T
(2.6)

3. Persamaan Gaussian Radial Basis Function (RBF):

( )
2
−‖x 1−x 2‖
K ( x 1 , x 2 )=exp 2 (2.7)

SVM dapat digunakan untuk melakukan klasfikasi biner atau memprediksi

antara “Ya” dan “Tidak maupun klasifikasi multi-kelas dengan menggunakan

one-vs-all atau one-vs-one. Data yang biasanya ditangani oleh algoritma atau

metode ini adalah data dengan dimensi yang tinggi dan tidak terlalu banyak. SVM

hanya menggunakan beberapa titik data terpilih yang berkontribusi (Support

Vector) untuk membentuk model yang akan digunakan dalam proses klasifikasi

(Sianturi dkk., 2019). Namun, SVM memiliki kelemahan seperti membutuhkan

waktu yang cukup lama ketika melakukan pelatihan data jika dibandingkan

dengan algoritma lain dan juga fine-tuningnya harus cukup tinggi untuk

menemukan hyperparameter yang baik.

2.8 Confusion Matrix

Confusion matrix adalah tabel yang menyatakan klasifikasi jumlah data uji

yang benar dan jumlah data uji yang salah (Normawati & Prayogi, 2021). Pada

confusion matrix terdapat 4 buah istilah yang teridiri dari (1) True Positif (TP),

yaitu nilai aktual positif yang diprediksi positif (2) False Positif (FP), yaitu nilai

actual negatif yang diprediksi positif (3) True Negatif (TN), yaitu nilai aktual
18

negatif yang diprediksi negatif, (4) False Negatif (FN), yaitu nilai aktual positif

yang diprediksi negatif. Keempat istilah tersebut dapat digunakan untuk

melakukan kalkulasi nilai matriks evaluasi yaitu accuracy, precision, recall, dan

F1-score untuk mengevaluasi model machine learning. Untuk lebih mudah

memahaminya contoh tabel dari confusion matrix dapat dilihat pada Tabel 2.1

dibawah ini.

Tabel 2.1 Confusion Matrix


Nilai Aktual
Positif (1) Negatif (0)
Positif (1)

True Positif (TP) False Positif (FP)


Nilai Prediksi

Negatif (0)

False Negati (FP) True Negatif (TP)

Selanjutnya untuk rumus masing-masing dari accuracy, precision, recall, dan

F1-score adalah sebegai berikut.

1. Accuracy

TP+TN
Accuracy= (2.8)
TP+ FP+TN + FN

2. Precision

TP
Precision= (2.9)
TP+ FP
19

3. Recall

TP
Recall= (2.10)
TP+ FN

4. F1-Score

2× Recall × Precision
F 1 Score= (2.11)
Recall+ Precision

2.9 Kajian Hasil Penelitian yang Relevan

Adapun kajian hasil penelitian yang relevan dan berkaitan dengan

penelitian ini dapat dilihat pada Tabel 2.2

No Peneliti Judul Hasil Penelitian

1 Anak Agung Kalender Bali dalam Penelitian ini menjelaskan

Gede Adi Mega Kehidupan Umat mengenai penggunaan

Putra (2020) Hindu di Bali kalender Bali dalam

(Perspektif kehidupan sosio-religius

Pendidikan Sosio- seperti menggunakan ala

Religius) ayuning dewasa dalam setiap

kegiatan adat, budaya dan

agama. Selain itu, penelitian

ini juga menjelaskan

mengenai hal-hal yang diatur

kalender Bali sebagai

pedoman dalam kehidupan

sosio-religius, serta implikasi


20

kalender Bali dalam

kehidupan sosio-religius umat

Hindu di Bali. Namun, pada

penelitian ini tidak dijelaskan

mengenai bagaimana

perhitungan dari Wariga (Adi

Mega Putra, 2020).

2 I Wayan Pemaknaan Tanda Penelitian ini membahas

Swandana, Gede dalam Ala Ayuning mengenai pemaknaan

Mahendrayana, Dewasa Berdasarkan hubungan konotoasi,

dan Luh Gede Wewaran pada denotasi, dan konotasi-

Eka Wahyuni Kalender Caka Bali denotasi (campuran) dari

(2017) istilah-istilah yang ada pada

ala ayuning dewasa

berdasarkan wewaean pada

kalender Bali. Sama seperti

penelitian sebelumnya,

penelitian ini juga tidak

membahas mengenai

perhitungan Wariga

(Swandana dkk., 2017).

3 E W Hary Perbandingan Fuzzy Penelitian ini melakukan

Candana, I Gede Tsukamoto, perbandingan antara metode


21

Aris Gunadi dan Mamdani, dan fuzzy Tsukamoto, Mamdani,

D G H Divayana Sugeno dalam dan Sugeno dalam

(2021) Penentuan Hari Baik menentukan hari baik

Pernikahan pernikahan di Bali

Berdasarkan Wariga berdasarkan perhitungan

Menggunakan Wariga. Akurasi yang

Confusion Matrix dihasilkan dari setiap metode

dibandingkan dengan prediksi

hari baik dari ahli wariga

dengan menggunakan

confusion matrix, dimana

dihasilkan nilai accuracy

99,32%, precision 92,31%,

recall 75%, dan F1 score

sebesar 82,76% dari metode

Sugeno yang merupakan nilai

tertinggi dibandingkan

dengan dua metode lainnya.

Pengujian dari penelitian

tersebut dilakukan dengan

sistem berbasis web dengan

jumlah hari yang diuji

sebanyak 731 hari yaitu dari


22

tahun 2020-2021 (Hary

Candana dkk., 2021).

4 Neni Alya Comparisons of Penelitian ini melakukan

Firdausanti, Ratih Logistic Regression perbandingan antara metode

Ardiati Ningrum, and Support Vector Logistic Regression dengan

dan Siti Machines in Support Vector Machine

Qomariyah Classification of (SVM) untuk mengklasifikasi

(2022) Echocardiogram apakah pasien akan bertahan

Dataset hidup atau tidak dimana

dataset yang digunakan

adalah Echocardiogram

Dataset yang memiliki 7 fitur.

Dijelaskan setelah melalui

beberapa preprocessing

seperti imputasi data kosong

menggunakan median, outlier

detection dan pemilihan fitur

menggunakan metode

backward ditemukan bahwa

SVM memiliki akurasi yang

lebih baik untuk melakukan

klasifikasi yaitu sebesar

91,54% (Firdausanti dkk.,


23

2022).

5 Artika Arista Comparison Penelitian yang

(2022) Decision Tree and membandingkan algoritma

Logistic Regression Decision Tree dan Logistic

Machine Learning Regression dalam

Classification menentukan atau

Algorithms to mengklasifikasi Covid-19,

determine Covid-19 dimana Decision Tree

memperoleh rata-rata cross-

validation dan akurasi yang

lebih baik dibandingkan

dengan Logistic Regression

dengan 98% akurasi cross-

validation dan 98% akurasi

untuk pengujian performa

(Arista, 2022).

6 Fajri Zulia Eksistensi Kalender Penelitian ini menjelaskan

Ramdhani (2020) Bali dalam Kultur mengenai sejarah

Sosial Masyarakat perkembangan kalender Bali

Multireligius Bali dimana kalender Bali yang

beredar secara luas disusun

oleh Ketut Bangbang Gde

Rawi, kalender Bali dalam


24

muatan dan peristilahan.

Berdasarkan penelitian ini

ditemukan bahwa kalender

Bali berorientasi pada agama

Hindu dan kebudayaannya,

kalender Bali menghimpun

berbagai sistem penanggalan

seperti Masehi, Hijriah, Cina,

Caka Bali, Budha, Jawa

Islam, dan Pawukon, serta

kalender tidak hanya terbatas

digunakan oleh umat Hindu

saja, namun juga oleh

keseluruhan penganut dalam

tataran multireligiusnya dari

aspek religius, kultur, sosial,

hingga ekonomi (Ramdhani,

2020).

7 Fajar Sodik Perbandingan Penelitian ini

Pamungkas, Bayu Metode Klasifikasi membandingkan antar

Dwi Prasetya, Supervised Learning algoritma supervised

Iqbal Kharisudin pada Data Bank learning yaitu, Logistic

(2020) Customers Regression, K-Nearest


25

Menggunakan Neighbor, Support Vector

Python Machine (SVM), Naïve

Bayes, Decision Tree,

Random Forest untuk

melakukan klasifikasi

terhadap data bank

customers. Berdasarkan

pengujian itu diketahui

bahwa random forest adalah

metode terbaik dengan nilai

akurasi 0,862 atau 86,2%,

nilai precision 0,740, nilai

recall 0,482 dan nilai f1

adalah 0,584 (Pamungkas

dkk., 2019).
BAB III

METODOLOGI PENELITIAN

Pada bab ini akan menjelaskan metodologi penelitian yang digunakan dan

bagaimana alur kerja dari penelitian ini.

3.1 Studi Literatur

Tahap ini adalah suatu tahapan yang dilakukan untuk lebih memahami

konsep dan teori yang berkaitan dengan penelitian dengan membaca literatur

seperti buku dan jurnal ilmiah. Pada penelitian ini akan dilakukan studi literatur

mengenai wariga, machine learning, logistic regression, decision tree, dan

support vector machine (SVM), serta confusion matrix.

3.2 Pengumpulan Data

Pada tahap ini akan dilakukan pengumpulan data melalui wawancara

terhadap narasumber, dimana narasumber pada penelitian ini adalah 2 orang

sulinggih dan seorang ahli wariga.

3.3 Penyusunan dan Labeling Dataset

Pada tahap ini akan dilakukan penyusunan data yang telah diperoleh dari

hasil wawancara menjadi sebuah dataset dan setiap data diberikan label masing-

masing.

26
27

3.4 Data Preprocessing

Setelah dataset terbentuk maka akan dilakukan suatu preprocessing data

untuk dapat meningkatkan hasil akurasi dari algoritma mechine learning.

Prepocessing yg dilakukan seperti label encoding dan scaling data.

3.5 Data Splitting

Data splitting adalah suatu tahap dimana data hasil preprocessing akan

dibagi menjadi data training dan juga data testing. Data training akan digunakan

untuk melatih model atau algoritma machine learning sedangkan data testing akan

digunakan untuk melakukan pengujian terhadap model yang telah dihasilkan dari

model training sebelumnya.

3.6 Modelling

Pada tahap ini akan dilakukan training dataset yang telah di-split menjadi

data training dan data testing menggunakan algoritma atau model mechine

learning. Pada penelitian ini akan digunakn tiga buah model atau algoritma

mechine learning yaitu, Logistic Regression, Decision Tree, dan Support Vector

Machine (SVM).

3.7 Evaluasi

Pada tahap ini akan dilakukan evaluasi terhadap model yang dihasilkan

dari training yang telah dilakukan untuk mengetahui apakah model yang

dihasilkan sudah bekerja dengan baik atau tidak. Evaluasi akan dilakukan

menggunakan confusion matrix, dimana melalui hasil confusion matrix peneliti


28

dapat mengetahui accuracy, precision, recall dan F1-score dari model. Jika, model

masih memiliki kinerja yang kurang baik dapat dilakukan hyperparameter tuning

untuk meningkatkan kinerja dari model.

3.8 Penarikan Kesimpulan

Setalah dilakukan evaluasi dari masing-masing model, maka kita dapat

membandingkan setiap model yaitu antara Logistic Regression, Decision Tree,

dan Support Vector Machine (SVM) untuk mengetahui algoritma atau metode

yang berkinerja paling baik.


DAFTAR PUSTAKA

Adi Mega Putra, A. A. G. (2020). Kalender Bali dalam Kehidupan Umat Hindu di Bali
(Perspektif Pendidikan Sosio-Religius). Jurnal Penelitian Agama, VI(1), 9–18.
Andreanus, J., & Kurniawan, A. (2017). Sejarah, Teori Dasar dan Penerapan
Reinforcement Learning: Sebuah Tinjauan Pustaka. Jurnal Telematika, 12(2),
113–118.
Arista, A. (2022). Comparison Decision Tree and Logistic Regression Machine
Learning Classification Algorithms to determine Covid-19. Sinkron, 7(1), 59–65.
https://doi.org/10.33395/sinkron.v7i1.11243
Firdausanti, N. A., Ningrum, R. A., & Qomariyah, S. (2022). Comparisons of Logistic
Regression and Support Vector Machines in Classification of Echocardiogram
Dataset. Inferensi, 5(2), 85. https://doi.org/10.12962/j27213862.v5i2.14121
Hary Candana, E. W., Gede, I., Gunadi, A., & Divayana, D. G. H. (2021).
PERBANDINGAN FUZZY TSUKAMOTO, MAMDANI DAN SUGENO
DALAM PENENTUAN HARI BAIK PERNIKAHAN BERDASARKAN
WARIGA MENGGUNAKAN CONFUSION MATRIX. Jurnal Ilmu Komputer
Indonesia (JIK), 6(2).
Id, I. D. (2021). MACHINE LEARNING : Teori, Studi Kasus dan Implementasi
Menggunakan Python. Unri Press. https://books.google.co.id/books?
id=JvBPEAAAQBAJ
Imron, M. A. (2015). Sejarah Terlengkap Agama-agama di Dunia. IRCiSoD.
https://books.google.co.id/books?id=aM9xEAAAQBAJ
Indah Werdiningsih, S. S. M. K., Barry Nuqoba, S. S. M. K., & Muhammadun, S. S.
M. S. (2020). Data Mining Menggunakan Android, Weka, dan SPSS. Airlangga
University Press. https://books.google.co.id/books?id=xEwCEAAAQBAJ
Indradewa, D. (2021). Etnoagronomi Indonesia. Penerbit Andi.
https://books.google.co.id/books?id=tN5KEAAAQBAJ
Kemenag Buleleng. (2018, Desember 11). Dasar - Dasar Wariga – KANTOR
KEMENTERIAN AGAMA KABUPATEN BULELENG. Kementrian Agama

29
30

Kabupaten Buleleng. https://bali.kemenag.go.id/buleleng/berita/8653/dasar-dasar-


wariga
McLevey, J. (2021). Doing Computational Social Science: A Practical Introduction.
SAGE Publications. https://books.google.co.id/books?id=qM1TEAAAQBAJ
Müller, A. C., & Guido, S. (2017). Introduction to Machine Learning with Python.
Normawati, D., & Prayogi, S. A. (2021). Implementasi Naïve Bayes Classifier Dan
Confusion Matrix Pada Analisis Sentimen Berbasis Teks Pada Twitter. Dalam
Jurnal Sains Komputer & Informatika (J-SAKTI (Vol. 5, Issue 2).
Pamungkas, F. S., Prasetya, B. D., & Kharisudin, I. (2019). Perbandingan Metode
Klasifikasi Supervised Learning pada Data Bank Customers Menggunakan
Python. PRISMA, Prosiding Seminar Nasional Matematika, 3, 689–694.
https://journal.unnes.ac.id/sju/index.php/prisma/
Ramdhani, F. Z. (2020). Eksistensi Kalender Bali dalam Kultur Sosial Masyarakat
Multireligius Bali. Religious: Jurnal Studi Agama-Agama Dan Lintas Budaya,
4(2), 81–92. https://doi.org/10.15575/rjsalb.v4i2.8593
Saputra, A., Pane, S. F., & Awangga, R. M. (2020). Big Data: Implementasi Hadoop
MapReduce pada Pemetaan Sekolah Menggunakan Python. Kreatif Industri
Nusantara. https://books.google.co.id/books?id=Zaj8DwAAQBAJ
Sianturi, F. A., Hasugian, P. M., Simangunsong, A., Nadeak, B., & Sihotang, H. T.
(2019). DATA MINING: Teori dan Aplikasi Weka. IOCS Publisher.
https://books.google.co.id/books?id=MWcHEAAAQBAJ
Swandana, W., Mahendrayana, G., Gede, L., & Wahyuni, E. (2017). Pemaknaan Tanda
dalam Ala Ayuning Dewasa Berdasarkan Wewaran pada Kalender Caka Bali.
SEMINAR NASIONAL RISET INOVATIF, 88–92.
Tahyudin, I. (2020). Pengenalan Machine Learning Menggunakan Jupyter Notebook.
Zahira Media Publisher. https://books.google.co.id/books?id=_uMREAAAQBAJ
Tri Yunardi, R., & Zata Dina, N. (2022). Data Mining dan Machine Learning dengan
Orange3 Tutorial dan Aplikasinya. Airlangga University Press.
https://books.google.co.id/books?id=hplvEAAAQBAJ
wakhyuningngarsih. (2019, Februari 13). Wariga: Pengetahuan Perhitungan Waktu
Tradisional Bali - Balai Pelestarian Nilai Budaya Bali, NTB, NTT. Kementrian
31

Pendidikan Dan Kebudayaan.


https://kebudayaan.kemdikbud.go.id/bpnbbali/wariga-pengetahuan-perhitungan-
waktu-tradisional-bali/
Werdiningsih, I., Novitasari, D. C. R., & Haq, D. Z. (2022). Pengelolaan Data Mining
dengan Pemrograman Matlab. Airlangga University Press.
https://books.google.co.id/books?id=CgOdEAAAQBAJ
Widana, A. A. G. O. (2022). Hermeneutika Kesusastraan Bali: Memahami Dan
Menghargai Karya Luhur Para Leluhur. Nilacakra.
https://books.google.co.id/books?id=fNV0EAAAQBAJ
 

Anda mungkin juga menyukai