TINJAUAN PUSTAKA
Pada bab ini berisi beberapa penelitian terdahulu beserta dasar teori yang berkatian
dengan penelitan ini yang berjudul “Prediksi Nasabah Berpotensi untuk Deposito
Berjangka Menggunakan Algoritma Gradient Boosting dengan Optimalisasi
Hyperparameter”.
17
Salah satu cara yang sering digunakan oleh bank dalam menjalankan aktivitas
marketing nya adalah dengan menggunakan media massa seperti iklan di televisi, radio,
dan surat kabar, melakukan promosi melalui media sosial dan situs web bank, Serta
Marketing Bank dapat dilakukan secara langsung menghubungi calon pelanggan dan
menawarkan produk dan layanan dan ditawarkan. Pemasaran langsung adalah kegiatan
komunikasi secara langsung terhadap individu yang ditargetkan dengan hati-hati untuk
mendapatkan tanggapan langsung dan membangun hubungan pelanggan yang
berjangka panjang [3].
Salah satu kelebihan dari metode imputasi dengan decision tree adalah
kemampuannya untuk mengelompokkan data menjadi kelompok yang sesuai dengan
fitur-fitur yang terkait. Hal ini membuat model decision tree mampu memberikan nilai
yang lebih akurat untuk mengisi nilai yang hilang pada dataset. Selain itu, decision tree
juga memiliki kemampuan untuk menangani data yang bersifat kategorikal dan
numerikal, sehingga sangat fleksibel untuk digunakan dalam berbagai macam kasus.
18
ini kemudian mulai dikembangkan dan digunakan dalam berbagai bidang, seperti data
mining, kecerdasan buatan, dan machine learning.
Normalisasi MinMax adalah sebuah teknik preprocessing data yang bertujuan untuk
mengubah skala data ke dalam rentang yang sama. Teknik ini biasanya digunakan
untuk mengubah data yang memiliki skala yang berbeda menjadi data yang memiliki
skala yang sama, sehingga mudah untuk dibandingkan dan diolah oleh algoritma
pembelajaran mesin.
𝑥−𝑥𝑚𝑖𝑛
𝑥𝑛𝑒𝑤 = 𝑥 (1)
𝑚𝑎𝑥 −𝑥𝑚𝑖𝑛
19
mengeksplorasi berbagai skema encoding dan menguji bagaimana skema tersebut
mempengaruhi kinerja pembelajaran software. Skema encoding yang diuji meliputi:
one-hot encoding, binary encoding, dan frequency encoding. Penelitian ini
menggunakan data software yang diujikan di laboratorium dan mengukur kinerja
pembelajaran dengan menggunakan beberapa metrik, seperti waktu pembelajaran,
akurasi, dan f1-score. Hasil penelitian menunjukkan bahwa skema encoding yang
digunakan memang memiliki dampak yang signifikan terhadap kinerja pembelajaran
software, dan one hot encoding terbukti menjadi skema yang paling efektif dalam
kondisi yang diuji. Selain itu, penelitian ini juga menemukan bahwa ukuran data dan
jumlah fitur yang tersedia juga mempengaruhi kinerja pembelajaran software.
20
2.6. Gradient Boosting
Gradient boosting adalah salah satu metode pembelajaran mesin yang
digunakan untuk memprediksi nilai target dengan menggunakan sekumpulan model
yang disusun secara berurutan [13]. Tiap model dibangun untuk memperbaiki
kesalahan dari model sebelumnya. Model yang dibangun biasanya adalah model yang
sederhana, misalnya decision tree.
Pada dasarnya, gradient boosting adalah metode yang menggunakan teknik
iteratif untuk membangun model yang berturut-turut untuk memprediksi target. Pada
setiap iterasi, model baru dibangun untuk memperbaiki kesalahan dari model
sebelumnya. Proses ini terus dilakukan hingga mencapai jumlah iterasi yang telah
ditentukan sebelumnya atau hingga kesalahan model tidak bisa ditingkatkan lagi.
Untuk membangun setiap model pada setiap iterasi, gradient boosting
menggunakan teknik gradient descent untuk mencari nilai yang optimal untuk setiap
model. Teknik ini mencari nilai yang optimal dengan mengukur kesalahan dari model
yang sedang dibangun dan menyesuaikan nilai-nilai dari model tersebut sehingga
kesalahan dapat ditekan serendah mungkin.
Setelah semua model terbangun, maka model terakhir yang dibangun akan
menjadi model akhir yang digunakan untuk memprediksi target. Karena model
terakhir merupakan gabungan dari semua model sebelumnya, maka model ini
biasanya lebih kuat dibandingkan dengan model-model yang terdiri dari satu atau dua
decision tree saja.
Salah satu kelebihan dari metode gradient boosting adalah kemampuannya
untuk menangani data yang memiliki skewness (distribusi yang tidak simetris) dan
memiliki fitur yang tidak terkait secara linier. Selain itu, metode ini juga mampu
menangani data yang memiliki banyak fitur dan bisa bekerja dengan baik pada data
numerik maupun data kategorik. Namun, metode ini juga memiliki kelemahan, yaitu
membutuhkan waktu yang cukup lama untuk melakukan pelatihan dan membutuhkan
banyak memori untuk menyimpan model yang telah dibangun.
21
2.7. Optimalisasi Hyperparameter
Optimalisasi hyperparameter adalah proses mencari nilai hyperparameter
terbaik yang akan menghasilkan model machine learning yang terbaik. Ada beberapa
metode yang dapat digunakan untuk mengoptimalkan hyperparameter, diantaranya
adalah grid search, random search, dan bayesian optimization.
Dalam penelitian yang dilakukan Bergstra e.t .al [23], penulis mengeksplorasi
kelebihan dan kekurangan dari metode random search dalam melakukan optimalisasi
hyperparameter untuk model machine learning. Hasil penelitian menunjukkan bahwa
random search dapat menemukan nilai-nilai hyperparameter yang optimal dengan
waktu yang lebih cepat dibandingkan dengan grid search pada beberapa model
machine learning. Namun, random search juga memiliki kemungkinan lebih kecil
untuk menemukan nilai-nilai hyperparameter yang optimal dibandingkan dengan grid
search pada beberapa model machine learning lainnya. Oleh karena itu pada
penelitian yang dilakukan menggunakan metode random search.
Beberapa hyperparameter yang biasanya dioptimalkan pada teknik Gradient
Boosting adalah learning rate, jumlah estimator (jumlah model yang akan digunakan),
dan fungsi kehilangan yang akan digunakan. Learning rate bertanggung jawab untuk
mengontrol kecepatan pembelajaran model, sedangkan jumlah estimator bertanggung
jawab untuk menentukan seberapa banyak model yang akan digunakan dalam teknik
ini. Fungsi kehilangan bertanggung jawab untuk menentukan bagaimana model akan
menghitung error yang terjadi.
22