BAB2

BAB II
TINJAUAN PUSTAKA
Pada bab ini berisi beberapa penelitian terdahulu beserta dasar teori yang berkatian
dengan penelitan ini yang berjudul “Prediksi Nasabah Berpotensi untuk Deposito
Berjangka Menggunakan Algoritma Gradient Boosting dengan Optimalisasi
Hyperparameter”.
2.1 Penelitian Terdahulu

Penelitian sebelumnya dijelaskan pada sub bab ini sebagai acuan pada
penelitian ini. Pertama, penelitian yang dilakukan oleh Siregar A.M. E.t al. Yang
berjudul “Classification Data for Direct Marketing using Deep Learning” dengan
Melakukan penelitian menggunakan metode deep learning artificial neural network
dengan menginisialisasi 16 neuron pada input layer dan 2 neurons pada output layer
sesuai dengan ke 17 attribut secara keseluruhan dalam memprediksi nasabah
berlangganan deposito berjangka. Penelitian ini menghasilkan nilai presisi 64.975%,
nilai recall 69.935 %, nilai F1-Score 67.36382%, akurasi yang didapatkan sebesar 80%
[9].
Kedua, Penelitian lain yang dilakukan oleh Dana Bani-Hani e.t al yang berjudul
“A Recursive General Regression Neural Network (R-GRNN) Oracle for classification
problems”. Melakukan klasifikasi dengan menggunakan metode Recursive General
Regression Neural Network yang merupakan variasi jenis metode artificial neural
network metode ini memiliki perbedaan yaitu metode ini bersifat rekursif yang artinya
dapat menggunakan outputnya sendiri sebagai input untuk pemrosesan lebih lanjut.
Hasil yang didapatkan pada penelitian ini menghasilkan nilai presisi 78.52%, nilai
recall 83.44%, nilai F1-Score 80.90%, akurasi yang didapatkan sebesar 82.09% [10].
2.2 Marketing Bank

Marketing bank merujuk pada strategi dan aktivitas yang dilakukan oleh bank
untuk mempromosikan produk dan layanan yang ditawarkan kepada calon pelanggan.
Tujuan utama dari marketing bank adalah meningkatkan penjualan dan memperluas
jangkauan pasar bank.
17
Salah satu cara yang sering digunakan oleh bank dalam menjalankan aktivitas
marketing nya adalah dengan menggunakan media massa seperti iklan di televisi, radio,
dan surat kabar, melakukan promosi melalui media sosial dan situs web bank, Serta
Marketing Bank dapat dilakukan secara langsung menghubungi calon pelanggan dan
menawarkan produk dan layanan dan ditawarkan. Pemasaran langsung adalah kegiatan
komunikasi secara langsung terhadap individu yang ditargetkan dengan hati-hati untuk
mendapatkan tanggapan langsung dan membangun hubungan pelanggan yang
berjangka panjang ⁠[3]⁠.
2.2. Imputasi Decision Tree

Pada penelitian mengenai Imputasi Decision Tree yang telah dilakukan ini
membahas tentang teknik imputasi nilai yang hilang yang disebut Decision Tree
Missing Value Imputation yang menggunakan pohon keputusan dan algoritma
ekspektasi maksimisasi (EM). Hasil eksperimen awal menunjukkan metode ini
berkinerja jauh lebih baik daripada imputasi yang telah ada [19].
Menurut Rahman e.t.al. Decision tree imputation merupakan metode imputasi
yang menggunakan model decision tree untuk mengisi nilai yang hilang pada suatu
dataset. Proses ini dilakukan dengan cara membuat model decision tree yang
menggunakan fitur-fitur lain pada dataset sebagai input, dan menggunakan nilai yang
hilang sebagai target. Kemudian, model decision tree tersebut dijadikan sebagai
"predictor" yang akan digunakan untuk memprediksi nilai yang hilang pada dataset.
Salah satu kelebihan dari metode imputasi dengan decision tree adalah
kemampuannya untuk mengelompokkan data menjadi kelompok yang sesuai dengan
fitur-fitur yang terkait. Hal ini membuat model decision tree mampu memberikan nilai
yang lebih akurat untuk mengisi nilai yang hilang pada dataset. Selain itu, decision tree
juga memiliki kemampuan untuk menangani data yang bersifat kategorikal dan
numerikal, sehingga sangat fleksibel untuk digunakan dalam berbagai macam kasus.
2.3. Normalisasi MinMax

Pada penelitian yang dilakukan Schilling menjelaskan tentang teknik
normalisasi data yang kemudian dikenal sebagai minmax normalization [20]. Teknik
18
ini kemudian mulai dikembangkan dan digunakan dalam berbagai bidang, seperti data
mining, kecerdasan buatan, dan machine learning.
Normalisasi MinMax adalah sebuah teknik preprocessing data yang bertujuan untuk
mengubah skala data ke dalam rentang yang sama. Teknik ini biasanya digunakan
untuk mengubah data yang memiliki skala yang berbeda menjadi data yang memiliki
skala yang sama, sehingga mudah untuk dibandingkan dan diolah oleh algoritma
pembelajaran mesin.
𝑥−𝑥𝑚𝑖𝑛
𝑥𝑛𝑒𝑤 = 𝑥 (1)
𝑚𝑎𝑥 −𝑥𝑚𝑖𝑛
Berdasarkan Persamaan 1. Perhitungannya pada setiap nilai pada sebuah fitur

dikurangi dengan nilai terkecil, kemudian dibagi dengan rentang nilai atau nilai
maksimum dikurangi nilai minimum dari fitur.
2.4. One Hot Encoding

One Hot Encoding adalah teknik pengkodean dari data kategorikal ke dalam
format numerik. Data kategorikal adalah data yang terdiri dari kategori-kategori atau
label-label yang tidak memiliki urutan atau relasi kuantitatif yang jelas. One Hot
Encoding melakukan konversi data kategorikal menjadi representasi numerik dengan
membuat satu fitur untuk setiap kategori dari data tersebut, dengan menetapkan nilai 1
untuk fitur yang sesuai dengan kategori yang diberikan dan 0 untuk fitur-fitur yang
lain.
One Hot Encoding dapat digunakan dalam proses pembuatan model dalam
Gradient Boosting untuk mengkodekan fitur-fitur kategorikal sebelum model
dibangun. Seperti yang telah dijelaskan di atas, One Hot Encoding akan membuat fitur
baru untuk setiap kategori dari fitur kategorikal, dengan menetapkan nilai 1 untuk fitur
yang sesuai dengan kategori yang diberikan dan 0 untuk fitur-fitur yang lain. Dengan
demikian, fitur kategorikal dapat dianggap sebagai fitur numerik oleh model Gradient
Boosting dan digunakan dalam proses pembelajaran.
Pada penelitian yang dilakukan Gong, dan Chen ⁠ dalam penelitiannya mengkaji
apakah encoding konfigurasi penting dalam pembelajaran kinerja software [21].
Penelitian ini mencoba menemukan jawaban terhadap pertanyaan tersebut dengan
19
mengeksplorasi berbagai skema encoding dan menguji bagaimana skema tersebut
mempengaruhi kinerja pembelajaran software. Skema encoding yang diuji meliputi:
one-hot encoding, binary encoding, dan frequency encoding. Penelitian ini
menggunakan data software yang diujikan di laboratorium dan mengukur kinerja
pembelajaran dengan menggunakan beberapa metrik, seperti waktu pembelajaran,
akurasi, dan f1-score. Hasil penelitian menunjukkan bahwa skema encoding yang
digunakan memang memiliki dampak yang signifikan terhadap kinerja pembelajaran
software, dan one hot encoding terbukti menjadi skema yang paling efektif dalam
kondisi yang diuji. Selain itu, penelitian ini juga menemukan bahwa ukuran data dan
jumlah fitur yang tersedia juga mempengaruhi kinerja pembelajaran software.
2.5. Synthetic Minority Over-sampling Technique

SMOTE (Synthetic Minority Over-sampling Technique) adalah sebuah teknik
resampling data yang dikembangkan oleh Nitesh V. Chawla e.t .al [22]⁠. SMOTE
digunakan dalam masalah pembelajaran mesin untuk mengatasi kekurangan data
imbalanced, yaitu ketika jumlah sampel kelas minoritas sangat kecil dibandingkan
dengan kelas mayoritas.
SMOTE bekerja dengan cara mengambil sampel dari kelas minoritas dan menghitung
jarak antara sampel tersebut dengan sampel lain di sekitarnya. Kemudian, SMOTE
menggunakan interpolasi untuk menghitung nilai sampel baru yang akan ditambahkan
ke dalam dataset. Sampel baru ini akan ditempatkan di antara dua sampel yang ada,
dengan jarak yang sama dengan jarak antara sampel
yang ada. Dengan demikian, SMOTE akan menciptakan data sintetis baru yang
representatif dari kelas minoritas.
Proses ini terus diulang selama beberapa iterasi, dengan tujuan menambahkan
jumlah sampel kelas minoritas sehingga jumlah sampel kelas minoritas dan kelas
mayoritas menjadi seimbang. Setelah selesai, dataset baru ini kemudian dapat
digunakan untuk melatih model pembelajaran mesin.
20
2.6. Gradient Boosting
Gradient boosting adalah salah satu metode pembelajaran mesin yang
digunakan untuk memprediksi nilai target dengan menggunakan sekumpulan model
yang disusun secara berurutan [13]. Tiap model dibangun untuk memperbaiki
kesalahan dari model sebelumnya. Model yang dibangun biasanya adalah model yang
sederhana, misalnya decision tree.
Pada dasarnya, gradient boosting adalah metode yang menggunakan teknik
iteratif untuk membangun model yang berturut-turut untuk memprediksi target. Pada
setiap iterasi, model baru dibangun untuk memperbaiki kesalahan dari model
sebelumnya. Proses ini terus dilakukan hingga mencapai jumlah iterasi yang telah
ditentukan sebelumnya atau hingga kesalahan model tidak bisa ditingkatkan lagi.
Untuk membangun setiap model pada setiap iterasi, gradient boosting
menggunakan teknik gradient descent untuk mencari nilai yang optimal untuk setiap
model. Teknik ini mencari nilai yang optimal dengan mengukur kesalahan dari model
yang sedang dibangun dan menyesuaikan nilai-nilai dari model tersebut sehingga
kesalahan dapat ditekan serendah mungkin.
Setelah semua model terbangun, maka model terakhir yang dibangun akan
menjadi model akhir yang digunakan untuk memprediksi target. Karena model
terakhir merupakan gabungan dari semua model sebelumnya, maka model ini
biasanya lebih kuat dibandingkan dengan model-model yang terdiri dari satu atau dua
decision tree saja.
Salah satu kelebihan dari metode gradient boosting adalah kemampuannya
untuk menangani data yang memiliki skewness (distribusi yang tidak simetris) dan
memiliki fitur yang tidak terkait secara linier. Selain itu, metode ini juga mampu
menangani data yang memiliki banyak fitur dan bisa bekerja dengan baik pada data
numerik maupun data kategorik. Namun, metode ini juga memiliki kelemahan, yaitu
membutuhkan waktu yang cukup lama untuk melakukan pelatihan dan membutuhkan
banyak memori untuk menyimpan model yang telah dibangun.
21
2.7. Optimalisasi Hyperparameter
Optimalisasi hyperparameter adalah proses mencari nilai hyperparameter
terbaik yang akan menghasilkan model machine learning yang terbaik. Ada beberapa
metode yang dapat digunakan untuk mengoptimalkan hyperparameter, diantaranya
adalah grid search, random search, dan bayesian optimization.
Dalam penelitian yang dilakukan Bergstra e.t .al [23]⁠, penulis mengeksplorasi
kelebihan dan kekurangan dari metode random search dalam melakukan optimalisasi
hyperparameter untuk model machine learning. Hasil penelitian menunjukkan bahwa
random search dapat menemukan nilai-nilai hyperparameter yang optimal dengan
waktu yang lebih cepat dibandingkan dengan grid search pada beberapa model
machine learning. Namun, random search juga memiliki kemungkinan lebih kecil
untuk menemukan nilai-nilai hyperparameter yang optimal dibandingkan dengan grid
search pada beberapa model machine learning lainnya. Oleh karena itu pada
penelitian yang dilakukan menggunakan metode random search.
Beberapa hyperparameter yang biasanya dioptimalkan pada teknik Gradient
Boosting adalah learning rate, jumlah estimator (jumlah model yang akan digunakan),
dan fungsi kehilangan yang akan digunakan. Learning rate bertanggung jawab untuk
mengontrol kecepatan pembelajaran model, sedangkan jumlah estimator bertanggung
jawab untuk menentukan seberapa banyak model yang akan digunakan dalam teknik
ini. Fungsi kehilangan bertanggung jawab untuk menentukan bagaimana model akan
menghitung error yang terjadi.
22

BAB2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

BAB2

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB II

2.1 Penelitian Terdahulu

2.2 Marketing Bank

2.2. Imputasi Decision Tree

2.3. Normalisasi MinMax

Berdasarkan Persamaan 1. Perhitungannya pada setiap nilai pada sebuah fitur

2.4. One Hot Encoding

2.5. Synthetic Minority Over-sampling Technique

Anda mungkin juga menyukai