PROPOSAL TUGAS AKHIR ABU BAKAR SIDIQ - Removed

PENGKLASIFIKASIAN TINGKAT OBESITAS MENGGUNAKAN
METODE NAÏVE BAYES DAN RANDOM FOREST
PROPOSAL TUGAS AKHIR
Oleh
ABU BAKAR S
NIM. 08011281722061
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SRIWIJAYA
2021
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Obesitas dan overweight adalah dua istilah yang sebenarnya memiliki
pengertian berbeda yang digunakan untuk menyatakan kelebihan berat badan
pada seseorang. Overweight merupakan kelebihan asupan gizi yang diterima
oleh tubuh atau yang biasa disebut dengan kegemukan. Sedangkan obesitas
terjadi pada jaringan adipose akibat dari akumulasi lemak yang tidak normal
atau berlebihan sehingga dapat mengganggu kesehatan tubuh (Olivia dan
Anggraini, 2017).
Berdasarkan data dari Riset Kesehatan Dasar pada tahun 2018, prevalensi
penduduk yang berumur lebih dari 18 tahun mengalami obesitas meningkat dari
14,8 persen menjadi 21,8 persen. Berbagai macam penyakit degeneratif seperti
penyakit jantung dan stroke, dapat muncul akibat dari obesitas. Sedangkan pada
lansia, obesitas dapat menyebabkan terjadinya jatuh ataupun kecelakaan karena
terjadinya pengeroposan tulang dan sendi. Penyakit jantung dan stroke
merupakan penyebab kematian terbesar penduduk di dunia, terutama pada
kelompok lanjut usia (Sofa, 2018).
Data penyakit yang terlalu banyak dapat diolah melalui data mining. Data
mining merupakan proses untuk mengambil informasi penting dari data yang
ukurannya cukup besar dengan cara penggalian atau pernyaringan data untuk
1
2
menemukan pola dari data tersebut (Sulastri dan Gufroni, 2017). Data mining
mempunyai hubungan yang erat terhadap berbagai bidang ilmu seperti machine
learning, kecerdasan buatan (artificial intelligent), statistik, dan basis data. Data
mining memiliki beberapa teknik dalam pengolahannya seperti clustering,
neural network, association rule mining, genetic algorithm, dan classification
(Handoko, 2016).
Classification atau klasifikasi merupakan sebuah proses dari setiap objek
untuk menempatkan objek tertentu dalam satu set kategori. Terdapat empat
konsep dasar dalam proses klasifikasi yaitu kelas, predictor, training set atau
data latih, dan pengujian dataset (Septiani, 2017). Terdapat beberapa model
klasifikasi yang cukup sering digunakan diantaranya Naïve Bayes, Decision
Trees, Neural Networks, K-Nearest Neighbor, dan Memory Based Reasoning
(Puspaningrum, Nugroho dan Manggala, 2020).
Naïve Bayes merupakan salah satu metode klasifikasi dengan berdasarkan
pada penerapan teorema Bayes yang memiliki asumsi saling bebas antar
variabel dengan menggunakan teknik prediksi dari probabilitas sederhana.
Naïve Bayes memiliki model independen yang kuat berarti tidak ada data
berkaitan dengan data yang lain dalam suatu kasus ataupun dari variabel yang
lain (Fadlan, Ningsih, dan Windarto, 2018) . Naïve Bayes merupakan sebuah
metode klasifikasi sederhana tetapi terbukti berguna dalam berbagai bidang,
seperti prediksi termofilisilitas bakteri, diagnosis babi klasik, dan mendeteksi
mastitis klinis. Naïve Bayes memiliki keunggulan dibandingkan klasifikasi
metode yang lain karena observasi yang hilang dapat ditangani dengan mudah
3
hanya menyertakan file observasi yang tersedia (Jensen, Hogeveen, dan De
Vries, 2016).
Adapun beberapa penelitian terdahulu yang telah menggunakan metode
Naïve Bayes ini diantaranya yaitu, (Annur, 2018) melakukan penelitian
mengenai klasifikasi masyarakat miskin. Penilitian ini menggunakan data
sekunder yaitu data penduduk miskin Kecamatan Tibawa Kab. Gorontalo pada
tahun 2015. Data yang digunakan dibagi menjadi dua, yaitu 171 data sebagai
data training (90% dataset) dan 19 data sebagai data testing (10% dataset). Hasil
dari penelitian tersebut adalah tingkat akurasi sebesar 73%, presisi sebesar 92%,
dan recall sebesar 86%.
Metode klasifikasi lain yang digunakan dalam penelitian ini adalah
metode Random Forest. Metode Random Forest merupakan penerapan metode
bootstrap aggregating dan random feature selection yang merupakan
pengembangan dari metode CART (Classification and Regression Tree) untuk
menumbuhkan pohon keputusan (Pratiwi, Notodiputro dan Wijayanto, 2018).
Pohon keputusan akan tumbuh maksimal dan tidak akan dipangkas sehingga
akan membentuk kumpulan pohon yang biasa disebut dengan hutan atau forest
(Ratnawati dan Sulistyaningrum, 2019).
Berdasarkan penelitian yang dilakukan oleh (Suryanegara dan Adiwijaya,
2021) mengenai deteksi pasien penderita diabetes menggunakan metode
Random Forest memiliki tingkat akurasi sebesar 92%. Pada penelitian tersebut
pohon yang dibangun sebanyak 5, 10, dan 15. Meningkatnya akurasi yang
cukup signifikan dapat terjadi akibat banyaknya dari pohon yang dibangun.
4
Semakin banyak pohon yang dibentuk, maka semakin baik tingkat akurasi dari
metode Random Forest.
Menurut (Leonardo, Pratama dan Chrisnatalis, 2020) bahwa dengan
menggunakan metode Random Forest pada penelitian yang memprediksi
keberhasilan klien telemarketing memiliki tingkat akurasi yang lebih baik dari
metode Naïve Bayes. Pada penelitian ini menggunakan data sekunder yang
diambil dari website machine learning UCI yang terdiri dari 17 atribut. Tingkat
akurasi dengan menggunakan metode Naïve Bayes adalah 85%, sedangkan
tingkat akurasi Random Forest sebesar 90%.
Dari hasil penelitian sebelumnya, metode klasifikasi Naïve Bayes dan
Random Forest sama-sama meliki tingkat akurasi yang cukup baik. Kedua
metode tersebut dapat digunakan pada data dengan variabel respon yang
memiliki lebih dari 2 kategori, yang berarti metode ini dapat digunakan pada
penelitian ini. Selain itu juga metode ini cukup menarik untuk dapat dilihat
tingkat akurasi masing-masing dalam menentukan klasifikasi tingkat obesitas
seseorang.
1.2 Rumusan Masalah
Berdasarkan uraian latar belakang di atas, maka rumusan masalah dalam
penelitian ini adalah:
1. Bagaimana pengklasifikasian penyakit obesitas dengan menggunakan
metode Naïve Bayes dan Random Forest?.
2. Bagaimana hasil tingkat akurasi pada pengelompokkan penyakit
obesitas berdasarkan metode Naïve Bayes dan Random Forest?.

5
1.3 Batasan Masalah
Batasan masalah dalam penelitian ini yaitu :
1. Data yang digunakan sebanyak 2111 data dengan 16 variabel prediktor
dan 1 variabel respon.
2. Data dipartisi menjadi 80% data training atau sebanyak 1688 data dan
20% sebagai data testing atau 423 data.
1.4 Tujuan Penelitian
Tujuan dari penelitian ini yaitu :
1. Melakukan prediksi terhadap pengklasifikasian penyakit obesitas
dengan menggunakan metode Naïve Bayes dan Random Forest.
2. Membandingkan tingkat akurasi antara metode Naïve Bayes dan
Random Forest.
1.5 Manfaat Penelitian
Manfaat dari penelitian ini adalah sebagai berikut :
1. Mengetahui cara pengklasifikasian tingkat obesitas menggunakan
metode Naïve Bayes dan Random Forest.
2. Mengetahui tingkat akurasi yang lebih baik antara metode Naïve Bayes
dan Random Forest pada data tingkat obesitas.

2 BAB II
TINJAUAN PUSTAKA
2.1 Data Mining
Data mining merupakan suatu proses untuk mengekstraksi dan
menemukan informasi serta pengetahuan yang bermanfaat dari database yang
besar dengan menggunakan teknik matematika, kecerdasan buatan, statistika,
dan pembelajaran mesin (Handoko dan Lesmana, 2018).
2.1.1 Machine Learning
Menurut (Retnoningsih dan Pramudita, 2020), Machine Learning atau
pembelajaran mesin merupakan cabang ilmu bagian dari kecerdasan buatan
(artificial intelligence) dengan menggunakan teknik yang mengolah data besar
(big data) untuk memberikan hasil yang tepat dengan menggunakan
pemrograman komputer. Tipe-tipe machine learning dapat dibedakan
berdasarkan teknik pembelajarannya, yaitu unsupervised learning, supervised
learning, reinforcement learning, dan semi supervised learning. Metode Naïve
Bayes dan Random Forest termasuk kedalam tipe supervised learning karena
menggunakan data latih yang sudah memiliki variabel respon untuk melakukan
pembelajaran pada mesin.
2.2 Metode Klasifikasi
Metode klasifikasi merupakan ciri-ciri yang dipunya oleh objek klasifikasi
kemudian dikelompokkan berdasarkan ciri-ciri tersebut. Baik dengan bantuan
teknologi ataupun secara manual proses klasifikasi tetap dapat dilakukan.
Klasifikasi yang dilakukan tanpa bantuan algoritma komputer disebut

6
7
klasifikasi secara manual. Klasifikasi yang memiliki beberapa algoritma dan
menggunakan bantuan teknologi, seperti Naïve Bayes, Decission Tree, Support
Vector Machine, Fuzzy, Random Forest, dan Jaringan Saraf Tiruan (Wibawa
dkk., 2018).
2.3 Probabilitas Bayes
Probabilitas Bayes yaitu suatu cara yang dilakukan dengan menggunakan
Formula Bayes untuk menyelesaikan masalah ketidakpastian data. Teorema ini
banyak diterapkan pada bidang kedokteran modern yang berkaitan dengan
kemungkinan atau probabilitas dari suatu gejala penyakit. Formula Bayes
dinyatakan dengan rumus sebagai berikut:
𝑃(𝐵|𝐴)𝑃(𝐴) ( 2.1)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
Keterangan:
𝑃(𝐴|𝐵) : probabilitas terjadinya A dengan syarat B telah terjadi
𝑃(𝐵|𝐴) : probabilitas terjadinya B dengan syarat A telah terjadi
𝑃(𝐵) : probabilitas terjadinya peristiwa B
(Sihotang, Panggabean dan Zebua, 2018)
2.4 Metode Naïve Bayes
Ilmuwan Inggris Thomas Bayes mengatakan bahwa Naïve Bayes
merupakan metode probabilistik dan statistika dengan menggunakan teknik
klasifikasi. Kaidah yang digunakan untuk memperbaiki suatu probabilitas
dengan cara memanfaatkan informasi di masa sebelumnya disebut teorema
Bayes (Sidauruk dan Pujianto, 2017). Kemudian teorema Bayes

8
dikombinasikan dengan naïve yang diasumsikan bahwa masing-masing
variabel saling bebas atau tidak ada ciri tertentu dari kelas yang memiliki
hubungan dengan kelas yang lain (Sabransyah, Nasution, dan Amijaya 2017).
Persamaan dari Naïve Bayes adalah:
𝑃(𝐴)𝑃(𝐵1 , … , 𝐵𝑛 |𝐴) ( 2.2)

𝑃(𝐴|𝐵1 , … , 𝐵𝑛 ) =
𝑃(𝐵1 , … , 𝐵𝑛 )
Dimana variabel A menjelaskan kelas, sedangkan variabel 𝐵1 , … , 𝐵𝑛
mempresentasikan karakteristik yang diperlukan untuk melakukan proses
klasifikasi. 𝑃(𝐴|𝐵1 , … , 𝐵𝑛 ) adalah peluang masuknya sampel dengan
karakteristik ke dalam kelas A disebut posterior. 𝑃(𝐴) adalah peluang
kemunculan pada kelas A disebut prior. 𝑃(𝐵1 , … , 𝐵𝑛 |𝐴) adalah peluang
munculnya kelas A yang masuk ke dalam karakteristik-karakteristik 𝐵1 , … , 𝐵𝑛
disebut dengan likelihood. Sedangkan 𝑃(𝐵1 , … , 𝐵𝑛 ) adalah peluang munculnya
karakteristik-karakteristik secara keseluruhan disebut evidence. Sehingga
formula di atas dapat juga ditulis dengan:
𝑝𝑟𝑖𝑜𝑟 × 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ( 2.3)

𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =
𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒
Nilai evidence selalu tetap untuk setiap kelas pada satu sampel.
𝑃(𝐵1 , … , 𝐵𝑛 |𝐴) dapat dijabarkan menggunakan aturan perkalian seperti berikut:
𝑃(𝐵1 , … , 𝐵𝑛 |𝐴) = 𝑃(𝐵1 |𝐴)𝑃(𝐵2 , … , 𝐵𝑛 |𝐴, 𝐵1)
𝑃(𝐵1 , … , 𝐵𝑛 |𝐴) = 𝑃(𝐵1 |𝐴)𝑃(𝐵2|𝐴, 𝐵1 )𝑃(𝐵3 , … , 𝐵𝑛 |𝐴, 𝐵1 , 𝐵2 ) (2.4)
𝑃(𝐵1 , … , 𝐵𝑛 |𝐴) = 𝑃(𝐵1 |𝐴)𝑃(𝐵2|𝐴, 𝐵1 )𝑃(𝐵𝑛 |𝐴, 𝐵1 , … , 𝐵𝑛−1 )
Dapat dilihat dari penjabaran di atas bahwa semakin banyak karakteristik
maka akan semakin banyak dan kompleks faktor-faktor yang memengaruhi

9
nilai probabilitas. Kemudian diasumsikan bahwas karakteristik-karakteristik
B1, B2,…, Bn saling bebas, maka akan didapat persamaan sebagai berikut :
𝑃(𝐵𝑖 |𝐴, 𝐵𝑗 ) = 𝑃(𝐵𝑖 |𝐴)
𝑃(𝐵1 , … , 𝐵𝑛 |𝐴) = 𝑃(𝐵1 |𝐴)𝑃(𝐵2|𝐴) … 𝑃(𝐵𝑛 |𝐴)

𝑛
𝑃(𝐵1 , … , 𝐵𝑛 |𝐴) = ∏ 𝑃(𝐵𝑖 |𝐴)

𝑖=1
untuk i≠j
(Rosandy, 2016)
2.5 Random Forest
Metode Random Forest merupakan suatu metode yang digunakan untuk
klasifikasi dan regresi. Assemble atau kumpulan dari decision tree yang
dioperasikan menjadi suatu gabungan fungsional disebut dengan Random
Forest. Setiap hasil klasifikasi dari metode decision tree akan digabungkan
untuk melanjutkan metode Random Forest. Algoritma Random Forest
menggunakan metode decision tree yang tidak memiliki korelasi sehingga dapat
menghasilkan tingkat akurasi yang lebih baik dibandingkan metode yang lain
(Renata dan Ayub, 2020). Metode Random Forest mempunyai 3 aspek penting,
yaitu : (1) membangun pohon prediksi dengan bootsrap sampling; (2) setiap
pohon keputusan melakukan prediksi menggunakan variabel prediktor secara
acak; (3) melakukan prediksi dengan menggabungkan hasil dari masing-masing
pohon keputusan dengan cara majority vote untuk hasil klasifikasi (Primajaya
dan Sari, 2018). Bootsrap sampling merupakan teknik pengambilan sampel

10
dengan mengembalikan dari sampel asli (Prasetyo, Purnomo, dan Adriani,
2014).
Metode ini digunakan dengan cara mengambil variabel prediktor secara
acak untuk membangun pohon keputusan yang terdiri dari root node, internal
node, dan leaf node. Akar dari pohon keputusan atau simpul paling atas dari
pohon keputusan disebut root node. Internal node memiliki output minimal dua
dan hanya memiliki satu input yang sering disebut juga sebagai simpul
percabangan. Sedangkan simpul terakhir yang hanya mempunyai satu input dan
tidak mempunyai output disebut terminal node atau leaf node (Nugroho dan
Emiliyawati, 2017). Pohon keputusan diawali dengan menghitung nilai entropy
untuk menentukan ketidakmurnial prediktor dan information gain. Untuk
menghitung nilai entropy dan information gain menggunakan formula di bawah
ini.
( 2.5)
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) = − ∑ 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖
𝑖
Keterangan:
Y = himpunan kasus
pi = probabilitas ke-i
𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝐺𝑎𝑖𝑛 (𝑌, 𝑎) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) − ( 2.6)
𝑌𝑖
∑ 𝑥𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌𝑖 )
𝑌
𝑖
Keterangan:
𝑖 = partisi himpunan kasus ke-i.
𝑌𝑖 = jumlah kasus pada partisi ke-i.

11
𝑌 = jumlah kasus dalam Y.
(Sandag, 2020)
2.6 Prepocessing Data
Data preprocessing merupakan langkah yang sangat penting dalam
penambangan data namun sering dilupakan (Sanjaya dkk., 2020). Proses ini
dilakukan untuk melihat apakah data terdapat missing value sebelum peneliti
melakukan pengujian (Supriyatna dan Mustika, 2018). Pada tahap ini juga dapat
dilakukan porses diskritiasasi data.
2.7 Confusion Matrix
Confusion Matrix merupakan salah satu teknik yang digunakan untuk
mengukur tingkat akurasi model yang biasa digunakan pada supervised
learning. Confusion matrix berisi informasi yang sebenarnya (actual) dan
predisiksi pada hasil klasifikasi (Amrin dan Saiyar, 2018). Data test digunakan
untuk memvalidasi model atau untuk mengukur tingkat akurasi.
Kelas Prediksi Yes Prediksi No Total
Aktual Yes TP FN P
Aktual No FP TN N
Total P’ N’ P+N
𝑇𝑃 + 𝑇𝑁
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (2.7)
𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁
(Hendrian, 2018)
12
Berikut ini merupakan penjelasan dari 4 istilah pada Confusion Matrix:
1. True Positive (TP) : data asli dan prediksi sama dalam klasifikasi positif.
2. True Negatif (TN) : data asli dan prediksi sama dalam klasifikasi negatif.
3. False Positive (FP) : data asli negatif tetapi prediksi klasifikasi positif.
4. False Negative (FN) : data asli positif tetapi prediksi klasifikasi negatif.
(Setiawan, Wahyuni dan Faisol, 2021)
2.8 Obesitas
Obesitas merupakan peningkatan berat badan yang disebabkab oleh
meningkatnya lemak tubuh secara berlebihan (Aprilia, 2015). Penimbunan
lemak di dalam rongga perut pada jaringan adipose yang meliputi dinding luar
usus merupakan penyebab obesitas (Amanda dan Martini, 2018). Penyakit
hipertensi, kanker, jantung coroner, gangguan muskoloskeletal, kesulitan
bernapas, merupakan gangguan dalam fungsi tubuh yang disebabkan oleh
obesitas (Loliana dan Siti, 2015). Menurut WHO Tingkat obesitas dapat dilihat
berdasarkan Indeks Massa Tubuh (IMT) dengan perhitungan sebagai berikut:
𝐵𝑒𝑟𝑎𝑡 𝑏𝑎𝑑𝑎𝑛
𝐼𝑀𝑇 =
𝑇𝑖𝑛𝑔𝑔𝑖 𝑏𝑎𝑑𝑎𝑛 ∗ 𝑇𝑖𝑛𝑔𝑔𝑖 𝑏𝑎𝑑𝑎𝑛
(Palechor dan Manotas, 2019)

13
Tabel 1. Klasifikasi Obesitas menurut WHO
Klasifikasi IMT
Underweight <18,5
Normal 18,5-24.99
Overweight I 25-27.49
Overweight I 27.5-29.9
Obesity I 30-34.9
Obesity II 35-39.9
Obesity III >=40
Faktor –faktor penyebab meningkatnya risiko obesitas, yaitu usia, jenis
kelamin, pengetahuan gizi, pendidikan terakhir, aktivitas fisik, psikologis,
konsumsi zat gizi meliputi konsumsi karbohidrat, energi, protein, dan lemak.
Massa otot dalam tubuh dapat menurun seiring dengan bertambahnya usia
akibat aktivitas fisik yang berkurang. Berkurangnya massa otot menyebabkan
lambatnya tingkat pembakaran kalori dan dapat menyebabkan penumpukan
energi di dalam tubuh jika tidak mengurangi jumlah asupan kalori sehingga
mengakibatkan terjadinya obesitas (Widiantini dan Tafal, 2014). Selain itu,
faktor genetik sangat berpengaruh terhadap penyakit obesitas. Jika kedua orang
tua obesitas, maka 80% anaknya akan mengalami obesitas. Sedangkan
kemungkinan 40% anak terjangkit penyakit obesitas jika salah satu orang tua
obesitas dan prevelensi 14% jika kedua orang tua tidak memiiliki penyakit
obesitas (Aprilia, 2015).

3 BAB III
Metodologi Penelitian
3.1 Tempat
Penulisan penelitian ini dilakukan di Jurusan Matematika Fakultas
Matematika dan Ilmu Pengetahuan Alam dan Perpustakaan Universitas
Sriwijaya.
3.2 Waktu
Waktu penulisan penelitian ini diperkirakan dilakukan pada bulan
Februari 2021 sampai dengan Juni 2021.
3.3 Metode Penelitian
Langkah-langkah yang dilakukan dalam metode ini adalah :
1. Mendeskripsikan data tentang estimasi tingkat penyakit obesitas yang
digunakan pada tugas akhir ini.
2. Melakukan diskritisasi data tingkat penyakit obesitas.
3. Melakukan partisi data, dalam hal ini data latih sebesar 80% dan data uji
20%.
4. a. Metode Naïve Bayes
(1) Menghitung peluang variabel respon dari setiap kategori (class prior
probability) menggunakan data latih.
(2) Menghitung peluang setiap kategori variabel prediktor terhadap
variabel respon (likelihood).
(3) Menghitung peluang posterior.
14
15
(4) Menentukan hasil klasifikasi berdasarkan peluang posterior terbesar
dari setiap kategori variabel respon.
(5) Menghitung tingkat akurasi menggunakan data uji
b. Metode Random Forest
(1) Mengambil sampel dengan cara boostrap sampling.
(2) Menentukan m variabel prediktor sercara acak untuk setiap node,
dalam hal ini kita menggunakan m=4.
(3) Hitung nilai entropy dan information gain.
(4) Gain tertinggi diambil sebagai root node.
(5) Ulangi proses di atas sampai membentuk pohon yang banyak.
(6) Menentukan klasifikasi dengan majority vote.
(7) Menghitung tingkat akursi menggunakan data uji.
5. Analisis hasil.
6. Kesimpulan.
Daftar Pustaka
Amanda, D. dan Martini, S. 2018. Hubugnan Karakteristik dan Staatus Obesitas

Sentral dengan Kejadian HIpertensi, Jurnal Berkala Epidemiologi, 6(1),
pp. 57–66.
Amrin dan Saiyar, H. 2018. Aplikasi Diagnosa Penyakit Tuberculosis
Menggunakan Algoritma Naive Bayes, Jurnal Riset Komputer, 5(5), pp.
498–502.
Annur, H. 2018. Klasifikasi Masyarakat Miskin Menggunakan Metode Naive
Bayes, Jurnal Ilmiah, 10(2), pp. 160–165.
Aprilia, A. 2015. Obesitas pada Anak Sekolah Dasar, Medical of Jurnal Lampung
University, 4(7), pp. 45–48.
Fadlan, C., Ningsih, S. dan Windarto, A. P. 2018. Penerapan Metode Naïve Bayes
Dalam Klasifikasi Kelayakan Keluarga Penerima Beras Rastra, Jurnal
Teknik Informatika Musirawas (JUTIM), 3(1), p. 1.
Handoko, K. 2016. Penerapan Data Mining Dalam Meningkatkan Mutu
Pembelajaran Pada Instansi Perguruan Tinggi Menggunakan Metode K-
Means Clustering (Studi Kasus Di Program Studi Tkj Akademi
Komunitas Solok Selatan), Jurnal Teknologi dan Sistem Informasi,
02(03), pp. 31–40.
Handoko, K. dan Lesmana, L. S. 2018. Data Mining Pada Jumlah Penumpang
Menggunakan Metode Clustering, Snistek, 1(1), pp. 97–102.
Hendrian, S. 2018. Algoritma Klasifikasi Data Mining Untuk Memprediksi Siswa
Dalam Memperoleh Bantuan Dana Pendidikan, Faktor Exacta, 11(3).
Jensen, D. B., Hogeveen, H. dan De Vries, A. 2016. Bayesian integration of sensor
information and a multivariate dynamic linear model for prediction of
dairy cow mastitis, Journal of Dairy Science. Elsevier, 99(9), pp.
Leonardo, R., Pratama, J. dan Chrisnatalis. 2020. Perbandingan Metode Random
Forest Dan Naïve Bayes Dalam Prediksi Keberhasilan Klien
Telemarketing, Jurnal Penelitian Teknik Informatika, 3(2), pp. 455–459.
Loliana, N. dan Siti, R. 2015. Asupan Dan Kecukupan Gizi Antara Remaja Obesitas
16
17
Dengan Non Obesitas, Media Gizi Indonesia, 10(2), pp. 141–145.

Nugroho, Y. S. dan Emiliyawati, N. 2017. Sistem Klasifikasi Variabel Tingkat
Penerimaan Konsumen Terhadap Mobil Menggunakan Metode Random
Forest, Jurnal Teknik Elektro, 9(1), pp. 24–29.
Olivia, F. M. dan Anggraini, D. I. 2017. Efektivitas Brokoli (Brassica Oleracea var.
Italica) dalam Menurunkan Kadar Kolesterol Total pada Penderita
Obesitas, Majority, 6(1), pp. 64–70.
Palechor, F. M. dan Manotas, A. de la H. 2019. Dataset for estimation of obesity
levels based on eating habits and physical condition in individuals from
Colombia, Peru and Mexico, Data in Brief. Elsevier Ltd, 25, pp. 1–5.
Prasetyo, H., Purnomo, W. dan Adriani, M. 2014. Penerapan Clustering Bootstrap
dengan Metode K-Means, Biometrika dan kependudukan, 3(1), pp. 43–
49.
Pratiwi, A., Notodiputro, K. A. dan Wijayanto, H. 2018. Pemodelan Loyalitas
Konsumen Susu Pertumbuhan dalam Mengikuti, Jurnal Xplore, 2(2), pp.
41–48.
Primajaya, A. dan Sari, B. N. 2018. Random Forest Algorithm for Prediction of
Precipitation, Indonesian Journal of Artificial Intelligence and Data
Mining, 1(1), pp. 27–31.
Puspaningrum, E. Y., Nugroho, B. dan Manggala, H. A. 2020. Penerapan Radial
Basis Function Untuk Klasifikasi Jenis Tanah, Jurnal Teknologi
Informasi dan Komunikasi, 15(1), pp. 46–49.
Ratnawati, L. dan Sulistyaningrum, D. R. 2019. Penerapan Random Forest untuk
Mengukur Tingkat Keparahan Penyakit, Jurnal Sains dan Seni, 8(2), pp.
2337–3520.
Renata, E. dan Ayub, M. 2020. Penerapan Metode Random Forest untuk Analisis
Risiko pada dataset Peer to peer lending, Jurnal Teknik Informatika dan
Sistem Informasi, 6(3), pp. 462–474.
Retnoningsih, E. dan Pramudita, R. 2020. Mengenal Machine Learning Dengan
Teknik Supervised dan Unsupervised Learning Menggunakan Python,
Bina Insani Ict Journal, 7(2), pp. 156–165.
18
Rosandy, T. 2016. Perbandingan Metode Naive Bayes Classifier dengan Metode

Decision Tree Untuk Menganalisa Kelancaran Pembiayaan, Jurnal Tim
Darmajaya, 02(01), pp. 52–62.
Sabransyah, M., Nasution, Y. N. dan Amijaya, F. D. T. 2017. Aplikasi Metode
Naive Bayes dalam Prediksi Risiko Penyakit Jantung, Jurnal
eksponensial, 8(2), pp. 111–118.
Sandag, G. A. 2020. Prediksi Rating Aplikasi App Store Menggunakan Algoritma
Random Forest, Cogito Smart Journal, 6(2), p. 167.
Sanjaya, J. dkk. 2020. Prediksi Kelalaian Pinjaman Bank Menggunakan Random
Forest dan Adaptive Boosting, Jurnal Teknik Informatika dan Sistem
Informasi, 6(1), pp. 50–60.
Septiani, W. D. 2017. Komparasi Metode Klasifikasi Data Mining Algoritma C4.5
dan Naive Bayes Untuk Prediksi Penyakit Hepatitis, Jurnal Pilar Nusa
Mandiri, 13(1), pp. 76–84.
Setiawan, K. M., Wahyuni, F. S. dan Faisol, A. 2021. Perbandingan Algoritma C4.5
dan Naive Bayes Untuk Menetukan Karyawan Berprestas’, Jurnal
Mahasiswa Teknik Informatika, 5(1), pp. 235–245.
Sidauruk, A. dan Pujianto, A. 2017. Sistem Pakar Diagnosa Penyakit Tanaman
Kelapa Sawit Menggunakan Teorema Bayes, Jurnal Ilmiah Data
Manajemen dan Teknologi Informasi, 18(1), pp. 51–56.
Sihotang, H. T., Panggabean, E. dan Zebua, H. 2018. Sistem Pakar Mendiagnosa
Penyakit Herpes Zoster Dengan Menggunakan Metode Teorema Bayes,
Journal Of Informatic Pelita Nusantara, 3(1), pp. 33–40. doi:
10.31227/osf.io/rjqgz.
Sofa, I. M. 2018. Kejadian Obesitas , Obesitas Sentral , dan Kelebihan Lemak
Viseral pada Lansia Wanita The Incidence of Obesity , Central Obesity ,
and Excessive Visceral Fat among Elderly Women, Amerta Nutr, 2(3),
pp. 228–236. doi: 10.20473/amnt.v2.i3.2018.228-236.
Sulastri, H. dan Gufroni, A. I. (2017) ‘Penerapan Data Mining Dalam
Pengelompokan Penderita Thalassaemia’, Jurnal Nasional Teknologi
dan Sistem Informasi, 3(2), pp. 299–305.
19
Supriyatna, A. dan Mustika, W. P. 2018. Komparasi Algoritma Naive Bayes dan

SVM Untuk Memprediksi Keberhasilan Imunoterapi Pada Penyakit
Kutil, Jurnal Sains Komputer dan Informatika, 2(2), pp. 152–161. doi:
10.30645/j-sakti.v2i2.78.
Suryanegara, G. A. B. dan Adiwijaya, M. D. P. 2021. Peningkatan Hasil Klasifikasi
pada Algoritma Random Forest untuk Deteksi Pasien Penderita Diabetes
Menggunakan Metode Normalisasi, Jurnal Rekayasa Sistem dan
Teknologi Informasi, 5(1), pp. 114–122.
Wibawa, A. P. dkk. 2018. Metode-metode Klasifikasi, Prosiding Seminar Ilmu
Komputer dan Teknologi Informasi, 3(1), pp. 134–138.
Widiantini, W. dan Tafal, Z. 2014. Aktivitas Fisik, Stres, dan Obesitas pada
Pegawai Negeri Sipil, Jurnal Kesehatan Masyarakat Nasional, 8(7), pp.
330–336. doi: 10.21109/kesmas.v0i0.374.

PROPOSAL TUGAS AKHIR ABU BAKAR SIDIQ - Removed

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

PROPOSAL TUGAS AKHIR ABU BAKAR SIDIQ - Removed

Diunggah oleh

Hak Cipta:

Format Tersedia

PENGKLASIFIKASIAN TINGKAT OBESITAS MENGGUNAKAN

METODE NAÏVE BAYES DAN RANDOM FOREST

PROPOSAL TUGAS AKHIR

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

1.1 Latar Belakang

Obesitas dan overweight adalah dua istilah yang sebenarnya memiliki

pengertian berbeda yang digunakan untuk menyatakan kelebihan berat badan

pada seseorang. Overweight merupakan kelebihan asupan gizi yang diterima

atau berlebihan sehingga dapat mengganggu kesehatan tubuh (Olivia dan

lansia, obesitas dapat menyebabkan terjadinya jatuh ataupun kecelakaan karena

terjadinya pengeroposan tulang dan sendi. Penyakit jantung dan stroke

merupakan penyebab kematian terbesar penduduk di dunia, terutama pada

kelompok lanjut usia (Sofa, 2018).

mining memiliki beberapa teknik dalam pengolahannya seperti clustering,

neural network, association rule mining, genetic algorithm, dan classification

Classification atau klasifikasi merupakan sebuah proses dari setiap objek

klasifikasi yang cukup sering digunakan diantaranya Naïve Bayes, Decision

Trees, Neural Networks, K-Nearest Neighbor, dan Memory Based Reasoning

(Puspaningrum, Nugroho dan Manggala, 2020).

Naïve Bayes merupakan salah satu metode klasifikasi dengan berdasarkan

variabel dengan menggunakan teknik prediksi dari probabilitas sederhana.

metode klasifikasi sederhana tetapi terbukti berguna dalam berbagai bidang,

seperti prediksi termofilisilitas bakteri, diagnosis babi klasik, dan mendeteksi

mastitis klinis. Naïve Bayes memiliki keunggulan dibandingkan klasifikasi

hanya menyertakan file observasi yang tersedia (Jensen, Hogeveen, dan De

Adapun beberapa penelitian terdahulu yang telah menggunakan metode

Naïve Bayes ini diantaranya yaitu, (Annur, 2018) melakukan penelitian

mengenai klasifikasi masyarakat miskin. Penilitian ini menggunakan data

dan recall sebesar 86%.

Metode klasifikasi lain yang digunakan dalam penelitian ini adalah

metode Random Forest. Metode Random Forest merupakan penerapan metode

bootstrap aggregating dan random feature selection yang merupakan

pengembangan dari metode CART (Classification and Regression Tree) untuk

menumbuhkan pohon keputusan (Pratiwi, Notodiputro dan Wijayanto, 2018).

(Ratnawati dan Sulistyaningrum, 2019).

Berdasarkan penelitian yang dilakukan oleh (Suryanegara dan Adiwijaya,

2021) mengenai deteksi pasien penderita diabetes menggunakan metode

metode Random Forest.

Menurut (Leonardo, Pratama dan Chrisnatalis, 2020) bahwa dengan

menggunakan metode Random Forest pada penelitian yang memprediksi

akurasi dengan menggunakan metode Naïve Bayes adalah 85%, sedangkan

tingkat akurasi Random Forest sebesar 90%.

Dari hasil penelitian sebelumnya, metode klasifikasi Naïve Bayes dan

tingkat akurasi masing-masing dalam menentukan klasifikasi tingkat obesitas

1.2 Rumusan Masalah

Berdasarkan uraian latar belakang di atas, maka rumusan masalah dalam

penelitian ini adalah:

1. Bagaimana pengklasifikasian penyakit obesitas dengan menggunakan

metode Naïve Bayes dan Random Forest?.

2. Bagaimana hasil tingkat akurasi pada pengelompokkan penyakit

obesitas berdasarkan metode Naïve Bayes dan Random Forest?.

1.3 Batasan Masalah

Batasan masalah dalam penelitian ini yaitu :

1. Data yang digunakan sebanyak 2111 data dengan 16 variabel prediktor

dan 1 variabel respon.

20% sebagai data testing atau 423 data.

1.4 Tujuan Penelitian

Tujuan dari penelitian ini yaitu :

1. Melakukan prediksi terhadap pengklasifikasian penyakit obesitas

dengan menggunakan metode Naïve Bayes dan Random Forest.

2. Membandingkan tingkat akurasi antara metode Naïve Bayes dan

1.5 Manfaat Penelitian