Oleh
ABU BAKAR S
NIM. 08011281722061
1
BAB I
PENDAHULUAN
oleh tubuh atau yang biasa disebut dengan kegemukan. Sedangkan obesitas
terjadi pada jaringan adipose akibat dari akumulasi lemak yang tidak normal
Anggraini, 2017).
Berdasarkan data dari Riset Kesehatan Dasar pada tahun 2018, prevalensi
penduduk yang berumur lebih dari 18 tahun mengalami obesitas meningkat dari
14,8 persen menjadi 21,8 persen. Berbagai macam penyakit degeneratif seperti
penyakit jantung dan stroke, dapat muncul akibat dari obesitas. Sedangkan pada
Data penyakit yang terlalu banyak dapat diolah melalui data mining. Data
mining merupakan proses untuk mengambil informasi penting dari data yang
ukurannya cukup besar dengan cara penggalian atau pernyaringan data untuk
1
2
menemukan pola dari data tersebut (Sulastri dan Gufroni, 2017). Data mining
mempunyai hubungan yang erat terhadap berbagai bidang ilmu seperti machine
learning, kecerdasan buatan (artificial intelligent), statistik, dan basis data. Data
(Handoko, 2016).
untuk menempatkan objek tertentu dalam satu set kategori. Terdapat empat
konsep dasar dalam proses klasifikasi yaitu kelas, predictor, training set atau
data latih, dan pengujian dataset (Septiani, 2017). Terdapat beberapa model
pada penerapan teorema Bayes yang memiliki asumsi saling bebas antar
Naïve Bayes memiliki model independen yang kuat berarti tidak ada data
berkaitan dengan data yang lain dalam suatu kasus ataupun dari variabel yang
lain (Fadlan, Ningsih, dan Windarto, 2018) . Naïve Bayes merupakan sebuah
metode yang lain karena observasi yang hilang dapat ditangani dengan mudah
3
Vries, 2016).
sekunder yaitu data penduduk miskin Kecamatan Tibawa Kab. Gorontalo pada
tahun 2015. Data yang digunakan dibagi menjadi dua, yaitu 171 data sebagai
data training (90% dataset) dan 19 data sebagai data testing (10% dataset). Hasil
dari penelitian tersebut adalah tingkat akurasi sebesar 73%, presisi sebesar 92%,
Pohon keputusan akan tumbuh maksimal dan tidak akan dipangkas sehingga
akan membentuk kumpulan pohon yang biasa disebut dengan hutan atau forest
Random Forest memiliki tingkat akurasi sebesar 92%. Pada penelitian tersebut
pohon yang dibangun sebanyak 5, 10, dan 15. Meningkatnya akurasi yang
cukup signifikan dapat terjadi akibat banyaknya dari pohon yang dibangun.
4
Semakin banyak pohon yang dibentuk, maka semakin baik tingkat akurasi dari
keberhasilan klien telemarketing memiliki tingkat akurasi yang lebih baik dari
metode Naïve Bayes. Pada penelitian ini menggunakan data sekunder yang
diambil dari website machine learning UCI yang terdiri dari 17 atribut. Tingkat
Random Forest sama-sama meliki tingkat akurasi yang cukup baik. Kedua
metode tersebut dapat digunakan pada data dengan variabel respon yang
memiliki lebih dari 2 kategori, yang berarti metode ini dapat digunakan pada
penelitian ini. Selain itu juga metode ini cukup menarik untuk dapat dilihat
seseorang.
2. Data dipartisi menjadi 80% data training atau sebanyak 1688 data dan
Random Forest.
2. Mengetahui tingkat akurasi yang lebih baik antara metode Naïve Bayes
TINJAUAN PUSTAKA
Bayes dan Random Forest termasuk kedalam tipe supervised learning karena
menggunakan data latih yang sudah memiliki variabel respon untuk melakukan
Vector Machine, Fuzzy, Random Forest, dan Jaringan Saraf Tiruan (Wibawa
dkk., 2018).
𝑃(𝐵|𝐴)𝑃(𝐴) ( 2.1)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
Keterangan:
variabel saling bebas atau tidak ada ciri tertentu dari kelas yang memiliki
hubungan dengan kelas yang lain (Sabransyah, Nasution, dan Amijaya 2017).
Nilai evidence selalu tetap untuk setiap kelas pada satu sampel.
B1, B2,…, Bn saling bebas, maka akan didapat persamaan sebagai berikut :
untuk i≠j
(Rosandy, 2016)
klasifikasi dan regresi. Assemble atau kumpulan dari decision tree yang
Forest. Setiap hasil klasifikasi dari metode decision tree akan digabungkan
menggunakan metode decision tree yang tidak memiliki korelasi sehingga dapat
menghasilkan tingkat akurasi yang lebih baik dibandingkan metode yang lain
(Renata dan Ayub, 2020). Metode Random Forest mempunyai 3 aspek penting,
yaitu : (1) membangun pohon prediksi dengan bootsrap sampling; (2) setiap
pohon keputusan dengan cara majority vote untuk hasil klasifikasi (Primajaya
2014).
acak untuk membangun pohon keputusan yang terdiri dari root node, internal
node, dan leaf node. Akar dari pohon keputusan atau simpul paling atas dari
pohon keputusan disebut root node. Internal node memiliki output minimal dua
dan hanya memiliki satu input yang sering disebut juga sebagai simpul
percabangan. Sedangkan simpul terakhir yang hanya mempunyai satu input dan
tidak mempunyai output disebut terminal node atau leaf node (Nugroho dan
ini.
( 2.5)
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) = − ∑ 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖
𝑖
Keterangan:
Y = himpunan kasus
pi = probabilitas ke-i
𝑌𝑖
∑ 𝑥𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌𝑖 )
𝑌
𝑖
Keterangan:
(Sandag, 2020)
penambangan data namun sering dilupakan (Sanjaya dkk., 2020). Proses ini
dilakukan untuk melihat apakah data terdapat missing value sebelum peneliti
melakukan pengujian (Supriyatna dan Mustika, 2018). Pada tahap ini juga dapat
predisiksi pada hasil klasifikasi (Amrin dan Saiyar, 2018). Data test digunakan
Aktual Yes TP FN P
Aktual No FP TN N
Total P’ N’ P+N
𝑇𝑃 + 𝑇𝑁
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (2.7)
𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁
(Hendrian, 2018)
12
1. True Positive (TP) : data asli dan prediksi sama dalam klasifikasi positif.
2. True Negatif (TN) : data asli dan prediksi sama dalam klasifikasi negatif.
3. False Positive (FP) : data asli negatif tetapi prediksi klasifikasi positif.
4. False Negative (FN) : data asli positif tetapi prediksi klasifikasi negatif.
2.8 Obesitas
lemak di dalam rongga perut pada jaringan adipose yang meliputi dinding luar
obesitas (Loliana dan Siti, 2015). Menurut WHO Tingkat obesitas dapat dilihat
𝐵𝑒𝑟𝑎𝑡 𝑏𝑎𝑑𝑎𝑛
𝐼𝑀𝑇 =
𝑇𝑖𝑛𝑔𝑔𝑖 𝑏𝑎𝑑𝑎𝑛 ∗ 𝑇𝑖𝑛𝑔𝑔𝑖 𝑏𝑎𝑑𝑎𝑛
Klasifikasi IMT
Underweight <18,5
Normal 18,5-24.99
Overweight I 25-27.49
Overweight I 27.5-29.9
Obesity I 30-34.9
Obesity II 35-39.9
konsumsi zat gizi meliputi konsumsi karbohidrat, energi, protein, dan lemak.
Massa otot dalam tubuh dapat menurun seiring dengan bertambahnya usia
energi di dalam tubuh jika tidak mengurangi jumlah asupan kalori sehingga
faktor genetik sangat berpengaruh terhadap penyakit obesitas. Jika kedua orang
kemungkinan 40% anak terjangkit penyakit obesitas jika salah satu orang tua
obesitas dan prevelensi 14% jika kedua orang tua tidak memiiliki penyakit
Metodologi Penelitian
3.1 Tempat
Sriwijaya.
3.2 Waktu
3. Melakukan partisi data, dalam hal ini data latih sebesar 80% dan data uji
20%.
(1) Menghitung peluang variabel respon dari setiap kategori (class prior
14
15
5. Analisis hasil.
6. Kesimpulan.
Daftar Pustaka
16
17