OLEH
PRODI S1 STATISTIKA
UNIVERSITAS RIAU
2019
A. Judul Penelitian : Perbandingan Klasifikasi Penyakit Diabetes
C. Pendahuluan :
Diabetes melitus yang disebut juga penyakit kencing manis yang merupakan penyakit
insulin itu sendiri merupakan hormon yang mengatur keseimbangan kadar gula darah.
Diabetes melitus ada beberapa tipe yaitu diabetes melitus tipe 1 yang merupakan
diabetes melitus yang tergantung pada insulin, diabetes mellitus tipe 2 yaitu diabetes
mellitus yang tidak tergantung pada insulin, dan diabetes mellitus yang disebabkan
oleh perubahan hormon yang dihasilkan selama kehamilan yang biasanya menghilang
setelah melahirkan.
mempengaruhi penyakit diabetes melitus, yaitu regresi logistik biner dan algoritma
C4.5. Menurut Hosmer dan Lemeshow (2000), regresi logistik digunakan untuk
menganalisis data kualitatif dan beberapa variabel prediktor dimana variabel responnya
data kualitatif bernilai 1 yang menyatakan keberadaan karakteristik dan bernilai 0 yang
menyatakan tidak adanya karakteristik [1]. Jadi Regresi logistik ini merupakan bagian
dari analisis regresi yang digunakan ketika variabel dependen (respon) adalah variabel
dikotomi. Dimana variabel dikotomi terdiri dari dua nilai, yang mewakili kemunculan
atau tidak adanya suatu kejadian yang diberi angka 0 atau 1. Tidak seperti regresi linier
biasa, regresi logistik biner tidak mengasumsikan hubungan antara variabel independen
dan dependen secara linier. Regresi logistik biner merupakan regresi non linier dimana
model yang ditentukan akan mengikuti pola kurva seperti gambar di bawah ini.
𝑃
𝐿𝑜𝑔 (1−𝑝) = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘
Yang mana p adalah kemungkinan bahwa Y = 1 dan 𝑋1, 𝑋2, 𝑋3 adalah variabel
𝑃
respon (𝐿𝑜𝑔 ((1−𝑝))) yang merupakan kombinasi linier dari variabel.
Regresi logistik biner menghasilkan rasio peluang (odds ratio/OR) yang terkait
dengan nilai variabel prediktor. Dimana odds ratio/OR ini merupakan resiko atau
kecendrungan pengaruh observasi dengan xj=1 yang menyatakan berapa kali lipat jika
dibandingkan dengan observasi xj=0. Untuk variabel bebas yang berskala kontinu
maka interpretasi dari koefisien 𝛽𝑗 pada model regresi logistik adalah setiap kenaikan
c unit pada variabel bebas akan menyatakan resiko terjadinya Y=1, adalah exp(c. 𝛽𝑗)
[𝜋(1)⁄[1 − 𝜋(1)]]
𝜃=
[𝜋(0)⁄[1 − 𝜋(0)]]
Algoritma C4.5 merupakan bagian dari data mining yang berbentuk pohon
keputusan atau yang biasa kita sebut decision tree. Menurut Quinlan dan Larose (1993,
2005) algoritma C4.5 digunakan sebagai teknik klasifikasi dengan membentuk pohon
kehandalan yang lebih baik dibandingkan dengan teknik klasifikasi lainnya. Algoritma
C4.5 diperkenalkan oleh Quinlan (1993) sebagai versi perbaikan dari algoritma
Menurut Quinlan (1993), algoritma C4.5 ini menggunakan kriteria gain dalam
pemecah node pada pohon keputusan. Rokach dan Maimon (2008) menyebutkan,
information gain atau gain info adalah kriteria pemisahan yang menggunakan
pengukuran entropy. Entropy adalah rataan jumlah informasi yang dibutuhkan untuk
sampel data. Jika kumpulan sampel datanya semakin heterogen, maka semakin besar
juga entropy-nya.
memiliki kelas 𝐶𝑗
Jika 𝑎 merupakan atribut kontinu maka kasus dalam T dengan nilai atribut tersebut
diurutkan dari yang terkecil sampai terbesar. Misalkan nilai hasil pengurutan adalah
(𝑤𝑖 +𝑤𝑖+1 )
𝑤1 , 𝑤2 , … , 𝑤𝑚 , dan nilai dimana 𝑖 ∈ [1, 𝑚 − 1] dan pemisahan yang terjadi
2
Information gain untuk 𝑎 didefinisikan sebagai nilai terbesar atau maksimum dari
semua gain dan nilai 𝑣 merupakan sebagai nilai ambang batas untuk atribut kontinu
[1].
D. Perumusan masalah
Dengan dilakukan penelitian ini, kedua metode diatas dapat mengatasi data yang
tipenya kategorik. Seperti penjelasan para ahli diatas metode regresi logistik digunakan
untuk mengidentifikasi dua variabel respon yang tipe datanya kategorik dalam
penelitian ini yang akan digunakan yaitu diabetes melitus tipe 1 dan tipe 2. Sedangkan
melitus karena perhitungan algoritma C4.5 sederhana dan bisa juga mengatasi data
yang tipenya kontinu. Dalam penelitian ini penulis juga ingin melihat diantara kedua
metode tersebut mana yang lebih signifikan dan lebih baik dalam mengklasifikasikan
E. Tinjauan Pustaka
Berikut ini diberikan beberapa landasan teori dan definisi yang mendasari penelitian
Dalam buku Algoritma Data Mining disebutkan bahwa Algoritma C4.5 merupakan
A. Pohon Keputusan
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan
terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon
jenis penyakit diabetes melitus menggunakan algoritma C4.5 dan untuk mengetahui
bagaimana cara mengidentifikasi dua variabel respon yang datanya bertipe kategorik,
yaitu diabetes melitus tipe 1 dan tipe 2. Dalam penelitian ini penulis juga ingin melihat
diantara kedua metode tersebut mana yang lebih signifikan dan lebih baik dalam
G. Metododologi Penelitian
Penelitian ini dilakukan dalam bentuk studi literatur dengan mempedomani jurnal-
jurnal dan buku teks yang berkaitan dengan pembahasan ini. Sumber data yang
digunakan dalam penelitian ini adalah data pasien diabetes melitus di Rumah Sakit di
Pekanbaru.
Variabel yang digunakan yaitu jenis diabetes melitus (tipe 1 dan tipe 2) sebagai
variabel respon (Y), sedangkan variabel prediktor (X) adalah berat badan, jenis
kelamin, umur, faktor genetik, faktor makanan, dan penyakit lain (ada dan tidak ada).
DAFTAR PUSTAKA
Environmental Health.
[2] Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2017. “The Elements
https://web.stanford.edu/~hastie/Papers/ESLII.pdf.