Anda di halaman 1dari 9

PROPOSAL TUGAS AKHIR

Perbandingan Klasifikasi Penyakit Diabetes Melitus


Menggunakan Regresi Logistik Biner Dan Algoritma C4.5

OLEH

Lisa Zulia Ramadani


NIM. 1603136892

PRODI S1 STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS RIAU

2019
A. Judul Penelitian : Perbandingan Klasifikasi Penyakit Diabetes

Melitus Menggunakan Regresi Logistik Biner

Dan Algoritma C4.5

B. Mata Kuliah : Statistika

C. Pendahuluan :

Diabetes melitus yang disebut juga penyakit kencing manis yang merupakan penyakit

gangguan metabolik menahun akibat pankreas tidak memproduksi cukup insulin,

insulin itu sendiri merupakan hormon yang mengatur keseimbangan kadar gula darah.

Diabetes melitus ada beberapa tipe yaitu diabetes melitus tipe 1 yang merupakan

diabetes melitus yang tergantung pada insulin, diabetes mellitus tipe 2 yaitu diabetes

mellitus yang tidak tergantung pada insulin, dan diabetes mellitus yang disebabkan

oleh perubahan hormon yang dihasilkan selama kehamilan yang biasanya menghilang

setelah melahirkan.

Metode statistik yang digunakan untuk mengetahui faktor-faktor yang

mempengaruhi penyakit diabetes melitus, yaitu regresi logistik biner dan algoritma

C4.5. Menurut Hosmer dan Lemeshow (2000), regresi logistik digunakan untuk

menganalisis data kualitatif dan beberapa variabel prediktor dimana variabel responnya

data kualitatif bernilai 1 yang menyatakan keberadaan karakteristik dan bernilai 0 yang

menyatakan tidak adanya karakteristik [1]. Jadi Regresi logistik ini merupakan bagian

dari analisis regresi yang digunakan ketika variabel dependen (respon) adalah variabel

dikotomi. Dimana variabel dikotomi terdiri dari dua nilai, yang mewakili kemunculan
atau tidak adanya suatu kejadian yang diberi angka 0 atau 1. Tidak seperti regresi linier

biasa, regresi logistik biner tidak mengasumsikan hubungan antara variabel independen

dan dependen secara linier. Regresi logistik biner merupakan regresi non linier dimana

model yang ditentukan akan mengikuti pola kurva seperti gambar di bawah ini.

Gambar 1. Kurva Regresi Logistik Biner

Model regresi logistik biner yang digunakan adalah

𝑃
𝐿𝑜𝑔 (1−𝑝) = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘

Yang mana p adalah kemungkinan bahwa Y = 1 dan 𝑋1, 𝑋2, 𝑋3 adalah variabel

independen dan 𝛽 adalah koefisien regresi. Regresi logistik membentuk variabel

𝑃
respon (𝐿𝑜𝑔 ((1−𝑝))) yang merupakan kombinasi linier dari variabel.

Regresi logistik biner menghasilkan rasio peluang (odds ratio/OR) yang terkait

dengan nilai variabel prediktor. Dimana odds ratio/OR ini merupakan resiko atau

kecendrungan pengaruh observasi dengan xj=1 yang menyatakan berapa kali lipat jika

dibandingkan dengan observasi xj=0. Untuk variabel bebas yang berskala kontinu
maka interpretasi dari koefisien 𝛽𝑗 pada model regresi logistik adalah setiap kenaikan

c unit pada variabel bebas akan menyatakan resiko terjadinya Y=1, adalah exp(c. 𝛽𝑗)

kali lebih besar. Odds ratio dilambangkan dengan 𝜃, didefinisikan sebagai

perbandingan dua nilai odds xj=1 dan xj=0. Dengan rumus :

[𝜋(1)⁄[1 − 𝜋(1)]]
𝜃=
[𝜋(0)⁄[1 − 𝜋(0)]]

Algoritma C4.5 merupakan bagian dari data mining yang berbentuk pohon

keputusan atau yang biasa kita sebut decision tree. Menurut Quinlan dan Larose (1993,

2005) algoritma C4.5 digunakan sebagai teknik klasifikasi dengan membentuk pohon

keputusan (decision tree) yang memiliki tingkat keakuratan, kecepatan, dan

kehandalan yang lebih baik dibandingkan dengan teknik klasifikasi lainnya. Algoritma

C4.5 diperkenalkan oleh Quinlan (1993) sebagai versi perbaikan dari algoritma

Itterative Dichomeser 3 (ID3) [2].

Menurut Quinlan (1993), algoritma C4.5 ini menggunakan kriteria gain dalam

pemecah node pada pohon keputusan. Rokach dan Maimon (2008) menyebutkan,

information gain atau gain info adalah kriteria pemisahan yang menggunakan

pengukuran entropy. Entropy adalah rataan jumlah informasi yang dibutuhkan untuk

mengidentifikasikan kelas pada kasus ke dalam himpunan T. Entropy ini digunakan

sebagai paramater untuk mengukur keberagaman (heterogenitas) dari kumpulan

sampel data. Jika kumpulan sampel datanya semakin heterogen, maka semakin besar

juga entropy-nya.

Rumus dari Gain(𝑎) adalah sebagi berikut:


𝑠
|𝑇𝑖 |
𝐺𝑎𝑖𝑛(𝑎) = 𝑖𝑛𝑓𝑜(𝑇) − ∑ × 𝑖𝑛𝑓𝑜(𝑇𝑖 )
|𝑇|
𝑖=1

Dimana nilai entropy keseluruhan kelas:


𝑛
𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇) 𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇)
𝑖𝑛𝑓𝑜(𝑇) = − ∑ × 2log ( )
|𝑇| |𝑇|
𝑗=1

Sedangkan nilai entropy untuk setiap atribut i:


𝑛
𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇) 𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇)
𝑖𝑛𝑓𝑜(𝑇) = − ∑ × 2log ( )
|𝑇𝑖 | |𝑇𝑖 |
𝑗=1

Dimana: |𝑇| = banyaknya kasus dalam himpunan 𝑇

|𝑇𝑖 | = banyaknya kasus dalam sub-himpunan 𝑇𝑖

𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇) = banyaknya kasus-kasus dalam himpunan 𝑇 yang

memiliki kelas 𝐶𝑗

Jika 𝑎 merupakan atribut kontinu maka kasus dalam T dengan nilai atribut tersebut

diurutkan dari yang terkecil sampai terbesar. Misalkan nilai hasil pengurutan adalah

(𝑤𝑖 +𝑤𝑖+1 )
𝑤1 , 𝑤2 , … , 𝑤𝑚 , dan nilai dimana 𝑖 ∈ [1, 𝑚 − 1] dan pemisahan yang terjadi
2

untuk atribut bertipe kontinu adalah :

𝑇1𝑣 = {𝑤𝑗 |𝑤𝑗 ≤ 𝑣} 𝑑𝑎𝑛 𝑇2𝑣 = {𝑤𝑗 |𝑤𝑗 > 𝑣}

Information gain untuk 𝑎 didefinisikan sebagai nilai terbesar atau maksimum dari

semua gain dan nilai 𝑣 merupakan sebagai nilai ambang batas untuk atribut kontinu

[1].
D. Perumusan masalah

Dengan dilakukan penelitian ini, kedua metode diatas dapat mengatasi data yang

tipenya kategorik. Seperti penjelasan para ahli diatas metode regresi logistik digunakan

untuk mengidentifikasi dua variabel respon yang tipe datanya kategorik dalam

penelitian ini yang akan digunakan yaitu diabetes melitus tipe 1 dan tipe 2. Sedangkan

algoritma C4.5 digunakan digunakan untuk mengklasifikasikan jenis penyakit diabetes

melitus karena perhitungan algoritma C4.5 sederhana dan bisa juga mengatasi data

yang tipenya kontinu. Dalam penelitian ini penulis juga ingin melihat diantara kedua

metode tersebut mana yang lebih signifikan dan lebih baik dalam mengklasifikasikan

jenis penyakit diabetes melitus.

E. Tinjauan Pustaka

Berikut ini diberikan beberapa landasan teori dan definisi yang mendasari penelitian

ini yaitu : Regresi Logistik Biner dan Algoritma C4.5

Dalam buku Algoritma Data Mining disebutkan bahwa Algoritma C4.5 merupakan

algoritma yang digunakan untuk membentuk pohon keputusan.

A. Pohon Keputusan

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan

terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon

keputusan yang mempresentasikan aturan. Pohon keputusan juga berguna untuk

mengeksplorasi data, menemukan hubungan tersenbunyi antara sejumlah calon

variabel input dengan sebuah variabel target.


F. Tujuan Penelitian

Tujuan penelitian ini adalah untuk mengetahui bagaimana cara mengklasifikasikan

jenis penyakit diabetes melitus menggunakan algoritma C4.5 dan untuk mengetahui

bagaimana cara mengidentifikasi dua variabel respon yang datanya bertipe kategorik,

yaitu diabetes melitus tipe 1 dan tipe 2. Dalam penelitian ini penulis juga ingin melihat

diantara kedua metode tersebut mana yang lebih signifikan dan lebih baik dalam

mengklasifikasikan jenis penyakit diabetes melitus.

G. Metododologi Penelitian

Penelitian ini dilakukan dalam bentuk studi literatur dengan mempedomani jurnal-

jurnal dan buku teks yang berkaitan dengan pembahasan ini. Sumber data yang

digunakan dalam penelitian ini adalah data pasien diabetes melitus di Rumah Sakit di

Pekanbaru.

Variabel yang digunakan yaitu jenis diabetes melitus (tipe 1 dan tipe 2) sebagai

variabel respon (Y), sedangkan variabel prediktor (X) adalah berat badan, jenis

kelamin, umur, faktor genetik, faktor makanan, dan penyakit lain (ada dan tidak ada).
DAFTAR PUSTAKA

[1] Blake, Rob. 2007. “Breaking the ‘Invisible-Profession’ Paradigm.” Journal of

Environmental Health.

[2] Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2017. “The Elements

of Statistical Learning The Elements of Statistical Learning.”

https://web.stanford.edu/~hastie/Papers/ESLII.pdf.

Anda mungkin juga menyukai