Proposal Tugas Akhir Lisa

PROPOSAL TUGAS AKHIR
Perbandingan Klasifikasi Penyakit Diabetes Melitus

Menggunakan Regresi Logistik Biner Dan Algoritma C4.5
OLEH
Lisa Zulia Ramadani

NIM. 1603136892
PRODI S1 STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS RIAU
2019
A. Judul Penelitian : Perbandingan Klasifikasi Penyakit Diabetes
Melitus Menggunakan Regresi Logistik Biner
Dan Algoritma C4.5
B. Mata Kuliah : Statistika
C. Pendahuluan :
Diabetes melitus yang disebut juga penyakit kencing manis yang merupakan penyakit
gangguan metabolik menahun akibat pankreas tidak memproduksi cukup insulin,
insulin itu sendiri merupakan hormon yang mengatur keseimbangan kadar gula darah.
Diabetes melitus ada beberapa tipe yaitu diabetes melitus tipe 1 yang merupakan
diabetes melitus yang tergantung pada insulin, diabetes mellitus tipe 2 yaitu diabetes
mellitus yang tidak tergantung pada insulin, dan diabetes mellitus yang disebabkan
oleh perubahan hormon yang dihasilkan selama kehamilan yang biasanya menghilang
setelah melahirkan.
Metode statistik yang digunakan untuk mengetahui faktor-faktor yang
mempengaruhi penyakit diabetes melitus, yaitu regresi logistik biner dan algoritma
C4.5. Menurut Hosmer dan Lemeshow (2000), regresi logistik digunakan untuk
menganalisis data kualitatif dan beberapa variabel prediktor dimana variabel responnya
data kualitatif bernilai 1 yang menyatakan keberadaan karakteristik dan bernilai 0 yang
menyatakan tidak adanya karakteristik [1]. Jadi Regresi logistik ini merupakan bagian
dari analisis regresi yang digunakan ketika variabel dependen (respon) adalah variabel
dikotomi. Dimana variabel dikotomi terdiri dari dua nilai, yang mewakili kemunculan
atau tidak adanya suatu kejadian yang diberi angka 0 atau 1. Tidak seperti regresi linier
biasa, regresi logistik biner tidak mengasumsikan hubungan antara variabel independen
dan dependen secara linier. Regresi logistik biner merupakan regresi non linier dimana
model yang ditentukan akan mengikuti pola kurva seperti gambar di bawah ini.
Gambar 1. Kurva Regresi Logistik Biner
Model regresi logistik biner yang digunakan adalah
𝑃
𝐿𝑜𝑔 (1−𝑝) = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘
Yang mana p adalah kemungkinan bahwa Y = 1 dan 𝑋1, 𝑋2, 𝑋3 adalah variabel
independen dan 𝛽 adalah koefisien regresi. Regresi logistik membentuk variabel
𝑃
respon (𝐿𝑜𝑔 ((1−𝑝))) yang merupakan kombinasi linier dari variabel.
Regresi logistik biner menghasilkan rasio peluang (odds ratio/OR) yang terkait
dengan nilai variabel prediktor. Dimana odds ratio/OR ini merupakan resiko atau
kecendrungan pengaruh observasi dengan xj=1 yang menyatakan berapa kali lipat jika
dibandingkan dengan observasi xj=0. Untuk variabel bebas yang berskala kontinu
maka interpretasi dari koefisien 𝛽𝑗 pada model regresi logistik adalah setiap kenaikan
c unit pada variabel bebas akan menyatakan resiko terjadinya Y=1, adalah exp(c. 𝛽𝑗)
kali lebih besar. Odds ratio dilambangkan dengan 𝜃, didefinisikan sebagai
perbandingan dua nilai odds xj=1 dan xj=0. Dengan rumus :
[𝜋(1)⁄[1 − 𝜋(1)]]
𝜃=
[𝜋(0)⁄[1 − 𝜋(0)]]
Algoritma C4.5 merupakan bagian dari data mining yang berbentuk pohon
keputusan atau yang biasa kita sebut decision tree. Menurut Quinlan dan Larose (1993,
2005) algoritma C4.5 digunakan sebagai teknik klasifikasi dengan membentuk pohon
keputusan (decision tree) yang memiliki tingkat keakuratan, kecepatan, dan
kehandalan yang lebih baik dibandingkan dengan teknik klasifikasi lainnya. Algoritma
C4.5 diperkenalkan oleh Quinlan (1993) sebagai versi perbaikan dari algoritma
Itterative Dichomeser 3 (ID3) [2].
Menurut Quinlan (1993), algoritma C4.5 ini menggunakan kriteria gain dalam
pemecah node pada pohon keputusan. Rokach dan Maimon (2008) menyebutkan,
information gain atau gain info adalah kriteria pemisahan yang menggunakan
pengukuran entropy. Entropy adalah rataan jumlah informasi yang dibutuhkan untuk
mengidentifikasikan kelas pada kasus ke dalam himpunan T. Entropy ini digunakan
sebagai paramater untuk mengukur keberagaman (heterogenitas) dari kumpulan
sampel data. Jika kumpulan sampel datanya semakin heterogen, maka semakin besar
juga entropy-nya.
Rumus dari Gain(𝑎) adalah sebagi berikut:

𝑠
|𝑇𝑖 |
𝐺𝑎𝑖𝑛(𝑎) = 𝑖𝑛𝑓𝑜(𝑇) − ∑ × 𝑖𝑛𝑓𝑜(𝑇𝑖 )
|𝑇|
𝑖=1
Dimana nilai entropy keseluruhan kelas:

𝑛
𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇) 𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇)
𝑖𝑛𝑓𝑜(𝑇) = − ∑ × 2log ( )
|𝑇| |𝑇|
𝑗=1
Sedangkan nilai entropy untuk setiap atribut i:

𝑛
𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇) 𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇)
𝑖𝑛𝑓𝑜(𝑇) = − ∑ × 2log ( )
|𝑇𝑖 | |𝑇𝑖 |
𝑗=1
Dimana: |𝑇| = banyaknya kasus dalam himpunan 𝑇
|𝑇𝑖 | = banyaknya kasus dalam sub-himpunan 𝑇𝑖
𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇) = banyaknya kasus-kasus dalam himpunan 𝑇 yang
memiliki kelas 𝐶𝑗
Jika 𝑎 merupakan atribut kontinu maka kasus dalam T dengan nilai atribut tersebut
diurutkan dari yang terkecil sampai terbesar. Misalkan nilai hasil pengurutan adalah
(𝑤𝑖 +𝑤𝑖+1 )
𝑤1 , 𝑤2 , … , 𝑤𝑚 , dan nilai dimana 𝑖 ∈ [1, 𝑚 − 1] dan pemisahan yang terjadi
2
untuk atribut bertipe kontinu adalah :
𝑇1𝑣 = {𝑤𝑗 |𝑤𝑗 ≤ 𝑣} 𝑑𝑎𝑛 𝑇2𝑣 = {𝑤𝑗 |𝑤𝑗 > 𝑣}
Information gain untuk 𝑎 didefinisikan sebagai nilai terbesar atau maksimum dari
semua gain dan nilai 𝑣 merupakan sebagai nilai ambang batas untuk atribut kontinu
[1].
D. Perumusan masalah
Dengan dilakukan penelitian ini, kedua metode diatas dapat mengatasi data yang
tipenya kategorik. Seperti penjelasan para ahli diatas metode regresi logistik digunakan
untuk mengidentifikasi dua variabel respon yang tipe datanya kategorik dalam
penelitian ini yang akan digunakan yaitu diabetes melitus tipe 1 dan tipe 2. Sedangkan
algoritma C4.5 digunakan digunakan untuk mengklasifikasikan jenis penyakit diabetes
melitus karena perhitungan algoritma C4.5 sederhana dan bisa juga mengatasi data
yang tipenya kontinu. Dalam penelitian ini penulis juga ingin melihat diantara kedua
metode tersebut mana yang lebih signifikan dan lebih baik dalam mengklasifikasikan
jenis penyakit diabetes melitus.
E. Tinjauan Pustaka
Berikut ini diberikan beberapa landasan teori dan definisi yang mendasari penelitian
ini yaitu : Regresi Logistik Biner dan Algoritma C4.5
Dalam buku Algoritma Data Mining disebutkan bahwa Algoritma C4.5 merupakan
algoritma yang digunakan untuk membentuk pohon keputusan.
A. Pohon Keputusan
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan
terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon
keputusan yang mempresentasikan aturan. Pohon keputusan juga berguna untuk
mengeksplorasi data, menemukan hubungan tersenbunyi antara sejumlah calon
variabel input dengan sebuah variabel target.

F. Tujuan Penelitian
Tujuan penelitian ini adalah untuk mengetahui bagaimana cara mengklasifikasikan
jenis penyakit diabetes melitus menggunakan algoritma C4.5 dan untuk mengetahui
bagaimana cara mengidentifikasi dua variabel respon yang datanya bertipe kategorik,
yaitu diabetes melitus tipe 1 dan tipe 2. Dalam penelitian ini penulis juga ingin melihat
diantara kedua metode tersebut mana yang lebih signifikan dan lebih baik dalam
mengklasifikasikan jenis penyakit diabetes melitus.
G. Metododologi Penelitian
Penelitian ini dilakukan dalam bentuk studi literatur dengan mempedomani jurnal-
jurnal dan buku teks yang berkaitan dengan pembahasan ini. Sumber data yang
digunakan dalam penelitian ini adalah data pasien diabetes melitus di Rumah Sakit di
Pekanbaru.
Variabel yang digunakan yaitu jenis diabetes melitus (tipe 1 dan tipe 2) sebagai
variabel respon (Y), sedangkan variabel prediktor (X) adalah berat badan, jenis
kelamin, umur, faktor genetik, faktor makanan, dan penyakit lain (ada dan tidak ada).
DAFTAR PUSTAKA
[1] Blake, Rob. 2007. “Breaking the ‘Invisible-Profession’ Paradigm.” Journal of
Environmental Health.
[2] Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2017. “The Elements
of Statistical Learning The Elements of Statistical Learning.”
https://web.stanford.edu/~hastie/Papers/ESLII.pdf.

Proposal Tugas Akhir Lisa

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proposal Tugas Akhir Lisa

Diunggah oleh

Hak Cipta:

Format Tersedia

PROPOSAL TUGAS AKHIR

Perbandingan Klasifikasi Penyakit Diabetes Melitus

Lisa Zulia Ramadani

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Melitus Menggunakan Regresi Logistik Biner

Dan Algoritma C4.5

B. Mata Kuliah : Statistika

gangguan metabolik menahun akibat pankreas tidak memproduksi cukup insulin,

Metode statistik yang digunakan untuk mengetahui faktor-faktor yang

Gambar 1. Kurva Regresi Logistik Biner

Model regresi logistik biner yang digunakan adalah

independen dan 𝛽 adalah koefisien regresi. Regresi logistik membentuk variabel

kali lebih besar. Odds ratio dilambangkan dengan 𝜃, didefinisikan sebagai

perbandingan dua nilai odds xj=1 dan xj=0. Dengan rumus :

keputusan (decision tree) yang memiliki tingkat keakuratan, kecepatan, dan

Itterative Dichomeser 3 (ID3) [2].

mengidentifikasikan kelas pada kasus ke dalam himpunan T. Entropy ini digunakan

sebagai paramater untuk mengukur keberagaman (heterogenitas) dari kumpulan

Rumus dari Gain(𝑎) adalah sebagi berikut:

Dimana nilai entropy keseluruhan kelas:

Sedangkan nilai entropy untuk setiap atribut i:

Dimana: |𝑇| = banyaknya kasus dalam himpunan 𝑇

|𝑇𝑖 | = banyaknya kasus dalam sub-himpunan 𝑇𝑖

𝑓𝑟𝑒𝑞(𝐶𝑗 , 𝑇) = banyaknya kasus-kasus dalam himpunan 𝑇 yang

untuk atribut bertipe kontinu adalah :

𝑇1𝑣 = {𝑤𝑗 |𝑤𝑗 ≤ 𝑣} 𝑑𝑎𝑛 𝑇2𝑣 = {𝑤𝑗 |𝑤𝑗 > 𝑣}

algoritma C4.5 digunakan digunakan untuk mengklasifikasikan jenis penyakit diabetes

jenis penyakit diabetes melitus.

ini yaitu : Regresi Logistik Biner dan Algoritma C4.5

algoritma yang digunakan untuk membentuk pohon keputusan.

keputusan yang mempresentasikan aturan. Pohon keputusan juga berguna untuk

mengeksplorasi data, menemukan hubungan tersenbunyi antara sejumlah calon

variabel input dengan sebuah variabel target.

Tujuan penelitian ini adalah untuk mengetahui bagaimana cara mengklasifikasikan

mengklasifikasikan jenis penyakit diabetes melitus.

[1] Blake, Rob. 2007. “Breaking the ‘Invisible-Profession’ Paradigm.” Journal of

of Statistical Learning The Elements of Statistical Learning.”

Anda mungkin juga menyukai