Disusun oleh:
1. KENNY EVEREST K 081411631044
2. PANDU PATRA W 081411631021
3. ZAFITRA RAMADANI 081411631016
4. GARRINCHA DIDI N 081411631009
S1 SISTEM INFORMASI
FAKULTAS SAINS dan TEKNOLOGI
UNIVERSITAS AIRLANGGA
SURABAYA
2017
DAFTAR ISI
DAFTAR ISI.............................................................................................................i
DAFTAR TABEL....................................................................................................ii
DAFTAR GAMBAR..............................................................................................iii
BAB 1......................................................................................................................1
PENDAHULUAN...................................................................................................1
1.1. Latar Belakang..........................................................................................1
1.2. Rumusan Masalah.....................................................................................2
1.3. Tujuan........................................................................................................3
1.4. Manfaat......................................................................................................3
1.5. Batasan Masalah........................................................................................3
BAB 2......................................................................................................................4
TINJAUAN PUSTAKA...........................................................................................4
2.1 Diabetes.....................................................................................................4
2.2 Pengertian Decision Tree...........................................................................6
2.3 Pengertian Metode Classification..............................................................7
2.4 CART Algorithm.......................................................................................9
BAB 3.....................................................................................................................11
METODOLOGI PENELITIAN.............................................................................11
3.1 Tipe Variabel...........................................................................................11
3.2 Langkah Langkah Penelitian...................................................................11
3.3 Alat dan Bahan........................................................................................13
BAB 4....................................................................................................................14
HASIL DAN PEMBAHASAN.............................................................................14
4.1 Hasil.........................................................................................................14
4.2 Analisis dan Pembahasan........................................................................25
BAB 5....................................................................................................................26
KESIMPULAN DAN SARAN..............................................................................26
DAFTAR PUSTAKA.............................................................................................27
DAFTAR TABEL
PENDAHULUAN
1. Latar Belakang
Diabetes dikenal sebagai silent killer karena sering tidak disadari oleh
penyandangnya telah terjadi komplikasi. Berdasarkan dari Badan Pusat Statistik
(BPS) pada tahun 2003, angka penderita diabetes sebanyak 13,7 juta orang.
Indonesia menduduki rangking keempat dengan jumlah penyandang diabetes
terbanyak. Sedangkan data dari World Health Organization WHO menunjukkan
adanya peningkatan jumlah penyandang diabetes di Indonesia dari 8,4 juta pada
tahun 2000 menjadi sekitar 21,3 juta pada tahun 2030.
Tantangan yang dihadapi ialah sulit dalam menentukan pada tahap mana
pasien berada dari gejala yang diamati. Cara utama yang dilakukan ialah hanya
menunggu penyelesaian studi prospektif yang tepat. Oleh karena itu, akan
dianalisis berbagai aspek metabolisme karbohidrat pada pasien tanpa gejala
obesitas (nonobese) dengan intoleransi glukosa dalam berbagai tingkat
[CITATION Rea79 \l 1033 ] . Penelitian yang dilakukan oleh Reaven (1973)
dengan menggunakan two dimentional scatter gram mencoba untuk mengetahui
hubungan antara variable metabolis: respon glkemik terhadap glucosa challenge
test, respon insulin terhadap Glucosa Challenge Test , dan sensitifitas insulin.
Tujuan dari penelitian ini adalah untuk memodelkan tahapan diabetes
[ CITATION Ste73 \l 1033 ] dengan menggunakan hubungan antara variable
yang diobservasi.
Permasalahan diskriminasi (Discrimination problem) merupakan
permasalahan yang mungkin terjadi diberbagai bidang, salah satunya adalah
bidang kesehatan. Dalam bidang kesehatan, permasalahan yang sering ditemui
adalah mengkategorikan penyakit atau kondisi medis dari pasien berdasarkan
variable variable kondisi dari pasien tersebut. (Pallara, dkk, 1992).
Salah satu metode pada decision tree untuk mengklasifikasikan data adalah
menggunakan algoritma CART (Classification And Regression Tree) [ CITATION
Rom04 \l 1033 ]. Algoritma CART merupakan metode yang diajukan oleh
Breiman, Freidman, Olshen, dan Stone. Metode ini terdiri atas tiga tahap, yaitu :
construction of maximum tree, choice of the right tree size dan classification of
new data [ CITATION Bre98 \l 1033 ].
1. Tujuan
3. Manfaat
2. Batasan Masalah
TINJAUAN PUSTAKA
2.1 Diabetes
Secara konsep Decision tree adalah salah satu dari teknik decision
analysis.Tries sendiri pertama kali diperkenalkan pada tahun 1960-an oleh
Fredkin. Trie atau digital tree berasal dari kata retrival (pengambilan kembali)
sesuai dengan fungsinya. Secara etimologi kata ini diucapkan sebagai tree.
Meskipun mirip dengan penggunaan kata try tetapi hal ini bertujuan untuk
membedakannya dari general tree. Dalam ilmu komputer, trie, atau prefix tree
adalah sebuah struktur data dengan representasi ordered tree yang digunakan
untuk menyimpan associative array yang berupa string. Berbeda dengan binary
search tree (BST) yang tidak ada node di tree yang menyimpan elemen yang
berhubungan dengan node sebelumnya dan, posisi setiap elemen di tree sangat
menentukan. Semua keturunan dari suatu node mempunyai prefix string yang
mengandung elemen dari node itu, dengan root merupakan string kosong. Values
biasanya tidak terkandung di setiap node, hanya di daun dan beberapa node di
tengah yang cocok dengan elemen tertentu.
Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon
merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu
pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas
tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root)
yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu
kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara
top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui,
nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai
node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu
data baru tertentu.
2.3 Pengertian Metode Classification
Akurasi dari classifier yang diestimasikan dengan test set adalah persentase
dari tuple test set yang diklasifikasi secara benar oleh classifier. Class label dari
setiap tuple dari test set dibandingkan dengan prediksi class label dari classifier.
Jika akurasi dari classifier dapat diterima maka classifer dapat digunakan untuk
mengklasifikasi data baru. Gambar 2.3 merupakan ilustrasi dari langkah Learning
dan Classification dari metode Classification (Han, 2006).
Keputusan yang diajukan oleh CART merupakan biner, berisi tepat dua
cabang untuk setiap simpul keputusan. CART secara rekursif mempartisi node
dalam data training yang diatur ke dalam himpunan bagian node dengan yang
serupa nilai untuk atribut target. Algoritma CART menumbuhkan pohon dengan
melakukan nodus keputusan untuk setiap pencarian menyeluruh dari semua
variabel yang tersedia dan semua nilai pemisahan yang mungkin, memilih
pemecahan optimal sesuai dengan kriteria berikut.
Misalkan, ( s|t ) menjadi ukuran kebaikan dari kandidat split s pada node t.
P ( j|t L )P( jt R )
classes
( s|t ) =2 P L PR
j=1
Dimana,
t L = of node t
t R= child of node t
number of records at t L
PL =
number of records training set
number of records at t R
PR =
number of recordstraining set
METODOLOGI PENELITIAN
Tipe variable dideskripsikan lagi (bedakan jenisnya ada yang continuous dan
categorical.
P ( j|t L )P( jt R )
classes
( s|t ) =2 P L PR
j=1
Dimana
t L = of node t
t R= child of node t
number of records at t L
PL =
number of recordstraining set
number of records at t R
PR =
number of records training set
number of class j records at t L
P ( j|t L )=
number of records at t L
c. Kemudian, titik yang akan menjadi titik potong (split point) pada
node t didefinisikan sebagai :
max (st )
1 2 3
1 10 0 0
2 0 10 0
3 0 0 10
1. Doxygen
2. Software Excel
3. CodeBlock
4. g++
5. graphviz
7. Comdll32.dll
BAB 4
PR: >269
PL: <= 10
PR: >10
Attribute: SSPG
PL: <= 29
PR: >29
Dalam simulasi yang dilakukan terhadap data training, dihasilkan
sebanyak 389 candidate of splits dari predictor variable yang ada.
4. Ulangi secara rekursif untuk masing masing data disebelah kiri dan
kanan. Berhenti melakukan pemanggilan rekursif, jika target variable telah
homogen. Karena masing masing cabang kiri dan kanan belum
homogen, maka akan dilakukan perhitungan performansi secara rekursif
untuk setiap cabang kiri dan kanan.
Pohon keputusan yang didapatkan dari algoritma CART terhadap data training :
Gambar 4.1 Pohon Keputusan dari Output Program
Gambar 4.2 Pohon Keputusan
0 overt
1 chemical
2 normal
if(glucoseArea <= 418){
//cek sspg
else{
//cek relative weight
if(relativeWeight<=0.91){
return this->outcomes.at(2);
}
else{
return this->outcomes.at(1);
}
}
else{
jumlah misklasifikasi
%error rate= x 100
total datatesting
0
%error rate= x 100
30
%error rate=0
1 2 3
1 10 0 0
2 0 10 0
3 0 0 10
Han, J., & Kamber, M. (2012). Data Miining Consepts and Techniques. London: Elsevier.
Reaven, G. M., & Miller, R. G. (1973). An Attempt to Define the Nature of Chemical
Diabetes Using a Multidimensional Analysis. Diabetologi, 17-24.
Timofeev, R. (2004). Classication and Regression Trees (CART) Theory and Applications.
Berlin: Humboldt University.