Anda di halaman 1dari 106

METODE KLASIFIKASI BERSTRUKTUR POHON DENGAN

ALGORITMA QUEST DAN ALGORITMA CART


(Aplikasi pada Data Pasien Penyakit Jantung)

SKRIPSI

NUR SAUNAH RANGKUTI


130803016

DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara


METODE KLASIFIKASI BERSTRUKTUR POHON DENGAN
ALGORITMA QUEST DAN ALGORITMA CART
(Aplikasi pada Data Pasien Penyakit Jantung)

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat


mencapai gelar Sarjana Sains

NUR SAUNAH RANGKUTI


130803016

DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara


PERSETUJUAN

Judul: Metode Klasifikasi Bersturuktur Pohon dengan Algoritma QUEST dan


Algoritma CART (Aplikasi pada Data Pasien
Penyakit Jantung).
Kategori : Skripsi
Nama : Nur Saunah Rangkuti
Nomor Induk Mahasiswa : 130803016
Program Studi : Sarjana (S1) Matematika
Departemen : Matematika
Fakultas : Matematika Dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara

Disetujui di
Medan, 2017

Komisi Pembimbing
Pembimbing 2, Pembimbing 1,

Dr. Sutarman, M.Sc Dr. Elly Rosmaini, M.Si


NIP. 19631026 199103 1 001 NIP. 19600520 198503 2 002

Disetujui Oleh
Departemen Matematika FMIPA USU
Ketua

Dr. Suyanto, M.Kom


NIP. 19590813 198601 1 002

Universitas Sumatera Utara


PERNYATAAN

METODE KLASIFIKASI BERSTRUKTUR POHON DENGAN


ALGORITMA QUEST DAN ALGORITMA CART
(Aplikasi pada Data Pasien Penyakit Jantung)

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya sendiri. Kecuali beberapa
kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, 2017

Nur Saunah Rangkuti


130803016

ii

Universitas Sumatera Utara


PENGHARGAAN

Puji Syukur penulis ucapkan kehadirat Allah Subhanahu wa Ta’ala, yang telah
melimpahkan rahmat dan karunia-Nya serta memberikan banyak kemudahan
sehingga penulis dapat menyelesaikan skripsi yang berjudul Metode Klasifikasi
Berstruktur Pohon dengan Algoritma QUEST dan Algoritma CART (Aplikasi
pada Data Pasien Penyakit Jantung). Shalawat dan salam penulis ucapkan kepada
Rasulullah Shallallahu ‘Alaihi wa Sallam, keluarga, para sahabat, dan orang-orang
yang mengikutinya.
Terima kasih penulis sampaikan kepada bapak Dr. Suyanto, M.Kom
selaku ketua Departemen Matematika dan terima kasih kepada ibu Dr. Elly
Rosmaini, M.Si selaku pembimbing 1 yang banyak berjasa kepada penulis dimana
beliau telah meluangkan waktu dan pikirannya, memberikan pengarahan, saran,
dan kritik terkait penulisan skripsi ini. Terima kasih kepada bapak Dr. Sutarman,
M.Sc selaku pembimbing 2, yang juga telah meluangkan waktu, pikiran, dan
saran untuk perbaikan skripsi ini.
Terima kasih sebesar-besarnya penulis sampaikan kepada kedua orang tua
atas do’a dan dukungannya kepada penulis baik secara moril ataupun materi,
kepada abang, kakak dan adik saya yang sudah meluangkan waktu dan pikirannya
untuk mendengarkan curahan hati penulis, memberikan nasihat, dan selalu
memotivasi penulis. Terima kasih kepada Bapak Direktur Rumah Umum Pusat
Haji Adam Malik Medan yang telah membantu penulis memberikan data yang
diperlukan dalam penulisan skripsi ini.
Terima kasih penulis sampaikan kepada bapak Dr. Pasukat Sembiring,
M.Si selaku penguji 1 dan bapak Drs. Henri Rani Sitepu, M.Si selaku penguji 2
yang telah meluangkan waktu, pikiran dan memberikan kritik maupun saran untuk
perbaikan skripsi ini dan sebagai pembelajaran bagi penulis.
Terima kasih penulis sampaikan kepada seluruh dosen Matematika USU
yang telah membagikan ilmu kepada penulis selama masa perkuliahan, Dekan dan
Wakil Dekan FMIPA USU, serta seluruh staf administrasi FMIPA USU.
Terima kasih juga penulis ucapkan kepada teman-teman yang telah
memberikan do’a dan motivasi kepada penulis dalam mengerjakan skripsi.
Semoga Tuhan memberikan balasan kebaikan atas segala bantuan yang telah
semua berikan kepada penulis.

iii

Universitas Sumatera Utara


METODE KLASIFIKASI BERSTRUKTUR POHON DENGAN
ALGORITMA QUEST DAN ALGORITMA CART
(Aplikasi pada Data Pasien Penyakit Jantung)

ABSTRAK

Metode klasifikasi yang sering digunakan adalah metode klasifikasi berstruktur


pohon, diantaranya yaitu QUEST (Quick, Unbiased, Efficient Statistical Trees)
dan CART (Classification and Regression Tree). QUEST menggunakan uji
ANOVA F dan Chi-square untuk pemisah terbaik pada setiap langkahnya.
Sedangkan CART memilih pemilah terbaik berdasarkan tingkat kehomogenan
yang maksimum. Penelitian ini bertujuan untuk mengetahui faktor-faktor yang
mempengaruhi seseorang menderita penyakit jantung. Data yang digunakan
dalam penelitian ini adalah data pasien penyakit jantung di RSUP H. Adan Malik
Medan. Variabel dependennya adalah penyakit jantung, sedangkan variabel
independennya adalah umur, jenis kelamin, tekanan darah, kolesterol, gula darah,
hasil eletrokardiografi dan kondisi jantung. Metode QUEST menghasikan 3 kelas
dimana ada 2 variabel independen yang signifikan terhadap penyakit jantung yaitu
hasil eletrokardiografi dan kondisi jantung. Sedangkan CART menghasilkan 6
kelas dimana ada 3 variabel independen yang signifikan terhadap penyakit jantung
yaitu kolesterol, jenis kelamin dan umur. Perbedaan dalam klasifikasi antara
algoritma QUEST dan algoritma CART adalah pembentukan pohon
klasifikasinya, dimana pembentukan pohon pada algoritma QUEST adalah biner.
Sedangkan pembentukan pohon pada algoritma CART adalah non biner.

Kata kunci: Klasifikasi, QUEST (Quick, Unbiased, Efficient Statistical Trees),


CART (Classification and Regression Tree).

iv

Universitas Sumatera Utara


CLASSIFICATION METHOD OF TREE STRUCTURE WITH
QUEST ALGORITHM AND CART ALGORITHM
(Application on Patient Data of Heart Desease)

ABSTRACT

A frequently used classification method is a tree classed classification method,


such as QUEST (Quick, Unbiased, Efficient Statistical Trees) and CART
(Classification and Regression Tree). QUEST using ANOVA F test dan Chi-
square test for the best separator at each step. While CART choose the best
divider based on the maximum homogeneity level. This study aims to determine
the factors that effect a persen suffering from heart desease. The data used in this
study is the data of patients with heart desease in RSUP H. Adan Malik
Medan.The dependent variable is heart desease, while the independent variables
are age, sex, blood pressure, cholesterol, blood sugar, eletrokardiografi test and
heart condition. QUEST method yielding 3 classes there are 2 independent
variables that are significant to heart desease that are eletrokardiografi test and
heart condition. While CART method yielding 6 classes there are 3 independent
variables that are significant to heart desease that are cholesterol, sex and age.
Differences in the intermediate classification between QUEST algorithm and
CART algorithm are the formation of the tree classification, in which the
formation in QUEST algorithm is binary. While the formation in CART algorithm
adalah non-binary.

Keywords: Classification, QUEST (Quick, Unbiased, Efficient Statistical Trees),


CART (Classification and Regression Tree).

Universitas Sumatera Utara


DAFTAR ISI

Halaman
PERSETUJUAN i
PERNYATAAN ii
PENGHARGAAN iii
ABSTRAK iv
ABSTRACT v
DAFTAR ISI vi
DAFTAR TABEL viii
DAFTAR GAMBAR x
DAFTAR LAMPIRAN xi

BAB 1 PENDAHULUAN
1.1 Latar Belakang 1
1.2 Rumusan Masalah 3
1.3 Batasan Masalah 4
1.4 Tujuan Penelitian 4
1.5 Manfaat Penelitian 4
1.6 Metodologi Penelitian 5
1.7 Kerangka Penelitian 6

BAB 2 TINJAUAN PUSTAKA


2.1 Skala Pengukuran 7
2.2 Metode Klasifikasi Berstruktur Pohon 8
2.3 Konsep-Konsep Dasar pada Algoritma QUEST dan
10
Algoritma CART
2.3.1 Uji Khi-kuadrat (𝑋 2 ) 10
2.3.2 Uji ANOVA F 12
2.3.3 Uji Levene F 13
2.3.4 Analisis Diskriminan Kuadratik 13
2.4 Metode QUEST 15
2.4.1 Algoritma QUEST 15
2.5 Metode CART 19
2.5.1 Algoritma CART 20

BAB 3 METODE PENELITIAN


3.1 Penelitian 21
3.1.1 Jenis Penelitian 21

vi

Universitas Sumatera Utara


3.1.2 Lokasi dan Waktu Penelitian 21
3.1.2.1 Lokasi Penelitain 21
3.1.2.2 Waktu Penelitian 21
3.1.3 Populasi dan Sampel 21
3.1.4 Jenis dan Pengambilan Sampel 22
3.1.5 Variabel Penelitian 22
3.1.6 Skala Ukuran Penelitian 23
3.1.7 Analisis Data 23
3.1.8 Langkah-Langkah Analisis Data 23

BAB 4 HASIL DAN PEMBAHASAN


4.1 Data 25
4.2 Penyelesaian dengan Algoritma QUEST 26
4.2.1 Simpul awal (𝑡0 ) 26
4.2.2 Simpul Dalam (𝑡1 ) 35
4.2.3 Simpul Dalam (𝑡2 ) 43
4.3 Penyelesaian dengan Algoritma QUEST 47
4.3.1 Cabang Pertama 48
4.3.2 Cabang Pertama pada Kondisi Jantung Cacat
51
Sementara/Cacat Tetap
4.3.3 Cabang Ketiga pada Kolestrol ≤ 176 54
4.3.4 Cabang Keempat pada Tekanan Darah ≤ 124 56
4.3.5 Cabang Keempat pada Tekanan Darah > 124 59
4.3.6 Cabang Ketiga pada Kolesterol ≤ 176 61
4.3.7 Cabang Keempat pada Kondisi Jantung yang
63
Normal
4.4 Perbandingan Algoritma QUEST dengan Algoritma CART 68

BAB 5 KESIMPULAN DAN SARAN


5.1 Kesimpulan 70
5.2 Saran 74

DAFTAR PUSTAKA 75

vii

Universitas Sumatera Utara


DAFTAR TABEL

Nomor Judul Halaman


Tabel
2.1 Kontigensi Dua Arah 11
2.2 ANOVA F 12
2.3 Struktur Data Analisis Diskriminan Kuadratik 14
4.1 Frekuensi Teramati 𝑂𝑖𝑗 28
4.2 Hasil Uji Statistika Pemilihan Peubah Penyekat Simpul 𝑡0 29
4.3 Tabulasi 𝑥6 30
4.4 Tabulasi 𝑥6 Hasil Transformasi 34
4.5 Hasil Uji Statistika Pemilihan Peubah Penyekat Simpul 𝑡1 37
4.6 Tabulasi 𝑥7 38
4.7 Tabulasi 𝑥7 Hasil Transformasi 41
4.8 Hasil Uji Statistika Pemilihan Peubah Penyekat Simpul 𝑡2 45
4.9 Tabulasi 𝑥7 untuk Simpul 𝑡2 45
4.10 Daftar Calon Mutakhir 48
4.11 Perhitungan 𝑃𝐿 dan 𝑃𝑅 49
4.12 Perhitungan 𝑃(𝑗|𝑡𝐿 ) dan 𝑃(𝑗|𝑡𝑅 ) 49
4.13 Kesesuaian untuk Calon Cabang 50
4.14 Daftar Calon Mutakhir 52
4.15 Perhitungan 𝑃𝐿 dan 𝑃𝑅 52
4.16 Kesesuaian untuk Calon Cabang 53
4.17 Daftar Calon Mutakhir 54
4.18 Perhitungan 𝑃𝐿 dan 𝑃𝑅 55
4.19 Kesesuaian untuk Calon Cabang 55
4.20 Daftar Calon Mutakhir 57
4.21 Perhitungan 𝑃𝐿 dan 𝑃𝑅 57
4.22 Kesesuaian untuk Calon Cabang 58
4.23 Daftar Calon Mutakhir 58
4.24 Perhitungan 𝑃𝐿 dan 𝑃𝑅 59
4.25 Kesesuaian untuk Calon Cabang 59
4.26 Daftar Calon Mutakhir 60
4.27 Perhitungan 𝑃𝐿 dan 𝑃𝑅 61
4.28 Kesesuaian untuk Calon Cabang 61
4.29 Daftar Calon Mutakhir 62
4.30 Perhitungan 𝑃𝐿 dan 𝑃𝑅 62
4.31 Kesesuaian untuk Calon Cabang 64
4.32 Perbandingan Hasil Klasifikasi Algoritma QUEST dan 64

viii

Universitas Sumatera Utara


Algoritma CART
5.1 Perbandingan Hasil Klasifikasi Algoritma QUEST dan 72
Algoritma CART

ix

Universitas Sumatera Utara


DAFTAR GAMBAR

Nomor Judul Halaman


Gambar
2.1 Pohon Klasifikasi 9
4.1 Pohon Keputusan Cabang Pertama 45
4.2 Pohon Keputusan Cabang Kedua pada Kondisi Jantung 47
4.3 Pohon Keputusan Cabang Ketiga 56
4.4 Pohon Keputusan Cabang Keempat 58
4.5 Pohon Keputusan Cabang Keempat pada Tekanan Darah
60
>124
4.6 Pohon Keputusan Cabang Ketiga pada Kolesterol >176 63
4.7 Pohon Keputusan Cabang Kedua pada Kondisi Jantung yang
66
Normal

Universitas Sumatera Utara


DAFTAR LAMPIRAN

Nomor Judul Halaman


Lamp.
1 Data-Data Pasien Penyakit Jantung di Rumah Sakit Umum 76
Pusat Haji Adam Malik
2 Surat Keterangan Izin Riset di Rumah Sakit Umum Pusat 81
Haji Adam Malik.
3 Surat Keterangan Selesai Riset di Rumah Sakit Umum 82
Pusat Haji Adam Malik.
4 Lampiran SPSS 83

xi

Universitas Sumatera Utara


METODE KLASIFIKASI BERSTRUKTUR POHON DENGAN
ALGORITMA QUEST DAN ALGORITMA CART
(Aplikasi pada Data Pasien Penyakit Jantung)

ABSTRAK

Metode klasifikasi yang sering digunakan adalah metode klasifikasi berstruktur


pohon, diantaranya yaitu QUEST (Quick, Unbiased, Efficient Statistical Trees)
dan CART (Classification and Regression Tree). QUEST menggunakan uji
ANOVA F dan Chi-square untuk pemisah terbaik pada setiap langkahnya.
Sedangkan CART memilih pemilah terbaik berdasarkan tingkat kehomogenan
yang maksimum. Penelitian ini bertujuan untuk mengetahui faktor-faktor yang
mempengaruhi seseorang menderita penyakit jantung. Data yang digunakan
dalam penelitian ini adalah data pasien penyakit jantung di RSUP H. Adan Malik
Medan. Variabel dependennya adalah penyakit jantung, sedangkan variabel
independennya adalah umur, jenis kelamin, tekanan darah, kolesterol, gula darah,
hasil eletrokardiografi dan kondisi jantung. Metode QUEST menghasikan 3 kelas
dimana ada 2 variabel independen yang signifikan terhadap penyakit jantung yaitu
hasil eletrokardiografi dan kondisi jantung. Sedangkan CART menghasilkan 6
kelas dimana ada 3 variabel independen yang signifikan terhadap penyakit jantung
yaitu kolesterol, jenis kelamin dan umur. Perbedaan dalam klasifikasi antara
algoritma QUEST dan algoritma CART adalah pembentukan pohon
klasifikasinya, dimana pembentukan pohon pada algoritma QUEST adalah biner.
Sedangkan pembentukan pohon pada algoritma CART adalah non biner.

Kata kunci: Klasifikasi, QUEST (Quick, Unbiased, Efficient Statistical Trees),


CART (Classification and Regression Tree).

iv

Universitas Sumatera Utara


CLASSIFICATION METHOD OF TREE STRUCTURE WITH
QUEST ALGORITHM AND CART ALGORITHM
(Application on Patient Data of Heart Desease)

ABSTRACT

A frequently used classification method is a tree classed classification method,


such as QUEST (Quick, Unbiased, Efficient Statistical Trees) and CART
(Classification and Regression Tree). QUEST using ANOVA F test dan Chi-
square test for the best separator at each step. While CART choose the best
divider based on the maximum homogeneity level. This study aims to determine
the factors that effect a persen suffering from heart desease. The data used in this
study is the data of patients with heart desease in RSUP H. Adan Malik
Medan.The dependent variable is heart desease, while the independent variables
are age, sex, blood pressure, cholesterol, blood sugar, eletrokardiografi test and
heart condition. QUEST method yielding 3 classes there are 2 independent
variables that are significant to heart desease that are eletrokardiografi test and
heart condition. While CART method yielding 6 classes there are 3 independent
variables that are significant to heart desease that are cholesterol, sex and age.
Differences in the intermediate classification between QUEST algorithm and
CART algorithm are the formation of the tree classification, in which the
formation in QUEST algorithm is binary. While the formation in CART algorithm
adalah non-binary.

Keywords: Classification, QUEST (Quick, Unbiased, Efficient Statistical Trees),


CART (Classification and Regression Tree).

Universitas Sumatera Utara


BAB 1

PENDAHULUAN

1.1 Latar Belakang


Pengklasifikasian merupakan salah satu metode statistika untuk pengelompokkan
atau mengklasifikasikan suatu data yang disusun secara sistematis. Klasifikasi
adalah mengelompokkan atau mengatur secara sistematis sekaligus memberi arti
informasi yang berguna untuk menentukan/menetapkan kesesuaian gagasan,
peristiwa, barang dan orang. Klasifikasi memiliki tujuan untuk
mengklasifikasikan suatu data ke dalam kelompok kelas yang sudah ada. Tidak
akan ada pembentukan kelompok baru. Masalah klasifikasi sering dijumpai pada
kehidupan sehari-hari, baik dibidang pendidikan, sosial, industri, kesehatan
maupun perbankan. Contoh masalah klasifikasi dalam bidang pendidikan adalah
klasifikasi sekolah berdasarkan akreditas sekolah. Dalam bidang kesehatan
dilakukan pengklasifikasian penyakit berdasarkan tingkat keseriusan dan bahaya
yang ditimbulkan.
Dalam statistika, dikenal dengan berbagai metode untuk
mengklasifikasikan objek. Klasifikasi dapat digunakan dengan menggunakan
pendekatan parametrik maupun pendekatan non parametrik. Pendekatan
parametrik biasanya sangat tergantung dari asumsi-asumsi mengenai sebaran data
sehingga bila asumsi tersebut tidak terpenuhi, maka hasil yang diperoleh menjadi
tidak valid.
Pendekatan non parametrik digunakan untuk mengatasi keterbatasan dari
pendekatan parametrik. Pendekatan ini tidak tergantung pada asumsi tertentu
sehingga memberikan kemudahan dalam menganalisa data tetapi tetap
mempunyai tingkat akurasi yang tinggi. Untuk mendapatkan klasifikasi yang
tepat, perlu diperhatikan metode klasifikasi yang tepat.
Menurut Rokach dan Maimon (2008) dan maroco et al (2011), algoritma
pohon klasifikasi merupakan pendekatan non parametrik. Metode tersebut adalah
salah satu metode klasifikasi yang tidak tergantung pada asumsi tertentu dan
mampu mengeksplorasi struktur data yang kompleks dengan variabel yang

Universitas Sumatera Utara


2

banyak. Struktur data dapat dilihat secara visual dan algoritma pohon klasifikasi
juga memberikan kemudahan dalam menginterpretasikan hasil.
Menurut Kim dan Loh (2001), algoritma pohon klasifikasi dibagi menjadi
dua kelompok, yaitu yang menghasilkan pohon biner (misalnya CART dan
QUEST) dan yang menghasilkan pohon non-biner (seperti CHAID dan CRUISE).
CART (Classification and Regression Trees) merupakan algoritma yang
diperkenalkan oleh Breiman, et. al (1984), sedangkan QUEST (Quick, Unbiased,
Efficient Statistical Trees) merupakan algoritma yang diperkenalkan oleh Loh dan
Shih(1997). CART dan QUEST merupakan contoh metode yang menghasilkan
pohon seperti ini. Kelompok kedua adalah kelompok yang menghasilkan pohon
non-biner, yaitu sebuah pohon yang setiap simpul disekat menjadi dua atau lebih
simpul yang terpisah. CHAID (Chi-squared Automatic Interaction Detector)
merupakan salah satu algoritma yang diperkenalkan oleh Kass (1980), sedangkan
CRUISE (Classification Rule Unbiased Interaction Selection and Estimasion)
merupakan algoritma yang diperkenalkan ole Kim dan Loh (2001). CHAID dan
CRUISE merupakan contoh metode klasifikasi yang menghasilkan pohon non-
biner.
Dalam pembentukan pohon klasifikasi, proses penyekatan terhadap suatu
simpul dapat bersifat biner dan non biner. Pada penyekatn biner, setiap simpul
hanya dapat disekat menjadi dua simpul baru, sedangkan pada penyekatan non
biner setiap simpul dapat menghasilkan lebih dari dua simpul baru.
Algoritma QUEST dan algoritma CART merupakan pendekatan regresi
non parametrik yang menghasilkan variabel tak bias dan memiliki dua simpul
kategori setiap penyekat. Kedua algoritma bertujuan untuk mendapatkan suatu
pengklasifikasian yang bersifat biner.
Penelitian yang menggunakan algoritma QUEST pernah dibahas oleh
Abdurrahman dkk (2014), yang membahas tentang Pembentukan Pohon
Klasifikasi Biner dengan Algoritma QUEST (Quick, Unbiased, and Efficient
Statistical Tree) pada Data Pasien Liver menunjukkan bahwa variabel yang
penting dalam mengklasifikasikan seseorang terkena penyakit liver atau tidak,
yaitu variabel 𝑥4 (DB), 𝑥5 (FA), 𝑥7 (SGOT), dan 𝑥2 (Umur) yang selanjutnya

Universitas Sumatera Utara


3

variabel (hasil tes fungsi hati) tersebut dapat disebut sebagai ciri-ciri pasien liver.
Tingkat akurasi pohon klasifikasi dalam mengklasifikasikan data sebesar 73,4%.
Sedangkan algoritma CART pernah dibahas oleh Jiwadiana dkk (2015),
yang membahas tentang Klasifikasi Karakteristik Kecelakaan Lalu Lintas di Kota
Denpasar dengan Pendekatan Classification and regression Trees (CART)
menunjukkan bahwa CART optimum yang terbentuk menghasilkan tiga simpul
terminal pertama, terdiri dari 12 orang yang dikelompokkan sebagai karakteristik
kecelakaan lalu lintas berat dengan jenis laka tunggal, yang kedua terdiri dari 68
orang yang dikelompokkan sebagai karakteristik kecelakaan lalu lintas ringan
dengan jenis laka depan-belakang, untuk simpul ketiga terdiri dari 291 orang yang
dikelompokkan sebagai karakteristik kecelakaan lalu lintas sedang dan variabel
bebas yang menjadi pemilah utama dalam pembentukan CART adalah jenis laka
dengan indeks gini 0,03252.
Jantung adalah sebuah pemompa darah yang terdiri dari dua pompa yang
terpisah yakni jantung kanan yang memompa ke paru-paru dan jantung kiri yang
memompa darah ke organ-organ perifer. Penyakit jantung merujuk pada penyakit
menyerang jantung dan sistem pembuluh darah. Ada banyak penyebab penyakit
jantung, seperti pola hidup, kelainan bawaan sejak lahir,dan pola makan yang
tidak sehat. Oleh karena itu, dalam penelitian ini metode klasifikasi berstruktur
pohon dengan algoritma QUEST dan algoritma CART akan diaplikasikan pada
data pasien penyakit jantung yang berobat di Rumah Sakit Umum Pusat Haji
Adam Malik.

1.2 Rumusan Masalah


Berdasarkan latar belakang didapati bahwa metode klasifikasi dengan algoritma
QUEST dan algoritma CART mampu mengklasifikasi data yang berskala besar
dengan variabel kategorik yang banyak dan menghasilkan pohon yang bersifat
biner. Sedangkan algoritma CHAID dan CRUISE tidak mampu untuk
mengklasifikasi data yang berstruktur pohon biner, karena kedua algoritma
tersebut hanya bisa digunakan untuk klasifikasi data berstruktur pohon non-biner

Universitas Sumatera Utara


4

dan pada data berskala besar yang mempunyai variabel kategorik yang banyak.
Sehingga rumusan masalahnya dalam penelitian ini adalah sebagai berikut:
1. Bagaimana penerapan algoritma QUEST dan algoritma CART dalam
mengklasifikasi data pasien penyakit jantung dengan menggunakan faktor-
faktor yang mempengaruhi pasien menderita penyakit jantung.
2. Bagaimana hasil perbandingan klasifikasi antara algoritma QUEST dan
algoritma CART pada data pasien penyakit jantung.

1.3 Batasan Masalah


Pada penelitian ini, dilakukan pembatasan masalah yaitu dalam mengklasifikasi
untuk menentukan faktor-faktor yang mempengaruhi pasien menderita penyakit
jantung di Rumah Sakit Umum Pusat H. Adam Malik digunakan variabel umur
pasien, jenis kelamin pasien, tekanan darah pasien, kolesterol darah pasien, gula
darah pasien saat puasa, hasil elektrokardiografi pasien, dan kondisi jantung.

1.4 Tujuan Penelitian


Tujuan penelitian yaitu memperoleh pengetahuan untuk menjawab pertanyaan dan
memecahkan masalah yang telah dipaparkan pada rumusan masalah diatas.
Adapun tujuan yang ingin dicapai pada penelitian ini adalah
1. Menerapkan algoritma QUEST dan algoritma CART dalam mengklasifikasi
data pasien penyakit jantung dengan menggunakan faktor-faktor yang
mempengaruhi pasien menderita penyakit jantung.
2. Membandingkan hasil klasifikasi antara algoritma QUEST dan algoritma
CART pada data pasien penyakit jantung.

1.5 Manfaat Penelitian


Manfaat dari penelitian ini adalah
a. Bagi Peneliti
Menambah wawasan dan memperkaya pengetahuan dalam bidang statistika
yang berhubungan dengan pengelompokan data dengan banyak variabel

Universitas Sumatera Utara


5

menggunakan metode klasifikasi berstruktur pohon, khususnya algoritma


QUEST dan algoritma CART.
b. Bagi Departemen/ Universitas
Agar dapat dijadikan sebagai bahan studi kasus bagi pembaca dan dapat
memberikan referensi, khususnya kepada mahasiswa sebagai bahan bacaan
yang dapat menambah ilmu pengetahuan.
c. Bagi Rumah Sakit
Sebagai masukan bagi pihak rumah sakit tentang cara pengolahan data
dengan menggunakan algoritma QUEST dan algoritma CART dalam
menentukan faktor-faktor apa yang mempengaruhi seorang pasien menderita
penyakit jantung.

1.6 Metodologi Penelitian


Penelitian ini berdasarkan studi literatur dan studi kasus yang bersumber dari
buku, jurnal dan skripsi. Adapun metodologi yang digunakan untuk menganalisis
masalah dalam penelitian ini adalah sebagai berikut :
1. Melakukan studi literatur yang berhubungan dengan metode klasifikasi
berstruktur pohon dengan algoritma QUEST dan CART dari internet berupa
jurnal dan dari buku.
2. Melakukan pengelompokan data dengan menggunakan 𝑥 kategorik dan 𝑥
numerik.
3. Mengolah data input dengan menggunakan algoritma QUEST serta
memperoleh output berupa diagram pohon dan hasil analisisnya.
4. Mengolah data input dengan menggunakan algoritma CART serta
memperoleh output berupa diagram pohon dan hasil analisisnya.
5. Membandingkan algoritma QUEST dengan algoritma CART.
6. Mengambil kesimpulan dari analisis kedua metode tersebut.

Universitas Sumatera Utara


6

1.7 Kerangka Penelitian


Berikut ini adalah sketsa kerangka pemikiran yang akan dilakukan berdasarkan
uraian pada metodologi penelitian:

Klasifikasi pada Data Pasien Penyakit Jantung

Algoritma QUEST Algoritma CART

X Kategorik X Numerik X Kategorik X Numerik

gunakan Uji 𝑥 2 gunakan Uji


ANOVA F Kemudian masuk ke
langkah-langkah
Algoritma CART

Kemudian masuk ke
langkah-langkah
Algoritma QUEST

Hasil dari Algoritma QUEST Hasil dari Algoritma CART

Bandingkan Hasil kedua algoritma

Analisis dan Kesimpulan

Universitas Sumatera Utara


BAB 2

TINJAUAN PUSTAKA

Pada bab ini akan diuraikan konsep-konsep dasar yang berhubungan dengan
algoritma QUEST dan algoritma CART yaitu: skala pengukuran data, metode
klasifikasi berstruktur pohon, konsep-konsep dasar pada algoritma QUEST dan
algoritma CART, uji Chi-kuadrat, uji ANOVA F, uji Levene F, analisis
diskriminan kuadratik, algoritma QUEST dan algoritma CART.

2.1 Skala Pengukuran Data


Skala pengukuran adalah penempatan angka atau lambang untuk menyatakan
suatu hasil pengamatan/pengukuran terhadap objek. Secara umum terdapat 4 skala
pengukuran dalam penelitian, yaitu:
1. Skala Nominal
Skala nominal adalah skala pengukuran data yang digunakan untuk
mengklasifikasi objek-objek dalam kategori (kelompok) yang terpisah untuk
menunjukkan kesamaan atau perbedaan ciri-ciri tertentu dari objek yang
diamati. Kategori (kelompok) yang ada sudah didefinisikan sebelumnya dan
dilambangkan dengan kata-kata, huruf symbol atau angka. Contoh skala
nominal adalah agama, jenis kelamin, suku bangsa, golongan darah,
pekerjaan, area geografis dan sebagainya.
2. Skala Ordinal
Skala ordinal memiliki semua karakteristik skala nominal, kecuali bahwa pada
skala ini terdapat urutan atau peringkat antarkategori. Angka yang digunakan
untuk melambangkan kategori tidak memiliki nilai absolute, hanya
menunjukkan posisi sebuah kategori relative terhadap kategori lainnya.
Contoh skala ordinal adalah tingkat pendidikan, peringkat ranking,
perhitungan suara dalam pemilu dan status sosial.

Universitas Sumatera Utara


8

3. Skala Interval
Skala interval memiliki semua karakteristik skala ordinal. Perbedaanya
dengan skala ordinal adalah bahwa skala ini mempunyai satuan skala. Antar
angka kategori memilikim jarak yang sama. Skala ini tidak mempunyai titik
nol yang sesungguhnya, yang artinya titik nol merupakan sesuatu yang
bermakna ada dengan nilai nol. Contoh skala interval adalah suhu (C).
4. Skala Rasio
Skala rasio sama dengan skala interval, tetapi skala rasio mempunyai titik nol
yang sesunguhnya, yang artinya titik nol merupakan nilai yang bermakna
tidak ada. Contoh skala rasio adalah berat badan, panjang, usia, lama waktu
dan sebagainya.
Data dengan skala nominal dan ordinal seringkali disebut sebagai data
kategorik sedangkan data dengan skala interval dan rasio biasa disebut data
numerik.

2.2 Metode Klasifikasi Berstruktur Pohon


Dalam statistika, terdapat berbagai metode yang dapat digunakan dalam menarik
kesimpulan mengenai hubungan antara suatu peubah respon dengan beberapa
peubah bebas. Jika peubah respon berupa data kuantitatif maka analisa mengenai
hubungan peubah bebas dan respon biasanya dilakukan melalui analisis regresi
biasa. Namun, bila peubah respon merupakan data kualitatif maka analisa
mengenai hubungan peubah bebas dan respon salah satunya dapat dilakukan
melalui teknik klasifikasi.
Metode klasifikasi berstruktur pohon merupakan metode statistika yang
digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelas-
kelas peubah respon kategorik, yang keanggotaannya diduga berdasarkan
pengukuran terhadap satu peubah bebas atau lebih. Metode ini menghasilkan
sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan
data secara rekursif (berulang) terhadap suatu himpunan data, di mana
pengelompokan dan nilai-nilai peubah bebas setiap amatan pada contoh sudah

Universitas Sumatera Utara


9

diketahui. Setiap himpunan data dinyatakan sebagai simpul dalam pohon yang
terbentuk.
Pohon klasifikasi dapat disajikan dalam gambar berikut:

Gambar 2.1 Pohon Klasifikasi

Dalam pohon klasifikasi seperti pada Gambar 2.1, himpunan data dari awal
disebut simpul induk, dinotasikan sebagai 𝑡0 . Pada simpul 𝑡0 , dilakukan
penyekatan sehingga terbentuk simpul 𝑡1 dan 𝑡2 . Penyekatan dilakukan secara
berulang sampai diperoleh sebuah simpul yang tidak dapat disekat lagi, yang
disebut dengan simpul akhir. Simpul yang tidak termasuk pada simpul induk dan
simpul akhir disebut simpul dalam. Dapat dilihat bahwa 𝑡2 , 𝑡4 adalah simpul
dalam sedangkan 𝑡1 , 𝑡3 , 𝑡5 dan 𝑡6 adalah simpul akhir. Pada simpul akhir ini
dilakukan pendugaan respon.
Penyekatan terhadap sebuah simpul dilakukan berdasarkan nilai suatu
peubah bebas (titik penyekat). Peubah bebas yang digunakan untuk menyekat
sebuah simpul dinamakan sebagai peubah penyekat. Peubah penyekat dapat
berupa peubah kategorik maupun peubah kontinu. Pada Gambar 2.1 terlihat
bahwa simpul 𝑡0 disekat berdasarkan peubah 𝑥1 menjadi simpul 𝑡1 bila 𝑥1 < 1 dan

Universitas Sumatera Utara


10

simpul 𝑡2 bila 𝑥1 > 1. Simpul 𝑡2 disekat lagi berdasarkan peubah 𝑥2 menjadi


simpul 𝑡3 bila 𝑥2 ∈ {1} dan simpul 𝑡4 bila 𝑥2 ∈ {2,3}. Simpul 𝑡4 disekat lagi
berdasarkan peubah 𝑥3 menjadi simpul 𝑡5 bila 𝑥3 < 2 dan simpul 𝑡6 bila 𝑥3 > 2.
Dalam menyekat suatu simpul, setiap peubah bebas memiliki kesempatan untuk
terpilih sebagai peubah penyekat, meskipun peubah tersebut telah terpilih
sebelumnya sebagai peubah penyekat simpul lain.
Proses penyekatan terhadap simpul dilakukan secara berulang sampai
ditemukan salah satu dari tiga hal berikut:
1. Respon di semua simpul sudah homogen nilainya.
2. Tidak ada lagi peubah bebas yang bisa digunakan.
3. Jumlah objek di dalam simpul sudah terlalu sedikit untuk menghasilkan
pemisahan yang memuaskan.
Proses penyekatan terhadap suatu simpul dapat bersifat biner atau non
biner. Penyekatan biner, setiap simpul hanya boleh disekat menjadi dua simpul
baru, sedangkan penyekatan non biner setiap simpul dapat menghasilkan lebih
dari dua simpul baru. Gambar 2.1 merupakan pohon klasifikasi dengan
penyekatan biner.

2.3 Konsep-Konsep Dasar pada Algoritma QUEST dan Algoritma CART


Konsep-konsep statistika yang menjadi dasar pada algoritma QUEST dan
algoritma CART yaitu uji khi-kuadrat, uji ANOVA F, uji Levene, dan analisis
diskriminan kuadtratik.

2.3.1 Uji Khi-kuadrat (𝑿𝟐 )


Uji khi-kuadrat (𝑋 2 ) pada dasarnya menyangkut pembuatan tabulasi silang yang
digunakan untuk mengetahui hubungan antara dua variabel kategorik. Hubungan
yang didapatkan tersebut digunakan untuk mengontrol susunan dari pohon
klasifikasi.
Pengklasifikasian silang dari data dengan peubah kategorik biasanya
disajikan dalam table kontingensi dua arah atau lebih. Bila terdapat dua peubah

Universitas Sumatera Utara


11

kategorik, data disajikan dalam tabel kontingensi dua arah seperti pada table
berikut.
Tabel 2.1 Kontingensi Dua Arah
Kategori
Kategori peubah kedua
peubah
pertama 1 2 ⋯ C Jumlah
1 𝑛11 𝑛12 ⋯ 𝑛1𝑐 𝑛1
2 𝑛21 𝑛22 ⋯ 𝑛2𝑐 𝑛2
⋮ ⋮ ⋮ ⋮ ⋮
R 𝑛𝑟1 𝑛𝑟2 ⋯ 𝑛𝑟𝑐 𝑛𝑟
Jumlah 𝑛1 𝑛2 ⋯ 𝑛.𝑐 n

Tabel disusun dari r baris dan c kolom masing- masing adalah banyaknya
kategori dari peubah kategorik pertama dan kedua. Isi sel pada baris-i (𝑖 =
1, 2, 3, . . . , 𝑟) dan kolom ke-j (𝑗 = 1, 2, 3, . . . , 𝑐) adalah banyaknya pengamatan
yang berasal dari kategori-i peubah pertama dan kategori-j peubah kedua, biasa
dinotasikan dengan 𝑛𝑖𝑗 . Isi sel ini disebut juga frekuensisel teramati yang biasa
ditulis dengan notasi 𝑂𝑖𝑗 , sehingga 𝑂𝑖𝑗 = 𝑛𝑖𝑗 .
Hipotesis awal (𝐻0 ) yang digunakan dalam uji ini adalah bahwa kedua
peubah saling bebas. Hipotesis alternatif (𝐻1 ) pada uji ini adalah bahwa kedua
peubah tidak saling bebas. Uji khi-kuadrat ini dilakukan dengan membandingkan
frekuensi teramati dengan frekuensi yang diharapkan jika 𝐻0 benar.
Hipotesis pada pengujian khi-kuadrat adalah:
𝐻0 : Kedua variabel saling bebas
𝐻1 : Kedua variabel tidak saling bebas
Sedangkan statistik ujinya adalah:

(𝑂𝑖𝑗 −𝐸𝑖𝑗 )2 𝑛𝑖 𝑛𝑗
𝑋 2 = ∑𝑟𝑖=1 ∑𝑐𝑗=1 dengan 𝐸𝑖𝑗 = (2.1)
𝐸𝑖𝑗 𝑛

dengan 𝐸𝑖𝑗 menyatakan nilai harapan pengamatan pada baris ke-𝑖 dan kolom ke-𝑗,
𝑛𝑖 menyatakan total banyaknya pengamatan pada baris ke-𝑖, 𝑛𝑗 menyatakan total

Universitas Sumatera Utara


12

banyaknya pengamatan pada baris ke-𝑗, dan 𝑛 menyatakan total banyaknya


responden.
Keputusan yang diambil dari uji khi-kuadrat ini adalah 𝐻0 ditolak jika nilai
2 2
𝑋𝐻𝑖𝑡𝑢𝑛𝑔 > 𝑋𝑇𝑎𝑏𝑒𝑙 atau 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.

2.3.2 Uji ANOVA F


Uji ANOVA F biasa digunakan untuk membandingkan nilai tengah dari dua atau
lebih kelompok contoh yang saling bebas. Ukuran contoh antara masing-masing
kelompok contoh tidak harus sama, tetapi perbedaan yang besar dalam ukuran
contoh dapat mempengaruhi hasil uji perbandingan nilai tengah.
Bila 𝜇𝑘 adalah rata-rata dari kelompok ke-k (k = 1, 2, …, K), maka
hipotesis yang digunakan adalah:
𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 (tidak ada perbedaan rata-rata antarkelompok)
𝐻1 : Minimal ada satu 𝜇𝑘 yang berbeda
Uji yang digunakan adalah uji F yang diperoleh dengan membentuk tabel
ANOVA F seperti tabel di bawah ini:

Tabel 2.2 Uji ANOVA F


Sumber Kuadrat
Jumlah Derajat Bebas F Hitung
Keragaman Tengah
Nilai tengah 𝐽𝐾𝐾
JKK K-1 𝑠12 =
kolom 𝐾−1 𝑠12
𝐹= 2
𝐽𝐾𝐺 𝑠2
Galat JKG N-K 𝑠22 =
𝑁−𝐾
Total JKT N-1

dengan:
2
𝑇𝑘. 𝑇..2
𝐽𝐾𝐾 = (∑𝐾
𝑘=1 − ) (2.2)
𝑛𝑘 𝑁

2 𝑛 𝑇..2 𝑇2 𝑇..2
𝐽𝐾𝐺 = (∑𝐾 𝑘
𝑘=1 ∑𝑖=1 𝑥𝑘𝑖 − 𝑁
) − (∑𝐾 𝑘.
𝑘=1 𝑛 − 𝑁
) (2.3)
𝑘

𝑖 = 1, 2, . . . , 𝑛𝑘 , 𝑘 = 1, 2, … , 𝐾.
𝑁 : jumlah seluruh data

Universitas Sumatera Utara


13

𝐾 : jumlah kelompok
𝑛𝑘 : ukuran contoh kelompok ke-𝑘
𝑇𝑘. : jumlah pengamatan kelompok ke-k
𝑇.. : jumlah pengamatan data
𝑥𝑘𝑖 : pengamatan ke-i dari kelompok ke-k
dalam pengambilan keputusan, 𝐻0 ditolak pada taraf nyata 𝛼 jika nilai statistik uji
F hasil perhitungan lebih besar daripada nilai 𝐹𝛼,𝐾−1,𝑁−𝐾 .

2.3.3 Uji Levene F


Uji Levene F digunakan untuk menguji kesamaan ragam variabel dari beberapa
kelompok. Bila 𝜎𝑘 adalah simpangan baku populasi dari kelompok ke-k, maka
hipotesis yang digunakan adalah:
𝐻0 ∶ 𝜎12 = 𝜎22 = ⋯ = 𝜎𝑘2 , (data homogen)
𝐻1 : Minimal ada satu 𝜎𝑘2 yang heterogen

2.3.4 Analisis Diskriminan Kuadratik


Analisis diskriminan bertujuan untuk membentuk fungsi diskriminan yang mampu
membedakan kelompok. Analisis ini dilakukan berdasarkan suatu perhitungan
statistik terhadap objek-objek yang telah diketahui denagn jelas dan mantap
pengelompokannya.
Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompok-
kelompok memiliki matriks ragam peragam yang sama disebut fungsi diskriminan
linear, sedangkan fungsi yang dibangun tanpa asumsi tersebut disebut fungsi
diskriminan kuadratik.
Misalkan 𝑥 = (𝑥1 , 𝑥2 , … , 𝑥𝑝 ), maka dapat disajikan struktur data seperti
tabel berikut ini:

Universitas Sumatera Utara


14

Tabel 2.3 Struktur Data Analisis Diskriminan Kuadratik


Kelompok
Peubah
1 2 ... K
𝑋1 𝑋̅11 𝑋̅12 ... 𝑋̅1𝐾
𝑋2 𝑋̅21 𝑋̅22 ... 𝑋̅2𝐾
⋮ ⋮ ⋮ ⋮
𝑋𝑝 𝑋̅𝑝1 𝑋̅𝑝2 ... 𝑋̅𝑝𝐾

Bila 𝑓𝑘 (𝑥) adalah fungsi kepekatan peluang bersama dari contoh acak
yang berasal dari kelompok ke-k (𝑘 = 1, 2, … , 𝐾). Jika contoh acak pada
kelompok tersebut menyebar menurut sebaran normal multivariat, maka
1 1
𝑓𝑘 (𝑥) = 𝑝 1 𝑒 [− 2 (𝑥 − 𝜇𝑘 )𝑡 ∑−1
𝑘 (𝑥 − 𝜇𝑘 )] (2.5)
(2𝜋)2 |∑ 𝑘|2

dengan:
𝜇𝑘 adalah vektor nilai tengah dari kelompok ke-k
∑ 𝑘 adalah matriks ragam peragam kelompok ke-k
𝑝 adalah banyaknya peubah.
Skor diskriminan kuadratik untuk sebuah pengamatan dengan nilai 𝑥 =
𝑥1 , 𝑥2 , … , 𝑥𝑝 terhadap kelompok ke-k dan 𝑝𝑘 menyatakan peluang awal dari
kelompok ke-k:

1 1
𝑑𝑘𝑄 (𝑥) = 2 𝑙𝑛|∑ 𝑘| − 2 (𝑥 − 𝜇𝑘 )𝑡 ∑−1
𝑘 (𝑥 − 𝜇𝑘 ) + 𝑙𝑛 𝑝𝑘 (2.6)

dengan:
𝑝𝑘 adalah peluang awal dari kelompok ke-k (𝑘 = 1, 2, … , 𝐾).

Bila individu yang berasal dari kelompok k dinyatakan sebagai kelompok 𝑎, maka
peluangnya dinotasikan menjadi 𝑝(𝑎|𝑘).
Kelompokkan 𝑥 ke-k jika

Skor kuadratik 𝑑𝑘𝑄 (𝑥) = max {𝑑1𝑄 (𝑥), 𝑑2𝑄 (𝑥), … , 𝑑𝐾𝑄 (𝑥)} (2.7)

Universitas Sumatera Utara


15

Apabila 𝜇𝑘 dan ∑ 𝑘 tidak diketahui, maka harus dicari taksiran dari 𝜇𝑘 dan ∑ 𝑘
dengan memanfaatkan data sampel yang telah dikelompokkan dengan benar.
Taksiran dari skor diskriminan kuadratik menjadi:

1 1
𝑑̂𝑘𝑄 (𝑥) = − 2 𝑙𝑛|𝑆𝑘 | − 2 (𝑥 − 𝑥̅ 𝑘 )𝑡 𝑆𝑘−1 (𝑥 − 𝑥̅𝑘 ) + 𝑙𝑛 𝑝𝑘 (2.8)

Kelompokkan 𝑥 ke-k jika

Skor kuadratik 𝑑̂𝑘𝑄 (𝑥) = max {𝑑̂1 (𝑥), 𝑑̂2 (𝑥), … , 𝑑̂𝐾 (𝑥)}
𝑄 𝑄 𝑄
(2.9)

2.4 Metode QUEST


QUEST (Quick, Unbiased, Efficient Statistical Trees) merupakan salah satu
metode yang digunakan untuk membentuk pohon klasifikasi. QUEST merupakan
algoritma pemisah yang menghasilkan pohon biner yang digunakan untuk
klasifikasi. Algoritma pembentukan pohon klasifikasi ini merupakan modifikasi
dari analisis diskriminan kuadratik.
Pada algoritma ini, proses penyekatan dapat dilakukan pada peubah
tunggal (univariate). Pemilihan peubah penyekatan pada QUEST menerapkan uji
kebebasan chi-kuadrat untuk peubah kategorik dan uji F untuk peubah numerik.
Suatu peubah dipilih sebagai peubah penyekat jika menghasilkan kelompok
dengan tingkat kehomogenan peubah respon yang paling besar. Penentuan titik
penyekat pada pohon klasifikasi ini dilakukan dengan menerapkan analisis
diskriminan kuadratik. Pemilihan peubah dan penentuan titik penyekat dilakukan
secara terpisah. Komponen dasar QUEST adalah beberapa peubah bebas yang
merupakan peubah kategorik atau numerik dan peubah respon yang merupakan
peubah kategorik.

2.4.1 Algoritma QUEST


Pembentukan pohon pada algoritma QUEST dipisah menjadi tiga bagian, yaitu
algoritma pemilihan peubah penyekat, algoritma penentuan titik penyekat dan
algoritma transformasi peubah kategorik menjadi peubah numerik. Dalam
menentukan peubah penyekat pada suatu simpul setiap peubah memiliki

Universitas Sumatera Utara


16

kesempatan untuk terpilih sebagai peubah penyekat, meskipun peubah tersebut


telah dipilih sebagai peubah penyekat untuk simpul sebelumnya.

1. Algoritma Pemilihan Peubah Penyekat


Dalam Menentukan peubah penyekat pada suatu simpul setiap peubah memiliki
kesempatan untuk terpilih sebagai peubah penyekat, meskipun peubah tersebut
telah terpilih sebagai peubah penyekat untuk simpul sebelumnya. Langkah-
langkah pemilihan peubah penyekatan:
1. Untuk setiap peubah X
 Jika X merupakan peubah kategorik, lakukan uji 𝑋 2 untuk kebebasan
antara peubah X dan peubah respon Y dan hitung nilai p dari pengujian
tersebut.
 Jika X merupakan peubah numerik, lakukan uji ANOVA F dan hitung
nilai p dari pengujian tersebut.
2. Pilih peubah dengan nilai p terkecil.
3. Bandingkan nilai p terkecil dengan taraf 𝛼/𝑀1 , dengan pilih taraf nyata 𝛼 =
0,05 dan 𝑀1 adalah banyaknya peubah bebas.
 Jika nilai p kurang dari 𝛼/𝑀1 , maka pilih peubah yang bersesuaian sebagai
peubah penyekat. Teruskan ke langkah (5).
 Jika nilai p lebih dari 𝛼/𝑀1 , teruskan ke langkah (4).
4. Untuk setiap peubah X yang numerik, maka hitung nilai p dari uji Leneve
untuk menguji kehomogenan ragam.
 Pilih peubah dengan nilai p terkecil.
 Bandingkan nilai p terkecil dari uji Leneve dengan taraf 𝛼/(𝑀1 + 𝑀2 ),
dengan 𝑀2 adalah banyaknya peubah bebas numerik.
 Jika nilai p kurang dari 𝛼/(𝑀1 + 𝑀2 ), maka pilih peubah yang bersesuaian
sebagai peubah penyekat. Teruskan ke langkah (5).
 Jika nilai p lebih dari 𝛼/(𝑀1 + 𝑀2 ), maka peubah tersebut tidak dipilih
menjadi peubah penyekat.
5. Misalkan 𝑋 ∗ adalah peubah penyekat yang diperoleh dari langkah (3) dan (4).
 Jika 𝑋 ∗ merupakan peubah numerik, maka teruskan ke langkah (6).

Universitas Sumatera Utara


17

 Jika 𝑋 ∗ merupakan peubah kategorik, 𝑋 ∗ ditransformasikan ke dalam


peubah dummy, lalu proyeksikan ke dalam koordinat diskiriminan
terbesarnya.
6. Lakukan analisis diskriminan kuadratik untuk menentukan titik penyekat.

2. Algoritma Penentuan Titik Penyekat


Misalkan peubah respon memiliki dua kategori. Misalkan pula bahwa 𝑋 ∗
merupakan peubah yang terpilih untuk menyekat simpul t. Langkah-langkah
penentuan titik penyekat:
1. Definisikan 𝑥̅0 dan 𝑠 2 0 adalah nilai tengah dan ragam 𝑋 ∗ dari pengamatan
dengan respon 0, sedangkan 𝑥̅1 dan 𝑠 21 adalah nilai tengah dan ragam 𝑋 ∗ dari
pengamatan respon 1. Misalkan 𝑃 = (𝑘|𝑡) = 𝑁𝑘,𝑡 /𝑁𝑘 merupakan peluang
dari masing-masing kategori peubah respon, dengan 𝑁𝑘,𝑡 adalah jumlah data
pada simpul t untuk respon k dan 𝑁𝑘 adalah jumlah data pada simpul awal
untuk respon k.
2. Tentukan solusi dari persamaan
𝑥−𝑥̅ 0 𝑥−𝑥̅ 1
𝑃(0|𝑡)𝑠0 −1 𝜑 ( ) = 𝑃(1|𝑡)𝑠1 −1 𝜑 ( ) (2.10)
𝑠0 𝑠1

solusi tersebut dapat ditentukan dengan menentukan akar persamaan kuadrat


𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0, dengan:

𝑎 = 𝑠 2 0 + 𝑠 21 (2.11)

𝑏 = 2(𝑥̅0 𝑠 21 − 𝑥̅0 𝑠 21 ) (2.12)

𝑃(0|𝑡 )𝑠2
𝑐 = (𝑥̅0 𝑠 2 0 )2 − (𝑥̅0 𝑠 21 )2 + 2𝑠 2 0 𝑠 21 𝑙𝑛 {𝑃(1|𝑡)𝑠2 1 } (2.13)
0

3. Simpul disekat pada titik 𝑋 ∗ = 𝑑, di mana d didefinisikan sebagai berikut:


 Jika 𝑥̅0 ≥ 𝑥̅1 , maka 𝑑 = 𝑥̅0
 Jika 𝑎 = 0, maka

Universitas Sumatera Utara


18

𝑥̅ 0 −𝑥̅1 𝑃(0|𝑡 )
− (𝑥̅0 − 𝑥̅1 )−1 𝑠 2 0 ln {𝑃(1|𝑡)} , 𝑥̅0 ≠ 𝑥̅1
𝑑={ 2 (2.14)
𝑥̅0 , 𝑥̅0 = 𝑥̅1

 Jika a≠ 0, maka
1
 Jika 𝑏 2 − 4𝑎𝑐 < 0, maka 𝑑 = 2 (𝑥̅0 + _𝑥̅1 )
−𝑏±√𝑏 2 −4𝑎𝑐
 Jika 𝑏 2 − 4𝑎𝑐 ≥ 0, maka d adalah akar dari yang lebih
2𝑎

mendekati nilai 𝑥̅0 , dengan syarat menghasilkan dua simpul tak-


kosong.

3. Algorima Transformasi Peubah Kategorik Menjadi Peubah Numerik


Misalkan 𝑋 adalah peubah kategorik, dengan kategori 𝑏1 , 𝑏2 , … , 𝑏𝐿 . Transformasi
𝑋 menjadi peubah numerik 𝜉 untuk tiap kelas 𝑋 dilakukan dengan langkah-
langkah sebagai berikut:
1. Transformasikan masing-masing nilai x ke vektor dummy L dimensi
1 𝑥 = 𝑏1
𝒗 = (𝑣1 , 𝑣2 , … , 𝑣𝐿 )′ , dengan 𝑣𝑙 = { , 𝑙 = 1,2, … , 𝐿
0 𝑥 ≠ 𝑏2
2. Cari nilai tengah untuk X
∑𝑳𝒍=𝟏 𝒇𝒍 𝒗𝒍
̅=
𝒗 (2.15)
𝑵𝒕

∑𝑳𝒍=𝟏 𝒏𝒍 𝒗𝒍
̅(𝒌) =
𝒗 (2.16)
𝑵𝒕,𝒌

dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑓𝑙 : jumlah pengamatan pada simpul t untuk 𝑣1
𝑛𝑙 : jumlah pengamatan pada simpul t kelompok ke-k untuk 𝑣1
𝑁𝑡 : jumlah pengamatan pada simpul t
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k

Universitas Sumatera Utara


19

3. Tentukan matriks 𝐿x𝐿 berikut:


∑𝑳𝒍=𝟏 𝒇𝒍 𝒗𝒍
̅=
𝒗 𝑵𝒕

(𝒌)
∑𝑳𝒍=𝟏 𝒏𝒍 𝒗𝒍
̅
𝒗 =
𝑵𝒕,𝒌

𝑩 = ∑𝑲 ̅(𝒌) − 𝒗
𝑲=𝟏 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )′ (2.17)

𝑻 = ∑𝑳𝒍=𝟏 𝒇𝟏 (𝒗𝒍 − 𝒗 ̅ )′
̅)(𝒗𝒍 − 𝒗 (2.18)

4. Lakukan SDV dari T=QDQ’,


dengan :
Q adalah matriks orthogonal yang kolomnya merupakan vektor eigen dari
𝑻′𝑻
D = diag(𝑑1 , … , 𝑑𝐿 ) dengan 𝑑1 ≥ 𝑑2 ≥ ⋯ ≥ 𝑑𝐿 ≥ 0.
1⁄
1 2
5. Tentukan 𝑫 −
2 = 𝑑𝑖𝑎𝑔(𝑑1∗ , … , 𝑑𝐿∗ ), dengan 𝑑𝑖∗ = { 𝑑𝑖 𝑗𝑖𝑘𝑎 𝑑𝑖 > 0
0 𝑙𝑎𝑖𝑛𝑛𝑦𝑎.
1 1
6. Lakukan SVD dari 𝑫−2 𝑸′ 𝑩𝑫𝑸−2 , tentukan vektor eigen 𝒂 yang merupakan
vektor eigen yang berpadanan dengan nilai eigen terbesar.
7. Tentukan koordinat diskriminan terbesar dari 𝒗, yaitu:
𝟏
𝜉 = 𝒂′𝑫−𝟐 𝑸′𝒗 (2.19)

2.5 Metode CART


CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk
topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu.
CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik,
dan menghasilkan pohon regresi jika variabel responnya kontinu.
Tujuan utama CART adalah untuk mendapatkan suatu kelompok data
yang akurat sebagai penciri dari suatu pengklasifikasian. Metode ini merupakan
metode yang bisa diterapkan untuk himpinan data yang mempunyai jumlah yang

Universitas Sumatera Utara


20

besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui
prosedur pemilihan biner.

2.5.1 Algoritma CART


Menurut Susanto dan Suryadi (2010), pada klasifikasi algoritma CART
(Classification and Regresion Trees), sebuah record akan diklasifikasikan ke
dalam salah satu dari sekian klasifikasi yang tersedia pada variabel tujuan
berdasarkan nilai-nilai variabel prediktornya.
Langkah-langkah Algoritma CART:
1. Susunlah calon cabang (candidate split) yang dilakukan terhadap seluruh
variabel prediktor. Daftar yang berisi calon cabang disebut calon cabang
mutakhir.
2. Berikan penilaian keseluruhan calon cabang mutakhir dengan menghitung
besaran Φ(𝑠|𝑡).
3. Tentukan cabang yang memiliki kesesuaian Φ(𝑠|𝑡). Setelah noktah
keputusan tidak ada lagi, algoritma CART dihentikan.
Kesesuaian (goodness) Φ(𝑠|𝑡) dari calon cabang 𝑠 pada noktah keputusan
𝑡, didefinisikan sebagai persamaan-persaman berikut:
Φ(𝑠|𝑡) = 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡) (2.20)
𝑄(𝑠|𝑡) = ∑𝐽𝐾
𝑗=1|𝑃(𝑗|𝑡𝐿 ) − 𝑃(𝑗|𝑡𝑅 )| (2.21)
dengan:
JK : jumlah kategori
𝑡𝐿 : cabang kiri dari noktah keputusan 𝑡
𝑡𝑅 : cabang kanan dari noktah keputusan 𝑡
calon cabang kiri tL
𝑃𝐿 = (2.22)
data latihan
j calon cabang kiri tL
𝑃(𝑗|𝑡𝐿 ) = (2.23)
noktah keputusan t
calon cabang kanan tR
𝑃𝑅 = (2.24)
data latihan
j calon cabang kanan tR
𝑃(𝑗|𝑡𝑅 ) = (2.25)
noktah keputusan t

Universitas Sumatera Utara


BAB 3

METODE PENELITIAN

3.1 Penelitian
3.1.1 Jenis Penelitian
Jenis penelitian ini adalah penelitian yang dilakukan dengan pengambilan data
langsung di Rumah Sakit Umum Pusat H. Adam Malik pada bagian penyakit
jantung.

3.1.2 Lokasi dan Waktu Penelitian


3.1.2.1 Lokasi Penelitian
Lokasi penelitian bertempat: di Rumah Sakit Umum Pusat H. Adam Malik Medan.

3.1.2.2 Waktu Penelitian


Penelitian ini dilakukan pada bulan 9 Maret 2017–15 Juni 2017.

3.1.3 Populasi dan Sampel


Populasi dalam penelitian ini bersifat homogen yaitu populasi yang unsurnya
memiliki sifat atau keadaan yang sama, sehingga dalam pengambilan sampel tidak
perlu mempersoalkan jumlahnya dengan jenis populasi tak terbatas yaitu populasi
yang tidak diketahui dengan pasti jumlahnya, misalnya jumlah penduduk di suatu
negara dikatakan tidak pasti jumlahnya karena setiap waktu terus berubah
jumlahnya. Oleh karena itu, yang menjadi populasi dalam penelitian ini adalah
seluruh pasien penderita penyakit jantung yang berobat di Rumah Sakit Umum
Pusat H. Adam Malik yang menjadi objek dalam penelitian ini.
Sampel merupakan bagian dari populasi yang dijadikan sebagai objek
penelitian. Dalam penelitian yang menerapkan metode Multidimensional Scaling
ini, pengambilan sampel dilakukan dengan teknik nonprobability sampling yaitu
purposive sampling. Nonprobability sampling adalah teknik pengambilan sampel
yang tidak member peluang/kesempatan sama bagi setiap unsur atau anggota
popilasi untuk dipilih menjadi sampel. Sedangkan Pusposive sampling adalah

Universitas Sumatera Utara


22

teknik penentuan sampel dengan pertimbangan tertentu. Sampel yang dipilih dalam
penelitian ini adalah pasien Rumah Sakit Umum Pusat H. Adam Malik yang pernah
berkunjung ke bagian penyakit jantung yang menjadi objek dalam penelitian ini.

3.1.4 Jenis dan Pengambilan Data


Jenis data yang digunakan dalam penelitian ini adalah jenis data sekunder (menurut
cara memperolehnya). Data sekunder adalah sumber data penelitian yang diperoleh
melalui media perantara atau secara tidak langsung yang berupa buku, catatan, bukti
yang telah ada, atau arsip baik yang dipublikasikan secara umum. Dengan kata lain
peneliti membutuhkan pengumpulan data dengan cara berkunjung ke perpustakaan,
pusat kajian, pusat arsip atau membaca banyak buku yang berhubungan dengan
penelitian.

3.1.5 Variabel Penelitian


Variabel adalah sesuatu yang dapat membedakan atau mengubah variasi pada nilai.
Variabel penelitian adalah segala sesuatu yang berbentuk apa saja yang ditetapkan
oleh peneliti untuk dipelajari sehingga diperoleh informasi tentang hal tersebut,
kemudian ditarik kesimpulannya.
Dalam penelitian ini, variabel yang digunakan adalah variabel
interdependensi. Variabel interdependensi yaitu variabel-variabel yang tidak saling
bergantung satu dengan yang lain. Dalam penelitian ini terdapat peubah tak bebas
dan peubah bebas, dimana peubah tak bebas adalah Y yang merupakan peubah
kategorik dengan dua kategori, yaitu 1 bila seorang pasien menderita penyakit
jantung dan 0 bila seorang pasien tidak menderita penyakit jantung. Sedangkan
untuk peubah bebas ada 7 antara lain:
 Umur pasien (𝑥1 )
 Jenis kelamin pasien (𝑥2 )
 Tekanan darah pasien (𝑥3 )
 Kolesterol darah pasien (𝑥4 )
 Gula darah puasa pasien (𝑥5 )
 Hasil elektrokardiografi pasien (𝑥6 )
 Kondisi jantung pasien (𝑥7 )

Universitas Sumatera Utara


23

Metode klasifikasi berstruktur pohon merupakan metode statistika yang


digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelas-kelas
peubah respon kategorik, yang keanggotaannya diduga berdasarkan pengukuran
terhadap satu peubah bebas atau lebih. Metode ini menghasilkan sebuah pohon
klasifikasi (classification tree) yang dibentuk melalui penyekatan data secara
rekursif (berulang) terhadap suatu himpunan data, di mana pengelompokan dan
nilai-nilai peubah bebas setiap amatan pada contoh sudah diketahui. Setiap
himpunan data dinyatakan sebagai simpul dalam pohon yang terbentuk.

3.1.6 Skala Ukuran Penelitian


Skala pengukuran adalah penempatan angka atau lambang untuk menyatakan suatu
hasil pengamatan/pengukuran terhadap suatu objek. Adapun skala ukuran pada
variabel yang akan diteliti yaitu skala ordinal, skala nominal atau seringkali disebut
data kategorik dan skala interval, skala rasio biasa disebut data numerik. Pada
penelitian, skala ordinal dan skala nominal (data kategorik) terdapat 4 variabel yaitu
jenis kelamin pasien, gula darah puasa pasien, hasil elektrokardiografi pasien dan
kondisi jantung pasien. Sedangkan pada skala interval dan skala rasio (data
numerik) terdapat 3 variabel yaitu umur pasien, tekanan darah pasien dan kolesterol
darah pasien.

3.1.7 Analisis Data


Metode analisis data yang digunakan dalam mengklasifikasi pasien penderita
penyakit jantung di Rumah Sakit Umum Pusat H. Adam Malik adalah teknik
analisis dengan algoritma QUEST dan Algoritma CART dilakukan dengan bantuan
beberapa aplikasi komputer (software) yaitu: Microsoft Excel 2007 dan SPSS.

3.1.8 Langkah-Langkah Analisis Data


1. Mendefinisikan masalah dan menentukan tujuan yang diinginkan.
2. Penyusunan variabel meliputi: umur pasien (𝑥1 ), jenis kelamin pasien (𝑥2 ),
tekanan darah pasien (𝑥3 ), kolesterol darah pasien (𝑥4 ), gula darah pasien (𝑥5 ),
hasil elektrokardiografi pasien (𝑥6 ) dan kondisi jantung (𝑥7 ).

Universitas Sumatera Utara


24

3. Mengumpulkan data dari pasien Rumah Sakit Umum Pusat H. Adam Malik
yang berobat dibagian penyakit jantung.
4. Membagi data menjadi dua bagian yaitu data numerik dan data kategorik.
5. Analisis data dengan mengunakan algoritma QUEST.
6. Analisis data denga mengunakan algoritma CART.
7. Bandingkan hasil kedua algoritma dan analisis.

Universitas Sumatera Utara


BAB 4

HASIL DAN PEMBAHASAN

Pada Bab ini akan diuraikan langkah-langkah pengolahan data dengan algoritma
QUEST dan algoritma CART yaitu: data peubah kategorik, data peubah numerik,
penyelesaian dengan algoritma QUEST, penyelesaian dengan algoritma CART
dan perbandingan antara algoritma QUEST dan algoritma CART.

4.1 Data
Berikut ini disajikan data yang diperoleh untuk mengkaji faktor-faktor yang
mempengaruhi seseorang menderita penyakit jantung. Peubah tak bebas 𝑌
merupakan peubah kategorik dengan dua kategori, yaitu 1 bila seseorang
menderita penyakit jantung dan 0 bila seseorang tidak menderita penyakit jantung.
Data ini diperoleh dari Rumah Sakit Umum Pusat H. Adam Malik, terdiri dari 7
peubah bebas dengan jumlah pengamatan 100.
a. Peubah numerik
- 𝑥1 merupakan umur pasien
- 𝑥3 merupakan tekanan darah pasien
- 𝑥4 merupakan kolesterol darah pasien
b. Peubah kategorik
- 𝑥2 merupakan jenis kelamin pasien dengan dua kategori, yaitu perempuan
dan laki-laki
- 𝑥5 merupakan gula darah puasa pasien dengan dua kategori, yaitu gula
darah > 120 mg dan gula darah < 120 mg
- 𝑥6 merupakan hasil elektrokardiografi pasien pada saat istirahat dengan
tiga kategori, yaitu normal, memiliki kelainan gelombang dan adanya
kemungkinan hipertrofi vertikal
- 𝑥7 merupakan kondisi jantung dengan 3 kategori, yaitu normal, cacat
tetap dan cacat sementara.

Universitas Sumatera Utara


26

4.2 Penyelesaian dengan Algoritma QUEST


Berikut akan diilustrasikan pembentukan pohon menggunakan algoritma QUEST
untuk data penyakit jantung.

4.2.1 Simpul Awal (𝒕𝟎 )


Simpul awal 𝑡0 terdiri dari 100 pengamatan dari dua kategori pengamatan yaitu
pasien yang berpenyakit jantung (56 pengamatan) dan pasien yang tidak
berpenyakit jantung (44 pengamatan). Pemilihan penyekat dipilih dengan
melakukan uji ANOVA F bila peubah penyekat numerik dan uji 𝑋 2 bila peubah
penyekat kategorik.
Pada data ini, proses penyekatan akan diberhentikan bila banyaknya data
pada simpul dalam paling sedikit 20, sedangkan banyaknya data pada simpul
akhir paling sedikit 10. Pilihan tersebut diambil untuk mengambarkan pohon
klasifikasi denagan algoritma QUEST pada pengamatan penyakit jantung.
Pada simpul awal terdapat 7 variabel yang digunakan yaitu sebagai
berikut:
1. Umur (𝑥1 )
Umur merupakan variabel numerik, untuk mendapatkan nilai signifikan
dari umur digunakan uji Anova F.
2. Jenis Kelamin (𝑥2 )
Jenis kelamin merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari jenis kelamin digunakan uji Chi-kuadrat. Variabel jenis
kelamin terdiri dari dua kategori yaitu laki-laki (pasien berpenyakit
jantung terdapat 37 pasien dan pasien tidak berpenyakit jantung terdapat
26 pasien) dan perempuan (pasien berpenyakit jantung terdapat 19 pasien
dan pasien tidak berpenyakit jantung terdapat 18 pasien).
3. Tekanan Darah (𝑥3 )
Tekanan darah merupakan variabel numerik, untuk mendapatkan nilai
signifikan dari tekanan darah digunakan uji Anova F.
4. Kolesterol (𝑥4 )
Kolesterol merupakan variabel numerik, untuk mendapatkan nilai
signifikan dari kolesterol digunakan uji Anova F.

Universitas Sumatera Utara


27

5. Gula Darah (𝑥5 )


Gula darah merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari gula darah digunakan uji Chi-kuadrat. Variabel gula darah
terdiri dari dua kategori yaitu >120 (pasien berpenyakit jantung terdapat
23 pasien dan pasien tidak berpenyakit jantung terdapat 19 pasien) dan
<120 (pasien berpenyakit jantung terdapat 31 pasien dan pasien tidak
berpenyakit jantung terdapat 27 pasien).
6. Hasil Eletrokardiografi (𝑥6 )
Hasil eletrokardiografi merupakan variabel kategorik, untuk mendapatkan
nilai signifikan dari hasil eletrokardiografi digunakan uji Chi-kuadrat.
Variabel hasil eletrokardiografi terdiri dari tiga kategori yaitu normal
(pasien berpenyakit jantung terdapat 3 pasien dan pasien tidak berpenyakit
jantung terdapat 26 pasien), memiliki kelainan gelombang (pasien
berpenyakit jantung terdapat 42 pasien dan pasien tidak berpenyakit
jantung terdapat 10 pasien) dan hipertrofi vertikal (pasien berpenyakit
jantung terdapat 11 pasien dan pasien tidak berpenyakit jantung terdapat 8
pasien).
7. Kondisi Jantung (𝑥7 )
Kondisi jantung merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari kondisi jantung digunakan uji Chi-kuadrat. Variabel
kondisi jantung terdiri dari tiga kategori yaitu normal (pasien berpenyakit
jantung terdapat 10 pasien dan pasien tidak berpenyakit jantung terdapat
17 pasien), cacat sementara (pasien berpenyakit jantung terdapat 30 pasien
dan pasien tidak berpenyakit jantung terdapat 14 pasien) dan cacat tetap
(pasien berpenyakit jantung terdapat 16 pasien dan pasien tidak
berpenyakit jantung terdapat 13 pasien).

Untuk menentukan titik penyekat dari 100 data pengamatan, pertama dilakukan
uji Chi-kuadrat dan uji Anova F pada ketujuh variabel bebasnya. Untuk
menentukan nilai uji Chi-kuadrat pada data kategorik untuk variabel peubah 𝑥2
(jenis kelamin) adalah sebagai berikut:

Universitas Sumatera Utara


28

Peubah 𝑥2 (jenis kelamin) terdiri dari dua kategori, yaitu perempuan bila 0
dan laki-laki bila 1. Tabel tabulasi silang antara 𝑥2 dan 𝑌 adalah sebagai berikut:

Tabel 4.1 Frekuensi Teramati (𝑶𝒊𝒋 )


𝑥2
𝑌 Total
0 1
1 26 37 63
0 18 19 37
Total 44 56 100

Frekuensi sel yang diharapkan dapat dicari dengan cara sebagai berikut:
𝑛1. 𝑛.1 63 ∙ 44
𝐸11 = ( )=( ) = 27,72
𝑛 100
𝑛1. 𝑛.2 63 ∙ 56
𝐸12 = ( )=( ) = 35,28
𝑛 100
𝑛2. 𝑛.1 37 ∙ 44
𝐸21 = ( )=( ) = 16,28
𝑛 100
𝑛2. 𝑛.2 37 ∙ 56
𝐸22 = ( )=( ) = 20,72
𝑛 100
Nilai statistika uji 𝑋 2 diperoleh sebagai berikut:
𝑟 𝑐
2
(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )2
𝑋 = ∑∑
𝐸𝑖𝑗
𝑖=1 𝑗=1

(𝑂𝑖𝑗 −𝐸𝑖𝑗 )2
= ∑2𝑖=1 ∑2𝑗=1 𝐸𝑖𝑗

(26−27,72)2 (37−35,28)2 (18−16,28)2 (19−20,72)2


= + + +
27,72 35,28 16,28 20,72
2,96 3,06 2,96 2,96
= 27,72 + 35,28 + 16,28 + 20,72

= 0,519
dengan bantuan Minitab diperoleh nilai 𝑝 = 0,473.
Dengan melakukan cara yang sama maka diperoleh nilai chi-kuadrat untuk
variabel gula darah, hasil eletrokardiografi dan kondisi jantung dapat dilihat pada
Tabel 4.2. Selanjutnya untuk menentukan nilai uji Anova F pada data numerik
diperoleh nilainya seperti pada Tabel 4.2.

Universitas Sumatera Utara


29

Tabel 4.2 Hasil Uji Statistika Pemilihan Peubah Penyekat Simpul 𝒕𝟎 .


Peubah Nilai Statistika Uji Nilai 𝑝
𝑥1 𝐹 = 258,058 0,000
𝑥2 𝑋 2 = 0,519 0,473
𝑥3 𝐹 = 143,712 0,000
𝑥4 𝐹 = 66,041 0,000
𝑥5 𝑋 2 = 0,017 0,896
𝑥6 𝑋 2 = 37,508 0,000
𝑥7 𝑋 2 = 6,600 0,037

Bila digunakan 𝛼 = 0,05, didapat 𝛼/𝑀1 = 0,007. Dari tabel di atas


terlihat bahwa nilai 𝑝 = 0,000 < 0,007 ditemukan pada beberapa peubah bebas,
berdasarkan nilai pembulat ke-3 angka desimal pertama. Nilai 𝑝 terkecil akan
diperoleh dengan nilai statistika uji ANOVA F dan uji 𝑋 2 tersebut yaitu pada
peubah 𝑥1 dan peubah 𝑥6 , karena keterbatasan alat hitung maka 𝑥6 dianggap
memiliki nilai 𝑝 terkecil dengan melihat pohon klasifikasi dengan algoritma
QUEST dengan software SPSS. Oleh karena itu, peubah tersebut dipilih sebagai
peubah penyekat.
Peubah 𝑥6 adalah peubah kategorik dengan banyak kategori > 2 sehingga
untuk mendapatkan titik penyekat peubah ini ditransformasikan terlebih dahulu
menjadi peubah numerik. Langkah-langkah transformasi adalah sebagai berikut:
1. Transformasikan masing-masing nilai 𝑥6 ke vektor dummy 3 dimensi
𝒗 = (𝑣1 , 𝑣2 , 𝑣3 )
1 𝑥 = 𝑏𝑙
dengan 𝑣𝑙 = { , 𝑙 = 1,2,3
0 𝑥 ≠ 𝑏𝑙
Dengan demikian,
1
 Jika 𝑥6 = 0 maka 𝑣1 = (0)
0
0
 Jika 𝑥6 = 1 maka 𝑣2 = (1)
0
0
 Jika 𝑥6 = 2 maka 𝑣3 = (0)
1

Universitas Sumatera Utara


30

Berikut ini adalah tabel tabulasi dari transformasi peubah kategorik

Tabel 4.3 Tabulasi 𝒙𝟔


𝑥6
𝑌 𝑣1 = (1 0 0) 𝑣2 = (0 1 0) 𝑣3 = (0 0 1) Total
(𝑥6 = 0) (𝑥6 = 1) (𝑥6 = 2)
0 3 42 11 56
1 26 10 8 44
Total 29 52 19 100

2. Cari nilai tengah untuk 𝑥6


∑𝑳𝒍=𝟏 𝒇𝒍 𝒗𝒍 ∑𝑳𝒍=𝟏 𝒏𝒍 𝒗𝒍
̅=
𝒗 ̅(𝒌) =
𝒗
𝑵𝒕 𝑵𝒕,𝒌

dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑓𝑙 : jumlah pengamatan pada simpul t untuk 𝑣1
𝑛𝑙 : jumlah pengamatan pada simpul t kelompok ke-k untuk 𝑣1
𝑁𝑡 : jumlah pengamatan pada simpul t
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
dengan menggunakan rumus di atas maka diperoleh nilai tengah untuk
variabel 𝑥6 (hasil eletrokardiografi) sebagai berikut:
1 0 0
29(0)+52(1)+19(0) 29⁄100
∑3𝑙=1 𝑓1 𝑣1 0 0 1
𝑣̅ = = = (52⁄100)
𝑁𝑡 100
19⁄100
∑3𝑙=1 𝑓1 𝑣1
𝑣̅ (𝑘) =
𝑁𝑘,𝑡
1 0 0
3(0)+42(1)+10(0) 3⁄56
(0) 0 0 1
𝑣̅ = = (42⁄56)
56
10⁄56

Universitas Sumatera Utara


31

1 0 0
26(0)+10(1)+8(0) 26⁄44
(1) 0 0 1
𝑣̅ = = (10⁄44)
44
8⁄44

3. Kalkulasikan nilai berikut dalam bentuk matriks 3 x 3


𝑲

̅(𝒌) − 𝒗
𝑩 = ∑ 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )𝑻
𝑲=𝟏

dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
Untuk mengkalkulasikan nilai variabel 𝑥6 (hasil eletrokardiografi) dengan
menggunakan rumus di atas, maka diperoleh nilainya sebagai berikut:
1 0 0
29(0)+52(1)+19(0) 29⁄100
∑3𝑙=1 𝑓1 𝑣1 0 0 1
𝑣̅ = = = (52⁄100)
𝑁𝑡 100
19⁄100
∑3𝑙=1 𝑓1 𝑣1
𝑣̅ (𝑘) =
𝑁𝑘,𝑡
1 0 0
3(0)+42(1)+10(0) 3⁄56
(0) 0 0 1
𝑣̅ = 56
= (42⁄56)
10⁄56
1 0 0
26(0)+10(1)+8(0) 26⁄44
𝑣̅ (1) = 0
44
0 1
= (10⁄44)
8⁄44
𝑲

̅(𝒌) − 𝒗
𝑩 = ∑ 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )𝑻
𝑲=𝟏

′ 𝑇
= 56 (𝑣̅ (0) − 𝑣̅ )(𝑣̅ (0) − 𝑣̅ ) + 44(𝑣̅ (1) − 𝑣̅ )(𝑣̅ (1) − 𝑣̅ )

Universitas Sumatera Utara


32

𝑇
3⁄56 29⁄100 3⁄56 29⁄100
= 56 ((42⁄56) − (52⁄100)) ((42⁄56) − (52⁄100)) + 44
10⁄56 19⁄100 10⁄56 19⁄100
𝑇
26⁄44 29⁄100 26⁄44 29⁄100
((10⁄44) − (52⁄100)) ((10⁄44) − (52⁄100))
8⁄44 19⁄100 8⁄44 19⁄100
−0,236
= 56 ( 0,230 ) (−0,236 0,230 −0,011)+
−0,011
0,280
44 (−0,293) (0,280 −0,293 −0,008)
−0,008
0,134 0,136 0,001
= (0,136 −0,033 −0,001)
0,001 −0,001 −0,000
𝑳

̅ )𝑻
̅)(𝒗𝒍 − 𝒗
𝑻 = ∑ 𝒇𝟏 (𝒗𝒍 − 𝒗
𝒍=𝟏

̅)𝑻 + 52(𝒗𝟐 − 𝒗
̅)(𝒗𝟏 − 𝒗
= 29(𝒗𝟏 − 𝒗 ̅)𝑻 + 19(𝒗𝟑 − 𝒗
̅)(𝒗𝟐 − 𝒗 ̅ )𝑻
̅)(𝒗𝟑 − 𝒗
𝑇
1 29⁄100 1 29⁄100
= 29((0) − (52 100)) ((0) − (52⁄100)) +

0 19⁄100 0 19⁄100
𝑇
0 29⁄100 0 29⁄100
52 ((1) − (52 100)) ((1) − (52⁄100)) +

0 19⁄100 0 19⁄100
𝑇
0 29⁄100 0 29⁄100
19 ((0) − (52 100)) ((0) − (52⁄100))

1 19⁄100 1 19⁄100
20,18 −15,16 −5,02
= (−15,02 24,92 −9,76)
2,52 −9,70 15,78
4. Lakukan SVD terhadap 𝐓 menjadi 𝐓 = 𝐐𝐃𝐐′
dengan :
Q adalah matriks orthogonal yang kolomnya merupakan vektor eigen dari
𝐓′𝐓
D = diag(𝑑1 , … , 𝑑𝐿 ) dengan 𝑑1 ≥ 𝑑2 ≥ ⋯ ≥ 𝑑𝐿 ≥ 0.
Diperoleh:

Universitas Sumatera Utara


33

639,18 43,93 208,13


𝐐 = ( 43,93 944,93 320,19)
208,13 320,19 369,47
19444,78 0 0
𝐃=( 0 12647,84 0 )
0 0 −2669,58
𝟏
0,0072 0 0

5. Diperoleh matriks 𝐃 𝟐 =( 0 0,0089 0 )
0 0 −0,0194
1 1
6. Lakukan SVD dari 𝐃−2 𝐐′ 𝐁𝐃𝐐−2 , tentukan vektor eigen 𝒂 yang merupakan
vektor eigen yang berpadanan dengan nilai eigen terbesar:
322,17
𝒂 = (2146,47) , 𝒂′ = (322,17 2146,47 1839,76)
1839,76
7. Diperoleh koordinat diskriminan terbesar dari 𝑣, yaitu:
𝟏
ξ = 𝐚′𝐃−𝟐 𝐐′𝐯
= (−5106,56 6725,42 −6587,32)𝑣
Dengan demikian diperoleh:
 Untuk 𝑥6 = 0 maka
1
𝜉1 = (−5106,56 6725,42 −6587,32) (0)
0
= −5106,56
 Untuk 𝑥6 = 1 maka
0
𝜉2 = (−5106,56 6725,42 −6587,32) (1)
0
= 6725,42
 Untuk 𝑥6 = 2 maka
0
𝜉3 = (−5106,56 6725,42 −6587,32) (0)
1
= −6587,32

Universitas Sumatera Utara


34

Dengan demikian diperoleh tabel tabulasi 𝑥6 yang baru seperti pada tabel 4.4

Tabel 4.4 Tabulasi 𝒙𝟔 Hasil Transformasi


𝜉
𝑌 −6587,32 −5106,56 6725,42 Total
(𝑥6 = 0) (𝑥6 = 1) (𝑥6 = 2)
0 26 10 8 44
1 3 42 11 56
Total 29 52 19 100

Pada peubah 𝑥6 dilakukan analisis deskriminan kuadratik untuk


memperoleh titik penyekat. Dari data diperoleh:
𝑥̅0 = 2,143 𝑥̅1 = 1,591
𝑠02 = (0,483)2 𝑠12 = (0,787)2
𝑃(0|𝑡) = 0,56 𝑃(1|𝑡) = 0,44
Titik penyekat adalah akar dari persamaan 𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0.
Dengan:
𝑎 = 𝑠 2 0 + 𝑠 21 = (0,483)2 + (0,787)2 = 0,852
𝑏 = 2(𝑥̅0 𝑠 21 − 𝑥̅0 𝑠 21 )
= 2(2,143(0,787)2 − 1,591(0,483)2)
= 2(0,956)
= 1,912
𝑃(0|𝑡)𝑠 21
𝑐 = (𝑥̅0 𝑠 2 0 )2 − (𝑥̅0 𝑠 21 )2 + 2𝑠 2 0 𝑠 21 𝑙𝑛 { }
𝑃(1|𝑡)𝑠 2 0
0,56 ∙ 0,787
= (2,143 ∙ 0,483)2 − (1,591 ∙ 0,787)2 + 2(0,233 ∙ 0619)𝑙𝑛 { }
0,44 ∙ 0,233
= 0,061
diperoleh persamaan 0,852𝑥 2 + 1,912𝑥 + 0,061 = 0.
Akar dari persamaan diatas adalah:
−𝑏 ± √𝑏 2 − 4𝑎𝑐
𝑑=
2𝑎
−1,912±√(1,912)2 −4(0,852)(0,061)
= 2(0,852)

Universitas Sumatera Utara


35

−1,912±1,857
= 1.704

−1,912 + 1,857
𝑑= = −0,032
1.704
−1,912−1,857
𝑑= = −2,212.
1.704

Dari dua akar persamaan ini, diambil akar yang paling mendekati 𝑥̅0 = 2,143
yaitu 𝑑 = −0,032. Disimpulkan bahwa 𝑥6 memotong di nilai 𝜉 = −6587,32.
Dengan demikian, simpul 𝑡0 disekat menjadi dua simpul, yaitu simpul 𝑡1 dengan
𝜉 ≤ −6587,32 dan simpul 𝑡2 dengan 𝜉 > −6587,32.
Dengan kata lain, simpul tersebut disekat menjadi dua simpul, yaitu
simpul 𝑡1 dengan 𝑥6 ∈ {0} dan simpul 𝑡2 dengan 𝑥6 ∈ {1,2}. Simpul 𝑡1 terdiri dari
29 pengamatan dari dua kategori, yaitu pasien berpenyakit jantung (26
pengamatan) dan pasien tidak berpenyakit jantung (3 pengamatan). Simpul 𝑡2
terdiri dari 71 pengamatan dari dua kategori, yaitu pasien berpenyakit jantung (53
pengamatan) dan pasien tidak berpenyakit jantung (18 pengamatan). Proses
penyekatan dilanjutkan karena simpul 𝑡1 dan 𝑡2 merupakan simpul dalam.

4.2.2 Simpul Dalam (𝒕𝟏 )


Simpul dalam 𝑡1 terdiri dari 29 pengamatan dari dua kategori pengamatan yaitu
pasien yang berpenyakit jantung (26 pengamatan) dan pasien yang tidak
berpenyakit jantung (3 pengamatan). Pemilihan penyekat dipilih dengan
melakukan uji ANOVA F bila peubah penyekat numerik dan uji 𝑋 2 bila peubah
penyekat kategorik.
Pada data ini, proses penyekatan akan diberhentikan bila banyaknya data
pada simpul dalam paling sedikit 20, sedangkan banyaknya data pada simpul
akhir paling sedikit 10. Pilihan tersebut diambil untuk mengambarkan pohon
klasifikasi denagan algoritma QUEST pada pengamatan penyakit jantung.
Pada simpul dalam 𝑡1 terdapat 6 variabel yang digunakan yaitu sebagai
berikut:
1. Umur (𝑥1 )
Umur merupakan variabel numerik, untuk mendapatkan nilai signifikan
dari umur digunakan uji Anova F.

Universitas Sumatera Utara


36

2. Jenis Kelamin (𝑥2 )


Jenis kelamin merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari jenis kelamin digunakan uji Chi-kuadrat. Variabel jenis
kelamin terdiri dari dua kategori yaitu laki-laki (pasien berpenyakit
jantung terdapat 19 pasien dan pasien tidak berpenyakit jantung terdapat 1
pasien) dan perempuan (pasien berpenyakit jantung terdapat 7 pasien dan
pasien tidak berpenyakit jantung terdapat 2 pasien).
3. Tekanan Darah (𝑥3 )
Tekanan darah merupakan variabel numerik, untuk mendapatkan nilai
signifikan dari tekanan darah digunakan uji Anova F.
4. Kolesterol (𝑥4 )
Kolesterol merupakan variabel numerik, untuk mendapatkan nilai
signifikan dari kolesterol digunakan uji Anova F.
5. Gula Darah (𝑥5 )
Gula darah merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari gula darah digunakan uji Chi-kuadrat. Variabel gula darah
terdiri dari dua kategori yaitu >120 (pasien berpenyakit jantung terdapat
12 pasien dan pasien tidak berpenyakit jantung terdapat 1 pasien) dan
<120 (pasien berpenyakit jantung terdapat 13 pasien dan pasien tidak
berpenyakit jantung terdapat 3 pasien).
6. Kondisi Jantung (𝑥7 )
Kondisi jantung merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari kondisi jantung digunakan uji Chi-kuadrat. Variabel
kondisi jantung terdiri dari tiga kategori yaitu normal (pasien berpenyakit
jantung terdapat 0 pasien dan pasien tidak berpenyakit jantung terdapat 3
pasien), cacat sementara (pasien berpenyakit jantung terdapat 17 pasien
dan pasien tidak berpenyakit jantung terdapat 0 pasien) dan cacat tetap
(pasien berpenyakit jantung terdapat 9 pasien dan pasien tidak berpenyakit
jantung terdapat 0 pasien).
Selanjutnya dengan menggunakan uji chi-kuadrat dan uji Anova F untuk keenam
variabel, maka diperoleh nilai uji dan nilai signifikannya pada Tabel 4.5.

Universitas Sumatera Utara


37

Tabel 4.5 Hasil Uji Statistika Pemilihan Peubah Penyekat Simpul 𝒕𝟏


Peubah Nilai Statistika Uji Nilai 𝑝
𝑥1 𝐹 = 0,007 0,936
𝑥2 𝑋 2 = 1,985 0,159
𝑥3 𝐹 = 0,209 0,651
𝑥4 𝐹 = 0,016 0,899
𝑥5 𝑋 2 = 0,299 0,584
𝑥7 𝑋 2 = 29,000 0,000

Dari hasil tabulasi diatas, terlihat bahwa nilai 𝑝 = 0,000 < 0,0071
ditemukan pada peubah bebas kategorik 𝑥2 dan 𝑥7 . Dari nilai statistik uji 𝑋 2
terbesar diketahui bahwa nilai 𝑝 terkecil adalah peubah bebas kategorik 𝑥7 . Oleh
karena itu, peubah tersebut dipilih sebagai peubah penyekat.
Peubah 𝑥7 adalah peubah kategorik dengan 3 kategori, sehingga untuk
mendapatkan titik penyekat, peubah ini ditransformasikan terlebih dahulu menjadi
peubah numerik. Langkah-langkah transformasi adalah sebagai berikut:
1. Transformasikan masing-masing nilai 𝑥7 ke vektor dummy 3 dimensi
𝒗 = (𝑣1 , 𝑣2 , 𝑣3 )
1 𝑥 = 𝑏𝑙
dengan 𝑣𝑙 = { , 𝑙 = 1,2,3
0 𝑥 ≠ 𝑏𝑙
Dengan demikian,
1
 Jika 𝑥6 = 0 maka 𝑣1 = (0)
0
0
 Jika 𝑥6 = 1 maka 𝑣2 = (1)
0
0
 Jika 𝑥6 = 2 maka 𝑣3 = (0)
1

Universitas Sumatera Utara


38

Berikut ini adalah tabel tabulasi dari transformasi peubah kategorik


Tabel 4.6 Tabulasi 𝒙𝟕
𝑥7
𝑌 𝑣1 = (1 0 0) 𝑣2 = (0 1 0) 𝑣3 = (0 0 1) Total
(𝑥6 = 0) (𝑥6 = 1) (𝑥6 = 2)
0 3 0 0 3
1 0 17 9 26
Total 3 17 9 29

2. Cari nilai tengah untuk 𝑥7


∑𝑳𝒍=𝟏 𝒇𝒍 𝒗𝒍 ∑𝑳𝒍=𝟏 𝒏𝒍 𝒗𝒍
̅=
𝒗 ̅(𝒌) =
𝒗
𝑵𝒕 𝑵𝒕,𝒌

dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑓𝑙 : jumlah pengamatan pada simpul t untuk 𝑣1
𝑛𝑙 : jumlah pengamatan pada simpul t kelompok ke-k untuk 𝑣1
𝑁𝑡 : jumlah pengamatan pada simpul t
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
dengan menggunakan rumus di atas maka diperoleh nilai tengah untuk
variabel 𝑥7 (kondisi jantung) sebagai berikut:
1 0 0
3(0)+17(1)+9(0) 3⁄29
∑3𝑙=1 𝑓1 𝑣1 0 0 1
𝑣̅ = = = (17⁄29)
𝑁𝑡 29
9⁄29

(𝑘)
∑3𝑙=1 𝑓1 𝑣1
𝑣̅ =
𝑁𝑘,𝑡
1 0 0
3(0)+0(1)+0(0) 1
(0) 0 0 1
𝑣̅ = = (0 )
3
0
1 0 0
0(0)+17(1)+9(0) 0
(1) 0 0 1
𝑣̅ = = (17/26)
26
9/26

Universitas Sumatera Utara


39

3. Kalkulasikan nilai berikut dalam bentuk matriks 3 x 3


𝑲

̅(𝒌) − 𝒗
𝑩 = ∑ 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )𝑻
𝑲=𝟏

dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
untuk mengkalkulasikan nilai variabel 𝑥7 (kondisi jantung) dengan
menggunakan rumus di atas, maka diperoleh nilainya sebagai berikut:
1 0 0
3(0)+17(1)+9(0) 3⁄29
∑3𝑙=1 𝑓1 𝑣1 0 0 1
𝑣̅ = 𝑁𝑡
= = (17⁄29)
29
9⁄29

(𝑘)
∑3𝑙=1 𝑓1 𝑣1
𝑣̅ =
𝑁𝑘,𝑡
1 0 0
3(0)+0(1)+0(0) 1
(0) 0 0 1
𝑣̅ = = (0 )
3
0
1 0 0
0(0)+17(1)+9(0) 0
(1) 0 0 1
𝑣̅ = 26
= (17/26)
9/26
𝑲

̅(𝒌) − 𝒗
𝑩 = ∑ 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )𝑻
𝑲=𝟏
′ 𝑇
= 26 (𝑣̅ (0) − 𝑣̅ )(𝑣̅ (0) − 𝑣̅ ) + 3(𝑣̅ (1) − 𝑣̅ )(𝑣̅ (1) − 𝑣̅ )
𝑇
1 3⁄29 1 3⁄29
= 26 ((0) − (17⁄29)) ((0) − (17⁄29)) +
0 9⁄29 0 9⁄29
𝑇
0 3⁄29 0 3⁄29
3 ((17/26) − (17⁄29)) ((17/26) − (17⁄29))
9/26 9⁄29 9/26 9⁄29

Universitas Sumatera Utara


40

0,897
= 26 (−0,586) (0,897 −0,586 −0,310)+
−0,310
−0,103
3 ( 0,068 ) (−0,103 0,068 0,036)
0,036
20,963 −13,697 0,087
= (−13,697 0,134 0,028)
−7,240 0,028 0,007
𝑳

̅ )𝑻
̅)(𝒗𝒍 − 𝒗
𝑻 = ∑ 𝒇𝟏 (𝒗𝒍 − 𝒗
𝒍=𝟏

̅)𝑻 + 17(𝒗𝟐 − 𝒗
̅)(𝒗𝟏 − 𝒗
= 3(𝒗𝟏 − 𝒗 ̅)𝑻 + 9(𝒗𝟑 − 𝒗
̅)(𝒗𝟐 − 𝒗 ̅ )𝑻
̅)(𝒗𝟑 − 𝒗
𝑇
1 3⁄29 1 3⁄29
= 3((0) − (17 29)) ((0) − (17⁄29)) +

0 9⁄29 0 9⁄29
𝑇
0 3⁄29 0 3⁄29
17 ((1) − (17 29)) ((1) − (17⁄29)) +

0 9⁄29 0 9⁄29
𝑇
0 3⁄29 0 3⁄29
9 ((0) − (17 29)) ((0) − (17⁄29))

1 9⁄29 1 9⁄29
2,690 −1,759 −0,931
= (−1,759 7,034 −5,276)
−0,931 −5,276 6,207
4. Lakukan SVD terhadap 𝐓 menjadi 𝐓 = 𝐐𝐃𝐐′
dengan :
Q adalah matriks orthogonal yang kolomnya merupakan vektor eigen dari
𝐓′𝐓
D = diag(𝑑1 , … , 𝑑𝐿 ) dengan 𝑑1 ≥ 𝑑2 ≥ ⋯ ≥ 𝑑𝐿 ≥ 0.
Diperoleh:
11,197 −12,193 0,997
𝐐 = (−4,367 80,407 −7,638)
0,997 −68,222 67,230
−357,120 0 0
𝑫=( 0 16,696 0 )
0 0 204,183

Universitas Sumatera Utara


41

𝟏 0,053 0 0

5. Diperoleh matriks 𝐃 𝟐 =( 0 0,245 0 )
0 0 0,070
1 1
6. Lakukan SVD dari 𝐃−2 𝐐′ 𝐁𝐃𝐐−2 , tentukan vektor eigen 𝒂 yang merupakan
vektor eigen yang berpadanan dengan nilai eigen terbesar:
23,513
𝒂 = ( 363,270 ) , 𝒂′ = (23,513 363,270 36913,230)
36913,230
7. Diperoleh koordinat diskriminan terbesar dari 𝑣, yaitu:
𝟏
𝜉 = 𝐚′𝐃−𝟐 𝐐′𝐯
= (1504,937 −12585,2 167616,8)𝑣
dengan demikian diperoleh:
 Untuk 𝑥7 = 0 maka
1
𝜉1 = (1504,937 −12585,2 167616,8) (0)
0
= 1504,937
 Untuk 𝑥7 = 1 maka
0
𝜉2 = (1504,937 −12585,2 167616,8) (1)
0
= −12585,2
 Untuk 𝑥7 = 2 maka
0
𝜉3 = (1504,937 −12585,2 167616,8) (0)
1
= 167616,8
Dengan demikian diperoleh tabel tabulasi 𝑥7 yang baru,
Tabel 4.7 Tabulasi 𝒙𝟕 Hasil Transformasi
𝜉
𝑌 −12585,2 1504,937 167616,8 Total
(𝑥6 = 0) (𝑥6 = 1) (𝑥6 = 2)
0 3 0 0 3
1 0 17 9 26
Total 3 17 9 29

Universitas Sumatera Utara


42

Pada peubah 𝑥7 dilakukan analisis deskriminan kuadratik untuk


memperoleh titik penyekat. Dari data diperoleh:
𝑥̅0 = 1 𝑥̅1 = 2,346
𝑠02 = (4,874)2 𝑠12 = (0,218)2
𝑃(0|𝑡) = 0,103 𝑃(1|𝑡) = 0,897
Titik penyekat adalah akar dari persamaan 𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0.
Dengan:
𝑎 = 𝑠 2 0 + 𝑠 21 = (4,874)2 + (0,218)2 = 23,708
𝑏 = 2(𝑥̅0 𝑠 21 − 𝑥̅0 𝑠 21 )
= 2(1(0,218)2 − 2,346(4,874)2 )
= 2(-55,684)
= -111,368
𝑃(0|𝑡)𝑠 21
𝑐 = (𝑥̅0 𝑠 2 0 )2 − (𝑥̅0 𝑠 21 )2 + 2𝑠 2 0 𝑠 21 𝑙𝑛 { }
𝑃(1|𝑡)𝑠 2 0
2 2
= (1 ∙ (4,874)2 ) − (2,346 ∙ (0,218)2 )
2
2 2 0,103 ∙ (4,874)
+2(4,874) ((0,218) )𝑙𝑛 { 2
}
0,897(0,218)
= 111,783
diperoleh persamaan 23,708𝑥 2 − 111,368𝑥 + 111,783 = 0.
Akar dari persamaan diatas adalah:
−𝑏 ± √𝑏 2 − 4𝑎𝑐
𝑑=
2𝑎
111,368±√(−111,368)2 −4(23,708)(111,783)
=
2(23,708)
111,368±42,451
= 47,416
111,368+42,451
𝑑= = 3,244
47,416
111,368−42,451
𝑑= = 1,453.
47,416

Dari dua akar persamaan ini, diambil akar yang paling mendekati 𝑥̅0 = 1 yaitu
𝑑 = 1,453. Disimpulkan bahwa 𝑥7 memotong di nilai 𝜉 = −12585,2. Dengan

Universitas Sumatera Utara


43

demikian, simpul 𝑡1 disekat menjadi dua simpul, yaitu simpul 𝑡3 dengan 𝜉 ≤


−12585,2 dan simpul 𝑡4 dengan 𝜉 > −12585,2.
Dengan kata lain, simpul tersebut disekat menjadi dua simpul, yaitu
simpul 𝑡3 dengan 𝑥7 ∈ {0} dan simpul 𝑡4 dengan 𝑥7 ∈ {1,2}. Simpul 𝑡3 terdiri dari
3 pengamatan dari dua kategori, yaitu pasien berpenyakit jantung (0 pengamatan)
dan pasien tidak berpenyakit jantung (3 pengamatan). Simpul 𝑡4 terdiri dari 26
pengamatan dari dua kategori, yaitu pasien berpenyakit jantung (26 pengamatan)
dan pasien tidak berpenyakit jantung (0 pengamatan).
Pada data ini digunakan pilihan dengan banyaknya data simpul dalam
paling sedikit 20, sedangkan banyaknya data pada simpul akhir paling sedikit 10.
Pada simpul 𝑡1 yang disekat menjadi simpul 𝑡3 dan 𝑡4 , banyaknya data pada
simpul 𝑡3 adalah 3 pengamatan sehingga 𝑡3 tidak dapat dijadikan simpul dalam
maupun simpul akhir. Oleh karena itu, simpul 𝑡1 tidak dapat disekat lagi.
Sehingga pada simpul 𝑡1 penyekatan diberhentikan.

4.2.3 Simpul Dalam (𝒕𝟐 )


Simpul dalam 𝑡2 terdiri dari 71 pengamatan dari dua kategori pengamatan yaitu
pasien yang berpenyakit jantung (53 pengamatan) dan pasien yang tidak
berpenyakit jantung (18 pengamatan). Pemilihan penyekat dipilih dengan
melakukan uji ANOVA F bila peubah penyekat numerik dan uji 𝑋 2 bila peubah
penyekat kategorik.
Pada data ini, proses penyekatan akan diberhentikan bila banyaknya data
pada simpul dalam paling sedikit 20, sedangkan banyaknya data pada simpul
akhir paling sedikit 10. Pilihan tersebut diambil untuk mengambarkan pohon
klasifikasi denagan algoritma QUEST pada pengamatan penyakit jantung.
Pada simpul dalam 𝑡2 terdapat 6 variabel yang digunakan yaitu sebagai
berikut:
1. Umur (𝑥1 )
Umur merupakan variabel numerik, untuk mendapatkan nilai signifikan
dari umur digunakan uji Anova F.

Universitas Sumatera Utara


44

2. Jenis Kelamin (𝑥2 )


Jenis kelamin merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari jenis kelamin digunakan uji Chi-kuadrat. Variabel jenis
kelamin terdiri dari dua kategori yaitu laki-laki (pasien berpenyakit
jantung terdapat 37 pasien dan pasien tidak berpenyakit jantung terdapat
11 pasien) dan perempuan (pasien berpenyakit jantung terdapat 16 pasien
dan pasien tidak berpenyakit jantung terdapat 7 pasien).
3. Tekanan Darah (𝑥3 )
Tekanan darah merupakan variabel numerik, untuk mendapatkan nilai
signifikan dari tekanan darah digunakan uji Anova F.
4. Kolesterol (𝑥4 )
Kolesterol merupakan variabel numerik, untuk mendapatkan nilai
signifikan dari kolesterol digunakan uji Anova F.
5. Gula Darah (𝑥5 )
Gula darah merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari gula darah digunakan uji Chi-kuadrat. Variabel gula darah
terdiri dari dua kategori yaitu >120 (pasien berpenyakit jantung terdapat
24 pasien dan pasien tidak berpenyakit jantung terdapat 8 pasien) dan
<120 (pasien berpenyakit jantung terdapat 29 pasien dan pasien tidak
berpenyakit jantung terdapat 10 pasien).
6. Kondisi Jantung (𝑥7 )
Kondisi jantung merupakan variabel kategorik, untuk mendapatkan nilai
signifikan dari kondisi jantung digunakan uji Chi-kuadrat. Variabel
kondisi jantung terdiri dari tiga kategori yaitu normal (pasien berpenyakit
jantung terdapat 4 pasien dan pasien tidak berpenyakit jantung terdapat 9
pasien), cacat sementara (pasien berpenyakit jantung terdapat 33 pasien
dan pasien tidak berpenyakit jantung terdapat 8 pasien) dan cacat tetap
(pasien berpenyakit jantung terdapat 16 pasien dan pasien tidak
berpenyakit jantung terdapat 1 pasien).
Selanjutnya dengan menggunakan uji chi-kuadrat dan uji Anova F untuk keenam
variabel, maka diperoleh nilai uji dan nilai signifikannya pada Tabel 4.8.

Universitas Sumatera Utara


45

Tabel 4.8 Hasil Uji Statistika Pemilihan Peubah Penyekat Simpul 𝒕𝟐


Peubah Nilai Statistika Uji Nilai 𝑝
𝑥1 𝐹 = 0,155 0,695
𝑥2 𝑋 2 = 0.464 0,496
𝑥3 𝐹 = 0,004 0,949
𝑥4 𝐹 = 0,004 0,951
𝑥5 𝑋 2 = 0,456 0,502
𝑥6 𝑋 2 = 40,937 0,000
𝑥7 𝑋 2 = 17,370 0,000

Dari hasil tabulasi di atas, dapat dilihat bahwa peubah bebas 𝑥7 memiliki
nilai 𝑝 terkecil, yaitu 0,000 < 0,0071. Oleh karena itu, peubah tersebut dipilih
menjadi peubah penyekat. Diperoleh hasil tabulasi 𝑥7 :

Tabel 4.9 Tabulasi 𝒙𝟕 untuk Simpul 𝒕𝟐


𝑥7
Y Total
0 1 2
0 9 8 1 18
1 4 33 16 53
Total 13 41 17 71

Dari tabel di atas, dapat dilihat bahwa peubah ini merupakan peubah
kategorik dengan dua kategori sehingga titik penyekat dapat diperoleh langsung.
Dengan demikian, simpul 𝑡2 disekat menjadi dua simpul, yaitu simpul 𝑡5 dengan
𝑥7 ∈ {0} dan simpul 𝑡6 dengan 𝑥7 ∈ {1,2}. Simpul 𝑡5 terdiri dari 13 pengamatan
dari dua kategori, yaitu pasien berpenyakit jantung (4 pengamatan) dan pasien
tidak berpenyakit jantung (9 pengamatan). Simpul 𝑡6 terdiri dari 58 pengamatan
dari dua kategori, yaitu pasien berpenyakit jantung (49 pengamatan) dan pasien
tidak berpenyakit jantung (9 pengamatan). Simpul 𝑡5 dan 𝑡6 memiliki banyak data
besar dari 10 dan kecil dari 20. Sehingga pada simpul 𝑡5 dan 𝑡6 penyekatan
diberhentikan.

Universitas Sumatera Utara


46

Berdasarkan langkah-langkah sebelumnya diperoleh pohon klasifikasi


sebagai berikut:

Dari hasil klasifikasi di atas, dapat dilihat bahwa faktor yang


mempengaruhi seseorang menderita penyakit jantung adalah hasil
elektrokardiografi pasien (𝑥6 ) dan kondisi jantung (𝑥7 ). Terdapat lima simpul
yang terdiri dari satu simpul induk (simpul 0), dua simpul dalam (simpul 2) dan
tiga simpul akhir.

Universitas Sumatera Utara


47

Pada simpul 1, 5 dan 6 proses simpul dihentikan, sehingga menjadi tiga


simpul akhir (tiga kelas). Dalam menduga respon simpul akhir, dipilih peubah
respon yang persentasinya terbesar. Simpul 1 dan simpul 5 untuk respon dengan
kategori 0 yaitu tidak terserang penyakit jantung, sedangkan simpul 6 untuk
respon dengan kategori 1 yaitu terserang penyakit jantung. Dapat dikatakan
terdapat tiga kelas dengan pengelompokan sebagai berikut:
1. Kelas pertama
Kelas pertama merupakan pasien yang hasil elektrokardiografinya normal.
Pasien yang termasuk dalam kelas ini cenderung tidak terserang penyakit
jantung.
2. Kelas kedua
Kelas kedua merupakan pasien yang hasil elektrokardiografinya memiliki
kelainan gelombang, hipertrofi vertikal dan kondisi jantungnya normal.
Pasien yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
3. Kelas Ketiga
Kelas ketiga merupakan pasien yang hasil elektrokardiografinya memiliki
kelainan gelombang, hipertrofi vertikal dan kondisi jantungnya cacat
sementara dan cacat tetap. Pasien yang termasuk dalam kelas ini cenderung
terserang penyakit jantung.

4.3 Penyelesaian dengan Algoritma CART


Berikut akan diilustrasikan pembentukan pohon dengan menggunakan algoritma
CART untuk data penyakit jantung. Simpul awal 𝑡0 terdiri dari 100 pengamatan
dari dua kategori pengamatan yaitu pasien yang berpenyakit jantung (56
pengamatan) dan pasien yang tidak berpenyakit jantung (44 pengamatan).
Pada data ini, proses penyekatan akan diberhentikan bila banyaknya data
pada simpul dalam paling sedikit 20, sedangkan banyaknya data pada simpul
akhir paling sedikit 10. Pilihan tersebut diambil untuk mengambarkan pohon
klasifikasi dengan algoritma CART pada pengamatan penyakit jantung.

Universitas Sumatera Utara


48

CART awal dibentuk dengan memisahkan kelas yang anggota kelasnya


terbesar lebih dahulu atau yang merupakan kelas terpenting dalam simpul
tersebut.

4.3.1 Cabang Pertama


Untuk cabang pertama digunakan 100 data pengamatan dengan tujuh variabel
bebas. Berikut ini adalah langkah-langkah untuk mendapatkan cabang pertama.
1. Kesesuaian calon cabang dan noktah keputusan
Untuk menentukan puncak pohon keputusan, diambil tujuh atribut utama
yaitu umur, jenis kelamin, tekanan darah, kolesterol, gula darah, hasil
elektrokardiografi dan kondisi jantung. Kemudian data-data tersebut disusun
menjadi calon cabang (candidate split) terhadap seluruh variabel prediktor
secara lengkap dengan mencari nilai rata-rata dari variabel prediktor,
sehingga terbentuk daftar calon cabang mutakhir seperti pada tabel berikut
ini:
Tabel 4.10 Daftar Calon Mutakhir
Nama
Calon Calon Cabang Kiri Calon Cabang Kanan
Cabang
1 Umur ≤ 54 Umur > 54
2 Laki-laki Perempuan
3 Tekanan darah ≤ 127 Tekanan darah > 127
4 Kolesterol ≤ 172 Kolesterol > 172
5 Gula darah > 120 Gula darah < 120
Hasil EKG = kelainan
6 Hasil EKG = normal gelombang dan hipertrofi
vertikal
Kondisi jantung = cacat
7 Kondisi jantung = normal
sementara dan cacat tetap

Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:

Universitas Sumatera Utara


49

calon cabang kiri t L


𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:

Tabel 4.11 Perhitungan 𝑷𝑳 dan 𝑷𝑹


No 𝑃𝐿 𝑃𝑅
1 0,450 0,550
2 0,630 0,370
3 0,510 0,490
4 0,590 0,410
5 0,420 0,580
6 0,240 0,760
7 0,720 0,280
Selanjutnya dengan menghitung 𝑃(𝑗|𝑡𝐿 ) dan 𝑃(𝑗|𝑡𝑅 ) untuk kemungkinan
terserang penyakit jantung dan tidak terserang penyakit jantung dengan
persamaan berikut:
j calon cabang kiri t L
𝑃(𝑗|𝑡𝐿 ) =
noktah keputusan t
j calon cabang kanan t R
𝑃(𝑗|𝑡𝑅 ) =
noktah keputusan t
Sehingga didapat perhitungan 𝑃(𝑗|𝑡𝐿 ) dan 𝑃(𝑗|𝑡𝑅 ) seperti pada tabel berikut:

Tabel 4.12 Perhitungan 𝑷(𝒋|𝒕𝑳 ) dan 𝑷(𝒋|𝒕𝑹 )


No Penyakit jantung 𝑃(𝑗|𝑡𝐿 ) 𝑃(𝑗|𝑡𝐿 )
Ya 0,640 0,491
1
Tidak 0,360 0,509
Ya 0,603 0,486
2
Tidak 0,397 0,514
Ya 0,569 0,551
3
Tidak 0,431 0,449

Universitas Sumatera Utara


50

Tabel 4.12 Perhitungan 𝑷(𝒋|𝒕𝑳 ) dan 𝑷(𝒋|𝒕𝑹 )


(Lanjutan)
Ya 0,610 0,488
4
Tidak 0,390 0,512
Ya 0,357 0,707
5
Tidak 0,643 0,293
Ya 0,103 0,747
6
Tidak 0,897 0,253
Ya 0,286 0,667
7
Tidak 0,714 0,333

Dari tabel di atas, kemudian barulah dihitung nilai kesesuaian (goodness)


untuk calon cabang Φ(𝑠|𝑡), dengan hasil perhitungan cabang pertama seperti pada
tabel berikut:
Φ(𝑠|𝑡) = 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡)
𝐽𝐾

𝑄(𝑠|𝑡) = ∑|𝑃(𝑗|𝑡𝐿 ) − 𝑃(𝑗|𝑡𝑅 )|


𝑗=1

dengan:
𝐽𝐾 : jumlah kategori
𝑡𝐿 : cabang kiri noktah keputusan t
𝑡𝑅 : cabang kanan noktah keputusan t

Tabel 4.13 Kesesuaian untuk Calon Cabang


No 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡) Φ(𝑠|𝑡)
1 0,495 -0,100 -0,050
2 0,466 0,260 0,121
3 0,500 0,020 0,010
4 0,484 0,180 0,087
5 0,487 -0,160 -0.078
6 0,365 -0,520 -0,190
7 0,403 0,440 0,177

Universitas Sumatera Utara


51

Hasil perhitungan kesesuaian (goodness) Φ(𝑠|𝑡) untuk calon cabang,


menunjukkan bahwa calon yang tertinggi nilai besarannya adalah nomor cabang 7
sebesar 0,177, yaitu cabang kiri kondisi jantung = normal dan cabang kanan
kondisi jantung = cacat sementara, cacat tetap, maka berarti calon cabang inilah
yang dipilih sebagai root node pada tahap ini. Karena cabang selanjutnya kondisi
jantung = normal dan kondisi jantung = cacat sementara, cacat tetap belum
memberikan satu noktah keputusan, yaitu dua-duanya masih memiliki anggota
dengan dua pilihan ya dan tidak, maka kedua cabang ini nantinya akan bercabang
lagi. Dari hasil kesesuaian diatas juga terlihat bahwa, atribut pertama yaitu kondisi
jantung yang lebih tinggi dibandingkan atribut lainnya. Cabang pertama dari hasil
perhitungan di atas, seperti ditunjukkan pada gambar berikut:

Gambar 4.1 Pohon Keputusan Cabang Pertama

4.3.2 Cabang Kedua pada Kondisi Jantung Cacat Sementara/Cacat Tetap


Untuk cabang kedua digunakan 72 data pengamatan, diambil enam atribut utama
yaitu umur, jenis kelamin, tekanan darah, kolesterol, gula darah dan hasil
elektrokardiografi. Kemudian data-data tersebut disusun menjadi calon cabang
(candidate split) terhadap seluruh variabel prediktor secara lengkap dengan
mencari nilai rata-rata dari variabel prediktor, sehingga terbentuk daftar calon
cabang mutakhir seperti pada tabel berikut ini:

Universitas Sumatera Utara


52

Tabel 4.14 Daftar Calon Mutakhir


Nama
Calon Calon Cabang Kiri Calon Cabang Kanan
Cabang
1 Umur ≤ 55 Umur > 55
2 Laki-laki Perempuan
3 Tekanan darah ≤ 127 Tekanan darah > 172
4 Kolesterol ≤ 176 Kolesterol > 176
5 Gula darah > 120 Gula darah < 120
Hasil EKG = kelainan
6 Hasil EKG = normal gelombang dan hipertrofi
vertikal
Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:

Tabel 4.15 Perhitungan 𝑷𝑳 dan 𝑷𝑹


No 𝑃𝐿 𝑃𝑅
1 0,514 0,486
2 0,583 0,347
3 0,528 0,472
4 0,611 0,389
5 0,375 0,625
6 0,319 0,681

Dari tabel di atas, kemudian barulah dihitung nilai kesesuaian (goodness)


untuk calon cabang Φ(𝑠|𝑡), dengan hasil perhitungan cabang kedua seperti pada
tabel berikut:

Universitas Sumatera Utara


53

Φ(𝑠|𝑡) = 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡)


𝐽𝐾

𝑄(𝑠|𝑡) = ∑|𝑃(𝑗|𝑡𝐿 ) − 𝑃(𝑗|𝑡𝑅 )|


𝑗=1

Tabel 4.16 Kesesuaian untuk Calon Cabang


No 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡) Φ(𝑠|𝑡)
1 0,500 0,028 0,014
2 0,405 0,236 0,096
3 0,498 0,056 0,028
4 0,753 0,222 0,106
5 0,469 -0,250 -0.117
6 0,435 -0,361 -0,157
Hasil perhitungan kesesuaian (goodness) Φ(𝑠|𝑡) untuk calon cabang,
menunjukkan bahwa calon yang tertinggi nilai besarannya adalah nomor cabang 4
sebesar 0,106, yaitu cabang kiri kolesterol ≤ 176 dan cabang kanan kolesterol >
176, maka berarti calon cabang inilah yang dipilih sebagai root node pada tahap
ini. Karena cabang selanjutnya kolesterol ≤ 176 dan kolesterol > 176 belum
memberikan satu noktah keputusan, yaitu dua-duanya masih memiliki anggota
dengan dua pilihan ya dan tidak, maka kedua cabang ini nantinya akan bercabang
lagi. Dari hasil kesesuaian diatas juga terlihat bahwa, atribut kedua yaitu
kolesterol yang lebih tinggi dibandingkan atribut lainnya. Cabang kedua dari hasil
perhitungan di atas, seperti ditunjukkan pada gambar berikut:

Universitas Sumatera Utara


54

Gambar 4.2 Pohon Keputusan Cabang Kedua pada Kondisi Jantung

4.3.3 Cabang Ketiga pada Kolesterol ≤ 𝟏𝟕𝟔


Untuk cabang ketiga digunakan 44 data pengamatan, diambil lima atribut utama
yaitu umur, jenis kelamin, tekanan darah, gula darah dan hasil elektrokardiografi.
Kemudian data-data tersebut disusun menjadi calon cabang (candidate split)
terhadap seluruh variabel prediktor secara lengkap dengan mencari nilai rata-rata
dari variabel prediktor, sehingga terbentuk daftar calon cabang mutakhir seperti
pada tabel berikut ini:

Tabel 4.17 Daftar Calon Mutakhir


Nama
Calon Calon Cabang Kiri Calon Cabang Kanan
Cabang
1 Umur ≤ 55 Umur > 55
2 Laki-laki Perempuan
3 Tekanan darah ≤ 124 Tekanan darah > 174
4 Gula darah > 120 Gula darah < 120
Hasil EKG = kelainan
5 Hasil EKG = normal gelombang dan hipertrofi
vertikal

Universitas Sumatera Utara


55

Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:

Tabel 4.18 Perhitungan 𝑷𝑳 dan 𝑷𝑹


No 𝑃𝐿 𝑃𝑅
1 0,477 0,523
2 0,591 0,409
3 0,545 0,455
4 0,364 0,636
5 0,341 0,659

Dari tabel di atas, kemudian barulah dihitung nilai kesesuaian (goodness)


untuk calon cabang Φ(𝑠|𝑡), dengan hasil perhitungan cabang ketiga seperti pada
tabel berikut:
Φ(𝑠|𝑡) = 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡)
𝐽𝐾

𝑄(𝑠|𝑡) = ∑|𝑃(𝑗|𝑡𝐿 ) − 𝑃(𝑗|𝑡𝑅 )|


𝑗=1

Tabel 4.19 Kesesuaian untuk Calon Cabang


No 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡) Φ(𝑠|𝑡)
1 0,499 -0,045 -0,023
2 0,483 0,182 0,088
3 0,496 0,091 0,045
4 0,463 -0,273 -0,126
5 0,449 -0,318 -0,134

Universitas Sumatera Utara


56

Hasil perhitungan kesesuaian (goodness) Φ(𝑠|𝑡) untuk calon cabang,


menunjukkan bahwa calon yang tertinggi nilai besarannya adalah nomor cabang 3
sebesar 0,088, yaitu cabang kiri tekanan darah ≤ 124 dan cabang kanan tekanan
darah > 124, maka berarti calon cabang inilah yang dipilih sebagai root node
pada tahap ini. Karena cabang selanjutnya tekanan darah ≤ 124 dan tekanan darah
> 124 belum memberikan satu noktah keputusan, yaitu dua-duanya masih
memiliki anggota dengan dua pilihan ya dan tidak, maka kedua cabang ini
nantinya akan bercabang lagi. Dari hasil kesesuaian diatas juga terlihat bahwa,
atribut ketiga yaitu tekanan darah yang lebih tinggi dibandingkan atribut lainnya.
Cabang ketiga dari hasil perhitungan di atas, seperti ditunjukkan pada gambar
berikut:

Gambar 4.3 Pohon Keputusan Cabang Ketiga

4.3.4 Cabang Keempat pada Tekanan Darah ≤ 𝟏𝟐𝟒


Untuk cabang keempat digunakan 24 data pengamatan, diambil empat atribut
utama yaitu umur, jenis kelamin, gula darah dan hasil elektrokardiografi.
Kemudian data-data tersebut disusun menjadi calon cabang (candidate split)
terhadap seluruh variabel prediktor secara lengkap dengan mencari nilai rata-rata
dari variabel prediktor, sehingga terbentuk daftar calon cabang mutakhir seperti
pada tabel berikut ini:

Universitas Sumatera Utara


57

Tabel 4.20 Daftar Calon Mutakhir


Nama
Calon Calon Cabang Kiri Calon Cabang Kanan
Cabang
1 Umur ≤ 56 Umur > 56
2 Laki-laki Perempuan
3 Gula darah > 120 Gula darah < 120
Hasil EKG = kelainan
4 Hasil EKG = normal gelombang dan hipertrofi
vertikal

Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:
Tabel 4.21 Perhitungan 𝑷𝑳 dan 𝑷𝑹
No 𝑃𝐿 𝑃𝑅
1 0,500 0,500
2 0,542 0,458
3 0,292 0,708
4 0,375 0,625

Dari tabel di atas, kemudian barulah dihitung nilai kesesuaian (goodness)


untuk calon cabang Φ(𝑠|𝑡), dengan hasil perhitungan cabang keempat seperti
pada tabel berikut:
Φ(𝑠|𝑡) = 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡)
𝐽𝐾

𝑄(𝑠|𝑡) = ∑|𝑃(𝑗|𝑡𝐿 ) − 𝑃(𝑗|𝑡𝑅 )|


𝑗=1

Universitas Sumatera Utara


58

Tabel 4.22 Kesesuaian untuk Calon Cabang


No 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡) Φ(𝑠|𝑡)
1 0,500 0 0
2 0,496 0,083 0,041
3 0,413 -0,417 -0,172
4 0,469 -0,250 -0,117

Hasil perhitungan kesesuaian (goodness) Φ(𝑠|𝑡) untuk calon cabang,


menunjukkan bahwa calon yang tertinggi nilai besarannya adalah nomor cabang 2
sebesar 0,041, yaitu cabang kiri jenis kelamin = laki-laki dan cabang kanan jenis
kelamin = perempuan, maka berarti calon cabang inilah yang dipilih sebagai root
node pada tahap ini. Karena cabang selanjutnya jenis kelamin = laki-laki dan jenis
kelamin = perempuan belum memberikan satu noktah keputusan, yaitu dua-
duanya masih memiliki anggota dengan dua pilihan ya dan tidak, maka kedua
cabang ini nantinya akan bercabang lagi. Dari hasil kesesuaian diatas juga terlihat
bahwa, atribut keempat yaitu jenis kelamin yang lebih tinggi dibandingkan atribut
lainnya. Cabang keempat dari hasil perhitungan di atas, seperti ditunjukkan pada
gambar berikut:

Gambar 4.4 Pohon Keputusan Cabang Keempat

Universitas Sumatera Utara


59

4.3.5 Cabang Keempat pada Tekanan Darah > 124


Untuk cabang pertama digunakan 72 data pengamatan 20 data, diambil empat
atribut utama yaitu umur, jenis kelamin, gula darah dan hasil elektrokardiografi.
Kemudian data-data tersebut disusun menjadi calon cabang (candidate split)
terhadap seluruh variabel prediktor secara lengkap dengan mencari nilai rata-rata
dari variabel prediktor, sehingga terbentuk daftar calon cabang mutakhir seperti
pada tabel berikut ini:

Tabel 4.23 Daftar Calon Mutakhir


Nama
Calon Calon Cabang Kiri Calon Cabang Kanan
Cabang
1 Umur ≤ 58 Umur > 58
2 Laki-laki Perempuan
3 Gula darah > 120 Gula darah < 120
Hasil EKG = kelainan
4 Hasil EKG = normal gelombang dan hipertrofi
vertikal

Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
𝑐𝑎𝑙𝑜𝑛 𝑐𝑎𝑏𝑎𝑛𝑔 𝑘𝑖𝑟𝑖 𝑡𝐿
𝑃𝐿 =
𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛
𝑐𝑎𝑙𝑜𝑛 𝑐𝑎𝑏𝑎𝑛𝑔 𝑘𝑎𝑛𝑎𝑛 𝑡𝑅
𝑃𝑅 =
𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:
Tabel 4.24 Perhitungan 𝑷𝑳 dan 𝑷𝑹
No 𝑃𝐿 𝑃𝑅
1 0,550 0,450
2 0,600 0,400
3 0,300 0,700
4 0,450 0,550

Universitas Sumatera Utara


60

Dari tabel di atas, kemudian barulah dihitung nilai kesesuaian (goodness)


untuk calon cabang Φ(𝑠|𝑡), dengan hasil perhitungan cabang keempat seperti
pada tabel berikut:
Φ(𝑠|𝑡) = 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡)
𝐽𝐾

𝑄(𝑠|𝑡) = ∑|𝑃(𝑗|𝑡𝐿 ) − 𝑃(𝑗|𝑡𝑅 )|


𝑗=1

Tabel 4.25 Kesesuaian untuk Calon Cabang


No 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡) Φ(𝑠|𝑡)
1 0,495 0,100 0,049
2 0,480 0,200 0,096
3 0,420 -0,400 -0,168
4 0,495 -0,100 -0,049
Hasil perhitungan kesesuaian (goodness) Φ(𝑠|𝑡) untuk calon cabang,
menunjukkan bahwa calon yang tertinggi nilai besarannya adalah nomor cabang 2
sebesar 0,096, yaitu cabang kiri jenis kelamin = laki-laki dan cabang kanan jenis
kelamin = perempuan, maka berarti calon cabang inilah yang dipilih sebagai root
node pada tahap ini. Karena cabang selanjutnya jenis kelamin = laki-laki dan jenis
kelamin = perempuan belum memberikan satu noktah keputusan, yaitu dua-
duanya masih memiliki anggota dengan dua pilihan ya dan tidak, maka kedua
cabang ini nantinya akan bercabang lagi. Dari hasil kesesuaian diatas juga terlihat
bahwa, atribut kelima yaitu jenis kelamin yang lebih tinggi dibandingkan atribut
lainnya. Cabang kelima dari hasil perhitungan di atas, seperti ditunjukkan pada
gambar berikut:

Universitas Sumatera Utara


61

Gambar 4.5 Pohon Keputusan Cabang Keempat pada Tekanan Darah >124

4.3.6 Cabang Ketiga pada Kolesterol > 176


Untuk cabang ketiga digunakan 28 data pengamatan, diambil lima atribut utama
yaitu umur, jenis kelamin, tekanan darah, gula darah dan hasil elektrokardiografi.
Kemudian data-data tersebut disusun menjadi calon cabang (candidate split)
terhadap seluruh variabel prediktor secara lengkap dengan mencari nilai rata-rata
dari variabel prediktor, sehingga terbentuk daftar calon cabang mutakhir seperti
pada tabel berikut ini:
Tabel 4.26 Daftar Calon Mutakhir
Nama
Calon Calon Cabang Kiri Calon Cabang Kanan
Cabang
1 Umur ≤ 57 Umur > 57
2 Laki-laki Perempuan
3 Tekanan darah ≤ 127 Tekanan darah > 127
4 Gula darah > 120 Gula darah < 120
Hasil EKG = kelainan
5 Hasil EKG = normal gelombang dan hipertrofi
vertikal

Universitas Sumatera Utara


62

Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:

Tabel 4.27 Perhitungan 𝑷𝑳 dan 𝑷𝑹


No 𝑃𝐿 𝑃𝑅
1 0.536 0.464
2 0.464 0.536
3 0.571 0.429
4 0,286 0.714
5 0.429 0.571

Dari tabel di atas, kemudian barulah dihitung nilai kesesuaian (goodness)


untuk calon cabang Φ(𝑠|𝑡), dengan hasil perhitungan cabang ketiga seperti pada
tabel berikut:
Φ(𝑠|𝑡) = 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡)
𝐽𝐾

𝑄(𝑠|𝑡) = ∑|𝑃(𝑗|𝑡𝐿 ) − 𝑃(𝑗|𝑡𝑅 )|


𝑗=1

Tabel 4.28 Kesesuaian untuk Calon Cabang


No 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡) Φ(𝑠|𝑡)
1 0,497 0,071 0,036
2 0,497 0,071 -0,036
3 0,490 0,143 -0,070
4 0,408 -0,429 -0,145
5 0,490 -0,143 -0,070
Hasil perhitungan kesesuaian (goodness) Φ(𝑠|𝑡) untuk calon cabang,
menunjukkan bahwa calon yang tertinggi nilai besarannya adalah nomor cabang 1
sebesar 0,036, yaitu cabang kiri umur ≤ 57 dan cabang kanan umur > 57, maka

Universitas Sumatera Utara


63

berarti calon cabang inilah yang dipilih sebagai root node pada tahap ini. Karena
cabang selanjutnya tekanan umur ≤ 57 dan umur > 57 belum memberikan satu
noktah keputusan, yaitu dua-duanya masih memiliki anggota dengan dua pilihan
ya dan tidak, maka kedua cabang ini nantinya akan bercabang lagi. Dari hasil
kesesuaian diatas juga terlihat bahwa, atribut ketiga yaitu umur yang lebih tinggi
dibandingkan atribut lainnya. Cabang ketiga dari hasil perhitungan di atas, seperti
ditunjukkan pada gambar berikut:

Gambar 4.6 Pohon Keputusan Cabang Ketiga pada Kolesterol >176

4.3.7 Cabang Kedua pada Kondisi Jantung yang Normal


Untuk cabang kedua digunakan 28 data, diambil enam atribut utama yaitu umur,
jenis kelamin, tekanan darah, kolesterol, gula darah dan hasil elektrokardiografi.
Kemudian data-data tersebut disusun menjadi calon cabang (candidate split)
terhadap seluruh variabel prediktor secara lengkap dengan mencari nilai rata-rata
dari variabel prediktor, sehingga terbentuk daftar calon cabang mutakhir seperti
pada tabel berikut ini:

Universitas Sumatera Utara


64

Tabel 4.29 Daftar Calon Mutakhir


Nama
Calon Calon Cabang Kiri Calon Cabang Kanan
Cabang
1 Umur ≤ 57 Umur > 57
2 Laki-laki Perempuan
3 Tekanan darah ≤ 127 Tekanan darah > 127
4 Kolesterol ≤ 172 Kolesterol > 172
5 Gula darah > 120 Gula darah < 120
Hasil EKG = kelainan
6 Hasil EKG = normal gelombang dan hipertrofi
vertikal

Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:

Tabel 4.30 Perhitungan 𝑷𝑳 dan 𝑷𝑹


No 𝑃𝐿 𝑃𝑅
1 0,536 0,464
2 0,464 0,536
3 0,571 0,429
4 0,571 0,429
5 0,286 0,714
6 0,429 0,571
Dari tabel di atas, kemudian barulah dihitung nilai kesesuaian (goodness)
untuk calon cabang Φ(𝑠|𝑡), dengan hasil perhitungan cabang kedua seperti pada
tabel berikut:

Universitas Sumatera Utara


65

Φ(𝑠|𝑡) = 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡)


𝐽𝐾

𝑄(𝑠|𝑡) = ∑|𝑃(𝑗|𝑡𝐿 ) − 𝑃(𝑗|𝑡𝑅 )|


𝑗=1

Tabel 4.31 Kesesuaian untuk Calon Cabang


No 2𝑃𝐿 𝑃𝑅 𝑄(𝑠|𝑡) Φ(𝑠|𝑡)
1 0,497 0,071 0,036
2 0,497 -0,071 -0,036
3 0,490 0,143 -0,070
4 0,490 0,143 0,070
5 0,408 -0,429 -0.145
6 0,490 -0,143 -0,170

Hasil perhitungan kesesuaian (goodness) Φ(𝑠|𝑡) untuk calon cabang,


menunjukkan bahwa calon yang tertinggi nilai besarannya adalah nomor cabang 4
sebesar 0,070, yaitu cabang kiri kolesterol ≤ 172 dan cabang kanan kolesterol >
172, maka berarti calon cabang inilah yang dipilih sebagai root node pada tahap
ini. Karena cabang selanjutnya kolesterol ≤ 172 dan kolesterol > 172 belum
memberikan satu noktah keputusan, yaitu dua-duanya masih memiliki anggota
dengan dua pilihan ya dan tidak, maka kedua cabang ini nantinya akan bercabang
lagi. Dari hasil kesesuaian diatas juga terlihat bahwa, atribut kedua yaitu
kolesterol yang lebih tinggi dibandingkan atribut lainnya. Cabang kedua dari hasil
perhitungan di atas, seperti ditunjukkan pada gambar berikut:

Universitas Sumatera Utara


66

Gambar 4.7 Pohon Keputusan Cabang Kedua pada Kondisi Jantung yang Normal

Dari hasil klasifikasi di atas, dapat dilihat bahwa faktor yang


mempengaruhi seseorang menderita penyakit jantung adalah hasil kolesterol (𝑥4 ),
jenis kelamin (𝑥2 ), dan umur (𝑥1 ). Terdapat lima belas simpul yang terdiri dari
satu simpul induk, enam simpul dalam dan delapan simpul akhir.
Pada simpul kolesterol, jenis kelamin dan umur proses penyekatan
dihentikan sehingga menjadi enam simpul akhir. Dalam menduga respon simpul
akhir, dipilih peubah respon yang persentasinya terbesar. Simpul kolesterol untuk
respon dengan kategori kondisi jantung yaitu normal, sedangkan simpul jenis
kelamin dan umur untuk respon dengan kategori kondisi jantung yaitu cacat
sementara dan cacat tetap. Dapat dikatakan terdapat enam kelas dengan
pengelompokan sebagai berikut:
1. Kelas pertama
Kelas pertama merupakan pasien yang kondisi jantungnya normal dan tingkat
kolesterolnya ≤ 172. Pasien yang termasuk dalam kelas ini cenderung tidak
terserang penyakit jantung.

Universitas Sumatera Utara


67

2. Kelas kedua
Kelas kedua merupakan pasien yang kondisi jantungnya normal dan tingkat
kolesterolnya > 172. Pasien yang termasuk dalam kelas ini cenderung tidak
terserang penyakit jantung.
3. Kelas Ketiga
Kelas ketiga merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya ≤ 176 dan tekanan darahnya ≤
124. Pasien yang termasuk dalam kelas ini cenderung terserang penyakit
jantung.
4. Kelas Keempat
Kelas keempat merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya ≤ 176 dan tekanan darahnya >
124. Pasien yang termasuk dalam kelas ini cenderung terserang penyakit
jantung.
5. Kelas Kelima
Kelas kelima merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya > 176 dan umurya ≤ 57. Pasien
yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
6. Kelas Keenam
Kelas keenam merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya > 176 dan umurya > 57. Pasien
yang termasuk dalam kelas ini cenderung terserang penyakit jantung.

Universitas Sumatera Utara


68

4.4 Perbandingan Algoritma QUEST dengan Algoritma CART


Adapun perbandingan antara algoritma QUEST dan algoritma CART adalah
sebagai berikut:

Tabel 4.32 Perbandingan Hasil Klasifikasi Algoritma QUEST dengan


Algoritma CART
Algoritma QUEST Algoritma CART
Pembentukan pohon dengan Pembentukan pohon dengan
algoritma QUEST adalah biner algoritma CART adalah non biner
Algoritma QUEST menghasilkan Algoritma CART menghasilkan 3
2 variabel independen yang variabel independen yang
signifikan terhadap penyakit signifikan terhadap penyakit
jantung yaitu hasil EKG dan jantung yaitu kolesterol, jenis
kondisi jantung kelamin dan umur
Hasil klasifikasi algoritma Hasil klasifikasi algoritma CART
QUEST membagi pasien yang membagi pasien yang berobat di
berobat di Rumah Sakit Umum Rumah Sakit Umum Pusat Haji
Pusat Haji Adam Malik menjadi 3 Adam Malik menjadi 6 kelas. Kelas
kelas. kelas pertama dengan pertama dengan pasien yang
pasien yang hasil EKGnya kondisi jantungnya normal dan
normal, pasien yang termasuk tingkat kolesterolnya ≤ 172, pasien
dalam kelas ini cenderung tidak yang termasuk dalam kelas ini
terserang penyakit jantung. Kelas cenderung tidak terserang penyakit
kedua dengan pasien yang hasil jantung. Kelas kedua dengan pasien
EKGnya memiliki kelainan yang kondisi jantungnya normal
gelombang, hipertrofi vertikal dan dan tingkat kolesterolnya > 172,
kondisi jantungnya normal, pasien pasien yang termasuk dalam kelas
yang termasuk dalam kelas ini ini cenderung tidak terserang
cenderung terserang penyakit penyakit jantung. Kelas ketiga
jantung. Kelas ketiga dengan dengan pasien yang kondisi
pasien yang hasil EKGnya jantungnya cacat sementara/cacat
memiliki kelainan gelombang, tetap, tingkat kolesterolnya ≤ 176

Universitas Sumatera Utara


69

Tabel 4.32 Perbandingan Hasil Klasifikasi Algoritma QUEST dengan


Algoritma CART (Lanjutan)
hipertrofi vertikal dan kondisi dan tekanan darahnya ≤ 124, pasien
jantungnya cacat sementara dan yang termasuk dalam kelas ini
cacat tetap, pasien yang termasuk cenderung terserang penyakit
dalam kelas ini cenderung jantung. Kelas keempat dengan
terserang penyakit jantung. pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat
kolesterolnya ≤ 176 dan tekanan
darahnya > 124, pasien yang
termasuk dalam kelas ini cenderung
terserang penyakit jantung. Kelas
kelima dengan pasien yang kondisi
jantungnya cacat sementara/cacat
tetap, tingkat kolesterolnya > 176
dan umurya ≤ 57, pasien yang
termasuk dalam kelas ini cenderung
terserang penyakit jantung. Kelas
keenam dengan pasien yang kondisi
jantungnya cacat sementara/cacat
tetap, tingkat kolesterolnya > 176
dan umurya > 57, pasien yang
termasuk dalam kelas ini cenderung
terserang penyakit jantung.

Universitas Sumatera Utara


BAB 5

KESIMPULAN DAN SARAN

5.1 Kesimpulan
Klasifikasi adalah mengelompokkan atau mengatur secara sistematis sekaligus
memberi arti informasi yang berguna untuk menentukan/menetapkan kesesuaian
gagasan, peristiwa, barang dan orang. Klasifikasi memiliki tujuan untuk
mengklasifikasikan suatu data ke dalam kelompok kelas yang sudah ada. Tidak
akan ada pembentukan kelompok baru.
Metode klasifikasi berstruktur pohon merupakan metode statistika yang
digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelas-
kelas peubah respon kategorik, yang keanggotaannya diduga berdasarkan
pengukuran terhadap satu peubah bebas atau lebih. Metode ini menghasilkan
sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan
data secara rekursif (berulang) terhadap suatu himpunan data. Metode klasifikasi
berstruktur pohon yang membahas tentang pembentukan pohon biner adalah
algoritma QUEST dan algoritma CART.
1. Algoritma QUEST
QUEST (Quick, Unbiased, Efficient Statistical Trees) merupakan salah satu
metode yang digunakan untuk membentuk pohon klasifikasi. QUEST merupakan
algoritma pemisah yang menghasilkan pohon biner yang digunakan untuk
klasifikasi. Algoritma pembentukan pohon klasifikasi ini merupakan modifikasi
dari analisis diskriminan kuadratik. Pemilihan peubah penyekatan pada QUEST
menerapkan uji kebebasan chi-kuadrat untuk peubah kategorik dan uji F untuk
peubah numerik.
Metode ini dapat diterapkan pada bidang kesehatan. Salah satunya untuk
mengetahui klasifikasi seseorang menderita penyakit jantung berdasarkan faktor-
faktor yang mempengaruhinya. Dapat dikatakan terdapat tiga kelas dengan
pengelompokan sebagai berikut:

Universitas Sumatera Utara


71

1. Kelas pertama
Kelas pertama merupakan pasien yang hasil elektrokardiografinya normal.
Pasien yang termasuk dalam kelas ini cenderung tidak terserang penyakit
jantung.
2. Kelas kedua
Kelas kedua merupakan pasien yang hasil elektrokardiografinya memiliki
kelainan gelombang, hipertrofi vertikal dan kondisi jantungnya normal.
Pasien yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
3. Kelas Ketiga
Kelas ketiga merupakan pasien yang hasil elektrokardiografinya memiliki
kelainan gelombang, hipertrofi vertikal dan kondisi jantungnya cacat
sementara dan cacat tetap. Pasien yang termasuk dalam kelas ini cenderung
terserang penyakit jantung.

2. Algoritma CART
CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk
topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu.
CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik,
dan menghasilkan pohon regresi jika variabel responnya kontinu. Dapat dikatakan
terdapat enam kelas dengan pengelompokan sebagai berikut:
1. Kelas pertama
Kelas pertama merupakan pasien yang kondisi jantungnya normal dan tingkat
kolesterolnya ≤ 172. Pasien yang termasuk dalam kelas ini cenderung tidak
terserang penyakit jantung.
2. Kelas kedua
Kelas kedua merupakan pasien yang kondisi jantungnya normal dan tingkat
kolesterolnya > 172. Pasien yang termasuk dalam kelas ini cenderung tidak
terserang penyakit jantung.
3. Kelas Ketiga
Kelas ketiga merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya ≤ 176 dan tekanan darahnya ≤

Universitas Sumatera Utara


72

124. Pasien yang termasuk dalam kelas ini cenderung terserang penyakit
jantung.
4. Kelas Keempat
Kelas keempat merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya ≤ 176 dan tekanan darahnya >
124. Pasien yang termasuk dalam kelas ini cenderung terserang penyakit
jantung.
5. Kelas Kelima
Kelas kelima merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya > 176 dan umurya ≤ 57. Pasien
yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
6. Kelas Keenam
Kelas keenam merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya > 176 dan umurya > 57. Pasien
yang termasuk dalam kelas ini cenderung terserang penyakit jantung.

3. Perbandingan algoritma QUEST dengan Algoritma CART

Tabel 5.1 Perbandingan Hasil Klasifikasi Algoritma QUEST dengan


Algoritma CART
Algoritma QUEST Algoritma CART
Pembentukan pohon dengan Pembentukan pohon dengan
algoritma QUEST adalah biner algoritma CART adalah non biner
Algoritma QUEST menghasilkan Algoritma CART menghasilkan 3
2 variabel independen yang variabel independen yang
signifikan terhadap penyakit signifikan terhadap penyakit
jantung yaitu hasil EKG dan jantung yaitu kolesterol, jenis
kondisi jantung kelamin dan umur
Hasil klasifikasi algoritma Hasil klasifikasi algoritma CART
QUEST membagi pasien yang membagi pasien yang berobat di
berobat di Rumah Sakit Umum Rumah Sakit Umum Pusat Haji
Pusat Haji Adam Malik menjadi 3 Adam Malik menjadi 6 kelas. Kelas

Universitas Sumatera Utara


73

Tabel 4.33 Perbandingan Hasil Klasifikasi Algoritma QUEST dengan


Algoritma CART (Lanjutan)
kelas. kelas pertama dengan pertama dengan pasien yang kondisi
pasien yang hasil EKGnya jantungnya normal dan tingkat
normal, pasien yang termasuk kolesterolnya ≤ 172, pasien yang
dalam kelas ini cenderung tidak termasuk dalam kelas ini cenderung
terserang penyakit jantung. Kelas tidak terserang penyakit jantung.
kedua dengan pasien yang hasil Kelas kedua dengan pasien yang
EKGnya memiliki kelainan kondisi jantungnya normal dan
gelombang, hipertrofi vertikal dan tingkat kolesterolnya > 172, pasien
kondisi jantungnya normal, pasien yang termasuk dalam kelas ini
yang termasuk dalam kelas ini cenderung tidak terserang penyakit
cenderung terserang penyakit jantung. Kelas ketiga dengan pasien
jantung. Kelas ketiga dengan yang kondisi jantungnya cacat
pasien yang hasil EKGnya sementara/cacat tetap, tingkat
memiliki kelainan gelombang, kolesterolnya ≤ 176 dan tekanan
hipertrofi vertikal dan kondisi darahnya ≤ 124, pasien yang
jantungnya cacat sementara dan termasuk dalam kelas ini cenderung
cacat tetap, pasien yang termasuk terserang penyakit jantung. Kelas
dalam kelas ini cenderung keempat dengan pasien yang kondisi
terserang penyakit jantung. jantungnya cacat sementara/cacat
tetap, tingkat kolesterolnya ≤ 176
dan tekanan darahnya > 124, pasien
yang termasuk dalam kelas ini
cenderung terserang penyakit
jantung. Kelas kelima dengan pasien
yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat
kolesterolnya > 176 dan umurya ≤
57, pasien yang termasuk dalam
kelas ini cenderung terserang
penyakit jantung. Kelas keenam

Universitas Sumatera Utara


74

5.1 Perbandingan Hasil Klasifikasi Algoritma QUEST dengan Algoritma


CART (Lanjutan)
dengan pasien yang kondisi
jantungnya cacat sementara/cacat
tetap, tingkat kolesterolnya > 176
dan umurya > 57, pasien yang
termasuk dalam kelas ini cenderung
terserang penyakit jantung.

Algorima CART merupakan metode klasifikasi berstruktur pohon yang


diperkenalkan pada tahun 1988 oleh Breiman, et. al, sedangkan algoritma QUEST
merupakan metode klasifikasi berstruktur pohon yang diperkenalkan pada tahun
1997 oleh Loh dan Shih.
Pada penelitian ini ditarik kesimpulan bahwa metode klasifikasi
berstruktur pohon yang pembentukan pohonnya biner menggunakan algoritma
CART dan algoritma QUEST tidak selalu dapat dikatakan pembentukan
pohonnya bersifat biner. Kedua algoritma ini dikatakan biner tengantung pada
data yang digunakan.

5.2 Saran
Setelah membahas klasifikasi dengan algoritma QUEST dan algoritma CART,
saran yang dapat penulis sampaikan adalah sebagai berikut:
1. Hasil penelitian ini dapat dijadikan sebagai tambahan pengetahuan tentang
kesehatan terutama pada bagian jantung.
2. Bagi rumah sakit, penelitian ini dapat digunakan untuk mempermudah dalam
menentukan faktor-faktor yang menyebabkan terjadinya penyakit jantung.
3. Bagi penelitian selanjutnya, diharapkan menggunakan metode yang berbeda.

Universitas Sumatera Utara


DAFTAR PUSTAKA

Abdurrahman, M-R, Dwi, I, dan Alan, P. (2014). Pembentukan Pohon Klasifikasi


Biner dengan Algoritma QUEST (Quick, Unbiased, and Efficient Statistical
Tree) pada Data Pasien Liver. Jurnal Gaussian. 3: 731-739.

Breiman L., J.H. Friedman, R.A. Olshen & C.J. Stone. 1984. Classification and
Regression Tree. Chapman and Hall, New York.

Erika, Yasmin-F. 2007. Metode Klasifikasi Berstruktur Pohon dengan Algoritma


CRUISE, QUEST, dan CHAID. Forum Statistika dan Komputasi. 11: 20-
28.

Jiwadiana, G-A, Sukarsa, K-G, dan Srinadi, G-A. 2015. Klasifikasi Karakteristik
Kecelakaan Lalu Lintas di Kota Denpasar dengan Pendekatan
Classification and Regression Trees (CART). Jurnal Matematika. 4: 146-
151.

John, Wiley and Sons. 2011. Classification and Regression Trees. WIREs Data
Mining and Knownledge Discovery.1.

Kass, G. V. 1980. An Exploratory Technique for Investigating Large Quantities of


Categorical Data. Applied Statistics 29. 2:119–127.

Kim, H-J and Loh, W-L. 2001. Classification Trees with Unbiased Multiway
Splits. J. Amer. Statist. Assoc. 96: 598–604.

Loh, W-L., and Shih Y-S. 1997. Split Selection Methods for Classification Tress.
Statistica Sinica7: 815-840.

Mardiana. 2012. Penerapan Klasifikasi dengan Algoritma CART untuk Prediksi


Kuliah bagi Mahasiswa Baru. Seminar Nasional Aplikasi Teknologi
Informasi 2012. 1907-5022.

Maroco, et. al. 2011. Data Mining Methods in the Prediction of Dementia: A Real
Data Comparison of the Accuracy, Sensitivity and Specificity of Linear
Discriminant Analysis, Logistic Regression, Neural Networks, Support
Vector Machines, Classification Trees and Random Forests. BMC
Research. 4: 299.

Universitas Sumatera Utara


Rokach and Maimon. 2011. Data Miningand Knowledge Discovery Handbook.
Spring Street, New York.

Sprent, P. 1991. Metode Statistik Nonparametrik Terapan. UI-Press: Jakarta.

Susanto, S., dan Suryadi, D. 2010. Penghantar Data Mining. Penerbit Andi.

Universitas Sumatera Utara


Data-Data Pasien Penyakit Jantung di Rumah Sakit Umum Pusat Haji Adam Malik
Jenis Kelamin Penyakit Gula Darah Hasil EKG Kondisi Jantung
Tekanan
No Nama jantung Umur Kolesterol Kelainan Hipertrofi Cacat Cacat
Lk Pr Darah >120 <120 Normal Normal
(ya/tidak) Gelombang vertikal Sementara Tetap
Amirsyakif
1  Ya 60 164/65 254   
Arsalan
Tomi Putra
2  Tidak 46 121/76 226   
Sembiring
Siti Nuraini
3  Ya 43 178/109 179   
tolaubanua
Biduard
4  Ya 58 135/87 128   
Hutapea
Rapat
5  Ya 65 134/64 108   
Kacaribu
Bahari
6  Ya 57 99/62 118   
Ritonga
Asnah
7 Seniwaty  Tidak 65 131/77 203   
Sebayang
Deliana
8  Tidak 41 150/70 137   
Florida
Jendetlina
9  Tidak 68 100/70 146   
Tarigan
Glorida
10  Ya 60 150/80 194   
Manurung
Roslia
11  Tidak 56 110/70 218   
Marwati Laoli
Duma Flora
12  Tidak 69 177/85 200   
Silaban
Albina
13  Tidak 50 146/75 210   
Sembiring
14 Jaka Pringadi  Tidak 30 105/65 120   
15 Nemi  Ya 52 197   
Hasan Basri
16  Ya 69 118/82 257   
Buulolo
76

Universitas Sumatera Utara


Hasundungan
17  Tidak 55 117/70 118   
Simatupang
18 Sugianto  Tidak 62 98/75 210   
19 Tolen Sinuhaji  Tidak 55 103/61 191   
Rusmani
20  Tidak 62 150/80 253   
Hutasoid
Romasi
21  Tidak 44 111/86 253   
Manulang
Albina
22  Tidak 50 146/75 210   
Sembiring
Muhammad
23  Tidak 55 176/118 200   
Ridwan
24 Siti Riana  Tidak 54 136/78 225   
Sarasi
25  Ya 63 96,63 100   
Damanik
Tambar
26  Ya 68 100/70 100   
malem ginting
27 Nuraini  Ya 51 100/70 110   
28 Seri Anna  Tidak 62 100/110 100   
29 Hendrik  Ya 27 90/49 498   
Mutiara
30  Ya 51 150/110 498   
Sembiring
31 Rajin Pinem  Tidak 68 130/70 198   
32 Idrissyah  Ya 59 139/76 120   
33 Hasanul Arifin  Ya 27 100/70 100   
Nelson
34  Ya 58 120/79 287   
Sinuhaji
Sahalochristia
35  Ya 66 100/70 140   
n L. Tobing
36 Anton  Ya 30 148/59 200   
37 Rosmita  Tidak 49 130/71 130  
38 Morutua Pane  Ya 49 130/80 168   
40 Rena  Ya 62 110/80 160   
Tawar
41  Tidak 72 110/55 145   
Sembiring
42 Ayan Saragih  Tidak 49 87/58 266   
77

Universitas Sumatera Utara


Bisaro
43  Ya 54 120/90 180   
Singoringo
Suranta Eka
44  Tidak 44 126/78 170   
Putra
Pontas Butar
45  Tidak 55 110/70 160   
Butar
46 Naga Sakti  Tidak 45 130/80 153   
47 Mendar Sitepu  Ya 40 123/76 143   
48 Mariati  Ya 74 90/50 100   
49 Erlip Antonio  Ya 69 120/80 184   
50 Minarsyah  Tidak 69 148/65 192   
51 Annan Ginting  Ya 52 110/80 158   
52 Bahtiar  Tidak 55 124/78 188   
Syahhuddin
53  Tidak 58 140/80 155   
Ritonga
Syarifah
54  Ya 46 97/66 167   
Anwar
Halomoan
55  Tidak 57 108/68 117   
Tamba
Merdeka
56  Tidak 70 110/70 108   
Sembiring
Roberto
57  Ya 74 155/99 154   
Musalim
Dapot
58  Ya 39 145/100 150   
Tampubolon
Immanuel
59  Tidak 59 157/66 231   
Brahmana
60 Perwira barus  Ya 44 102/54 203   
61 Kasimin  Tidak 59 155/62 177   
Cristina
62  Tidak 73 170/44 200   
Ginting
Warinta
63  Ya 67 77/92 90   
nainggolan
Rahman
64  Ya 53 140/60 100   
tumanggor
65 Taufik delpian  Ya 26 150/90 150   
78

Universitas Sumatera Utara


Lises
66 panabahatan  Ya 44 124/69 130   
gultom
Ramses
67  Ya 55 133/85 120   
Sitanggang
Cut
68  Ya 68 140/90 153   
nursyamsiar
69 Syahrul Bahri  Ya 43 140/80 123   
Purnama
70  Ya 48 150/100 235   
Purba
71 Salbun Sirait  Ya 53 90/60 203   
Yohana
72  Ya 50 110/80 233   
Tarigan
Erlonses
73  Ya 51 107/73 160   
Storus
Nurma Br.
74  Tidak 68 157/87 169   
Simanulang
Kendal Y.
75  Ya 47 120/80 200   
Ompusunggu
76 Irbapin  Ya 54 213/116 250   
77 Hotma Uli  Ya 57 199/94 169   
Saut
78  Ya 53 130/80 160   
Mangaratua
Amar
79  Ya 43 135/80 150   
Hamdani
Agriva
80  Ya 18 127/74 130   
Sinanga
81 Muna Barus  Tidak 60 174/118 250   
Uning
82  Ya 58 120/70 182    
Hutabarat
83 Irfan Efendi  Tidak 16 100/70 172   
Tonny Oktora
84  Tidak 35 170/135 156   
Silaban
85 Nurcahaya  Ya 53 169/97 190   
Zoni
86  Ya 57 126/72 132   
Simatupang
79

Universitas Sumatera Utara


Sampe Ati
87  Tidak 63 130/63 145   
Sitepu
Zulkipli
88  Ya 61 136/84 132   
Hasibuan
89 Rosniaty  Ya 60 110/60 113   
Jason Brema
90  Tidak 7 100/70 109   
Sitepu
91 Suruhen Bukit  Tidak 70 140/70 180   
92 Diana Purba  Tidak 67 112/67 181   
Nuah P.
93  Ya 60 152/102 150   
Ginting
Maringan
94  Ya 63 97/55 100   
Tampubolon
Glorida
95  Tidak 64 110/70 154   
Manurung
96 Deliana  Tidak 41 114/51 137   
Kardiman
97  Tidak 49 130/80 146   
Saragih
98 Nurhayana  Tidak 44 127/85 204   
Farida
99  Ya 58 120/80 200   
Hannum
Nani
100  Ya 70 138/81 200   
Rosmaini

80

Universitas Sumatera Utara


KEMENTERIAN RISET, TEKNOLOGI DAN PENDIDIKAN TINGGI
UNIVERSITAS SUMATERA UTARA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
JalanBioteknologi No. 1 Kampus USU Padang Bulan, Medan - 20155
Telepon : (016) 8211050 Fax : (061) 8214290
laman :www.fmipa.usu.ac.id

Nomor : /UN5.2.1.8/SPB/2017 20 Mei 2017


Hal : Mohon Izin Pengambilan Data

Yth. Direktur
Rumah Sakit Umum Pusat H. Adam Malik
Medan

Dalam rangka penyusunan Tugas Akhir mahasiswa Departemen Matematika FMIPA USU
Medan, kami mengharapkan kesediaan Saudara memberikan kesempatan kepada mahasiswa
yang tersebut di bawah ini;

Nama : Nur Saunah Rangkuti


NIM : 130803016
Departemen : Matematika

untuk diizinkan mengambil data di Rumah Sakit Islam Malahayati Medan. Adapun judul
Penelitian “Metode Klasifikasi Berstruktur Pohon dengan Algoritma QUEST dan Algoritma
CART (Aplikasi pada Data Pasien Penyakit Jantung)”.

Atas perhatian dan kerjasamanya, kami ucapkan terimakasih.

An. Dekan
Wakil Dekan I

Dr. Nursahara Pasaribu, M.Sc


NIP. 196301231990032001

Tembusan:
1. Ketua Departemen Matematika

“Mutu hari ini menentukan mutu akan datang”

Universitas Sumatera Utara


Lampiran
1. SPSS untuk 100 Data
 Umur

 Jenis Kelamin

Universitas Sumatera Utara


 Tekanan Darah

 Kolesterol

 Gula Darah

Universitas Sumatera Utara


 Hasil Eletrokardiografi

 Kondisi Jantung

Universitas Sumatera Utara


2. SPSS untuk 71 Data
 Umur

 Jenis Kelamin

Universitas Sumatera Utara


 Tekanan Darah

 Kolesterol

 Gula Darah

Universitas Sumatera Utara


 Hasil Eletrokardiografi

 Kondisi Jantung

Universitas Sumatera Utara


3. SPSS untuk 29 Data
 Umur

 Jenis Kelamin

Universitas Sumatera Utara


 Tekanan Darah

 Kolesterol

 Gula Darah

Universitas Sumatera Utara


 Kondisi Jantung

Universitas Sumatera Utara

Anda mungkin juga menyukai