SKRIPSI
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
SKRIPSI
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Disetujui di
Medan, 2017
Komisi Pembimbing
Pembimbing 2, Pembimbing 1,
Disetujui Oleh
Departemen Matematika FMIPA USU
Ketua
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya sendiri. Kecuali beberapa
kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, 2017
ii
Puji Syukur penulis ucapkan kehadirat Allah Subhanahu wa Ta’ala, yang telah
melimpahkan rahmat dan karunia-Nya serta memberikan banyak kemudahan
sehingga penulis dapat menyelesaikan skripsi yang berjudul Metode Klasifikasi
Berstruktur Pohon dengan Algoritma QUEST dan Algoritma CART (Aplikasi
pada Data Pasien Penyakit Jantung). Shalawat dan salam penulis ucapkan kepada
Rasulullah Shallallahu ‘Alaihi wa Sallam, keluarga, para sahabat, dan orang-orang
yang mengikutinya.
Terima kasih penulis sampaikan kepada bapak Dr. Suyanto, M.Kom
selaku ketua Departemen Matematika dan terima kasih kepada ibu Dr. Elly
Rosmaini, M.Si selaku pembimbing 1 yang banyak berjasa kepada penulis dimana
beliau telah meluangkan waktu dan pikirannya, memberikan pengarahan, saran,
dan kritik terkait penulisan skripsi ini. Terima kasih kepada bapak Dr. Sutarman,
M.Sc selaku pembimbing 2, yang juga telah meluangkan waktu, pikiran, dan
saran untuk perbaikan skripsi ini.
Terima kasih sebesar-besarnya penulis sampaikan kepada kedua orang tua
atas do’a dan dukungannya kepada penulis baik secara moril ataupun materi,
kepada abang, kakak dan adik saya yang sudah meluangkan waktu dan pikirannya
untuk mendengarkan curahan hati penulis, memberikan nasihat, dan selalu
memotivasi penulis. Terima kasih kepada Bapak Direktur Rumah Umum Pusat
Haji Adam Malik Medan yang telah membantu penulis memberikan data yang
diperlukan dalam penulisan skripsi ini.
Terima kasih penulis sampaikan kepada bapak Dr. Pasukat Sembiring,
M.Si selaku penguji 1 dan bapak Drs. Henri Rani Sitepu, M.Si selaku penguji 2
yang telah meluangkan waktu, pikiran dan memberikan kritik maupun saran untuk
perbaikan skripsi ini dan sebagai pembelajaran bagi penulis.
Terima kasih penulis sampaikan kepada seluruh dosen Matematika USU
yang telah membagikan ilmu kepada penulis selama masa perkuliahan, Dekan dan
Wakil Dekan FMIPA USU, serta seluruh staf administrasi FMIPA USU.
Terima kasih juga penulis ucapkan kepada teman-teman yang telah
memberikan do’a dan motivasi kepada penulis dalam mengerjakan skripsi.
Semoga Tuhan memberikan balasan kebaikan atas segala bantuan yang telah
semua berikan kepada penulis.
iii
ABSTRAK
iv
ABSTRACT
Halaman
PERSETUJUAN i
PERNYATAAN ii
PENGHARGAAN iii
ABSTRAK iv
ABSTRACT v
DAFTAR ISI vi
DAFTAR TABEL viii
DAFTAR GAMBAR x
DAFTAR LAMPIRAN xi
BAB 1 PENDAHULUAN
1.1 Latar Belakang 1
1.2 Rumusan Masalah 3
1.3 Batasan Masalah 4
1.4 Tujuan Penelitian 4
1.5 Manfaat Penelitian 4
1.6 Metodologi Penelitian 5
1.7 Kerangka Penelitian 6
vi
DAFTAR PUSTAKA 75
vii
viii
ix
xi
ABSTRAK
iv
ABSTRACT
PENDAHULUAN
banyak. Struktur data dapat dilihat secara visual dan algoritma pohon klasifikasi
juga memberikan kemudahan dalam menginterpretasikan hasil.
Menurut Kim dan Loh (2001), algoritma pohon klasifikasi dibagi menjadi
dua kelompok, yaitu yang menghasilkan pohon biner (misalnya CART dan
QUEST) dan yang menghasilkan pohon non-biner (seperti CHAID dan CRUISE).
CART (Classification and Regression Trees) merupakan algoritma yang
diperkenalkan oleh Breiman, et. al (1984), sedangkan QUEST (Quick, Unbiased,
Efficient Statistical Trees) merupakan algoritma yang diperkenalkan oleh Loh dan
Shih(1997). CART dan QUEST merupakan contoh metode yang menghasilkan
pohon seperti ini. Kelompok kedua adalah kelompok yang menghasilkan pohon
non-biner, yaitu sebuah pohon yang setiap simpul disekat menjadi dua atau lebih
simpul yang terpisah. CHAID (Chi-squared Automatic Interaction Detector)
merupakan salah satu algoritma yang diperkenalkan oleh Kass (1980), sedangkan
CRUISE (Classification Rule Unbiased Interaction Selection and Estimasion)
merupakan algoritma yang diperkenalkan ole Kim dan Loh (2001). CHAID dan
CRUISE merupakan contoh metode klasifikasi yang menghasilkan pohon non-
biner.
Dalam pembentukan pohon klasifikasi, proses penyekatan terhadap suatu
simpul dapat bersifat biner dan non biner. Pada penyekatn biner, setiap simpul
hanya dapat disekat menjadi dua simpul baru, sedangkan pada penyekatan non
biner setiap simpul dapat menghasilkan lebih dari dua simpul baru.
Algoritma QUEST dan algoritma CART merupakan pendekatan regresi
non parametrik yang menghasilkan variabel tak bias dan memiliki dua simpul
kategori setiap penyekat. Kedua algoritma bertujuan untuk mendapatkan suatu
pengklasifikasian yang bersifat biner.
Penelitian yang menggunakan algoritma QUEST pernah dibahas oleh
Abdurrahman dkk (2014), yang membahas tentang Pembentukan Pohon
Klasifikasi Biner dengan Algoritma QUEST (Quick, Unbiased, and Efficient
Statistical Tree) pada Data Pasien Liver menunjukkan bahwa variabel yang
penting dalam mengklasifikasikan seseorang terkena penyakit liver atau tidak,
yaitu variabel 𝑥4 (DB), 𝑥5 (FA), 𝑥7 (SGOT), dan 𝑥2 (Umur) yang selanjutnya
variabel (hasil tes fungsi hati) tersebut dapat disebut sebagai ciri-ciri pasien liver.
Tingkat akurasi pohon klasifikasi dalam mengklasifikasikan data sebesar 73,4%.
Sedangkan algoritma CART pernah dibahas oleh Jiwadiana dkk (2015),
yang membahas tentang Klasifikasi Karakteristik Kecelakaan Lalu Lintas di Kota
Denpasar dengan Pendekatan Classification and regression Trees (CART)
menunjukkan bahwa CART optimum yang terbentuk menghasilkan tiga simpul
terminal pertama, terdiri dari 12 orang yang dikelompokkan sebagai karakteristik
kecelakaan lalu lintas berat dengan jenis laka tunggal, yang kedua terdiri dari 68
orang yang dikelompokkan sebagai karakteristik kecelakaan lalu lintas ringan
dengan jenis laka depan-belakang, untuk simpul ketiga terdiri dari 291 orang yang
dikelompokkan sebagai karakteristik kecelakaan lalu lintas sedang dan variabel
bebas yang menjadi pemilah utama dalam pembentukan CART adalah jenis laka
dengan indeks gini 0,03252.
Jantung adalah sebuah pemompa darah yang terdiri dari dua pompa yang
terpisah yakni jantung kanan yang memompa ke paru-paru dan jantung kiri yang
memompa darah ke organ-organ perifer. Penyakit jantung merujuk pada penyakit
menyerang jantung dan sistem pembuluh darah. Ada banyak penyebab penyakit
jantung, seperti pola hidup, kelainan bawaan sejak lahir,dan pola makan yang
tidak sehat. Oleh karena itu, dalam penelitian ini metode klasifikasi berstruktur
pohon dengan algoritma QUEST dan algoritma CART akan diaplikasikan pada
data pasien penyakit jantung yang berobat di Rumah Sakit Umum Pusat Haji
Adam Malik.
dan pada data berskala besar yang mempunyai variabel kategorik yang banyak.
Sehingga rumusan masalahnya dalam penelitian ini adalah sebagai berikut:
1. Bagaimana penerapan algoritma QUEST dan algoritma CART dalam
mengklasifikasi data pasien penyakit jantung dengan menggunakan faktor-
faktor yang mempengaruhi pasien menderita penyakit jantung.
2. Bagaimana hasil perbandingan klasifikasi antara algoritma QUEST dan
algoritma CART pada data pasien penyakit jantung.
Kemudian masuk ke
langkah-langkah
Algoritma QUEST
TINJAUAN PUSTAKA
Pada bab ini akan diuraikan konsep-konsep dasar yang berhubungan dengan
algoritma QUEST dan algoritma CART yaitu: skala pengukuran data, metode
klasifikasi berstruktur pohon, konsep-konsep dasar pada algoritma QUEST dan
algoritma CART, uji Chi-kuadrat, uji ANOVA F, uji Levene F, analisis
diskriminan kuadratik, algoritma QUEST dan algoritma CART.
3. Skala Interval
Skala interval memiliki semua karakteristik skala ordinal. Perbedaanya
dengan skala ordinal adalah bahwa skala ini mempunyai satuan skala. Antar
angka kategori memilikim jarak yang sama. Skala ini tidak mempunyai titik
nol yang sesungguhnya, yang artinya titik nol merupakan sesuatu yang
bermakna ada dengan nilai nol. Contoh skala interval adalah suhu (C).
4. Skala Rasio
Skala rasio sama dengan skala interval, tetapi skala rasio mempunyai titik nol
yang sesunguhnya, yang artinya titik nol merupakan nilai yang bermakna
tidak ada. Contoh skala rasio adalah berat badan, panjang, usia, lama waktu
dan sebagainya.
Data dengan skala nominal dan ordinal seringkali disebut sebagai data
kategorik sedangkan data dengan skala interval dan rasio biasa disebut data
numerik.
diketahui. Setiap himpunan data dinyatakan sebagai simpul dalam pohon yang
terbentuk.
Pohon klasifikasi dapat disajikan dalam gambar berikut:
Dalam pohon klasifikasi seperti pada Gambar 2.1, himpunan data dari awal
disebut simpul induk, dinotasikan sebagai 𝑡0 . Pada simpul 𝑡0 , dilakukan
penyekatan sehingga terbentuk simpul 𝑡1 dan 𝑡2 . Penyekatan dilakukan secara
berulang sampai diperoleh sebuah simpul yang tidak dapat disekat lagi, yang
disebut dengan simpul akhir. Simpul yang tidak termasuk pada simpul induk dan
simpul akhir disebut simpul dalam. Dapat dilihat bahwa 𝑡2 , 𝑡4 adalah simpul
dalam sedangkan 𝑡1 , 𝑡3 , 𝑡5 dan 𝑡6 adalah simpul akhir. Pada simpul akhir ini
dilakukan pendugaan respon.
Penyekatan terhadap sebuah simpul dilakukan berdasarkan nilai suatu
peubah bebas (titik penyekat). Peubah bebas yang digunakan untuk menyekat
sebuah simpul dinamakan sebagai peubah penyekat. Peubah penyekat dapat
berupa peubah kategorik maupun peubah kontinu. Pada Gambar 2.1 terlihat
bahwa simpul 𝑡0 disekat berdasarkan peubah 𝑥1 menjadi simpul 𝑡1 bila 𝑥1 < 1 dan
kategorik, data disajikan dalam tabel kontingensi dua arah seperti pada table
berikut.
Tabel 2.1 Kontingensi Dua Arah
Kategori
Kategori peubah kedua
peubah
pertama 1 2 ⋯ C Jumlah
1 𝑛11 𝑛12 ⋯ 𝑛1𝑐 𝑛1
2 𝑛21 𝑛22 ⋯ 𝑛2𝑐 𝑛2
⋮ ⋮ ⋮ ⋮ ⋮
R 𝑛𝑟1 𝑛𝑟2 ⋯ 𝑛𝑟𝑐 𝑛𝑟
Jumlah 𝑛1 𝑛2 ⋯ 𝑛.𝑐 n
Tabel disusun dari r baris dan c kolom masing- masing adalah banyaknya
kategori dari peubah kategorik pertama dan kedua. Isi sel pada baris-i (𝑖 =
1, 2, 3, . . . , 𝑟) dan kolom ke-j (𝑗 = 1, 2, 3, . . . , 𝑐) adalah banyaknya pengamatan
yang berasal dari kategori-i peubah pertama dan kategori-j peubah kedua, biasa
dinotasikan dengan 𝑛𝑖𝑗 . Isi sel ini disebut juga frekuensisel teramati yang biasa
ditulis dengan notasi 𝑂𝑖𝑗 , sehingga 𝑂𝑖𝑗 = 𝑛𝑖𝑗 .
Hipotesis awal (𝐻0 ) yang digunakan dalam uji ini adalah bahwa kedua
peubah saling bebas. Hipotesis alternatif (𝐻1 ) pada uji ini adalah bahwa kedua
peubah tidak saling bebas. Uji khi-kuadrat ini dilakukan dengan membandingkan
frekuensi teramati dengan frekuensi yang diharapkan jika 𝐻0 benar.
Hipotesis pada pengujian khi-kuadrat adalah:
𝐻0 : Kedua variabel saling bebas
𝐻1 : Kedua variabel tidak saling bebas
Sedangkan statistik ujinya adalah:
(𝑂𝑖𝑗 −𝐸𝑖𝑗 )2 𝑛𝑖 𝑛𝑗
𝑋 2 = ∑𝑟𝑖=1 ∑𝑐𝑗=1 dengan 𝐸𝑖𝑗 = (2.1)
𝐸𝑖𝑗 𝑛
dengan 𝐸𝑖𝑗 menyatakan nilai harapan pengamatan pada baris ke-𝑖 dan kolom ke-𝑗,
𝑛𝑖 menyatakan total banyaknya pengamatan pada baris ke-𝑖, 𝑛𝑗 menyatakan total
dengan:
2
𝑇𝑘. 𝑇..2
𝐽𝐾𝐾 = (∑𝐾
𝑘=1 − ) (2.2)
𝑛𝑘 𝑁
2 𝑛 𝑇..2 𝑇2 𝑇..2
𝐽𝐾𝐺 = (∑𝐾 𝑘
𝑘=1 ∑𝑖=1 𝑥𝑘𝑖 − 𝑁
) − (∑𝐾 𝑘.
𝑘=1 𝑛 − 𝑁
) (2.3)
𝑘
𝑖 = 1, 2, . . . , 𝑛𝑘 , 𝑘 = 1, 2, … , 𝐾.
𝑁 : jumlah seluruh data
𝐾 : jumlah kelompok
𝑛𝑘 : ukuran contoh kelompok ke-𝑘
𝑇𝑘. : jumlah pengamatan kelompok ke-k
𝑇.. : jumlah pengamatan data
𝑥𝑘𝑖 : pengamatan ke-i dari kelompok ke-k
dalam pengambilan keputusan, 𝐻0 ditolak pada taraf nyata 𝛼 jika nilai statistik uji
F hasil perhitungan lebih besar daripada nilai 𝐹𝛼,𝐾−1,𝑁−𝐾 .
Bila 𝑓𝑘 (𝑥) adalah fungsi kepekatan peluang bersama dari contoh acak
yang berasal dari kelompok ke-k (𝑘 = 1, 2, … , 𝐾). Jika contoh acak pada
kelompok tersebut menyebar menurut sebaran normal multivariat, maka
1 1
𝑓𝑘 (𝑥) = 𝑝 1 𝑒 [− 2 (𝑥 − 𝜇𝑘 )𝑡 ∑−1
𝑘 (𝑥 − 𝜇𝑘 )] (2.5)
(2𝜋)2 |∑ 𝑘|2
dengan:
𝜇𝑘 adalah vektor nilai tengah dari kelompok ke-k
∑ 𝑘 adalah matriks ragam peragam kelompok ke-k
𝑝 adalah banyaknya peubah.
Skor diskriminan kuadratik untuk sebuah pengamatan dengan nilai 𝑥 =
𝑥1 , 𝑥2 , … , 𝑥𝑝 terhadap kelompok ke-k dan 𝑝𝑘 menyatakan peluang awal dari
kelompok ke-k:
1 1
𝑑𝑘𝑄 (𝑥) = 2 𝑙𝑛|∑ 𝑘| − 2 (𝑥 − 𝜇𝑘 )𝑡 ∑−1
𝑘 (𝑥 − 𝜇𝑘 ) + 𝑙𝑛 𝑝𝑘 (2.6)
dengan:
𝑝𝑘 adalah peluang awal dari kelompok ke-k (𝑘 = 1, 2, … , 𝐾).
Bila individu yang berasal dari kelompok k dinyatakan sebagai kelompok 𝑎, maka
peluangnya dinotasikan menjadi 𝑝(𝑎|𝑘).
Kelompokkan 𝑥 ke-k jika
Skor kuadratik 𝑑𝑘𝑄 (𝑥) = max {𝑑1𝑄 (𝑥), 𝑑2𝑄 (𝑥), … , 𝑑𝐾𝑄 (𝑥)} (2.7)
Apabila 𝜇𝑘 dan ∑ 𝑘 tidak diketahui, maka harus dicari taksiran dari 𝜇𝑘 dan ∑ 𝑘
dengan memanfaatkan data sampel yang telah dikelompokkan dengan benar.
Taksiran dari skor diskriminan kuadratik menjadi:
1 1
𝑑̂𝑘𝑄 (𝑥) = − 2 𝑙𝑛|𝑆𝑘 | − 2 (𝑥 − 𝑥̅ 𝑘 )𝑡 𝑆𝑘−1 (𝑥 − 𝑥̅𝑘 ) + 𝑙𝑛 𝑝𝑘 (2.8)
Skor kuadratik 𝑑̂𝑘𝑄 (𝑥) = max {𝑑̂1 (𝑥), 𝑑̂2 (𝑥), … , 𝑑̂𝐾 (𝑥)}
𝑄 𝑄 𝑄
(2.9)
𝑎 = 𝑠 2 0 + 𝑠 21 (2.11)
𝑃(0|𝑡 )𝑠2
𝑐 = (𝑥̅0 𝑠 2 0 )2 − (𝑥̅0 𝑠 21 )2 + 2𝑠 2 0 𝑠 21 𝑙𝑛 {𝑃(1|𝑡)𝑠2 1 } (2.13)
0
𝑥̅ 0 −𝑥̅1 𝑃(0|𝑡 )
− (𝑥̅0 − 𝑥̅1 )−1 𝑠 2 0 ln {𝑃(1|𝑡)} , 𝑥̅0 ≠ 𝑥̅1
𝑑={ 2 (2.14)
𝑥̅0 , 𝑥̅0 = 𝑥̅1
Jika a≠ 0, maka
1
Jika 𝑏 2 − 4𝑎𝑐 < 0, maka 𝑑 = 2 (𝑥̅0 + _𝑥̅1 )
−𝑏±√𝑏 2 −4𝑎𝑐
Jika 𝑏 2 − 4𝑎𝑐 ≥ 0, maka d adalah akar dari yang lebih
2𝑎
∑𝑳𝒍=𝟏 𝒏𝒍 𝒗𝒍
̅(𝒌) =
𝒗 (2.16)
𝑵𝒕,𝒌
dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑓𝑙 : jumlah pengamatan pada simpul t untuk 𝑣1
𝑛𝑙 : jumlah pengamatan pada simpul t kelompok ke-k untuk 𝑣1
𝑁𝑡 : jumlah pengamatan pada simpul t
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
(𝒌)
∑𝑳𝒍=𝟏 𝒏𝒍 𝒗𝒍
̅
𝒗 =
𝑵𝒕,𝒌
𝑩 = ∑𝑲 ̅(𝒌) − 𝒗
𝑲=𝟏 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )′ (2.17)
𝑻 = ∑𝑳𝒍=𝟏 𝒇𝟏 (𝒗𝒍 − 𝒗 ̅ )′
̅)(𝒗𝒍 − 𝒗 (2.18)
besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui
prosedur pemilihan biner.
METODE PENELITIAN
3.1 Penelitian
3.1.1 Jenis Penelitian
Jenis penelitian ini adalah penelitian yang dilakukan dengan pengambilan data
langsung di Rumah Sakit Umum Pusat H. Adam Malik pada bagian penyakit
jantung.
teknik penentuan sampel dengan pertimbangan tertentu. Sampel yang dipilih dalam
penelitian ini adalah pasien Rumah Sakit Umum Pusat H. Adam Malik yang pernah
berkunjung ke bagian penyakit jantung yang menjadi objek dalam penelitian ini.
3. Mengumpulkan data dari pasien Rumah Sakit Umum Pusat H. Adam Malik
yang berobat dibagian penyakit jantung.
4. Membagi data menjadi dua bagian yaitu data numerik dan data kategorik.
5. Analisis data dengan mengunakan algoritma QUEST.
6. Analisis data denga mengunakan algoritma CART.
7. Bandingkan hasil kedua algoritma dan analisis.
Pada Bab ini akan diuraikan langkah-langkah pengolahan data dengan algoritma
QUEST dan algoritma CART yaitu: data peubah kategorik, data peubah numerik,
penyelesaian dengan algoritma QUEST, penyelesaian dengan algoritma CART
dan perbandingan antara algoritma QUEST dan algoritma CART.
4.1 Data
Berikut ini disajikan data yang diperoleh untuk mengkaji faktor-faktor yang
mempengaruhi seseorang menderita penyakit jantung. Peubah tak bebas 𝑌
merupakan peubah kategorik dengan dua kategori, yaitu 1 bila seseorang
menderita penyakit jantung dan 0 bila seseorang tidak menderita penyakit jantung.
Data ini diperoleh dari Rumah Sakit Umum Pusat H. Adam Malik, terdiri dari 7
peubah bebas dengan jumlah pengamatan 100.
a. Peubah numerik
- 𝑥1 merupakan umur pasien
- 𝑥3 merupakan tekanan darah pasien
- 𝑥4 merupakan kolesterol darah pasien
b. Peubah kategorik
- 𝑥2 merupakan jenis kelamin pasien dengan dua kategori, yaitu perempuan
dan laki-laki
- 𝑥5 merupakan gula darah puasa pasien dengan dua kategori, yaitu gula
darah > 120 mg dan gula darah < 120 mg
- 𝑥6 merupakan hasil elektrokardiografi pasien pada saat istirahat dengan
tiga kategori, yaitu normal, memiliki kelainan gelombang dan adanya
kemungkinan hipertrofi vertikal
- 𝑥7 merupakan kondisi jantung dengan 3 kategori, yaitu normal, cacat
tetap dan cacat sementara.
Untuk menentukan titik penyekat dari 100 data pengamatan, pertama dilakukan
uji Chi-kuadrat dan uji Anova F pada ketujuh variabel bebasnya. Untuk
menentukan nilai uji Chi-kuadrat pada data kategorik untuk variabel peubah 𝑥2
(jenis kelamin) adalah sebagai berikut:
Peubah 𝑥2 (jenis kelamin) terdiri dari dua kategori, yaitu perempuan bila 0
dan laki-laki bila 1. Tabel tabulasi silang antara 𝑥2 dan 𝑌 adalah sebagai berikut:
Frekuensi sel yang diharapkan dapat dicari dengan cara sebagai berikut:
𝑛1. 𝑛.1 63 ∙ 44
𝐸11 = ( )=( ) = 27,72
𝑛 100
𝑛1. 𝑛.2 63 ∙ 56
𝐸12 = ( )=( ) = 35,28
𝑛 100
𝑛2. 𝑛.1 37 ∙ 44
𝐸21 = ( )=( ) = 16,28
𝑛 100
𝑛2. 𝑛.2 37 ∙ 56
𝐸22 = ( )=( ) = 20,72
𝑛 100
Nilai statistika uji 𝑋 2 diperoleh sebagai berikut:
𝑟 𝑐
2
(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )2
𝑋 = ∑∑
𝐸𝑖𝑗
𝑖=1 𝑗=1
(𝑂𝑖𝑗 −𝐸𝑖𝑗 )2
= ∑2𝑖=1 ∑2𝑗=1 𝐸𝑖𝑗
= 0,519
dengan bantuan Minitab diperoleh nilai 𝑝 = 0,473.
Dengan melakukan cara yang sama maka diperoleh nilai chi-kuadrat untuk
variabel gula darah, hasil eletrokardiografi dan kondisi jantung dapat dilihat pada
Tabel 4.2. Selanjutnya untuk menentukan nilai uji Anova F pada data numerik
diperoleh nilainya seperti pada Tabel 4.2.
dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑓𝑙 : jumlah pengamatan pada simpul t untuk 𝑣1
𝑛𝑙 : jumlah pengamatan pada simpul t kelompok ke-k untuk 𝑣1
𝑁𝑡 : jumlah pengamatan pada simpul t
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
dengan menggunakan rumus di atas maka diperoleh nilai tengah untuk
variabel 𝑥6 (hasil eletrokardiografi) sebagai berikut:
1 0 0
29(0)+52(1)+19(0) 29⁄100
∑3𝑙=1 𝑓1 𝑣1 0 0 1
𝑣̅ = = = (52⁄100)
𝑁𝑡 100
19⁄100
∑3𝑙=1 𝑓1 𝑣1
𝑣̅ (𝑘) =
𝑁𝑘,𝑡
1 0 0
3(0)+42(1)+10(0) 3⁄56
(0) 0 0 1
𝑣̅ = = (42⁄56)
56
10⁄56
1 0 0
26(0)+10(1)+8(0) 26⁄44
(1) 0 0 1
𝑣̅ = = (10⁄44)
44
8⁄44
̅(𝒌) − 𝒗
𝑩 = ∑ 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )𝑻
𝑲=𝟏
dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
Untuk mengkalkulasikan nilai variabel 𝑥6 (hasil eletrokardiografi) dengan
menggunakan rumus di atas, maka diperoleh nilainya sebagai berikut:
1 0 0
29(0)+52(1)+19(0) 29⁄100
∑3𝑙=1 𝑓1 𝑣1 0 0 1
𝑣̅ = = = (52⁄100)
𝑁𝑡 100
19⁄100
∑3𝑙=1 𝑓1 𝑣1
𝑣̅ (𝑘) =
𝑁𝑘,𝑡
1 0 0
3(0)+42(1)+10(0) 3⁄56
(0) 0 0 1
𝑣̅ = 56
= (42⁄56)
10⁄56
1 0 0
26(0)+10(1)+8(0) 26⁄44
𝑣̅ (1) = 0
44
0 1
= (10⁄44)
8⁄44
𝑲
̅(𝒌) − 𝒗
𝑩 = ∑ 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )𝑻
𝑲=𝟏
′ 𝑇
= 56 (𝑣̅ (0) − 𝑣̅ )(𝑣̅ (0) − 𝑣̅ ) + 44(𝑣̅ (1) − 𝑣̅ )(𝑣̅ (1) − 𝑣̅ )
𝑇
3⁄56 29⁄100 3⁄56 29⁄100
= 56 ((42⁄56) − (52⁄100)) ((42⁄56) − (52⁄100)) + 44
10⁄56 19⁄100 10⁄56 19⁄100
𝑇
26⁄44 29⁄100 26⁄44 29⁄100
((10⁄44) − (52⁄100)) ((10⁄44) − (52⁄100))
8⁄44 19⁄100 8⁄44 19⁄100
−0,236
= 56 ( 0,230 ) (−0,236 0,230 −0,011)+
−0,011
0,280
44 (−0,293) (0,280 −0,293 −0,008)
−0,008
0,134 0,136 0,001
= (0,136 −0,033 −0,001)
0,001 −0,001 −0,000
𝑳
̅ )𝑻
̅)(𝒗𝒍 − 𝒗
𝑻 = ∑ 𝒇𝟏 (𝒗𝒍 − 𝒗
𝒍=𝟏
̅)𝑻 + 52(𝒗𝟐 − 𝒗
̅)(𝒗𝟏 − 𝒗
= 29(𝒗𝟏 − 𝒗 ̅)𝑻 + 19(𝒗𝟑 − 𝒗
̅)(𝒗𝟐 − 𝒗 ̅ )𝑻
̅)(𝒗𝟑 − 𝒗
𝑇
1 29⁄100 1 29⁄100
= 29((0) − (52 100)) ((0) − (52⁄100)) +
⁄
0 19⁄100 0 19⁄100
𝑇
0 29⁄100 0 29⁄100
52 ((1) − (52 100)) ((1) − (52⁄100)) +
⁄
0 19⁄100 0 19⁄100
𝑇
0 29⁄100 0 29⁄100
19 ((0) − (52 100)) ((0) − (52⁄100))
⁄
1 19⁄100 1 19⁄100
20,18 −15,16 −5,02
= (−15,02 24,92 −9,76)
2,52 −9,70 15,78
4. Lakukan SVD terhadap 𝐓 menjadi 𝐓 = 𝐐𝐃𝐐′
dengan :
Q adalah matriks orthogonal yang kolomnya merupakan vektor eigen dari
𝐓′𝐓
D = diag(𝑑1 , … , 𝑑𝐿 ) dengan 𝑑1 ≥ 𝑑2 ≥ ⋯ ≥ 𝑑𝐿 ≥ 0.
Diperoleh:
Dengan demikian diperoleh tabel tabulasi 𝑥6 yang baru seperti pada tabel 4.4
−1,912±1,857
= 1.704
−1,912 + 1,857
𝑑= = −0,032
1.704
−1,912−1,857
𝑑= = −2,212.
1.704
Dari dua akar persamaan ini, diambil akar yang paling mendekati 𝑥̅0 = 2,143
yaitu 𝑑 = −0,032. Disimpulkan bahwa 𝑥6 memotong di nilai 𝜉 = −6587,32.
Dengan demikian, simpul 𝑡0 disekat menjadi dua simpul, yaitu simpul 𝑡1 dengan
𝜉 ≤ −6587,32 dan simpul 𝑡2 dengan 𝜉 > −6587,32.
Dengan kata lain, simpul tersebut disekat menjadi dua simpul, yaitu
simpul 𝑡1 dengan 𝑥6 ∈ {0} dan simpul 𝑡2 dengan 𝑥6 ∈ {1,2}. Simpul 𝑡1 terdiri dari
29 pengamatan dari dua kategori, yaitu pasien berpenyakit jantung (26
pengamatan) dan pasien tidak berpenyakit jantung (3 pengamatan). Simpul 𝑡2
terdiri dari 71 pengamatan dari dua kategori, yaitu pasien berpenyakit jantung (53
pengamatan) dan pasien tidak berpenyakit jantung (18 pengamatan). Proses
penyekatan dilanjutkan karena simpul 𝑡1 dan 𝑡2 merupakan simpul dalam.
Dari hasil tabulasi diatas, terlihat bahwa nilai 𝑝 = 0,000 < 0,0071
ditemukan pada peubah bebas kategorik 𝑥2 dan 𝑥7 . Dari nilai statistik uji 𝑋 2
terbesar diketahui bahwa nilai 𝑝 terkecil adalah peubah bebas kategorik 𝑥7 . Oleh
karena itu, peubah tersebut dipilih sebagai peubah penyekat.
Peubah 𝑥7 adalah peubah kategorik dengan 3 kategori, sehingga untuk
mendapatkan titik penyekat, peubah ini ditransformasikan terlebih dahulu menjadi
peubah numerik. Langkah-langkah transformasi adalah sebagai berikut:
1. Transformasikan masing-masing nilai 𝑥7 ke vektor dummy 3 dimensi
𝒗 = (𝑣1 , 𝑣2 , 𝑣3 )
1 𝑥 = 𝑏𝑙
dengan 𝑣𝑙 = { , 𝑙 = 1,2,3
0 𝑥 ≠ 𝑏𝑙
Dengan demikian,
1
Jika 𝑥6 = 0 maka 𝑣1 = (0)
0
0
Jika 𝑥6 = 1 maka 𝑣2 = (1)
0
0
Jika 𝑥6 = 2 maka 𝑣3 = (0)
1
dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑓𝑙 : jumlah pengamatan pada simpul t untuk 𝑣1
𝑛𝑙 : jumlah pengamatan pada simpul t kelompok ke-k untuk 𝑣1
𝑁𝑡 : jumlah pengamatan pada simpul t
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
dengan menggunakan rumus di atas maka diperoleh nilai tengah untuk
variabel 𝑥7 (kondisi jantung) sebagai berikut:
1 0 0
3(0)+17(1)+9(0) 3⁄29
∑3𝑙=1 𝑓1 𝑣1 0 0 1
𝑣̅ = = = (17⁄29)
𝑁𝑡 29
9⁄29
(𝑘)
∑3𝑙=1 𝑓1 𝑣1
𝑣̅ =
𝑁𝑘,𝑡
1 0 0
3(0)+0(1)+0(0) 1
(0) 0 0 1
𝑣̅ = = (0 )
3
0
1 0 0
0(0)+17(1)+9(0) 0
(1) 0 0 1
𝑣̅ = = (17/26)
26
9/26
̅(𝒌) − 𝒗
𝑩 = ∑ 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )𝑻
𝑲=𝟏
dengan :
𝑣̅ : rata-rata untuk semua pengamatan pada simpul t
𝑣̅ (𝑘) : rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
𝑁𝑘,𝑡 : jumlah pengamatan pada simpul t untuk kelompok ke-k
untuk mengkalkulasikan nilai variabel 𝑥7 (kondisi jantung) dengan
menggunakan rumus di atas, maka diperoleh nilainya sebagai berikut:
1 0 0
3(0)+17(1)+9(0) 3⁄29
∑3𝑙=1 𝑓1 𝑣1 0 0 1
𝑣̅ = 𝑁𝑡
= = (17⁄29)
29
9⁄29
(𝑘)
∑3𝑙=1 𝑓1 𝑣1
𝑣̅ =
𝑁𝑘,𝑡
1 0 0
3(0)+0(1)+0(0) 1
(0) 0 0 1
𝑣̅ = = (0 )
3
0
1 0 0
0(0)+17(1)+9(0) 0
(1) 0 0 1
𝑣̅ = 26
= (17/26)
9/26
𝑲
̅(𝒌) − 𝒗
𝑩 = ∑ 𝑵𝒌,𝒕 (𝒗 ̅(𝒌) − 𝒗
̅)(𝒗 ̅ )𝑻
𝑲=𝟏
′ 𝑇
= 26 (𝑣̅ (0) − 𝑣̅ )(𝑣̅ (0) − 𝑣̅ ) + 3(𝑣̅ (1) − 𝑣̅ )(𝑣̅ (1) − 𝑣̅ )
𝑇
1 3⁄29 1 3⁄29
= 26 ((0) − (17⁄29)) ((0) − (17⁄29)) +
0 9⁄29 0 9⁄29
𝑇
0 3⁄29 0 3⁄29
3 ((17/26) − (17⁄29)) ((17/26) − (17⁄29))
9/26 9⁄29 9/26 9⁄29
0,897
= 26 (−0,586) (0,897 −0,586 −0,310)+
−0,310
−0,103
3 ( 0,068 ) (−0,103 0,068 0,036)
0,036
20,963 −13,697 0,087
= (−13,697 0,134 0,028)
−7,240 0,028 0,007
𝑳
̅ )𝑻
̅)(𝒗𝒍 − 𝒗
𝑻 = ∑ 𝒇𝟏 (𝒗𝒍 − 𝒗
𝒍=𝟏
̅)𝑻 + 17(𝒗𝟐 − 𝒗
̅)(𝒗𝟏 − 𝒗
= 3(𝒗𝟏 − 𝒗 ̅)𝑻 + 9(𝒗𝟑 − 𝒗
̅)(𝒗𝟐 − 𝒗 ̅ )𝑻
̅)(𝒗𝟑 − 𝒗
𝑇
1 3⁄29 1 3⁄29
= 3((0) − (17 29)) ((0) − (17⁄29)) +
⁄
0 9⁄29 0 9⁄29
𝑇
0 3⁄29 0 3⁄29
17 ((1) − (17 29)) ((1) − (17⁄29)) +
⁄
0 9⁄29 0 9⁄29
𝑇
0 3⁄29 0 3⁄29
9 ((0) − (17 29)) ((0) − (17⁄29))
⁄
1 9⁄29 1 9⁄29
2,690 −1,759 −0,931
= (−1,759 7,034 −5,276)
−0,931 −5,276 6,207
4. Lakukan SVD terhadap 𝐓 menjadi 𝐓 = 𝐐𝐃𝐐′
dengan :
Q adalah matriks orthogonal yang kolomnya merupakan vektor eigen dari
𝐓′𝐓
D = diag(𝑑1 , … , 𝑑𝐿 ) dengan 𝑑1 ≥ 𝑑2 ≥ ⋯ ≥ 𝑑𝐿 ≥ 0.
Diperoleh:
11,197 −12,193 0,997
𝐐 = (−4,367 80,407 −7,638)
0,997 −68,222 67,230
−357,120 0 0
𝑫=( 0 16,696 0 )
0 0 204,183
𝟏 0,053 0 0
−
5. Diperoleh matriks 𝐃 𝟐 =( 0 0,245 0 )
0 0 0,070
1 1
6. Lakukan SVD dari 𝐃−2 𝐐′ 𝐁𝐃𝐐−2 , tentukan vektor eigen 𝒂 yang merupakan
vektor eigen yang berpadanan dengan nilai eigen terbesar:
23,513
𝒂 = ( 363,270 ) , 𝒂′ = (23,513 363,270 36913,230)
36913,230
7. Diperoleh koordinat diskriminan terbesar dari 𝑣, yaitu:
𝟏
𝜉 = 𝐚′𝐃−𝟐 𝐐′𝐯
= (1504,937 −12585,2 167616,8)𝑣
dengan demikian diperoleh:
Untuk 𝑥7 = 0 maka
1
𝜉1 = (1504,937 −12585,2 167616,8) (0)
0
= 1504,937
Untuk 𝑥7 = 1 maka
0
𝜉2 = (1504,937 −12585,2 167616,8) (1)
0
= −12585,2
Untuk 𝑥7 = 2 maka
0
𝜉3 = (1504,937 −12585,2 167616,8) (0)
1
= 167616,8
Dengan demikian diperoleh tabel tabulasi 𝑥7 yang baru,
Tabel 4.7 Tabulasi 𝒙𝟕 Hasil Transformasi
𝜉
𝑌 −12585,2 1504,937 167616,8 Total
(𝑥6 = 0) (𝑥6 = 1) (𝑥6 = 2)
0 3 0 0 3
1 0 17 9 26
Total 3 17 9 29
Dari dua akar persamaan ini, diambil akar yang paling mendekati 𝑥̅0 = 1 yaitu
𝑑 = 1,453. Disimpulkan bahwa 𝑥7 memotong di nilai 𝜉 = −12585,2. Dengan
Dari hasil tabulasi di atas, dapat dilihat bahwa peubah bebas 𝑥7 memiliki
nilai 𝑝 terkecil, yaitu 0,000 < 0,0071. Oleh karena itu, peubah tersebut dipilih
menjadi peubah penyekat. Diperoleh hasil tabulasi 𝑥7 :
Dari tabel di atas, dapat dilihat bahwa peubah ini merupakan peubah
kategorik dengan dua kategori sehingga titik penyekat dapat diperoleh langsung.
Dengan demikian, simpul 𝑡2 disekat menjadi dua simpul, yaitu simpul 𝑡5 dengan
𝑥7 ∈ {0} dan simpul 𝑡6 dengan 𝑥7 ∈ {1,2}. Simpul 𝑡5 terdiri dari 13 pengamatan
dari dua kategori, yaitu pasien berpenyakit jantung (4 pengamatan) dan pasien
tidak berpenyakit jantung (9 pengamatan). Simpul 𝑡6 terdiri dari 58 pengamatan
dari dua kategori, yaitu pasien berpenyakit jantung (49 pengamatan) dan pasien
tidak berpenyakit jantung (9 pengamatan). Simpul 𝑡5 dan 𝑡6 memiliki banyak data
besar dari 10 dan kecil dari 20. Sehingga pada simpul 𝑡5 dan 𝑡6 penyekatan
diberhentikan.
Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
dengan:
𝐽𝐾 : jumlah kategori
𝑡𝐿 : cabang kiri noktah keputusan t
𝑡𝑅 : cabang kanan noktah keputusan t
Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:
Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:
Tabel 4.21 Perhitungan 𝑷𝑳 dan 𝑷𝑹
No 𝑃𝐿 𝑃𝑅
1 0,500 0,500
2 0,542 0,458
3 0,292 0,708
4 0,375 0,625
Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
𝑐𝑎𝑙𝑜𝑛 𝑐𝑎𝑏𝑎𝑛𝑔 𝑘𝑖𝑟𝑖 𝑡𝐿
𝑃𝐿 =
𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛
𝑐𝑎𝑙𝑜𝑛 𝑐𝑎𝑏𝑎𝑛𝑔 𝑘𝑎𝑛𝑎𝑛 𝑡𝑅
𝑃𝑅 =
𝑑𝑎𝑡𝑎 𝑙𝑎𝑡𝑖ℎ𝑎𝑛
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:
Tabel 4.24 Perhitungan 𝑷𝑳 dan 𝑷𝑹
No 𝑃𝐿 𝑃𝑅
1 0,550 0,450
2 0,600 0,400
3 0,300 0,700
4 0,450 0,550
Gambar 4.5 Pohon Keputusan Cabang Keempat pada Tekanan Darah >124
Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:
berarti calon cabang inilah yang dipilih sebagai root node pada tahap ini. Karena
cabang selanjutnya tekanan umur ≤ 57 dan umur > 57 belum memberikan satu
noktah keputusan, yaitu dua-duanya masih memiliki anggota dengan dua pilihan
ya dan tidak, maka kedua cabang ini nantinya akan bercabang lagi. Dari hasil
kesesuaian diatas juga terlihat bahwa, atribut ketiga yaitu umur yang lebih tinggi
dibandingkan atribut lainnya. Cabang ketiga dari hasil perhitungan di atas, seperti
ditunjukkan pada gambar berikut:
Kemudian dihitung nilai candidate split purity left 𝑃𝐿 dan purity right 𝑃𝑅
menggunakan persamaan berikut:
calon cabang kiri t L
𝑃𝐿 =
data latihan
calon cabang kanan t R
𝑃𝑅 =
data latihan
sehingga didapat nilai perhitungan 𝑃𝐿 dan 𝑃𝑅 seperti pada tabel berikut:
Gambar 4.7 Pohon Keputusan Cabang Kedua pada Kondisi Jantung yang Normal
2. Kelas kedua
Kelas kedua merupakan pasien yang kondisi jantungnya normal dan tingkat
kolesterolnya > 172. Pasien yang termasuk dalam kelas ini cenderung tidak
terserang penyakit jantung.
3. Kelas Ketiga
Kelas ketiga merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya ≤ 176 dan tekanan darahnya ≤
124. Pasien yang termasuk dalam kelas ini cenderung terserang penyakit
jantung.
4. Kelas Keempat
Kelas keempat merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya ≤ 176 dan tekanan darahnya >
124. Pasien yang termasuk dalam kelas ini cenderung terserang penyakit
jantung.
5. Kelas Kelima
Kelas kelima merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya > 176 dan umurya ≤ 57. Pasien
yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
6. Kelas Keenam
Kelas keenam merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya > 176 dan umurya > 57. Pasien
yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
5.1 Kesimpulan
Klasifikasi adalah mengelompokkan atau mengatur secara sistematis sekaligus
memberi arti informasi yang berguna untuk menentukan/menetapkan kesesuaian
gagasan, peristiwa, barang dan orang. Klasifikasi memiliki tujuan untuk
mengklasifikasikan suatu data ke dalam kelompok kelas yang sudah ada. Tidak
akan ada pembentukan kelompok baru.
Metode klasifikasi berstruktur pohon merupakan metode statistika yang
digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelas-
kelas peubah respon kategorik, yang keanggotaannya diduga berdasarkan
pengukuran terhadap satu peubah bebas atau lebih. Metode ini menghasilkan
sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan
data secara rekursif (berulang) terhadap suatu himpunan data. Metode klasifikasi
berstruktur pohon yang membahas tentang pembentukan pohon biner adalah
algoritma QUEST dan algoritma CART.
1. Algoritma QUEST
QUEST (Quick, Unbiased, Efficient Statistical Trees) merupakan salah satu
metode yang digunakan untuk membentuk pohon klasifikasi. QUEST merupakan
algoritma pemisah yang menghasilkan pohon biner yang digunakan untuk
klasifikasi. Algoritma pembentukan pohon klasifikasi ini merupakan modifikasi
dari analisis diskriminan kuadratik. Pemilihan peubah penyekatan pada QUEST
menerapkan uji kebebasan chi-kuadrat untuk peubah kategorik dan uji F untuk
peubah numerik.
Metode ini dapat diterapkan pada bidang kesehatan. Salah satunya untuk
mengetahui klasifikasi seseorang menderita penyakit jantung berdasarkan faktor-
faktor yang mempengaruhinya. Dapat dikatakan terdapat tiga kelas dengan
pengelompokan sebagai berikut:
1. Kelas pertama
Kelas pertama merupakan pasien yang hasil elektrokardiografinya normal.
Pasien yang termasuk dalam kelas ini cenderung tidak terserang penyakit
jantung.
2. Kelas kedua
Kelas kedua merupakan pasien yang hasil elektrokardiografinya memiliki
kelainan gelombang, hipertrofi vertikal dan kondisi jantungnya normal.
Pasien yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
3. Kelas Ketiga
Kelas ketiga merupakan pasien yang hasil elektrokardiografinya memiliki
kelainan gelombang, hipertrofi vertikal dan kondisi jantungnya cacat
sementara dan cacat tetap. Pasien yang termasuk dalam kelas ini cenderung
terserang penyakit jantung.
2. Algoritma CART
CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk
topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu.
CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik,
dan menghasilkan pohon regresi jika variabel responnya kontinu. Dapat dikatakan
terdapat enam kelas dengan pengelompokan sebagai berikut:
1. Kelas pertama
Kelas pertama merupakan pasien yang kondisi jantungnya normal dan tingkat
kolesterolnya ≤ 172. Pasien yang termasuk dalam kelas ini cenderung tidak
terserang penyakit jantung.
2. Kelas kedua
Kelas kedua merupakan pasien yang kondisi jantungnya normal dan tingkat
kolesterolnya > 172. Pasien yang termasuk dalam kelas ini cenderung tidak
terserang penyakit jantung.
3. Kelas Ketiga
Kelas ketiga merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya ≤ 176 dan tekanan darahnya ≤
124. Pasien yang termasuk dalam kelas ini cenderung terserang penyakit
jantung.
4. Kelas Keempat
Kelas keempat merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya ≤ 176 dan tekanan darahnya >
124. Pasien yang termasuk dalam kelas ini cenderung terserang penyakit
jantung.
5. Kelas Kelima
Kelas kelima merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya > 176 dan umurya ≤ 57. Pasien
yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
6. Kelas Keenam
Kelas keenam merupakan pasien yang kondisi jantungnya cacat
sementara/cacat tetap, tingkat kolesterolnya > 176 dan umurya > 57. Pasien
yang termasuk dalam kelas ini cenderung terserang penyakit jantung.
5.2 Saran
Setelah membahas klasifikasi dengan algoritma QUEST dan algoritma CART,
saran yang dapat penulis sampaikan adalah sebagai berikut:
1. Hasil penelitian ini dapat dijadikan sebagai tambahan pengetahuan tentang
kesehatan terutama pada bagian jantung.
2. Bagi rumah sakit, penelitian ini dapat digunakan untuk mempermudah dalam
menentukan faktor-faktor yang menyebabkan terjadinya penyakit jantung.
3. Bagi penelitian selanjutnya, diharapkan menggunakan metode yang berbeda.
Breiman L., J.H. Friedman, R.A. Olshen & C.J. Stone. 1984. Classification and
Regression Tree. Chapman and Hall, New York.
Jiwadiana, G-A, Sukarsa, K-G, dan Srinadi, G-A. 2015. Klasifikasi Karakteristik
Kecelakaan Lalu Lintas di Kota Denpasar dengan Pendekatan
Classification and Regression Trees (CART). Jurnal Matematika. 4: 146-
151.
John, Wiley and Sons. 2011. Classification and Regression Trees. WIREs Data
Mining and Knownledge Discovery.1.
Kim, H-J and Loh, W-L. 2001. Classification Trees with Unbiased Multiway
Splits. J. Amer. Statist. Assoc. 96: 598–604.
Loh, W-L., and Shih Y-S. 1997. Split Selection Methods for Classification Tress.
Statistica Sinica7: 815-840.
Maroco, et. al. 2011. Data Mining Methods in the Prediction of Dementia: A Real
Data Comparison of the Accuracy, Sensitivity and Specificity of Linear
Discriminant Analysis, Logistic Regression, Neural Networks, Support
Vector Machines, Classification Trees and Random Forests. BMC
Research. 4: 299.
Susanto, S., dan Suryadi, D. 2010. Penghantar Data Mining. Penerbit Andi.
80
Yth. Direktur
Rumah Sakit Umum Pusat H. Adam Malik
Medan
Dalam rangka penyusunan Tugas Akhir mahasiswa Departemen Matematika FMIPA USU
Medan, kami mengharapkan kesediaan Saudara memberikan kesempatan kepada mahasiswa
yang tersebut di bawah ini;
untuk diizinkan mengambil data di Rumah Sakit Islam Malahayati Medan. Adapun judul
Penelitian “Metode Klasifikasi Berstruktur Pohon dengan Algoritma QUEST dan Algoritma
CART (Aplikasi pada Data Pasien Penyakit Jantung)”.
An. Dekan
Wakil Dekan I
Tembusan:
1. Ketua Departemen Matematika
Jenis Kelamin
Kolesterol
Gula Darah
Kondisi Jantung
Jenis Kelamin
Kolesterol
Gula Darah
Kondisi Jantung
Jenis Kelamin
Kolesterol
Gula Darah