2020
Fadhillah, Cut
Universitas Sumatera Utara
http://repositori.usu.ac.id/handle/123456789/28189
Downloaded from Repositori Institusi USU, Univsersitas Sumatera Utara
KOMPARASI KINERJA PADA ALGORITMA DECISION TREE
DAN ANALISIS DISKRIMINAN
TESIS
CUT FADHILAH
187038041
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik
Informatika
CUT FADHILAH
187038041
PERSETUJUAN
Komisi Pebimbing :
Pembimbing II Pebimbing I
Diketahui/disetujui oleh
Program Studi Megister (S2) Teknik Informatika
Ketua,
PERYATAAN ORISINILITAS
TESIS
Saya yang mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dang ringkasan yang masing – masing telah disebutkan sumbernya.
KEPENTINGAN AKADEMIS
Sebagai civitas akademika Universitas Sumatera Utara, saya yang bertanda tangan
dibawah ini :
Beserta perangkat yang ada (jika diperlukan).Dengan Hak Bebas Royalti Non-Eksklusif
ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat,
mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa
meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan
sebagai pemegang dan/atau sebagai pemilik hak cipta.
RIWAYAT HIDUP
DATA PRIBADI
DATA PENDIDIKAN
Alhamdulillahirobbil’alamin, puji dan syukur penulis panjatkan kehadirat Tuhan Yang Maha
Esa, yang telah melimpahkan segala karunia, rahmat dan hidayah-Nya karena dengan seizin-
Nyalah penulis, dapat menyelesaikan penyusunan tesis ini dengan judul “Komparasi Kinerja
Pada Algoritma Decision Tree Dan Analisis Diskriminan Dalam Klasifikasi” dapat
diselesaikan dengan baik.
Tesis ini merupakan syarat untuk menyelesaikan studi pada jenjang magister (S2)
yang dalam penyusunannya tidak terlepas dari dukungan berbagai pihak, baik secara
moril maupun materil. Pada kesempatanini, saya menyampaikan rasa terima kasih
yang sebesar-besarnya kepada :
1. Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., selaku Rektor Universitas
Sumatera Utara Medan;
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, selaku Dekan Fakultas Ilmu
Komputer dan Teknologi Informasi Universitas Sumatera Utara Medan.
3. Bapak Prof. Dr. Muhammad Zarlis, M.Sc, selaku Ketua Program Studi S2 Teknik
Informatika, Fakultas Ilmu Komputer dan Teknologi Informasi Universitas
Sumatera Utara Medan.
4. Bapak Dr. Syahril Efendi, S.Si, M.IT, selaku Dosen Pembanding I yang telah
memberikan bimbingan dan arahan dalam penyelesaian tesis ini;
5. Bapak Prof. Dr. Muhammad Zarlis, M.Sc, sebagai Dosen Pembimbing II yang telah
memberikan bimbingan dan arahan dalam penyelesaian tesis ini;
6. Bapak Dr. Sutarman, M.Sc, Dosen Pembanding/Penguji I yang telah
memberikan saran dan masukan untuk perbaikan dan penyelesaian tesis ini;
7. Bapak Dr. Zakarias Situmorang, sebagai Dosen Pembanding/Penguji II yang
telah memberikan saran dan masukan untuk perbaikan dan penyelesaian tesis ini
8. Orangtua laki-laki penulis Teuku Zakaria Yusuf, orang tua perempuan penulis
Roslaini Ali, kakak laki-laki penulis Teuku Azhari, Teuku Syahrial, Teuku Dahrul
Azmi, Teuku Furqan, Teuku M.Ridha dan kakak perempuan penulis Cut
Rosmizajuga Cut Qamariah atas dukungan dan doanya untuk kelancaran dalam
menyelesaikan Tesis ini.
9. Teman seperjuangan Kartika Sari, Nunsina, Rosma Siregar, Ananda Mutya Dewi,
Abduurrahman Ridho, dan Aris Munandar yang terus memotivasi dalam
menyelesaikan tesis ini;
10. Teman-teman seangkatan di MTI-Kom-A-2018 yang telah bersama-sama
menempuh pendidikan pada Program Studi S2 Teknik Informatika Fakultas
Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Medan.
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini
dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan
penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca
pada umumnya. Sekali lagi penulis mengucapkan terima kasih, semoga Allah SWT
membalas kebaikan yang telah diberikan. Amin.
ABSTRAK
Penggunaan sistem berbasis komputer memegang peran terdepan saat ini sebagai teknik
analisa dalam mendiagnosis penyakit, termasuk untuk memprediksi gangguan autisme.
Untuk memprediksi ganguan tersebut bisa dilakukan dengan meganalisis kumpulan gejala
pada dataset. Klasifikasi merupakan salah satu teknik ideal yang terdapat pada data
mining. Tujuan dari teknik klasifikasi untuk memprediksi kelas atau target secara akurat
dengan menggunakan variabel-variabel terkait. Proses prediksi tersebut melibatkan
jumlah atribut dan records dari dataset. Dataset yang digunakan dalam penelitian ini
adalah dataset autism disorder yang diambil dari UCI repositori, data tersebut tidak perlu
melakukan dummy variable dikarenakan sudah berupa angka (biner). Adapun pada
penelitian ini menggunakan algoritmadecision tree dan analisis diskriminan sebagai
perhitungan dalam pembentukan klasifikasi, pembentukan tersebut diproses
menggunakan aplikasi SPSS.Tujuan dari penelitian ini adalah untuk mengklasifikasi jenis
gangguan autism sesuai gejala yang terjangkit pada anak.Adapun jenis gangguan yang
menjadi variable target adalah gangguan komunikasi dan gangguan prilaku.Sedangkan
variable bebas terdiri dari gejala-1, gejala-2, gejala-3, gejala-4, dan gejala-5.Hasil dari
penelitian ini menunjukkan bahwa metode decision tree dalam membentuk sebuah
klasifikasi sebesar 74.2% dan nilai sensitivitas sebesar 26.3%. Sedangkan persentase pada
analisis diskriminan sebesar 68.3%. Nilai tersebut menunjukkan bahwa decision tree
lebih mampu dalam mengklasifikasi jenis target.
Kata kunci :Decision_Tree,Analisis_Diskriminan,Autism
ABSTRACT
The use of computer-based systems plays a leading role today as an analytical technique
in diagnosing diseases, including for predicting autism disorders. To predict this disorder
can be done by analyzing the set of symptoms in the dataset . Classification is one of the
ideal techniques found in data mining. The purpose of classification techniques is to
accurately predict the class or target by using related variables. The prediction process
involves the number of attributes and records from the dataset. The dataset used in this
study is an autism disorder dataset taken from the UCI repository, the data does not need
to do a dummy variable because it is already a number (binary). As for this study using
decision tree algorithms and discriminant analysis as calculations in forming
classifications, the formation is processed using the SPSS application. The purpose of this
study is to classify the types of autism disorders according to the symptoms that occur in
children. The types of disorders that are the target variable are communication disorders
and behavioral disorders. While the independent variable consists of symptoms-1,
symptoms-2, symptoms-3, symptoms-4, and symptoms-5. The results of this study
indicate that the decision tree method in forming a classification is 74.2% and the
sensitivity value is 26.3%. While the percentage in the discriminant analysis was 68.3%.
This value indicates that the decision tree is more capable in classifying target types.
DAFTAR ISI
Hal.
LEMBAR PERSETUJUAN ............................................................................................ ii
LEMBAR PERYATAAN ORISINILITAS .................................................................... iii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ............................................iv
LEMBAR PANITIA PEGUJI .......................................................................................... v
RIWAYAT HIDUP ........................................................................................................vi
UCAPAN TERIMA KASIH ..........................................................................................vii
ABSTRAK .................................................................................................................viiix
ABSTRACT ................................................................................................................... ix
DAFTAR ISI .................................................................................................................. xi
DAFTAR TABEL...............................................................................................................xi
DAFTAR GAMBAR.........................................................................................................xii
BAB 1 PENDAHULUAN ............................................................................................... 1
1.1 Latar Belakang…………………………………………………………………1
1.2 Rumusan Masalah .......................................................................................... 2
1.3 Batasan Masalah ............................................................................................. 3
1.4 Tujuan Penelitian ............................................................................................ 3
1.5 Manfaat Penelitian .......................................................................................... 3
1.6 Penelitian Terdahulu ....................................................................................... 3
BAB 2 TINJAUAN PUSTAKA.............................................................................................. 5
2.1 Data.. .............................................................................................................. 5
2.2 Data Mining ................................................................................................... 5
2.3.Klasifikasi ...................................................................................................... 6
2.4 Decision Tree ................................................................................................. 7
2.5 Algoritma C4.5 ............................................................................................... 9
2.6.Analisis Diskriminan .................................................................................... 10
2.7 Pengertian Autisme ...................................................................................... 12
TESIS
CUT FADHILAH
187038041
BAB 1
PENDAHULUAN
bervariasi, kelas atribut target harus diskrit (yusuf, 2007). Selanjutnya perhitungan
analisis diskriminan yang bermanfaat pada situasi di mana sampel total dapat dibagi
menjadi group-group berdasarkan karateristik variabel yang diketahui dari beberapa
kasus. Tujuan utama dari analisis diskriminan adalah untuk mengetahui perbedaan antar
group. Adapun penyelesaiannya menggunakan removal katagorik target. Meliputi dengan
proses pengujian korelasi variable yang diuji.
Demikian juga pada penelitian ini yang menyatakan bahwa persentase yang
dihasilkan oleh decision tree lebih tinggi dibandingkan metode analisis diskriminan. Dalam
mengetahui gejala anak apakah masuk katagori gangguan komunikasi atau gangguan
prilaku, sesuai variable target. Hal ini juga sangat diperlukan supaya para orangtua lebih
menyadari terhadap kondisi anak dan juga sebagai pengetahuan bagi para orangtua pula
agar mengetahui langkahapa yang harus diambil dengan mengenali gangguan yang diidap
oleh anak.
untuk mengoptimasi hasil. Dengan menggunakan aplikasi Riped Miner, hasil penelitian
ini menyatakan tingkat akurasi sebanyak 72%.
Kemudian pada penelitian (Budanis Dwi dan Fauzi Slamat, 2012) menjelaskan
bahwa klasifikasi pada Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan
Metode Decision Tree. Klasifikasi tersebut diperlukan untuk membreak out database
dengan ukuran besar supaya dapat ditentukan jadal kerja. Hasil keputusan dari decision
tree ini yakni bermanfaat untuk mengembangkan data, jugadapat menjangkau hubungan
tersiratdiantara sejumlah variabel masukan dengan variabel target.
Penelitian (Devi Yunita, 2017) membandingkan Algoritma K-Nearest Neighbor
Dan Decision Tree Untuk Penentuan Rrisiko Kredit Kepemilikan Mobil. Algoitma K-
nearest neighbor merupakan persiapan menemukan kedekatan antara kriteria kasus
modern dan kriteria kasus kuno berdasarkan kriteria terdekat, sedangkan decision Tree
strategy yang bisa menjadi metode. Penelitian ini menggunakan aplikasi Rapid Miner
untuk pengujiannya dan hasil perhitungannya K-Nearest Neighbor (K-NN) menghasilkan
hasil maksimal.
Penelitian (Sepria Herdyansyah, 2016) Menggunakan Metode Analisis
Diskriminan Kuadratik Dengan Expected Cost Of Misclassification (ECM) Minimum
dalam pengklasifikasian. Klasifikasi metode ini bergantung pada rasio fungsi kepekatan
peluang, rasio biaya kesalahan klasifikasi, dan rasio peluang prior. ECM dikatakan
minimum jika 𝑅1yang memuat 𝑥1,...,sedemikian sehingga fungsi dari integralnya bernilai
negatif.
Penelitian (Amir Hamzahan, et, al,. 2002) menggunakan metode Analisis
Diskriminan untuk mengklasifikasi objek dalam visi komputer. Adapun fungsi diskriminan
Fisher digunakan untuk memisahkan objek. Objek dari simulasi data dan analisis untuk klasifikasi
dua objek. Dari penelitian ini skrup dan baut dan tiga objek ,yaitu huruf T,O dan S dapat
ditunjukkan bahwa analisis diskriminan dapat mengklasifikasi objek lebih baik dari pada metode
pohon keputusan biner. Keunggulan tersebut ditunjukkan pada objek yang mengalami noise.
BAB 2
TINJAUAN PUSTAKA
Pada bab ini, dijelaskan mengenai kumpulan data yang terdiri dari dataset, dimana objek
data tersebut biasa disebut sebagai atribut. Terdapat jenis - jenis atribut yang disebutkan
dengan gejala. Ada beberapa faktor yang mempengaruhinya, jenis gejala yang beragam,
rentang usia yang berbeda-beda, dan kondisi anak yang cenderung tidak sama. Sebelum
dilakukan proses data yang banyak, dilakukan tahap pre-proccesing data untuk
menyokong teknik yang dipergunakan supaya berjalan sesuai dikehendaki. Serta
menghasilkan faktor kesalahan Root Mean Squared Error (RMSE) yang rendah. Salah
satu proses yang dilakukan dalam prapemrosesan data adalah normalisasi data. Proses
tersebut dilakukan menggunakan aplikasi SPSS (Statistical Package for the Social
Sciences) yang sudah terbukti effisien dalam kinerjanya. Dijelaskan pula perhitungan lain
yang bisa digunakan untuk membentuk sebuah hasil klasifikasi. Setelah itu pada bab ini,
dijelaskan mengenai pengertian klasifikasi dan metode metode yang diangkat untuk
memperoleh hasil pengelompokan dan juga agar terlihat perbedaanya masing-masing.
2.1. Data
Sebelum melakukan beberapa proses dalam penelitian, penulis perlu menyiapkan data,
lalu memahami data dengan baik. Adapun data yang diambil disini merupakan dataset.
Dataset tersebut terdiri dari beberapa atribut seperti yang dijelaskan pada bab selanjutnya.
Salah satu kegunaan dari data mining adalah memecahkan masalah dengan
menganalisis data, data yang terdapat dalam database. Dalam data mining termuat 5
komponen utama;
1. Mengonversikan data ke system dalam bentuk warehouse.
2. Mengemasi dan mengarap data ke multi-dimensi sistem database.
3. Mendapati izin akses analisis data bisnis maupun professional
4. Mengkaji data menggunakan software.
5. Menyugukan data dengan tampilan yang mudah dipahami seperti grafik, table,
atau gambar.
2.3. Klasifikasi
Metode yang ikut berperan penting dalam data mining yakni klasifikasi. Klasifikasi ialah
metode yang bersifat supervised yang bermakna telah diketahuinya kelas identifikasi dari
hasil akhir ataupun sudah ada input dan output. Fungsi dari klasifikasi itu sendiri
dipergunakan untuk memprediksi atau mengelompokkan suatu kelas dari suatu data
berdasakan atribut.Adapun discription dari setiap kelas data telah ditetapkan.Sebagai
tambahan, Analisis data yang mendeskripsikan bentuk ekstrak model bersumber dari data
yang penting itu dinamakan sebagai klasifikasi (Han, 2012).
Pendapat Han dalam terbitan bukunya yang berjudul Data Mining Concepts and
Techniques Third Edition, terdapat beberapa poin dalam proses klasifikasi:
1. Learning model : Pada tahap awal data training dianalisis dengan algoritma
klasifikasi, atribut kelasnya disimpulkan sebagai loan decision dan
classifier direpresentasikan sebagai bentuk peraturan klasifikasi
2. Klasifikasi : Fase ini yakni classifier yang sudah dirancang akan digunakan
untukmeneglompokkan data.
Decision Tree dinamakan pohon keputusan karena aturan yang terbentuk mirip dengan
bentuk pohon. Pohon terbentuk dari proses pemilahan rekursif biner pada suatu gugus
data sehingga nilai variabel respon pada setiap gugus data hasil pemilahan akan lebih
homogen. Pada pohon keputusan terdapat tiga jenis node, antara lain :
1. Akar
Merupakan node teratas, pada node ini tidak ada input dan dapat tidak mempunyai
output atau dapat mempunyai output lebih dari satu.
2. Internal node
Merupakan node percabangan, pada node ini hanya terdapat satu input dan
mempunyai output minimal dua.
3. Daun
Merupakan node akhir atau terminal node, pada node ini hanya terdapat satu input
dan tidak mempunyai output (simpul terminal).
Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan
aturan-aturan keputusan. Pohon keputusan merupakan himpunan aturan if — then, dimana
setiap path dalam pohon dihubungkan dengan sebuah aturan dimana premis terdiri atas
sekumpulan node yang ditemui dan kesimpulan dari aturan terdiri atas kelas yang
dihubungkan dengan daun dari path. Pembentukan pohon keputusan terdiri dari beberapa
tahap :
1. Konstruksi pohon diawali dengan pembentukan akar (terletak paling atas). Kemudian
data dibagi berdasarkan atribut-atribut yang cocok untuk dijadikan daun.
3. Pembentukan aturan keputusan yaitu membuat aturan keputusan dari pohon yang telah
dibentuk. Aturan tersebut dapat dalam bentuk if — then diturunkan dari pohon keputusan
dengan melakukan penelusuran dari akar sampai ke daun. Untuk setiap simpul dan
percabangannya akan diberikan di if, sedangkan nilai pada daun akan ditulis di then.
Setelah semua aturan dibuat maka aturan dapat disederhanakan atau digabung.
Keterangan:
S : Himpunan kasus
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
𝒀𝟏 = 𝑿𝟏 + 𝑿 𝟐 + 𝑿𝟑 + ⋯ + 𝑿𝒏
(metric) (non-metric) (2.3)
Fisher mengelompokkan suatu observasi berdasarkan nilai skor yang dihitung dari suatu
fungsi linier Y'λ=X dimana 'λmenyatakan vektor yang berisi koefisien-koefisien variabel
penjelas yang membentuk persamaan linier terhadap variabel respon,λ'...,,=, λ1, λ2,….λP
𝑋1 𝑘 ⋯ 𝑋1 𝑝𝑘
𝑋𝑘 [ ⋮ ⋱ ⋮ ] I = 1,2, … . . , n (2.4)
𝑋𝑛 1𝑘 ⋯ 𝑋𝑛 𝑝𝑘
Untuk menghitung nilai idiskriminan maka dengan beberapa ketentuan; X ijk menyatakan
observasi ke-i variabel ke-j pada kelompok ke-k.Kombinasi linier yang fantastis sesuai
dengan Fisher adalah yang dapat memaksimalkan rasio antara jarak kuadrat rata-rata Y
yang diterima dari x dari group 1 dan 2 dengan varian Y, atau dirumuskan sebagai
berikut:
𝑛1 𝜇1 𝛾+𝜇2 𝜇2 𝛾
𝑚 = (2.6)
𝑛1 +𝑛2
𝑛 +𝑛
𝐻𝑖𝑡 𝑅𝑎𝑡𝑖𝑜 = 𝑛00+𝑛11 𝑥 100% (2.7)
0 1
𝑝 𝑘 𝑓 𝑘( 𝑥 )
𝑝(𝑘 | 𝑥 ) = (2.8)
Ʃ𝑘 𝑝 𝑘 𝑓 𝑘 (𝑥)
2. Faktor genetika, hal ini terus diteliti. Pasalnya, dikarena cara hidup yang semakin
modern banyak manusia mengalami mutasi genetik dengan demikian perubahan
gen bisa terjadi (misalnya dengan mengkonsumsi makanan cepat saji, penggunaan
pengawet dalam kehidupan sehari-hari baik itu memasak atau lainnya dan juga
factor kebiasaan yang berubah).
BAB 3
METODOLOGI PENELITIAN
Pada bab ini akan menjejalkan langkah-langkah yang akan penulis capai dalam penelitian
“Komparasi Kinerja Pada Algoritma Decision Tree dan Analisis Diskriminan Dalam
Klasifikasi”. Adapun tahapan metodologi penelitian ini akandilakukan sebagai berikut
yakni, studi literatur, pengumpulan data, kerangka kerja, perangkat dan kebutuhan dalam
penelitian, dataset, dan pendukung lainnya.
2. Software
Digunakanuntuk proses mengolah data adalahsebagaiberikut:
a. Microsoft Office Windows7 Professional 64-Bit
b. Aplikasi versiIBM SPSS Statistics Base 22.0
SPSS (Statistical Package for the Social Sciences)
3.4.1. Dataset
Penelitian ini menggunakan dataset yang diambil dari UCI repository,data yang diunduh
merupakan data gangguan autisme.Adapun data tersebut dapat dilihat pada tabel 3.1 yang
telah dilampirkan dibawah.
'Middle
G.Komunikasi no Jordan
1 1 1 1 m Eastern '
'United
1 1 1 G.Perilaku 3 m Black no
States'
White-
0 0 1 G.Perilaku 1 m yes Egypt
European
White- 'United
1 0 1 G.Komunikasi 1 m no
European Kingdom'
'Middle
1 1 1 G.Perilaku 1 f no Bahrain
Eastern '
'Middle
1 1 1 G.Komunikasi 1 f no Bahrain
Eastern '
White- 'United
0 1 1 G.Perilaku 2 m no
European States'
Keterangan :
1. Atribut : Gejala-1, Gejala-2, Gejala-3, Gejala-4, Gejala-5, Gangguan Autisme,
Umur, Jenis Kelamin, Etnisitas, Autisme, Tempat Tinggal.
2. Variabel Dependent : Gangguan Autisme
3. Variabel Independent : Gejala-1, Gejala-2, Gejala-3, Gejala-4, Gejala-5
4. Keterangan atribut gejala pada dataset :
1. Gangguan autism
a. Gangguan Komunikasi
b. Gangguan Berperilaku
2. Gejala autism Pada Atribut Gejala_1 – Gejala_2
a. Gejala-1 : Tidak menengok ketika dipanggil
b. Gejala-2 : Mencium atau menjilat benda apa saja
entropy. Maka dengan formula entropy akan dilakukannya perhitungan manual untuk
memperoleh klasifikasi gangguan autism sesuai kriteria gejala yang diuji.
1 1 0 0 1 Gangguan Komunikasi
1 1 0 0 1 Gangguan Komunikasi
1 1 0 0 0 Gangguan Perilaku
0 1 0 0 1 Gangguan Perilaku
1 1 1 1 1 Gangguan Perilaku
0 0 1 0 1 Gangguan Perilaku
1 0 1 1 1 Gangguan Komunikasi
1 1 1 1 1 Gangguan Perilaku
1 1 1 1 1 Gangguan Komunikasi
0 0 1 1 1 Gangguan Perilaku
1 0 0 0 1 Gangguan Perilaku
0 1 0 0 1 Gangguan Komunikasi
0 1 1 1 1 Gangguan Komunikasi
1 0 0 0 0 Gangguan Perilaku
1 1 1 1 1 Gangguan Perilaku
1 1 1 1 1 Gangguan Perilaku
1 1 1 1 1 Gangguan Perilaku
0 0 0 0 0 Gangguan Komunikasi
1 0 1 1 1 Gangguan Perilaku
1 1 1 1 1 Gangguan Komunikasi
1 1 1 1 1 Gangguan Perilaku
0 0 1 1 0 Gangguan Perilaku
1 1 0 1 0 Gangguan Komunikasi
1 0 1 1 0 Gangguan Komunikasi
1 0 1 1 1 Gangguan Perilaku
0 0 1 1 1 Gangguan Perilaku
1 0 1 0 1 Gangguan Perilaku
1 1 1 1 1 Gangguan Perilaku
0 1 1 0 0 Gangguan Komunikasi
0 0 1 0 1 Gangguan Perilaku
1 1 1 1 1 Gangguan Komunikasi
0 0 1 0 0 Gangguan Perilaku
1 0 0 1 0 Gangguan Perilaku
1 0 0 0 1 Gangguan Perilaku
1 0 0 0 1 Gangguan Perilaku
0 1 0 0 0 Gangguan Perilaku
TOTAL
24 19 23 20 26
Keterangan Gejala1-5:
Tabel 3.2. menunjukkan dataset dengan gejala – gejala tertentu. Adapun jenis gejala yang
terkait seperti yang telah disebutkan sebelumnya.Pada tabel ini hanya mengadopsi angka
biner yang berarti 0 (ada gejala) dan 1 (tidak ada gejala).Untuk menentukan jenis angguan
autism maka kriteria yang diperlukan meliputi: gejala1 samapi gejala-5.Yang dimisalnya
sebagai atribut “ganguan autisme” degan jenis klasifikasi “Gangguan Komunikasi” atau
“Gangguan Prilaku”
13 13 23 23
Entropy (Total) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= 0.162000289
entropy gejala_2
3 14 3 14
Entropy(0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
8 10 8 10
Entropy(1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
Perhitungan gain :
Gain(Total, Gejala-2) = 0.162000289- 17 x 0.0195024 +
36
18 x 0.61168282
36
= 0.162000289 – 0.009209 + 0.30584141
= 0.458632699
entropy gejala_1
4 8 4 8
Entropy (0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
8 16 8 16
Entropy (1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.06688 * 0.1337911 - 0.06688 * 0.1337911
= 0.0178958
entropy gejala_3
5 8 5 8
Entropy (0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
8 16 8 16
Entropy (1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.11111 * 0.06688 - 0.11111 * 0.06688
= 0.0178958
36 36
= 0.167222179
entropy gejala_4
5 11 5 11
Entropy (0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= 0.02555034
9 13 9 13
Entropy (1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= 0.05435262
= 0.1838600724
entropy gejala_5
6 7 6 7
Entropy (0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= 0.019511574
8 18 8 18
Entropy (1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.11111 * 0.15051499 - 0.11111 * 0.15051499
= 0.03344774292
Gejala_1 0 4 8 0.0148620
0.16897289
1 8 16 0.0178958
Gejala_2 0 3 14 0.0195024
0.458632699
1 8 10 0.61168282
Gejala_3 0 5 8 0.01857776
0.1838600724
1 8 16 0.0178958
Gejala_4 0 5 11 0.02555034
1 9 13 0.05435262 0.1838600724
Gejala_5 0 6 7 0.019511574
0.115698528
1 9 18 0.03344774292
Hasil tabel 3.3 menunjukkan bahwa gejala-2 yakni (mencium atau menjilat benda apa
saja) merupakan nilai tertinggi seperti yang terlihat pada nilai gain, 0.458632699. Maka
gejala_2 memposisikan diri padanode pertama pada pohon keputusan. Setelah diperoleh
nilai gain tertinggi maka selanjutnya perhitungan tersebut diulang (repeat) menggunakan
cara yang sama untuk mendapatkan nilai entropy dan persamaan gain.
Dari pohon keputusan telah menjawab bagian dari klasifikasi yang menjadi variable
target yakni gangguan autism anak, diantaranya gangguan komunikasi dan gangguan
prilaku. Dengan pengujian sample sebanyak 36 anak yang diambil dari dataset. Maka
dari itu, hasil uji perhitungan yang dapat dilihat dari gambar berbentuk tabel yakni;
menghasilkan gangguan prilaku lebih dominan dengan persentase sebesar 66.7%
sedangkan gangguan komunikasi hanya mendapat persentase sebesar 33.12%.
Sedangkan jika dilihat dari cabang node yang telah dijabarkan maka akan terbentuk hasil
seperti ini. Nilai gain tertinggi diperoleh pada gejala-2 maka gejala tersebut menjadi akar
node. Selanjutnya dibelah menjadi 2 terminal yakni 0 dan 1 yang merupakan cabang
adanya gejala atau tidak. Seterusnya, jika dilihat pada tabel 3.4 maka bisa dilihat bahwa
hasil klasifikasi belum dapat ditentukan karenanya akan diproses lagi. Oleh karena itu
setiap cabangnya akan menghitung kembali nilai entropy dan gain. Begitu seterusnya
sampai nilai target diperoleh.
Rumusan masalah
Pada dataset yang diambil terdapat 5 gejala yang berbeda beda yaitu, : Gejala-1 :Tidak
menengok ketika dipanggil, Gejala-2 : Mencium atau menjilat benda apa saja ,Gejala-3 :
Kurangnya rasa empati, dan suka berteriak sendiri, Gejala-4 : Lambat berbicara, Gejala-5
: Suka melakukan hal yang sama berulang – ulang. Dengan variable target adalah jenis
gangguan autism : gangguan komunikasi dan gangguan prilaku.
Mengestimasi nilai koefisien
Tabel 3.5. Sampel Analisis Output SPSS
Gangguan
Gejala1 Gejala2 Gejala3 Gejala4 Gejala5 Dis_1 Dis1_1 Dis1_2 Dis2_2
Autisme
Keterangan Gejala1-5 :
0 : Tidak adanya gejala
1 : Adanya gejala
Keterangan katagori:
1. : Gangguan komunikasi
2. : Gangguan Prilaku
Adapun nilai Dis_1, Dis1_2, Dis1_2, Dis2_2 diperoleh dari hasil analisis menggunakan
aplikasi SPSS.Jika diperhatikan pada tabel Dis_1 yang merupakan group klasifikasi,
katagori target (1) lebih banyak muncul dibandingkan dengan katagori target (2).
1
Gejala1 -.649
Gejala2 1.989
Gejala3 -.731
Gejala4 .409
Gejala5 -.972
(Constant) .390
Dari tabel diatas dapat dibentuk perhitungan fungsi diskriminan manual. Adapun tabel
diatas dihasilkan dari output SPSS. Maka dapat dibentuk menjadi,
Classification Resultsa
Gangguan prilaku 14 10 24
Ungrouped cases 2 0 2
Dari total sample yang diuji, sebanyak 36 anak maka terbentuk kelompok sesuai jenis
gangguan hampir komplek.Hanya terdeteksi 2 anak yang tidak dapat diklasiikasikan
(error).
BAB 4
HASIL DAN PEMBAHASAN
4.1. Hasil
Pada bagian ini, penulis menyajikan hasil dan pembahasan penelitian mengenai prediksi
dalam pengklasifikasian yang dilakukan dengan membandingkan kinerja algoritma
Decision Tree dan Analisis Diskriminan terhadap gangguan autism pada anak dengan
jenis gangguan yakni gangguan komunikasi dan gangguan prilaku. Penulis mencoba
mengukur dari kriteria gejala yang ada maka akan terklasifikasi apakah tergolong
gangguan komunikasi atau prilaku. Adapun gejala yang diambil berdasarkan dataset yang
ada, data yang diperoleh dari repository machine learning. Hasil penelitian menyatakan
bahwa algoritma decision tree mampu mengklasifikasi jenis gangguan autisme dengan
persentase 74.2% .tingakat error sebesar 25.8%. Sedangkan hasil persentase metode
analisis diskriminan sebesar 68.2%. Selanjutnya penulisan akan memaparkan hasil dan
pembahasan dari “ Komparasi Kinerja Pada Algoritma Decision Tree dan Analisis
Diskriminan Dalam Klasifikasi”
Tabel 4.2 menjelaskan jumlah persentase gangguan pada setiap gejala yang diuji dalam
dataset. Untuk lebih jelasnya akan dipaparkan grafik untuk persentase masing-masing
gejala.
Gejala – gejala diatas mempresentasikan tingkat keterkaitan satu sama lain pada setiap
gangguan autism anak. Dari presentasi grafik tersebut tidak menutup kemungkinan
bahwa gejala-gejala yang diuji bisa terdiagnosis pada anak dengan kedua katagori
tersebut. Gangguan tertinggi ditunjukkan pada gejala-4, nilai persentasi mencapai
100%.Dengan demikian, gejala tersebut terjangkit disetiap anak yang mengalami autisme.
Disusul dengan gejala – 3 dengan nilai persentasi sebesar 83.0%, gejala – 2 menunjukkan
nilai sebesar 33.1%, gejala – 1 dengan nilai sebesar 10.7%, dan diakhiri dengan gejala –
5 dengan nilainya persentase sekitar 3.1%.
Tabel 4.3 menjelaskan hasil dari prediksi dalam klasifikasi jenis gangguan
autisme, yang menunjukkan bagian-bagian persentasenya terhadap gejala yang
diuji.Jumlah nilai persentase setiap umur masing-masing berbeda.
Classification Resultsa
Predicted Group Membership
Gangguan Gangguan
Gangguan autisme komunikasi prilaku Total
Original Count Gangguan komunikasi 47 51 98
Gangguan prilaku 70 124 187
Ungrouped cases 0 7 7
% Gangguan komunikasi 48.0 52.0 100.0
Gangguan prilaku 36.1 63.9 100.0
Ungrouped cases .0 100.0 100.0
a. 68.3% of original grouped cases correctly classified.
Group Statistics
Valid N (listwise)
Gangguan autisme Mean Std. Deviation Unweighted Weighted
Gangguan komunikasi gejala_1 .65 .478 98 98.000
gejala_2 .51 .502 98 98.000
gejala_3 .69 .463 98 98.000
gejala_4 .49 .502 98 98.000
gejala_5 .74 .438 98 98.000
Gangguan prilaku gejala_1 .62 .486 194 194.000
gejala_2 .55 .499 194 194.000
gejala_3 .77 .423 194 194.000
gejala_4 .58 .494 194 194.000
gejala_5 .74 .439 194 194.000
Total gejala_1 .63 .483 292 292.000
gejala_2 .53 .500 292 292.000
gejala_3 .74 .438 292 292.000
gejala_4 .55 .498 292 292.000
gejala_5 .74 .438 292 292.000
Output dari Group Statistics di atas memperlihatkan bahwa jumlah data sebanyak 292
dari 292 data sehingga validitas 100% tanpa adanya data yang hilang atau tidak
diproses.Jika di lihat dari pengelompokkan berdasarkan variabel dependen yakni
gangguan komunikasi dan gangguan prilaku semuanya dikelompokkan.Akan tetapi untuk
mengukur baik buruknya standart indicator pada nilai standar deviasi, standar deviasi
akan lebih baik jika dalam pengelompokan lebih rendah daripada pengelompokan total.
Jika diperhatikan gejala_2 dan gejala_4 masuk katagori tidak memenuhi syarat karena
memiliki nilai lebih tinggi dari jumlah total.
Pada kolom Unweighted dapat diketahui yang termasuk kategori gangguan
komunikasi sebanyak 98 anak dan kategori gangguan prilaku sebanyak 194 anak. Ikut
disertakan nilai mean dan signifikan dari masing – masing gejala yang diuji.
a. Uji Normalisasi
Motif dari pengujian adalah untuk menentukan distribusi reguler. Statistik yang apikialah
data yang memiliki pola distribusi reguler, yaitu statistik tidak mengarah kiri atau ke
kanan. Uji coba normalitas dilproses dengan bantuan tes Kolmogorov-Smirnov.
Pemeriksaan normalitas diproses pada setiap peubah menggunakan penilaian yang baik
bahwa jika secara individual setiap variabel memenuhi asumsi normalitas, maka variabel
tersebut dapat dianggap memenuhi asumsi normalitas.
b. Uji Homogenitas
Dalam analisis diskriminan, dikatakan asumsi adalah semua variabel harus berkaitan dan
sejenis.Adapun caramengenalnilai peubah bebas/terikat yang mungkin mempengaruhi
anggota grupialah dengan mengenakan uji statistik Wilk’s Lambda dan taraf signifikansi.
Sebelum itu akan ditampilakna hasil dari uji box’s M terlebih dahulu.
Tabel 4.5.Test Result Box’s M
Test Results
Box's M 17.389
F Approx. 1.134
df1 15
df2 158222.756
Sig. .318
Hasil uji box’s M memperlihatkan bahwa box’s M bernilai 17.389, nilai F sebesar 1.134
dan signifikansi pada 0.318.Probabilitas ini melebihi 0.05 maka dapat dinyatakan bahwa
matrice covariance tidak berbeda.Dapat dikatakan pula tidak cukup bukti untuk menolak
(Ho).Dengan demikian analisis diskriminan dapat dilakukan. Terlihat dari ambang selisih
log determinan yang cukup jauh, sehingga group covariance matrices relatif terpautjarak
tiap-tiap kelompok. Walaupun begitu analisis fungsi diskriminan tetap robust.
c. Uji Multikolineritas
pengaruh pada orang. Menguji hipotesis:individual. Hipotesis yang patut terpeenuhi yakni
tak terdapatketerkaitan antara kelima variabel (Independent) dimana tidak terjadi gejala
multikolinearitas jika nilai korelasi antar variabel independen berupa < 0.8. Namun jika
kelima gejala yang diambil mendapati keterkaitan yang erat, maka dapat
dinyatakansebagai multikolinieritas. Hipotesis pengujian:
H0: Adanya keterkaitan antar variabel (Independent)
H1: Tak ada keterkaitan antar variabel (Independent)
Hasil output SPSS yang ditunjukkan pada tabel 4.6, pengujian untuk setiap variabel bebas
yang ada. Seleksi dibuat dalam kisaran 0 hingga 1, jika mendekati 0 maka informasi
untuk setiap kelompok cenderung berbeda, sedangkan jika teknik kuantitas 1 maka
kisaran informasi keragaman data tinggi atau semakin kompleks.Outputpada tabel yang
disajikan, angka padaWilk’s Lambda berkisar antara 0.992 sampai 1.000. Dari kolom
signifikan dapat dilihat bahwa variabel gejala_5diatas 0.05 yang bermakna menjuruh
kearah yang sama. Bahkan nilai Wilk’s Lambda bisa dikatakan sempurna dikarnakan
cenderung mendekati angka 1.Dengan demikian terdapat korelasi antar variable bebas.
Selanjutnya, Tabel Eigenvalues digunakan untuk pengukur kerapatan hubungan
antara discriminant score dengan kategori gangguan komunikasi dan gangguan prilaku
yang ditunjukkan dengan nilai Canocical Correlation.Pada tabel diatas nilai canonical
correlation sebesar 0,121.Nilai tersebut mendekati 0 yang artinya terdapat keeratan
hubungan yang tidak cocok.
Tabel 4.7.Eigenvalues
Eigenvalues
Canonical
Function Eigenvalue % of Variance Cumulative % Correlation
a
1 .015 100.0 100.0 .121
Dikarenakan terdapat dua kelompok yang ingin dibentuk karenanya tabel Eigenvalues
hanya membentuk satu kolom saja. Dengan nilai Eigenvaluessebesar 0.015 dan nilai
canonical correlation sebesar 0.121.Untuk mengetahui nilai koefisien determinasi (r²)
maka perlu dipangkatkan nilai canonical correlation.Yaitu, 0.121² = 0.014. Angka ini
mengidentifikasi bahwa 14% rule dapat dijelaskan oleh model.
d. Uji Signifikasi
Tabel 4.8. Wilks' Lambda
Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 .985 4.232 5 .516
Pada tabel 4.8 menghasilkan nilai Wilks' Lambda sebesar 0.985 dengan fungsi
diskriminan. Nilai tersebut ditransormasikan ke angka bentuk chi-square menjadi 4.232
dengan derajat kebebasan (df) sebanyak 5 variabel. Dan memperoleh nilai sig.
0.516.Dengan demikian bahwa fungsi tersebut memiliki kemampuan untuk melakukan
analisis diskriminan.
Function
1
gejala_1 -.460
gejala_2 .151
gejala_3 .502
gejala_4 .710
gejala_5 -.098
Pada tabel 4.8 mengurutkan nilai perhitungan sesuai sample yang diuji menurut gejala
masing masing. Jika dilihat dari jumlah nilai pun cukup variatif.Akan tetapi pada tabel
selanjutnya yaitu tabel 4.9 menunjukkan hasil urutan yang berbeda, disini kelompok
gejala sudah diurutkan berdasrkan urutan dari nilai tertinggi ke nilai
terendah.Ditunjukkan bahwa gejala_1 dan gejala_2 merupakan nilai terendah.Sebaliknya
gejala yang memiliki nilai function yang tinggi memiliki kontribusi besar dalam
diskriminan.
f. Fungsi Diskriminan
Function
1
gejala_1 -.951
gejala_2 .301
gejala_3 1.149
gejala_4 1.429
gejala_5 -.224
(Constant) -1.034
Dari tabel diatas dapat kita bentuk fungsi dari diskriminan, adapaun nilai nya seperti yang
ditampilakan dari tabel diatas yaitu:
D = -1.034 + (-0.951)g1 + 0.301g2 + 1.149g3 + 1.429g4 – 0.224g5
= -1.034 + (-0.951)(1) + 0.301(1) + 1.149(0) + 1.429(0) – 0.224(1)
= -1.034 – 0.951 + 0.301 + 0 + 0 -0.224
= - 1.908
4.2. Pembahasan
4.2.1. Perbandingan Kinerja Analisis Decision Tree Dan Analisis diskriminan Dalam
Klasikasi
Pada permulaan proses , Dataset yang telah disediakan oleh penulis untuk pengujian ini
akan dipecahkan menjadi data training dan testing. Training set digunakan untuk
membangun tree yang memungkinkan penempatan suatu kelas ke dalam variabel target
dari record baru. Dalam perhitungan SPSS yang didalamnya terdapat unsur CART yang
berfungsi membangun binary tree dengan memecah record pada tiap node berdasarkan
fungsi variable input tunggal. Tugas pertama yang dijalankan adalah menentukan variable
independen yakni jenis gejala autism yang menjadi splitter terbaik. Splitter terbaik
maksudnya adalah yang dapat menyeleksi atau memperkecil ruang lingkup node tersebut
dalam mengklasifikasi gejala. Semakin sedikit jumlah record atau data yang diuji,
semakin kurang representative node tersebut. Akibatnya adalah model tree hanya dapat
memprediksi secara akurat untuk record yang berada pada training set, tetapi tidak dapat
memprediksi data pada record baru yang berasal dari luar training. Untuk mengurangi
overtraining, pemangkasan pohon atau pruning dapat dilakukan dan pruning
menghasilkan beberapa kandidat subtree. Subtree digunakan untuk memprediksi record
yang ada dalam data test sekaligus memberikan error terkecil terpilih sebagai model tree.
Cabang dari terminal ini akan dipecah menjadi beberapa subtree yang dapat dilihat pada
gambar 4.1. Langkah terakhir adalah mengevaluasi subtree terpilih (voting tertinggi)
dengan menerapkannya validation set. Nilai error yang diperoleh dari validation set
digunakan untuk memprediksi kegagalan kinerja metode. Dengan meminimalkan fungsi
kesalahan yang sesuai yang ditentukan sehubungan dengan kumpulan data yang dilatih
pada pengujian ini.
Sedangkan pada metode analisis diskriminan, adalah salah satu teknik statistik
yang bisa digunakan pada hubungan dependensi (hubungan antar variabel dimana sudah
bisa dibedakan mana variabel respon dan mana variabel penjelas). Pada metode ini ada
berapa asumsi yang harus terpenuhi seperti; Multivariate, tidak adanya multikolinearitas
antar variabel independen (antar atribut gejala yang diambil), Homogenitas Varians antar
kelompok, dan adanya perbedaan yang signifikan antara kelompok responden yang
Gambar 4.8. Perbandingan Hasil Persentase Dalam Klasifikasi Jenis Gejala Dari Kedua
Metode
Hasil pengelompokan dari kedua metode yang ditunjukkan melalui gambar 4.8 dengan
perolehan persentase 74.2% : 68.3% dalam mengklasifikasi jenis gejala. Dan memiliki
selisih nilai dari kedua metode sebesar 5.8%. Dengan demikian decision tree memperoleh
persentase sebesar 5.8% lebih tinggi dalam mengenali pola gejala autism.Walaupun pola
gejala yang diambil hampir serupa tetapi decision tree dapat mem-break out data tersebut
sehingga menghasilkan sebuah keputusan.
4.2.2. Hasil
Hasil analisis algoritma decision tree yang dimana menunjukkan keakuratan yang lebih
signifikan dibandingkan dengan metode analisis diskriminan. Dikarnakan decision tree
lebih mampu dalam meminimalisir error karena adanya validation set yang memprediksi
tingkatan missing data. Nilai error yang diperoleh dari validation set digunakan untuk
memprediksi kegagalan kinerja metode terkait. Dengan meminimalkan fungsi kesalahan
yang ditentukan sehubungan dengan kumpulan data yang dilatih pada pengujian ini.
Kemudian dibandingkan dengan mengevaluasi fungsi kesalahan menggunakan set
validasi independen atau dengan gejala-gejala yang diuji. Sedangkan analisis diskriminan
dalam penelitian ini mendapati kendala dalam mengenali variable yang hampir serupa.
Variabel yang dimaksud ialah gejala 1 dan lainnya yang cukup mendekati maknanya. Hal
ini dikarenakna dalam perhitungan metode ini hanya menerapkan prosedur memenuhi
asumsi antara atribut gejala autisme dan jenis target. Karenanya diskriminan hanya
mampu mendeteksi dengan persenatse lebih kecil.
Penelitian ini menghasilkan nilai persentase yang tergolong kecil untuk setiap
jenis gangguan, hal ini dikarenakan dataset yang diambil memiliki keterbatasan.
Penelitian yang dilakukan masih terdapat beberapa kekurangan diantaranya jumlah
training data dan atribut predictor. Hal ini berpengaruh pada kualitas pohon keputusan
dan analisis diskriminan yang dihasilkan. Adapun dataset yang diuji hanya mengandung
nilai biner (0-1). Selain itu, variable independent sebagai tolak ukur tergolong mirip.
Factor ini juga mempengaruhi kinerja metode yang diuji.
Proses pembentukan pohon decision tree tergolong unik. Dia akan mengurutkan
nilai tertinggi. Nilai tertinggi dilihat dari gejala yang paling banyak muncul dari sampel.
Setelahnya proses tersebut dieksekusi ulang untuk memperoleh nilai baru sampai final.
Terminal yang dihasilkan hanya terdiri dari dua arah hal ini dikarenakan nilai yang
diproses terdiri dari jumlah 0 dan 1. Terminal tersebut akan mengikuti aturan nilai dari
dataset itu sendiri, jika nilai dataset beragam maka akan menghasilkan cabang lebih
banyak lagi. Sedangkan pada proses analisis diskriminan, Dataset yang diambil harus
memenuhi ketentuan yang salah satunya yakni membentuk katagori. Nilai dependent
yang menjadi target harus berbentuk optional bukan nilai mutlak. Atribut target disini
berupa jenis gangguan. Gangguan prilaku disimpulkan sebagai katagori (1) sedangkan
gangguan komunikasi sebagai katagori (2). Hal ini diperlukan untuk mengetahui jenis
target yang akan dieksekusi sesuai ketentuan dari metedo tersebut. Diluar keterbatasan
nilai tersebut, kedua metode ini mampu mengkelompokkan dan menunjukkan jenis
gangguan autism yang ditargetkan oleh penulis dengan nilai akurasi yang sangat
memuaskan.
BAB 5
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Membandingkan kinerja algoritma Decision TreedanAnalisis Diskriminandalam proses
menentukan jenis gangguan autism anak dengan ketentuan target, gangguan komunikasi
dan gangguan prilaku. Kesimpulan yang diperoleh berdasarkan pada pengujian dua
metodedengan menggunakan aplikasi SPSS tersebutterbukti bahwa:
1. Proses klasifikasi menggunakan algoritma decision tree dan analisis diskriminan
dapat digunakan untuk mengolah data dalam jumlah yang besar.
2. Atribut gejala yang hampir serupa berpengaruh dalam memperoleh persentase dan
dari proses klasifikasi membuktikan bahwa algoritma decision tree memberikan
hasil yang baik pada proses pengujian, sehingga membuktikan bahwa algoritma
tersebut lebih fleksibel digunakan.
3. Proses perhitungan pada decision tree terdapat validation set untuk meminimalkan
fungsi kesalahan dalam pengklasifikasian sedangkan pada analisis diskriminan
tidak ada fungsi tersebut.
4. Dari jumlah data sebanyak 292 instance, dihasilkan tingkat kecocokan pada
algoritma decision tree sebanyak 72.4% dibandingkan model analisis diskriminan
sebesar 68.3%. Hasil penelitian menunjukkan bahwa gangguan prilaku lebih
sering terjangkit pada anak autisme dibandingkan gangguan komunikasi.
5.2 Saran
Untuk penelitian selanjutnya mengajukan perkembangan yang dilakukan didalam
penelitian ini berikut:
1. Pada penelitian ini penulis menggunakan dataset dengan atribut hanyaberupa
angka biner, disarankan untuk menggunakan data dengan nominal yang lebih
tinggi, dan berbobot
DAFTAR PUSTAKA
Achmad, B. D. M., Slamat, F., & ITATS, F. T. I. (2012).Klasifikasi data karyawan untuk
menentukan jadwal kerja menggunakan metode decision tree.Jurnal IPTEK,
16(1).
Budiman, Edwar. Edy, S., & Tri A. 2017. Pendeteksi Jenis Autis pada Anak Usia Dini
Menggunakan Metode Linear Discriminant Analysis (LDA). Jurnal
Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) :583-592
Gardenia, M., 2015.Sistem Pakar Deteksi Autisme Pada Anak Menggunakan Metode
Fuzzy Tsukamoto. Universitas Tanjungpura
Hermanto, Bambang. 2017, Analisis Kinerja Decision Tree C4.5 dalam PrediksiPotensi
Pelunasan Kredit Calon Debitur, JURNAL INOVTEK POLBENG - SERI
INFORMATIKA, VOL. 2, NO. 2 ,ISSN : 2527-9866
Han, J., Kamber, M.dan Pei, J., 2012. Data Mining: Concepts and Techniques, Third
Edition. Morgan Kaufmann Publishers.
Hamzahan, A., Santosa, G., & Widiarto, W. (2002). Klasifikasi Objek Dalam Visi
Komputer Dengan Analisis Diskriminan. Makara Journal of Technology, 6(1),
146732.
Johnson, R.A. dan D.W. Wichern. 2007. Applied Multivariate Statistical Analysis, 6th
Edition.United States of America: Prentice Hall.
Lubis, M.U., 2009. Penyesuaian Diri orang tua yang memiliki anak autis. Universitas
Sumatera Utara.
Fitriani, Ratika, and Yelfi Vitriani."The Comparison of Linear Regression Method and K-
Nearest Neighbors in Scholarship Recipient."2018 19th IEEE/ACIS International
Conference on Software Engineering, Artificial Intelligence, Networking and
Parallel/Distributed Computing (SNPD). IEEE, 2018.
Rohman, F.F. dan Fauzijah, A., 2008. Rancang Bangung Aplikasi Sistem Pakar Untuk
Menentukan Jenis Gangguan Perkembangan Pada Anak. Universitas Islam
Indonesia.
Sugara, Widyatmoko, and S. D. Prakoso. "Penerapan Algoritma C4. 5 untuk Deteksi Dini
Gangguan Autisme Pada Anak."Seminar Nasional Teknologi Informasi Dan
Komunikasi (SENTIKA). 2018.
Xu Haiwei. et ol., “An Improved Random Decision Trees Algorithm with Application to
Land Cover Classification” School of Info-physics and Geomatics Engineering.
IEEE.
Yogi Yusuf, W. Perbandingan Performansi Algoritma Decision Tree C5. 0, CART, dan
CHAID: Kasus Prediksi Status Resiko Kredit di Bank X. Islamic University of
Indonesia, 2007.
Yunita, D. (2017). Perbandingan Algoritma K-Nearest Neighbor dan Decision Tree untuk
Penentuan Risiko Kredit Kepemilikan Mobil.Jurnal Informatika Universitas
Pamulang, 2(2), 103-107.
No gejala_1 gejala_2 gejala_3 gejala_4 gejala_5 Age Gender Ethinicity Jundice Autism Type of Disruption
1 1 1 0 0 1 6 m Others no no Communication
2 1 1 0 0 1 6 m 'Middle Eastern ' no no Communication
3 1 1 0 0 0 6 m ? no no Behavior
4 0 1 0 0 1 5 f ? yes no Behavior
5 1 1 1 1 1 5 m Others yes no Behavior
6 0 0 1 0 1 4 m ? no yes Behavior
7 1 0 1 1 1 5 m White-European no no Communication
8 1 1 1 1 1 5 f 'Middle Eastern ' no no Behavior
9 1 1 1 1 1 11 f 'Middle Eastern ' no no Communication
10 0 0 1 1 1 11 f ? no yes Behavior
11 1 0 0 0 1 10 m White-European yes no Behavior
12 0 1 0 0 1 5 f ? no no Communication
13 0 1 1 1 1 4 m White-European yes no Communication
14 1 0 0 0 0 4 f Black no no Behavior
15 1 1 1 1 1 6 m White-European no no Behavior
16 1 1 1 1 1 8 m White-European no no Behavior
17 1 1 1 1 1 4 m 'South Asian' no no Behavior
18 0 0 0 0 0 7 m Others no no Communication
19 1 0 1 1 1 11 m White-European no yes Behavior
20 1 1 1 1 1 5 m ? no no Communication
21 1 1 1 1 1 5 m White-European yes no Behavior
22 0 0 1 1 0 9 f ? no no Behavior
23 1 1 0 1 0 4 m Asian no no Communication
24 1 0 1 1 0 6 f 'South Asian' no no Communication
25 1 0 1 1 1 11 m ? no no Behavior
26 0 0 1 1 1 6 m White-European no yes Behavior
27 1 0 1 0 1 6 f 'Middle Eastern ' no no Behavior
28 1 1 1 1 1 5 m White-European yes no Behavior
29 0 1 1 0 0 6 m ? no yes Communication
30 0 0 1 0 1 4 f Others yes yes Behavior
31 1 1 1 1 1 11 m White-European no no Communication
32 0 0 1 0 0 6 m Pasifika yes no Behavior
33 1 0 0 1 0 ? m ? no no Behavior
34 1 0 0 0 1 5 m 'South Asian' yes no Behavior
35 1 0 0 0 1 6 m 'South Asian' yes no Behavior
36 0 1 0 0 0 7 f 'Middle Eastern ' yes no Behavior
37 0 1 0 0 1 4 f ? no no Communication
38 1 1 0 0 0 7 m Asian no no Communication
39 1 1 1 1 1 4 m White-European yes no Behavior
40 0 1 1 1 1 4 m Asian no no Behavior
41 0 0 1 1 1 5 m ? yes no Behavior
42 0 1 0 0 0 4 m 'Middle Eastern ' no no Behavior
43 1 0 0 0 1 6 f 'Middle Eastern ' no no Communication
44 1 0 1 1 1 4 f ? no no Behavior
45 0 0 0 1 0 10 m 'Middle Eastern ' no no Communication
46 0 1 1 0 1 4 f 'Middle Eastern ' yes no Behavior
47 0 1 1 0 1 4 f 'Middle Eastern ' yes no Behavior
48 1 1 1 0 1 6 m ? no no Communication
49 1 0 1 1 1 6 f White-European yes no Communication
50 0 1 0 0 1 7 m 'Middle Eastern ' no yes Behavior
51 0 1 0 0 1 7 m ? yes no Behavior
52 0 0 1 0 1 4 m Asian no no Behavior
53 1 0 0 1 0 6 m ? no no Behavior
54 1 1 1 1 1 7 m White-European yes no Communication
55 1 0 1 1 0 5 m ? no no Behavior
56 0 0 1 0 1 5 m White-European no no Communication
57 0 0 1 0 0 6 m ? no no Behavior
58 1 0 1 1 1 4 f White-European no no Behavior