Decision Tree PDF

Universitas Sumatera Utara
Repositori Institusi USU http://repositori.usu.ac.id

Departemen Teknologi Informasi Tesis Magister
2020
Komparasi kinerja pada Algoritma

Decision Tree Dan Analisis Diskriminan
Dalam klasifikasi
Fadhillah, Cut
http://repositori.usu.ac.id/handle/123456789/28189
Downloaded from Repositori Institusi USU, Univsersitas Sumatera Utara
KOMPARASI KINERJA PADA ALGORITMA DECISION TREE
DAN ANALISIS DISKRIMINAN
TESIS
CUT FADHILAH
187038041
PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2020

i

DALAM KLASIFIKASI
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik
Informatika
CUT FADHILAH
187038041

MEDAN
2020

ii
PERSETUJUAN
Judul : KOMPARASI KINERJA PADA ALGORITMA

DECISION TREE DAN ANALISIS DISKRIMINAN
DALAM KLASIFIKASI
Kategori : TESIS
Nama : CUT FADHILAH
Nomor Induk Mahasiswa : 187038041
Program Studi : MEGISTER (S-2) TEKNIK INFORMATIKA
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
Komisi Pebimbing :
Pembimbing II Pebimbing I
Prof. Dr. Muhammad Zarlis Dr. Syahril Efendi, S.Si, M.IT
Diketahui/disetujui oleh
Program Studi Megister (S2) Teknik Informatika
Ketua,

iii
PERYATAAN ORISINILITAS
KOMPARASI KINERJA PADA ALGORITMA DECISION TREE DAN ANALISIS

DISKRIMINAN DALAM KLASIFIKASI
TESIS
Saya yang mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dang ringkasan yang masing – masing telah disebutkan sumbernya.

iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS
Sebagai civitas akademika Universitas Sumatera Utara, saya yang bertanda tangan
dibawah ini :
Nama : Cut Fadhilah

NIM : 187038041
Program Studi : S2 Teknik Informatika
Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada

Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalti
Free Right) atas tesis saya yang berjudul:
KOMPARASI KINERJA PADA ALGORITMA DECISION TREE DAN

ANALISIS DISKRIMINAN DALAM KLASIFIKASI
Beserta perangkat yang ada (jika diperlukan).Dengan Hak Bebas Royalti Non-Eksklusif
ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat,
mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa
meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan
sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.

v
Telah diuji pada

Tanggal : 12 Agustus 2020
PANITIA PENGUJI TESIS

Ketua : Dr. Syahril Efendi, S.Si, M.IT
Anggota : 1. Prof. Dr. Muhammad Zarlis
: 2. Dr. Sutarman, M.Sc
: 3. Dr. Zakarias Situmorang

vi
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap berikut gelar : Cut Fadhilah , S.T

Tempat dan Tanggal Lahir : Kabat, 28 September 1993
Alamat Rumah : Desa Kabat. Sigli. Aceh
Telp/HP : +62 823 6324 8989
Email : cutfadhilahzakaria@gmail.com
DATA PENDIDIKAN
SD : SD NEGERI SEUPENG TAMAT : 2005

SMP : MTs NEGERI 1 SIGLI TAMAT : 2008
SMA : SMA 1 NEGERI SIGLI TAMAT : 2011
S1 : UNIVERSITAS MALIKUSSALEH TAMAT : 2015
S2 : Teknik Informatika USU TAMAT : 2020

vii
UCAPAN TERIMA KASIH
Alhamdulillahirobbil’alamin, puji dan syukur penulis panjatkan kehadirat Tuhan Yang Maha
Esa, yang telah melimpahkan segala karunia, rahmat dan hidayah-Nya karena dengan seizin-
Nyalah penulis, dapat menyelesaikan penyusunan tesis ini dengan judul “Komparasi Kinerja
Pada Algoritma Decision Tree Dan Analisis Diskriminan Dalam Klasifikasi” dapat
diselesaikan dengan baik.
Tesis ini merupakan syarat untuk menyelesaikan studi pada jenjang magister (S2)
yang dalam penyusunannya tidak terlepas dari dukungan berbagai pihak, baik secara
moril maupun materil. Pada kesempatanini, saya menyampaikan rasa terima kasih
yang sebesar-besarnya kepada :
1. Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., selaku Rektor Universitas
Sumatera Utara Medan;
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, selaku Dekan Fakultas Ilmu
Komputer dan Teknologi Informasi Universitas Sumatera Utara Medan.
3. Bapak Prof. Dr. Muhammad Zarlis, M.Sc, selaku Ketua Program Studi S2 Teknik
Informatika, Fakultas Ilmu Komputer dan Teknologi Informasi Universitas
Sumatera Utara Medan.
4. Bapak Dr. Syahril Efendi, S.Si, M.IT, selaku Dosen Pembanding I yang telah
memberikan bimbingan dan arahan dalam penyelesaian tesis ini;
5. Bapak Prof. Dr. Muhammad Zarlis, M.Sc, sebagai Dosen Pembimbing II yang telah
memberikan bimbingan dan arahan dalam penyelesaian tesis ini;
6. Bapak Dr. Sutarman, M.Sc, Dosen Pembanding/Penguji I yang telah
memberikan saran dan masukan untuk perbaikan dan penyelesaian tesis ini;
7. Bapak Dr. Zakarias Situmorang, sebagai Dosen Pembanding/Penguji II yang
telah memberikan saran dan masukan untuk perbaikan dan penyelesaian tesis ini
8. Orangtua laki-laki penulis Teuku Zakaria Yusuf, orang tua perempuan penulis
Roslaini Ali, kakak laki-laki penulis Teuku Azhari, Teuku Syahrial, Teuku Dahrul
Azmi, Teuku Furqan, Teuku M.Ridha dan kakak perempuan penulis Cut

viii
Rosmizajuga Cut Qamariah atas dukungan dan doanya untuk kelancaran dalam
menyelesaikan Tesis ini.
9. Teman seperjuangan Kartika Sari, Nunsina, Rosma Siregar, Ananda Mutya Dewi,
Abduurrahman Ridho, dan Aris Munandar yang terus memotivasi dalam
menyelesaikan tesis ini;
10. Teman-teman seangkatan di MTI-Kom-A-2018 yang telah bersama-sama
menempuh pendidikan pada Program Studi S2 Teknik Informatika Fakultas
Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Medan.
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini
dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan
penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca
pada umumnya. Sekali lagi penulis mengucapkan terima kasih, semoga Allah SWT
membalas kebaikan yang telah diberikan. Amin.

ix
ABSTRAK
Penggunaan sistem berbasis komputer memegang peran terdepan saat ini sebagai teknik
analisa dalam mendiagnosis penyakit, termasuk untuk memprediksi gangguan autisme.
Untuk memprediksi ganguan tersebut bisa dilakukan dengan meganalisis kumpulan gejala
pada dataset. Klasifikasi merupakan salah satu teknik ideal yang terdapat pada data
mining. Tujuan dari teknik klasifikasi untuk memprediksi kelas atau target secara akurat
dengan menggunakan variabel-variabel terkait. Proses prediksi tersebut melibatkan
jumlah atribut dan records dari dataset. Dataset yang digunakan dalam penelitian ini
adalah dataset autism disorder yang diambil dari UCI repositori, data tersebut tidak perlu
melakukan dummy variable dikarenakan sudah berupa angka (biner). Adapun pada
penelitian ini menggunakan algoritmadecision tree dan analisis diskriminan sebagai
perhitungan dalam pembentukan klasifikasi, pembentukan tersebut diproses
menggunakan aplikasi SPSS.Tujuan dari penelitian ini adalah untuk mengklasifikasi jenis
gangguan autism sesuai gejala yang terjangkit pada anak.Adapun jenis gangguan yang
menjadi variable target adalah gangguan komunikasi dan gangguan prilaku.Sedangkan
variable bebas terdiri dari gejala-1, gejala-2, gejala-3, gejala-4, dan gejala-5.Hasil dari
penelitian ini menunjukkan bahwa metode decision tree dalam membentuk sebuah
klasifikasi sebesar 74.2% dan nilai sensitivitas sebesar 26.3%. Sedangkan persentase pada
analisis diskriminan sebesar 68.3%. Nilai tersebut menunjukkan bahwa decision tree
lebih mampu dalam mengklasifikasi jenis target.
Kata kunci :Decision_Tree,Analisis_Diskriminan,Autism

x
COMPARATIVE PERFORMANCE OF DECISION TREE ALGORITHMS AND

DISCRIMINANT ANALYSIS IN CLASSIFICATIONS
ABSTRACT
The use of computer-based systems plays a leading role today as an analytical technique
in diagnosing diseases, including for predicting autism disorders. To predict this disorder
can be done by analyzing the set of symptoms in the dataset . Classification is one of the
ideal techniques found in data mining. The purpose of classification techniques is to
accurately predict the class or target by using related variables. The prediction process
involves the number of attributes and records from the dataset. The dataset used in this
study is an autism disorder dataset taken from the UCI repository, the data does not need
to do a dummy variable because it is already a number (binary). As for this study using
decision tree algorithms and discriminant analysis as calculations in forming
classifications, the formation is processed using the SPSS application. The purpose of this
study is to classify the types of autism disorders according to the symptoms that occur in
children. The types of disorders that are the target variable are communication disorders
and behavioral disorders. While the independent variable consists of symptoms-1,
symptoms-2, symptoms-3, symptoms-4, and symptoms-5. The results of this study
indicate that the decision tree method in forming a classification is 74.2% and the
sensitivity value is 26.3%. While the percentage in the discriminant analysis was 68.3%.
This value indicates that the decision tree is more capable in classifying target types.
Keywords: Decision_Tree, Discriminant_Analysis, Autism

xi
DAFTAR ISI
Hal.
LEMBAR PERSETUJUAN ............................................................................................ ii
LEMBAR PERYATAAN ORISINILITAS .................................................................... iii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ............................................iv
LEMBAR PANITIA PEGUJI .......................................................................................... v
RIWAYAT HIDUP ........................................................................................................vi
UCAPAN TERIMA KASIH ..........................................................................................vii
ABSTRAK .................................................................................................................viiix
ABSTRACT ................................................................................................................... ix
DAFTAR ISI .................................................................................................................. xi
DAFTAR TABEL...............................................................................................................xi
DAFTAR GAMBAR.........................................................................................................xii
BAB 1 PENDAHULUAN ............................................................................................... 1
1.1 Latar Belakang…………………………………………………………………1
1.2 Rumusan Masalah .......................................................................................... 2
1.3 Batasan Masalah ............................................................................................. 3
1.4 Tujuan Penelitian ............................................................................................ 3
1.5 Manfaat Penelitian .......................................................................................... 3
1.6 Penelitian Terdahulu ....................................................................................... 3
BAB 2 TINJAUAN PUSTAKA.............................................................................................. 5
2.1 Data.. .............................................................................................................. 5
2.2 Data Mining ................................................................................................... 5
2.3.Klasifikasi ...................................................................................................... 6
2.4 Decision Tree ................................................................................................. 7
2.5 Algoritma C4.5 ............................................................................................... 9
2.6.Analisis Diskriminan .................................................................................... 10
2.7 Pengertian Autisme ...................................................................................... 12

xii
2.7.1. Kriteria Gangguan Autisme Anak ..................................................... 13

2.7.2. Penyebab Autisme, ditemukan beberapa penyebab, antara lain :......... 13
2.8. Aplikasi SPSS (Statistical Package for the Social Sciences) ........................ 14
BAB 3 METODOLOGI PENELITIAN ............................................................................... 17
3.1. StudiLiteratur .............................................................................................. 17
3.2 Pengumpulan Data ....................................................................................... 17
3.3. Kerangka Kerja ........................................................................................... 17
3.3.1. Perangkat dan Kebutuhan Dalam Penelitian ....................................... 18
3.4. Pengolahan Data .......................................................................................... 18
3.4.1.Dataset ................................................................................................ 18
3.4.2.Pre-processing Data ............................................................................ 20
3.4.3.Menentukan feature (x) dan label (y) .................................................. 20
3.5. Menentukan Perhitungan Prediksi Dalam Klasifikasi ................................... 20
3.5.1 Perhitungan Decision Tree ................................................................. 20
3.5.2 Perhitungan Analisis Diskriminan ....................................................... 27
BAB 4 HASIL DAN PEMBAHASAN ................................................................................ 32
4.1. Hasil ............................................................................................................ 32
4.1.1 Hasil Analisis Menggunakan Decision Tree ........................................ 32
4.1.2.Hasil Analisis Menggunakan Analisis Diskriminan ............................. 36
4.2. Pembahasan ................................................................................................. 42
4.2.1. Perbandingan Kinerja Analisis Decision Tree Dan Analisis
Diskriminan Dalam Klasifikasi .................................................................... 42
4.2.2. Hasil .................................................................................................. 43
BAB 5 KESIMPULAN DAN SARAN ................................................................................ 45
5.1 Kesimpulan .................................................................................................. 45
5.2 Saran ............................................................................................................ 45
DAFTAR PUSTAKA ............................................................................................................ 47
LAMPIRAN

DAFTAR GAMBAR
Gambar 2. 1. Tahapan Dalam Klasifikasi Secara Umum .................................................. 7

Gambar 2. 2. Proses Decision Tree .................................................................................. 7
Gambar 3. 1. Diagram Blok Alur Kerja Penelitian.............................................................17
Gambar 3. 2. Pohon Keputusan ...................................................................................... 27
Gambar 4. 1. Pohon Keputusan Dari Dataset ................................................................. 32
Gambar 4. 2. Urutan Gejala Autisme ............................................................................. 33
Gambar 4. 3. Decision Tree Pada Gejala–1 .................................................................... 34
Gambar 4. 4. Decision Tree Pada Gejala–2 ................................................................... 34
Gambar 4. 8. Kombinasi Hasil Analisis Kedua Metode .................................................. 43

DAFTAR TABEL
Tabel 3. 1. Dataset Asli Dari UCI Repository ................................................................. 19

Tabel 3. 2. Terindikasi atau Tidaknya Gejala Pada Anak................................................ 32
Tabel 3. 3. Hasil Entropy Dan Gain ............................................................................... 26
Tabel 3. 4. Sampel Analisis Output SPSS ...................................................................... 28
Tabel 3. 5. Canonical Discriminant Function Coefficients ............................................. 30
Tabel 3. 6. Hasil Klasifikasi Analisis Diskriminan ......................................................... 30
Tabel 4. 1. Hasil Klasifikasi Decision Tree .................................................................... 32
Tabel 4. 2. Independent Variable Importance ................................................................ 33
Tabel 4. 3. Hasil Klasifikasi Analisis Diskriminan ......................................................... 36
Tabel 4. 4. Descriptive Statistic...................................................................................... 37
Tabel 4. 5. Test Result Box’s M ...................................................................................... 38
Tabel 4. 6. Uji Korelasi Variabel ................................................................................... 39
Tabel 4. 7. Eigenvalues .................................................................................................. 40
Tabel 4. 8. Wilks' Lambda.............................................................................................. 40
Tabel 4. 9. Standardized Canonical Discriminant .......................................................... 40
Tabel 4. 10. Structure Matrix ......................................................................................... 41
Tabel 4. 11. Canonical Discriminant Function Coefficients ........................................... 41

DALAM KLASIFIKASI
TESIS
CUT FADHILAH
187038041

MEDAN
2020

1
BAB 1
PENDAHULUAN
1.1 Latar Belakang

Kumpulan gejala yang dialami oleh anak yang terus-menerus serta berubah-ubah terhadap
kondisi anak jika dianalisis akan menghasilkan sebuah informasi yang lebih bernilai.
Kumpulan gejala dengan ukuran besar yang juga berupa atribut dan records dapat
diekstrak sehingga memperoleh struktur yang dapat dipahami khalayakan ramai. Struktur
yang dapat kita temukan dari kumpulan gejala bisa menjadi pola acuan untuk mengetahui
jenis gangguan autisme. Salah satu cara melakukan analisis gejala agar dapat dipelajari
untuk menjadi sebuah pengetahuan adalah melakukan klasifiaksi pada dataset.
Klasifikasi adalah metode pembelajaran yang tidak menggunakan label untuk

membentuk pola dalam memprediksi target. Melainkan mencari kesamaan dari atribut-
atribut yang dimiliki. Tujuan pembelajaran ini adalah mengelompokkan unit-unit yang
hampir sama dengan suatu area tertentu. Unit-unit adalah atribut dan membentuk area
tertentu yang dikelompokkan yang disebut klasterisasi (Han, et al., 2012).
Decision tree termasuk kedalam supervise learning yang menggabungkan lebih

dari satu algoritma dengan jenis yang sama ataupun berbeda untuk mengklasifikasikan
suatu objek. Metode ini dapat membagi (training data) menjadi himpunan record yang
lebih kecil dengan menerapkan serangkaian aturan keputusan (rules), sehingga anggota
himpunan hasil menjadi mirip satu dengan lainnya dengan memperhatikan pada variable
target (Bambang, 2017). Adapun penentuan klasifikasi dengan decision tree diambil
berdasarkan hasil voting dari tree yang terbentuk, pemenangnya diambil dari vote
terbanyak. Decision tree merupakan metode diskrimasi nonlinear yang menggunakan
sekumpulan variabel independen untuk membagi sampel ke dalam kelompok– kelompok
yang lebih kecil secara bertahap. Prosedur tersebut dilakukan secara iterative di setiap
cabang pohon, yakni memilih variabel independen yang memiliki asosiasi terkuat dengan
variabel dependen menurut kriteria tertentu. Algoritma ini merepresentasikan supervised
learning sehingga membutuhkan target preclassified, training data set harus kaya dan

2
bervariasi, kelas atribut target harus diskrit (yusuf, 2007). Selanjutnya perhitungan
analisis diskriminan yang bermanfaat pada situasi di mana sampel total dapat dibagi
menjadi group-group berdasarkan karateristik variabel yang diketahui dari beberapa
kasus. Tujuan utama dari analisis diskriminan adalah untuk mengetahui perbedaan antar
group. Adapun penyelesaiannya menggunakan removal katagorik target. Meliputi dengan
proses pengujian korelasi variable yang diuji.
Penulisan ini diperkuat dengan penelitian (Xu Haiwei) dalam meningkatkan

pengklasifikasian menggunakan decision tree yang menghasilkan klasifikasi ditingkatkan
dari 81,46% menjadi 87,53% Selanjutnya pada penelitian (Yogi, 2007) yang membahas
perbandingan performasi terhadap alagoritma decision tree, CART, dan CHAID dalam
memprediksi kasus kredit di bank X. Menghasilkan bahwa model yang berbeda dapat
memberikan keakuratan yang berbeda pula, Algoritma C5.0 memberikan rata-rata tingkat
keakuratan sebesar 87,72%, CART 87,27%, dan CHAID 87,15%.Hal ini dapat
disimpulkan bahwa algoritma decision tree telah teruji dalam mengklasifikasi berbagai
jenis data.
Demikian juga pada penelitian ini yang menyatakan bahwa persentase yang
dihasilkan oleh decision tree lebih tinggi dibandingkan metode analisis diskriminan. Dalam
mengetahui gejala anak apakah masuk katagori gangguan komunikasi atau gangguan
prilaku, sesuai variable target. Hal ini juga sangat diperlukan supaya para orangtua lebih
menyadari terhadap kondisi anak dan juga sebagai pengetahuan bagi para orangtua pula
agar mengetahui langkahapa yang harus diambil dengan mengenali gangguan yang diidap
oleh anak.
1.2 Rumusan Masalah

Berdasarkan uraian pada latar belakang, maka yang menjadi rumusan masalah adalah
terdapat kumpulan data atau pola gejala yang besar berupa atribut dan records. Sehingga
mempersulit untuk dikenali jenis gangguan yang dialami oleh anak. Dikarenakan pola
tersebut masih belum tertata. Karenanya digunakan metode decision tree dan analisis
diskriminan yang dapat mengelola data besar. Penggunaan metode ini juga perlu
dikomparasikan supaya menumukan satu diantara yang terbaik. Sehingga diharapkan

3
dengan dilakukannya perbandingan ini dapat menunjukkan algoritma mana yang

memudahkan dalam mengenali pola gejala.
1.3 Tujuan Penelitian

Adapun tujuan dalam penelitian ini berdasarkan latar belakang masalah yang telah
diuraikan diatas adalah untuk mengetahui algoritma mana lebih effesien dalam
mengklasifikasi jenis gangguan autisme, yakni gangguan prilaku atau gangguan
komunikasi. Serta sebagai pengetahuan bagi para orangtua agar mengetahui langkah apa
yang harus diambil. Dalam memberikan pertolongan tahap awal sesuai jenis gangguan.
1.4 Batasan Masalah

Berdasarkan permasalahan yang terdapat dalam penelitian ini, maka dari itu dibutuhkan
batasan masalah.Batasan masalah tersebut dapat membuat penelitian lebih terencana
sehingga tujuan penelitian dapat tercapai.
Penelitian ini memiliki batasan masalah yang meliputi dari :
1. Penelitian ini hanya menganalisa algoritma Decision Tree dan Analisis
Diskriminan
2. Mengklasifikasi jenis gangguan autism
1.5 Manfaat Penelitian

Adapun keuntungan dari hasil penelitian ini ialah:
1. Manfaat teoritis, sebagai pengetahuan baru bahwa dengan menggunaan

Algoritma Decision Treedan Analisis Diskriminan juga dapat mengklasifikasi
jenis penyakit, yakni jenis gangguan autisme.
2. Manfaar praktis bagi para orang tua, dapat menjadi pembelajaran supaya lebih
proaktif dalam mengawasi tumbuh kembang anak serta sebagai gambaran
evaluasi terhadap penanganan autisme anak.
1.6 Penelitian Terdahulu

Penelitian (Bayu Sugara, Dany Widyatmoko, dkk 2018) yaitu penelitian Untuk Deteksi
Dini Gangguan Autisme Pada Anak yang menggunakan algoritma c4.5 atau yang sering
disebut dengan decision tree. Penggunaan metode tersebut dibantu dengan Rapid Miner

4
untuk mengoptimasi hasil. Dengan menggunakan aplikasi Riped Miner, hasil penelitian
ini menyatakan tingkat akurasi sebanyak 72%.
Kemudian pada penelitian (Budanis Dwi dan Fauzi Slamat, 2012) menjelaskan
bahwa klasifikasi pada Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan
Metode Decision Tree. Klasifikasi tersebut diperlukan untuk membreak out database
dengan ukuran besar supaya dapat ditentukan jadal kerja. Hasil keputusan dari decision
tree ini yakni bermanfaat untuk mengembangkan data, jugadapat menjangkau hubungan
tersiratdiantara sejumlah variabel masukan dengan variabel target.
Penelitian (Devi Yunita, 2017) membandingkan Algoritma K-Nearest Neighbor
Dan Decision Tree Untuk Penentuan Rrisiko Kredit Kepemilikan Mobil. Algoitma K-
nearest neighbor merupakan persiapan menemukan kedekatan antara kriteria kasus
modern dan kriteria kasus kuno berdasarkan kriteria terdekat, sedangkan decision Tree
strategy yang bisa menjadi metode. Penelitian ini menggunakan aplikasi Rapid Miner
untuk pengujiannya dan hasil perhitungannya K-Nearest Neighbor (K-NN) menghasilkan
hasil maksimal.
Penelitian (Sepria Herdyansyah, 2016) Menggunakan Metode Analisis
Diskriminan Kuadratik Dengan Expected Cost Of Misclassification (ECM) Minimum
dalam pengklasifikasian. Klasifikasi metode ini bergantung pada rasio fungsi kepekatan
peluang, rasio biaya kesalahan klasifikasi, dan rasio peluang prior. ECM dikatakan
minimum jika 𝑅1yang memuat 𝑥1,...,sedemikian sehingga fungsi dari integralnya bernilai
negatif.
Penelitian (Amir Hamzahan, et, al,. 2002) menggunakan metode Analisis
Diskriminan untuk mengklasifikasi objek dalam visi komputer. Adapun fungsi diskriminan
Fisher digunakan untuk memisahkan objek. Objek dari simulasi data dan analisis untuk klasifikasi
dua objek. Dari penelitian ini skrup dan baut dan tiga objek ,yaitu huruf T,O dan S dapat
ditunjukkan bahwa analisis diskriminan dapat mengklasifikasi objek lebih baik dari pada metode
pohon keputusan biner. Keunggulan tersebut ditunjukkan pada objek yang mengalami noise.

5
BAB 2
TINJAUAN PUSTAKA
Pada bab ini, dijelaskan mengenai kumpulan data yang terdiri dari dataset, dimana objek
data tersebut biasa disebut sebagai atribut. Terdapat jenis - jenis atribut yang disebutkan
dengan gejala. Ada beberapa faktor yang mempengaruhinya, jenis gejala yang beragam,
rentang usia yang berbeda-beda, dan kondisi anak yang cenderung tidak sama. Sebelum
dilakukan proses data yang banyak, dilakukan tahap pre-proccesing data untuk
menyokong teknik yang dipergunakan supaya berjalan sesuai dikehendaki. Serta
menghasilkan faktor kesalahan Root Mean Squared Error (RMSE) yang rendah. Salah
satu proses yang dilakukan dalam prapemrosesan data adalah normalisasi data. Proses
tersebut dilakukan menggunakan aplikasi SPSS (Statistical Package for the Social
Sciences) yang sudah terbukti effisien dalam kinerjanya. Dijelaskan pula perhitungan lain
yang bisa digunakan untuk membentuk sebuah hasil klasifikasi. Setelah itu pada bab ini,
dijelaskan mengenai pengertian klasifikasi dan metode metode yang diangkat untuk
memperoleh hasil pengelompokan dan juga agar terlihat perbedaanya masing-masing.
2.1. Data
Sebelum melakukan beberapa proses dalam penelitian, penulis perlu menyiapkan data,
lalu memahami data dengan baik. Adapun data yang diambil disini merupakan dataset.
Dataset tersebut terdiri dari beberapa atribut seperti yang dijelaskan pada bab selanjutnya.
2.2. Data Mining

Data mining merupakan suatu proses riset serta analisis yang dilakukan secara otomatis
atau semi-otomatis dengan kuantitas data besar untuk memperoleh suatu aturan baru dan
pola. Pada umumnya data mining melakukan proses komputasi tidak terlepas dengan
dataset dengan jumlah besar. Tujuan analisis yakni untuk mengolah dataset jumlah yang
besar atau katagori belum mempunyai makna khususs hingga ditransormasikan data
tersebut kebentuk data yang mudah dipahami serta dapat diproses lebih lanjut sesuai
kebutuhan.

6
Salah satu kegunaan dari data mining adalah memecahkan masalah dengan
menganalisis data, data yang terdapat dalam database. Dalam data mining termuat 5
komponen utama;
1. Mengonversikan data ke system dalam bentuk warehouse.
2. Mengemasi dan mengarap data ke multi-dimensi sistem database.
3. Mendapati izin akses analisis data bisnis maupun professional
4. Mengkaji data menggunakan software.
5. Menyugukan data dengan tampilan yang mudah dipahami seperti grafik, table,
atau gambar.
2.3. Klasifikasi
Metode yang ikut berperan penting dalam data mining yakni klasifikasi. Klasifikasi ialah
metode yang bersifat supervised yang bermakna telah diketahuinya kelas identifikasi dari
hasil akhir ataupun sudah ada input dan output. Fungsi dari klasifikasi itu sendiri
dipergunakan untuk memprediksi atau mengelompokkan suatu kelas dari suatu data
berdasakan atribut.Adapun discription dari setiap kelas data telah ditetapkan.Sebagai
tambahan, Analisis data yang mendeskripsikan bentuk ekstrak model bersumber dari data
yang penting itu dinamakan sebagai klasifikasi (Han, 2012).
Pendapat Han dalam terbitan bukunya yang berjudul Data Mining Concepts and
Techniques Third Edition, terdapat beberapa poin dalam proses klasifikasi:
1. Learning model : Pada tahap awal data training dianalisis dengan algoritma
klasifikasi, atribut kelasnya disimpulkan sebagai loan decision dan
classifier direpresentasikan sebagai bentuk peraturan klasifikasi
2. Klasifikasi : Fase ini yakni classifier yang sudah dirancang akan digunakan
untukmeneglompokkan data.

7
Step 1.Training Step 2. Testing
Gambar 2.1. Tahapan Dalam Klasifikasi Secara Umum
2.4. Decision Tree

Decision tree adalah klasifikasi dan algoritma regresi yang merupakan bagian dari grup
ensemble learning. Decision treeadalah salah satu metode yang dapat digunakan untuk
mengklasifikasikan tim objek atau data untuk menghasilkan sebuah keputusan (Achmad,
2012). Pendekatan ini terbagi dari serangkaian node pilihan, dihubungkan melalui
cabang, bergerakmenurun kebawah dari simpul akar sampai berakhir di simpul daun.
Pengembangan Decision treedimulai dari simpul akar, terutama berdasarkan pada
konvensi yang diposisikan di bagian atas diagram pohon keputusan, semua atribut
dievaluasi pada simpul seleksi, dengan setiap outcome yang mungkin menghasilkan
cabang. Tiap cabang dapat masuk baik ke decision node yang lain ataupun ke leaf node.
Gambar 2.2. Proses Decision Tree
Decision Tree dinamakan pohon keputusan karena aturan yang terbentuk mirip dengan
bentuk pohon. Pohon terbentuk dari proses pemilahan rekursif biner pada suatu gugus
data sehingga nilai variabel respon pada setiap gugus data hasil pemilahan akan lebih
homogen. Pada pohon keputusan terdapat tiga jenis node, antara lain :

8
1. Akar
Merupakan node teratas, pada node ini tidak ada input dan dapat tidak mempunyai
output atau dapat mempunyai output lebih dari satu.
2. Internal node
Merupakan node percabangan, pada node ini hanya terdapat satu input dan
mempunyai output minimal dua.
3. Daun
Merupakan node akhir atau terminal node, pada node ini hanya terdapat satu input
dan tidak mempunyai output (simpul terminal).
Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan
aturan-aturan keputusan. Pohon keputusan merupakan himpunan aturan if — then, dimana
setiap path dalam pohon dihubungkan dengan sebuah aturan dimana premis terdiri atas
sekumpulan node yang ditemui dan kesimpulan dari aturan terdiri atas kelas yang
dihubungkan dengan daun dari path. Pembentukan pohon keputusan terdiri dari beberapa
tahap :
1. Konstruksi pohon diawali dengan pembentukan akar (terletak paling atas). Kemudian
data dibagi berdasarkan atribut-atribut yang cocok untuk dijadikan daun.
2. Pemangkasan pohon (tree pruning) yaitu mengidentifikasikan dan membuang cabang

yang tidak diperlukan pada pohon yang telah terbentuk. Hal ini dikarenakan pohon
keputusan yang dikontruksi dapat berukuran besar, maka dapat disederhanakan dengan
melakukan pemangkasan berdasarkan nilai kepercayaan (confident level). Pemangkasan
pohon dilakukan selain untuk pengurangan ukuran pohon juga bertujuan untuk
mengurangi tingkat kesalahan prediksi pada kasus baru dari hasil pemecahan yang
dilakukan dengan divide and conquer. Pruning ada dua pendekatan yaitu :
a. Pre-pruning yaitu menghentikan pembangunan suatu subtree lebih awal (dengan

memutuskan untuk tidak lebih jauh mempartisi data training). Saat seketika
berhenti, maka node berubah menjadi leaf (node akhir). Node akhir ini menjadi
kelas yang paling sering muncul di antara subset sampel.

9
b. Post-pruning yaitu menyederhanakan tree dengan cara membuang beberapa 9cabang

subtree setelah tree selesai dibangun. Node yang jarang dipotong akan menjadi leaf
(node akhir) dengan kelas yang paling sering muncul.
3. Pembentukan aturan keputusan yaitu membuat aturan keputusan dari pohon yang telah
dibentuk. Aturan tersebut dapat dalam bentuk if — then diturunkan dari pohon keputusan
dengan melakukan penelusuran dari akar sampai ke daun. Untuk setiap simpul dan
percabangannya akan diberikan di if, sedangkan nilai pada daun akan ditulis di then.
Setelah semua aturan dibuat maka aturan dapat disederhanakan atau digabung.
2.5. Algoritma C4.5

Algoritma C4.5 adalah ekspansi dari algoritma ID3. Algoritma C4.5 menghasilkan
struktur pohon keputusandimulai dari atas ke bawah, dimana atribut utama yang berposisi
teratas adalah simpul akar(root), dan yang terendah disebut daun. Secara umum,
algoritma C4.5 untuk mengembangkan pohon seleksi adalah sebagai berikut: Hitung
jumlah data, jumlah data berdasarkan konsekuensi atribut anggota dengan kondisi
tertentu. Untuk metode pertama kondisinya masih kosong. Kemudian pilih atribut sebagai
simpul(node). Diikuti dengan membuat cabang untuk setiap anggota node. Periksa apakah
biaya entropi anggota node adalah nol. Jika ada, tentukan daun yang terbentuk. Jika
semua nilai entropi individu simpul adalah nol, maka proses pun berhenti.
a. Perhitungan Gain
Gain (S,A) = Entropy (s)- ∑𝑛𝑖=1 − 𝑝𝑖 *Entropy(𝑆𝑖 ) (2.1)
Keterangan:
S : Himpunan
A : Atribut
n : Jumlah partisi atribut A
(Si) : Jumlah kasus pada partisi ke-i
(S) : Jumlah kasus dalam S
b. Menghitung Nilai Entropy

Entropy (S) = ∑𝑛𝑖=1 −𝑝𝑖 * Log2 𝑝𝑖 (2.2)

10
Keterangan:
S : Himpunan kasus
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
2.6. Analisis Diskriminan

Analisis diskriminan adalah salah satu strategi dalam ilmu statistik yang dapat digunakan
dalam hubungan antara variabel yang dapat dibedakanmana variabel penjelas mana
variabel respon. Lebih jelasnya, analisis diskriminan digunakan dalam kasus dimana
variabel respon adalah informasi katagori dan variabel penjelas adalah data non-katagori.
Sasaran evaluasi yang diskriminatif untuk mengklasifikasikan suatu individu atau
pernyataan yang bebas (mutually exclusive/disjoint) dan menyeluruh (exhaustive)
berdasarkan berbagai variabel penjelas. Ada dua asumsi utama yang harus dipenuhi pada
analisis diskriminan ini, yaitu: 1. Berbagai variabel penjelas perlu didistribusikan secara
umum. 2. Varians-kovarians matriks variabel penjelas pxp di kedua organisasi harus
sama. Jika dianalogikan dengan regresi linier, maka analisis diskriminan merupakan
kebalikannya.. Dalam regresi linier, variabel respons harus mengamati distribusi reguler
dan homoscedastik, sedangkan variabel penjelas diasumsikan tetap, yang berarti bahwa
variabel penjelas tidak lagi diperlukan untuk mematuhi distribusi yang unik. Untuk
analisis diskriminan, variabel penjelas seperti yang disebutkan di atas harus
memperhatikan distribusi reguler dan homoscedastik, sementara variabel responsnya
tetap.
𝒀𝟏 = 𝑿𝟏 + 𝑿 𝟐 + 𝑿𝟑 + ⋯ + 𝑿𝒏
(metric) (non-metric) (2.3)
a. Kriteria Fungsi Linier
Fisher mengelompokkan suatu observasi berdasarkan nilai skor yang dihitung dari suatu
fungsi linier Y'λ=X dimana 'λmenyatakan vektor yang berisi koefisien-koefisien variabel
penjelas yang membentuk persamaan linier terhadap variabel respon,λ'...,,=, λ1, λ2,….λP

11
Xk menyatakan matriks data pada kelompok ke-k
𝑋1 𝑘 ⋯ 𝑋1 𝑝𝑘
𝑋𝑘 [ ⋮ ⋱ ⋮ ] I = 1,2, … . . , n (2.4)
𝑋𝑛 1𝑘 ⋯ 𝑋𝑛 𝑝𝑘
Untuk menghitung nilai idiskriminan maka dengan beberapa ketentuan; X ijk menyatakan
observasi ke-i variabel ke-j pada kelompok ke-k.Kombinasi linier yang fantastis sesuai
dengan Fisher adalah yang dapat memaksimalkan rasio antara jarak kuadrat rata-rata Y
yang diterima dari x dari group 1 dan 2 dengan varian Y, atau dirumuskan sebagai
berikut:
(𝜇1 𝑦−𝜇2 𝑦)² 𝜆′ (𝜇1 −𝜇2 )(𝜇1 𝑦−𝜇2 )′𝜆

= (2.5)
𝜎𝛾2 𝜆′ Ʃ 𝜆
 Pembentukan Fungsi Linier, dapat dilihat pada tabel Canonical Discriminant

Function Coefficient.
 Menghitung discriminant score
 Menghitung cutting score, dengan rumus sebagai berikut:
𝑛1 𝜇1 𝛾+𝜇2 𝜇2 𝛾
𝑚 = (2.6)
𝑛1 +𝑛2
 Penghitungan Hit Ratio
𝑛 +𝑛
𝐻𝑖𝑡 𝑅𝑎𝑡𝑖𝑜 = 𝑛00+𝑛11 𝑥 100% (2.7)
0 1
b. Kriteria posterior probability

Dalam pengklasifikasian adanya aturan yang sebanding dengan model linier
Fisheryakidilihat dari nilai peluang suatu observasi dengan karakteristik tertentu (x)
berasal dari suatu kelompok.

12
𝑝 𝑘 𝑓 𝑘( 𝑥 )
𝑝(𝑘 | 𝑥 ) = (2.8)
Ʃ𝑘 𝑝 𝑘 𝑓 𝑘 (𝑥)
2.7. Pengertian Autisme

Salah satu jenis kelainan yang secara teratur terjadi dalam pengembangan balita adalah
autisme.Istilah ini digunakan untuk menunjukkan gejala psikosis pada anak-anak yang
diklasifikasikan sebagai menonjol dan unik sehingga disebut sebagai sindrom Kanner,
salah satunya ditandai melalui ekspresi wajah yang kosong (Gardenia, 2015). Autisme
bukanlah sebuah penyakit dan dia tidak pula menular. Pada anak-anak, gejala autisme
bervariasi, ada yang ringan, ada pula yang parah (Rohman, 2008). Autisme merupakan
peningkatan gejala yang meluas atau masalah perkembangan yang ditandai oleh tiga
karakteristik penting, khususnya ketidakmampuan untuk terlibat langsung secara sosial
dengan lingkungan sekitar, kebutuhan patologis akan kesetaraan, dan akhirnya cara bicara
yang tidak lagi komunikatif (mutisme), kalimat yang diucapkan tidak sesuai dengan
keadaan (Kanner Lubis, 2009). Gejala autisme dalam penyebaran secara luas muncul
pada tiga tahun pertama pertumbuhan anak. Teori-teori terkait dengan autisme juga secara
luas dijelaskan dalam buku e DSM V (Manual Diagnostik dan Statistik Gangguan Mental
edisi kelima). Dalam DSM V, autisme adalah gangguantumbuh kembang dalam
pertukaran verbal dan interaksi dalam hubungan sosial serta perilaku aneh yang jelas dan
adanya pola perilaku terbatas dalam aktivitasnya (Amerika, 2013).
Pemicu autisme belum dapat dipastikan penyebabnya, namun terjadinya autisme
diduga karena adanya gangguan neurobilogis pada susunan syaraf pusat, yakni gangguan
pada otak penderita. Gangguan disebabkan oleh beberapa keadaan, antara lain
keturunan(gen), gangguan pertumbuhan sel otak pada janin, gangguan Auto-Imun,
keracunan logam berat, dan kebutuhan yang gizi yang tidak mencukupi (Rohman, 2008).
Pendapat lain mengenai definisi autis diungkapkan oleh Piven (Jared, 2011) yang
menyatakan bahwa autisadalah suatu kondisi yangmempengaruhi individusejak lahiratau
bayidandidiagnosis berdasarkantigagejala utama: defisit sosial, gangguan komunikasidan
perilakustereotipdan berulang-ulang.

13
2.7.1. Kriteria Gangguan Autisme Anak

Dibawah ini akan disebutkan beberapa kriteria anak autisme yang membedakan dengan
anak-anak yang lain. Karakter autis dapatperhatikan dari perseptif dalam komunikasi dan
prilaku(Joko Yuwono, 2009)meliputi :
a. Tingkah laku
1. Apatis dengan sekitar
2. Perilaku tidak terarah, mondar–mandir, lari–lari, memanjat, berputar–putar.
3. Suka Menempel pada benda-benda tertentu
4. Amukan
5. Terpesonadengan benda bergerak atau berputar
b. Hubungan Sosial
1. Ketika berbicara tidak memandangi lawannya
2. Dipanggil tidak merespon
3. Menolak bermain dengan teman seusianya baik dalam maupun luar rumah
4. Ketertarikan lebih untuk bermain sendiri
5. Tidak adanya rasa peduli terhadap lingkunga sekitar
c. Komunikasi dan Bahasa
1. Kemampuan untuk berkomunikasi yang lambat
2. Tidak ada upaya untuk berbicara dengan bahasa tubuh
3. Berbicara dengan bahasa yang sulit dimengerti
2.7.2. Penyebab Autisme, ditemukan beberapa penyebab, antara lain :

1. Neurobilogis, gangguan ini biasanya terdapat pada saraf pusat (otak). Umumnya
dialami dalam tiga bulan pertama, adanya pertumbuhan sel-sel otak di beberapa
tempat tidak sempurna.
2. Faktor genetika, hal ini terus diteliti. Pasalnya, dikarena cara hidup yang semakin
modern banyak manusia mengalami mutasi genetik dengan demikian perubahan
gen bisa terjadi (misalnya dengan mengkonsumsi makanan cepat saji, penggunaan
pengawet dalam kehidupan sehari-hari baik itu memasak atau lainnya dan juga
factor kebiasaan yang berubah).

14
3. Perkembangan selama kehamilan serta kelahiran juga menyimpan resiko

terjadinya autism pada anak. Terutama erat kaitannya terjadi pada masa 8 minggu
pertama kehamilan.Karenanya calon ibu mewaspadai segala kemungkinan dan
menghindari segala prilaku buruk seperti, mengkonsumsi alkohol, stress, merokok
dan sebagainya.
2.8. Aplikasi SPSS (Statistical Package for the Social Sciences)

SPSS merupakan aplikasi yang digunakan untuk melakukan analisis statistika tingkat
lebih lanjut, seperti halnya analisis data dengan menggunakan algoritma machine
learning, seperti halnya analisis string dan analisis big data yang dapat diintegrasikan
untuk membangun platform data analisis. Aplikasi SPSS begitu marak di kalangan
peneliti dan juga statistikawan untuk memudahkan dalam perhitungan terkait analisis data
apa yang sedang diteliti. SPSS juga menyediakan library untuk kalkulasi statistika dengan
antarmuka interaktif yang menjadikannya sebagai software analisis data yang sangat
komplek.Pada penelitian ini, penguji menggunakan aplikasispss versi IBM SPSS
Statistics Base 22.0.

17
BAB 3
METODOLOGI PENELITIAN
Pada bab ini akan menjejalkan langkah-langkah yang akan penulis capai dalam penelitian
“Komparasi Kinerja Pada Algoritma Decision Tree dan Analisis Diskriminan Dalam
Klasifikasi”. Adapun tahapan metodologi penelitian ini akandilakukan sebagai berikut
yakni, studi literatur, pengumpulan data, kerangka kerja, perangkat dan kebutuhan dalam
penelitian, dataset, dan pendukung lainnya.
3.1. Studi Literatur

Mengkaji konsep-konsep dasar dan rujukan sintesis pendukung yang dapat menunjang
penulis dalam penelitianini. Referensi yang dikutip tentunya berkaitan dengan
autism.Algoritma decision tree, dan metode analisis diskriminan. Sarana teknologi
dewasa ini sangat memudahkan penulis untuk memperoleh referensi yang
relefan.Ditambah lagi banyaknya materi yang tersedia sebagai rujukan terutama untuk
kasus juga algoritma yang diangkat.Adapun sumber literature mulai dari journal, buku,
dataset dan penelitian terpaut.Supaya hasil penilitian mampu menghasilkan hasil yang
akurat.
3.2 Pengumpulan Data

Pengumpulan data yang dilakukan dalam penelitian ini :
1. Dengan cara mengambil dataset pada UCI. Data tersebutakan dikondisikan
dengan penelitian sebelumnya dan penelitian yang telahteruji.
2. Mengumpulkan literatur, jurnal, makalah, dan bacaan lainnya yang relefan
dengan algoritma terkait.

17
3.3. Kerangka Kerja

Analisa kinerja algoritma ini melibatkan Decision Tree dan Analisis Diskriminan untuk
mengetahui gangguan apa yang dialami anak dari gejala- gejala yang diuji. Apakah anak
mengalami gangguan komunikasi atau gangguan prilaku.
Data uji yang diambil yakni dataset.Dataset ini digunakan untuk mengukur
tingkat klasifikasi analisa.Tentu saja pengukuran tersebut menggunakan perhitungan
algoritma decision tree dengan pembentukan tree hingga menghasilkan sebuah keputusan
terbaik dalam klasifikasi. Setelahnya akan dilanjutkan dengan perhitungan menggunakan
analisis diskriminan sampai menghasilkan output, diakhiri dengan perbandingan hingga
memperoleh keputusan baru.
Diagram dibawah menjawab rumusan masalah penelitian, yaitu mendiagnosis
gangguan autisme pada anak (balita) dan menguraikan prosedur kerja.Adapun kerangka
kerja berisistep-by–step alur penelitian. Untukmenjelaskan lebih detail maka
penulisakanmenggunakan diagram blokalur kerja penelitian. Diagram blok penelitian
akan menjelaskan secara mendetail proses kerja analisis secarabertahap, dimulaidari
(input)pengguna, hingga memperoleh (output). Dapa dilihat pada gambar dibawah:
Gambar 3.1. Diagram Blok Alur Kerja Penelitian

18
3.3.1. Perangkat dan Kebutuhan Dalam Penelitian

Untuk mendukung kelancaranpenelitian, maka diperlukan pendukung dari perangkat
lunak (software) maupun kebutuhan perangkat keras (hardware). Spesifikasi atau rincian
dari perangkat komputer yang digunakan untuk mengimplementasikan algoritma yang
dibahas dan metode yang diusulkan dalam penelitian ini ialah
.
1. Hardware
Untuk data yang di olah dalam penelitianinimemilikispesifikasisebagaiberikut:
a. Processor : Intel Pentium
b. Memory : 4Giga Byte
c. Hard Disk : 500 Giga Byte
2. Software
Digunakanuntuk proses mengolah data adalahsebagaiberikut:
a. Microsoft Office Windows7 Professional 64-Bit
b. Aplikasi versiIBM SPSS Statistics Base 22.0
SPSS (Statistical Package for the Social Sciences)
3.4. Pengolahan Data
3.4.1. Dataset
Penelitian ini menggunakan dataset yang diambil dari UCI repository,data yang diunduh
merupakan data gangguan autisme.Adapun data tersebut dapat dilihat pada tabel 3.1 yang
telah dilampirkan dibawah.

19
Tabel 3.1. Dataset Autism Disorder Dari UCIRepository
Gangguan Jenis Tempat

g1 g2 … g5 Umur Etnisitas Autisme
Autisme Kelamin Tinggal
'Middle
G.Komunikasi no Jordan
1 1 1 1 m Eastern '
1 1 1 G.Komunikasi 1 m Asian no Jordan
1 1 0 G.Perilaku 1 m South Asian no Jordan
0 1 1 G.Perilaku 2 f Others no Jordan
'United
1 1 1 G.Perilaku 3 m Black no
States'
White-
0 0 1 G.Perilaku 1 m yes Egypt
European
White- 'United
1 0 1 G.Komunikasi 1 m no
European Kingdom'
'Middle
1 1 1 G.Perilaku 1 f no Bahrain
Eastern '
'Middle
1 1 1 G.Komunikasi 1 f no Bahrain
Eastern '
0 0 1 G.Perilaku 1 f Asian yes Austria
White- 'United
0 1 1 G.Perilaku 2 m no
European States'
Keterangan :
1. Atribut : Gejala-1, Gejala-2, Gejala-3, Gejala-4, Gejala-5, Gangguan Autisme,
Umur, Jenis Kelamin, Etnisitas, Autisme, Tempat Tinggal.
2. Variabel Dependent : Gangguan Autisme
3. Variabel Independent : Gejala-1, Gejala-2, Gejala-3, Gejala-4, Gejala-5
4. Keterangan atribut gejala pada dataset :
1. Gangguan autism
a. Gangguan Komunikasi
b. Gangguan Berperilaku
2. Gejala autism Pada Atribut Gejala_1 – Gejala_2
a. Gejala-1 : Tidak menengok ketika dipanggil
b. Gejala-2 : Mencium atau menjilat benda apa saja

20
c. Gejala-3 : Kurangnya rasa empati, dan suka berteriak sendiri

d. Gejala-4 : Lambat berbicara
e. Gejala-5 : Suka melakukan hal yang sama berulang – ulang
3.4.2. Pre-processing Data

Pre-processing merupakan langkah awal yang dilakukan dalam pemprosesan data untuk
menyokong teknik yang dipergunakan supaya berjalan sesuai dikehendaki. Serta
menghasilkan faktor kesalahan Root Mean Squared Error (RMSE) yang rendah. Pada
tahap pre-processing, dilakukan proses cleaning data yang digunakan untuk
menghilangkan informasi yang tidak diperlukan.
3.4.3. Menentukan feature (x) dan label (y)

Feature atau disebut variabel dependent merupakan variabel yang bertindak sebagai input
dalam system, begitu juga dengan variable independent. Hanya saja keduanya mempunyai
fungsi yang berbeda.Karena variable dependent (mempengaruhi) variable independent
(dipengaruhi).Sehingga ketika dibentuk, feature (x) adalah gejala-1, gejala-2, gejala-3,
gejala-4, gejala-5 sedangkanfeature(y) adalah gangguan pada anak. Model perhitungan
prediksi nantinya akanmenggunakan feature ini untuk kebutuhan prediksi.
3.5. Menentukan Perhitungan Prediksi Dalam Klasifikasi

Hasil prediksi dari kedua metode yang diangkat untuk mengetahui jenis gangguan autism
perlu adanya perhitungan dan analisis. Maka darinya penulis akan menjabarkan contoh
perhitungan manual dari algoritma decision tree dan analisis diskriminan.Tentunya dalam
melakukan pemodelan ini melewati beberapa langkah yang perlu diselesaikan, terutama
dalam menentukan klasifikasi.
3.5.1 Perhitungan Decision Tree

Algoritma Decision tree merupakan algoritma yang telah teruji dalam melakukan
klasifikasi data.Yakni mampu membentuk pohon (tree) dari data berjumlah besar hingga
menghasilkan pohon keputusan. Untuk menentukan splitting node dan terminal node,
decision tree menggunakan fungsi algoritma c4.5 dengan membentuk perhitungan

21
entropy. Maka dengan formula entropy akan dilakukannya perhitungan manual untuk
memperoleh klasifikasi gangguan autism sesuai kriteria gejala yang diuji.
Tabel 3.2. Terindikasi Atau Tidaknya Gejala Pada Anak

Gejala-1 Gejala-2 Gejala-3 Gejala-4 Gejala-5 Jenis Gangguan Autisme
1 1 0 0 1 Gangguan Komunikasi
1 1 0 0 0 Gangguan Perilaku

22
Tabel 3.3. Terindikasi atau tidaknya Gejala Pada Anak (Sambungan)
TOTAL
24 19 23 20 26
Keterangan Gejala1-5:
0 : Tidak adanya gejala

1 : Adanya gejala
Tabel 3.2. menunjukkan dataset dengan gejala – gejala tertentu. Adapun jenis gejala yang
terkait seperti yang telah disebutkan sebelumnya.Pada tabel ini hanya mengadopsi angka
biner yang berarti 0 (ada gejala) dan 1 (tidak ada gejala).Untuk menentukan jenis angguan
autism maka kriteria yang diperlukan meliputi: gejala1 samapi gejala-5.Yang dimisalnya
sebagai atribut “ganguan autisme” degan jenis klasifikasi “Gangguan Komunikasi” atau
“Gangguan Prilaku”
 Menghitung Nilai Entropy Dan Gain

Maka perhitungannya entropyadalah :

23
13 13 23 23
Entropy (Total) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.3611*0.10836 - 0.638888 * 0.1923247
= 0.162000289
entropy gejala_2
3 14 3 14
Entropy(0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.0833 * 0.1170645 - 0.0833 * 0.1170645

= 0.0195024
8 10 8 10
Entropy(1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.222222 * 0.08361941 - 0.222222 * 0.08361941

= 0.61168282
Perhitungan gain :
Gain(Total, Gejala-2) = 0.162000289- 17 x 0.0195024 +
36
18 x 0.61168282
36
= 0.162000289 – 0.009209 + 0.30584141
= 0.458632699
entropy gejala_1
4 8 4 8
Entropy (0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.11111 * 0.06688 - 0.11111 * 0.06688

= 0.0148620

24
8 16 8 16
Entropy (1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.06688 * 0.1337911 - 0.06688 * 0.1337911
= 0.0178958
Gain (Total, Gejala-1) = 0.162000289- 12 x 0.0148620 + 24 x 0.0178958

36 36
= 0.162000289– 0.004954 + 0.011930
= 0.16897289
entropy gejala_3
5 8 5 8
Entropy (0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.1388888 * 0.066888 - 0.1388888 * 0.066888

= 0.01857776
8 16 8 16
Entropy (1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.11111 * 0.06688 - 0.11111 * 0.06688
= 0.0178958
Gain (Total, Gejala_3) = 0.162000289- 13 x 0.01857776 + 24 x 0.0178958
36 36
= 0.162000289– 0.00670863 + 0.01193053
= 0.167222179
entropy gejala_4
5 11 5 11
Entropy (0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36

25
= - 0.1388888 * 0.09198138 - 0.1388888 * 0.09198138
= 0.02555034
9 13 9 13
Entropy (1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= 0.25 * 0.10870527 - 0.25 * 0.10870527
= 0.05435262
Gain (Total, Gejala_4) = 0.162000289 - 16 x 0.02555034 + 22 x 0.05435262

36 36
= 0.162000289 – 0.0113557066 + 0.03321549
= 0.1838600724
entropy gejala_5
6 7 6 7
Entropy (0) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.1666666 * 0.05853361 - 0.1666666 * 0.05853361
= 0.019511574
8 18 8 18
Entropy (1) = ( ) ∗ 𝑙𝑜𝑔2 ( ) + ( ) ∗ 𝑙𝑜𝑔2 ( )
36 36 36 36
= - 0.11111 * 0.15051499 - 0.11111 * 0.15051499
= 0.03344774292
Gain (Total, Gejala_5) = 0.162000289 - 13 x 0.019511574 + 26 x 0.033447742

36 36
= 0.162000289 – 0.070458461 + 0.02415670
= 0.115698528

26
 Buat Tabel Penilaian Keseluruhan

Selanjutnya akan dilakukan penggabungan hasil dari perhitungan entropy dan gain dari
masing – masing gejala, dapat dilihat dari tabel berikut:
Tabel 3.4. Hasil Entropy Dan Gain

Gangguan Gangguan Gain
Gejala Autisme Entropy
Komunikasi Prilaku
Total 36 13 23 0.162000289
Gejala_1 0 4 8 0.0148620
0.16897289
1 8 16 0.0178958
Gejala_2 0 3 14 0.0195024
0.458632699
1 8 10 0.61168282
Gejala_3 0 5 8 0.01857776
0.1838600724
1 8 16 0.0178958
Gejala_4 0 5 11 0.02555034
1 9 13 0.05435262 0.1838600724
Gejala_5 0 6 7 0.019511574
0.115698528
1 9 18 0.03344774292
Hasil tabel 3.3 menunjukkan bahwa gejala-2 yakni (mencium atau menjilat benda apa
saja) merupakan nilai tertinggi seperti yang terlihat pada nilai gain, 0.458632699. Maka
gejala_2 memposisikan diri padanode pertama pada pohon keputusan. Setelah diperoleh
nilai gain tertinggi maka selanjutnya perhitungan tersebut diulang (repeat) menggunakan
cara yang sama untuk mendapatkan nilai entropy dan persamaan gain.
 Hasil Pohon Keputusan (Decision Tree) Pada Entropy Dan Gain

27
Dari pohon keputusan telah menjawab bagian dari klasifikasi yang menjadi variable
target yakni gangguan autism anak, diantaranya gangguan komunikasi dan gangguan
prilaku. Dengan pengujian sample sebanyak 36 anak yang diambil dari dataset. Maka
dari itu, hasil uji perhitungan yang dapat dilihat dari gambar berbentuk tabel yakni;
menghasilkan gangguan prilaku lebih dominan dengan persentase sebesar 66.7%
sedangkan gangguan komunikasi hanya mendapat persentase sebesar 33.12%.
Sedangkan jika dilihat dari cabang node yang telah dijabarkan maka akan terbentuk hasil
seperti ini. Nilai gain tertinggi diperoleh pada gejala-2 maka gejala tersebut menjadi akar
node. Selanjutnya dibelah menjadi 2 terminal yakni 0 dan 1 yang merupakan cabang
adanya gejala atau tidak. Seterusnya, jika dilihat pada tabel 3.4 maka bisa dilihat bahwa
hasil klasifikasi belum dapat ditentukan karenanya akan diproses lagi. Oleh karena itu
setiap cabangnya akan menghitung kembali nilai entropy dan gain. Begitu seterusnya
sampai nilai target diperoleh.
Gambar 3.2. Pohon Keputusan Hasil Entropy Dan Gain
3.5.2 Perhitungan Analisis Diskriminan

Menurut Maholtra (2016). Terdari dari 5 elemen ntuk menganalisis metode analisis
diskriminan: 1. Merumuskan permasalahan. 2. Mengestimasi nilai koefisien fungsi
diskriminan. 3. Nilai signifikan. 4. Menginterpresikan jumlah hasil dan. 5. Hasil
signifikan pada analisis diskriminan.
 Rumusan masalah

28
Pada dataset yang diambil terdapat 5 gejala yang berbeda beda yaitu, : Gejala-1 :Tidak
menengok ketika dipanggil, Gejala-2 : Mencium atau menjilat benda apa saja ,Gejala-3 :
Kurangnya rasa empati, dan suka berteriak sendiri, Gejala-4 : Lambat berbicara, Gejala-5
: Suka melakukan hal yang sama berulang – ulang. Dengan variable target adalah jenis
gangguan autism : gangguan komunikasi dan gangguan prilaku.
 Mengestimasi nilai koefisien
Tabel 3.5. Sampel Analisis Output SPSS
Gangguan
Gejala1 Gejala2 Gejala3 Gejala4 Gejala5 Dis_1 Dis1_1 Dis1_2 Dis2_2
Autisme
1 1 0 0 1 1 1 0.67727 0.60467 0.39533
1 1 0 0 1 1 1 0.67727 0.60467 0.39533
1 1 0 0 0 2 1 1.4288 0.73258 0.26742
0 1 0 0 1 2 1 1.03429 0.66859 0.33141
1 1 1 1 1 2 2 0.59592 0.5895 0.4105
0 0 1 0 1 2 2 -1.47953 0.22313 0.77687
1 0 1 1 1 1 2 -1.33357 0.24336 0.75664
1 1 1 1 1 2 2 0.59592 0.5895 0.4105
1 1 1 1 1 1 2 -0.59592 0.5895 0.4105
0 0 1 1 1 2 2 -0.97655 0.29787 0.70213
1 0 0 0 1 2 2 -1.25222 0.25517 0.74483
0 1 0 0 1 1 1 1.03429 0.66859 0.33141
0 1 1 1 1 1 1 0.95294 0.65447 0.34553
1 0 0 0 0 2 2 -0.50069 0.38025 0.61975
1 1 1 1 1 2 2 0.59592 0.5895 0.4105
1 1 1 1 1 2 1 0.59592 0.5895 0.4105
1 1 1 1 1 2 2 -0.59592 0.5895 0.4105
0 0 0 0 0 1 2 -0.14367 0.44729 0.55271
1 0 1 1 1 2 2 -1.33357 0.24336 0.75664
1 1 1 1 1 1 1 0.59592 0.5895 0.4105

29
Tabel 3.6. Sampel Analisis Output SPSS (Lanjutan)

1 1 1 1 1 2 2 0.59592 0.5895 0.4105
0 0 1 1 0 2 2 -0.22501 0.43175 0.56825
1 1 0 1 0 1 1 1.93178 0.80183 0.19817
1 0 1 1 0 1 2 -0.58203 0.3655 0.6345
1 0 1 1 1 2 2 -1.33357 0.24336 0.75664
0 0 1 1 1 2 2 -0.97655 0.29787 0.70213
1 0 1 0 1 2 2 -1.83655 0.17882 0.82118
1 1 1 1 1 2 1 0.59592 0.5895 0.4105
0 1 1 0 0 1 1 1.20149 0.69667 0.30333
0 0 1 0 1 2 2 -1.47953 0.22313 0.77687
1 1 1 1 1 1 1 0.59592 0.5895 0.4105
0 0 1 0 0 2 2 -0.728 0.33968 0.66032
1 0 0 1 0 2 2 0.00229 0.47541 0.52459
1 0 0 0 1 2 2 -1.25222 0.25517 0.74483
1 0 0 0 1 2 2 -1.25222 0.25517 0.74483
Keterangan Gejala1-5 :
0 : Tidak adanya gejala
1 : Adanya gejala
Keterangan katagori:
1. : Gangguan komunikasi
2. : Gangguan Prilaku
Adapun nilai Dis_1, Dis1_2, Dis1_2, Dis2_2 diperoleh dari hasil analisis menggunakan
aplikasi SPSS.Jika diperhatikan pada tabel Dis_1 yang merupakan group klasifikasi,
katagori target (1) lebih banyak muncul dibandingkan dengan katagori target (2).
 Hasil signifikan pada analisis diskriminan.

Tabel 3.4 dibawah akan memaparkan hasil analisis diskriminan menggunakan
perhitungan SPSS. Hal ini dilakukan untuk memudahkan dalam pembentukan kelompok
variable target.

30
Tabel 3.7.Canonical Discriminant Function Coefficients
1
Gejala1 -.649
Gejala2 1.989
Gejala3 -.731
Gejala4 .409
Gejala5 -.972
(Constant) .390
Dari tabel diatas dapat dibentuk perhitungan fungsi diskriminan manual. Adapun tabel
diatas dihasilkan dari output SPSS. Maka dapat dibentuk menjadi,
D = 0.390 – 0.649g1 +1.989g2 – 0.731g3 + 0.409g4 – 0.971g5, maka D = 0.759
Tabel 3.8. Hasil Klasifikasi Analisis Diskriminan
Classification Resultsa
Gangguan komunikasi Gangguan prilaku
Original Count Gangguan komunikasi 3 9 12
Gangguan prilaku 14 10 24
Ungrouped cases 2 0 2
% Gangguan komunikasi 25.0 75.0 100.0
Gangguan prilaku 58.3 41.7 100.0
Ungrouped cases 100.0 .0 100.0
Dari total sample yang diuji, sebanyak 36 anak maka terbentuk kelompok sesuai jenis
gangguan hampir komplek.Hanya terdeteksi 2 anak yang tidak dapat diklasiikasikan
(error).

32
BAB 4
HASIL DAN PEMBAHASAN
4.1. Hasil
Pada bagian ini, penulis menyajikan hasil dan pembahasan penelitian mengenai prediksi
dalam pengklasifikasian yang dilakukan dengan membandingkan kinerja algoritma
Decision Tree dan Analisis Diskriminan terhadap gangguan autism pada anak dengan
jenis gangguan yakni gangguan komunikasi dan gangguan prilaku. Penulis mencoba
mengukur dari kriteria gejala yang ada maka akan terklasifikasi apakah tergolong
gangguan komunikasi atau prilaku. Adapun gejala yang diambil berdasarkan dataset yang
ada, data yang diperoleh dari repository machine learning. Hasil penelitian menyatakan
bahwa algoritma decision tree mampu mengklasifikasi jenis gangguan autisme dengan
persentase 74.2% .tingakat error sebesar 25.8%. Sedangkan hasil persentase metode
analisis diskriminan sebesar 68.2%. Selanjutnya penulisan akan memaparkan hasil dan
pembahasan dari “ Komparasi Kinerja Pada Algoritma Decision Tree dan Analisis
Diskriminan Dalam Klasifikasi”
4.1.1 Hasil Analisis Menggunakan Decision Tree

Proses perbandingan metode ini menggunakan aplikasi SPSS (Statistical Package for the
Social Sciences). Klasifikasi algoritma Decision Tree ini menggunakan dataset yang
membentuk sebuah tree dengan hasil, 5 node, 3 terminal, dan 2 depth seperti yang telah
dipaparkan dibawah pada gambar 4.1.
Dari perhitungan tersebut juga telah membentuk sebuah klasifikasi jenis gangguan
autisme yang dapat dilihat dari tabel dibawah ini. Data dalam tabel menunjukkan bahwa

32
Tabel 4. 1.Hasil Klasifikasi Decision Tree

Classification
Gangguan Gangguan
Komunikasi Prilaku Percent Correct
Training Gangguan Komunikasi 59 0 0.0%
Gangguan Prilaku 0 78 100.0%

Overall Percentage 0.0% 100.0% 58.2%
Test Gangguan Komunikasi 39 0 0.0%
Gangguan Prilaku 0 112 100.0%

Overall Percentage 0.0% 100.0% 74.2%
a. 74.2% of original grouped cases correctly classified.
4.1.1.1.Dataset Decision TreeMembentuk Pohon Keputusan
Proses pembentukan pohon keputusan dalam perhitungan ini dibantu dengan

menggunakanSPSS. Hal tersebut untuk memaksimalkan proses pengklasifikasian metode
Decision Tree dalam membentuk Pohon keputusan seperti terlihat pada gambar 4.1 yang
menunjukkan salah satu dari beberapa tree yang dibuatdengan algoritma decision
tree.Penggunaan decision tree mempunyai kemampuan untuk break down proses
pengambilan keputusan yang komplek menjadi simple.Metode ini jug aberguna untuk
mengeksplorasi data, mampu menemukan hubungan tersembunyi diantara variable input
dengan variable target.
Gambar 4.1. Pohon Keputusan Dari Dataset

33
Pohon keputusan diatas menunjukkan bahwa, terdapat 5 nodes, 3 terminal, dan 2 of

depth.Node 0 sebagai gangguan autism Y yang menjelaskan total dari keseluruhan
katagori. Sedangkan node 1 – 5 menunjukkan perhitungan dari gejala terkait. Adapun
nilai terminalnya serta cabang dari tree diatas hanya memuat dua arah, hal tersebut
dikarenakan dataset terdiri dari angka biner, 0 dan 1. Jika dilihat dari improvement pada
setiap terminal mengalami jumlah yang berbeda hal itu dikarenakan jumlah persentase
nilai dari data berbeda.Pada improvement diatas (terminal) hanya menampilkan 2 gejala
dengan katagori nilai tertinggi dari 5 gejala yang sudah diuji.Dengan begitu, gejala 4
merupakan gejala terbanyak yang terjangkit pada anak autisme begitu juga dengan gejala
2 dan seterusnya. Untuk lebih jelasnya dapat dilihat dari grafik yang akan dipaparkan
pada gambar 4.2.
4.1.1.2 Urutan Gejala Tertinggi Autisme

Tabel 4.2.Independent Variable Importance
Independent Variable Importance Normalized Importance

gejala_4 .003 100.0%
gejala_3 .003 83.0%
gejala_2 .001 33.1%
gejala_1 .000 10.7%
gejala_5 .000 3.1%
Tabel 4.2 menjelaskan jumlah persentase gangguan pada setiap gejala yang diuji dalam
dataset. Untuk lebih jelasnya akan dipaparkan grafik untuk persentase masing-masing
gejala.
Gambar 4.2. Urutan Gejala Autisme

34
Gejala – gejala diatas mempresentasikan tingkat keterkaitan satu sama lain pada setiap
gangguan autism anak. Dari presentasi grafik tersebut tidak menutup kemungkinan
bahwa gejala-gejala yang diuji bisa terdiagnosis pada anak dengan kedua katagori
tersebut. Gangguan tertinggi ditunjukkan pada gejala-4, nilai persentasi mencapai
100%.Dengan demikian, gejala tersebut terjangkit disetiap anak yang mengalami autisme.
Disusul dengan gejala – 3 dengan nilai persentasi sebesar 83.0%, gejala – 2 menunjukkan
nilai sebesar 33.1%, gejala – 1 dengan nilai sebesar 10.7%, dan diakhiri dengan gejala –
5 dengan nilainya persentase sekitar 3.1%.
4.1.1.3. Pembentukan Pohon Keputusan Gejala–1 Sampai Gejala-5

Dijelaskan bahwa treeyang dipaparkan dibawah merupakan perhitungan dari setiap gelaja
yang diangkat pada dataset.Dataset yang diuji menggunakan gangguan autisme (Y)
sebagai variable dependent. Adapun hasil dari setiap gambar dapat dilihat sebagai berikut:
Gambar 4.3. Decision Tree Pada Gejala–1

35

36
4.1.2. Hasil Analisis Menggunakan Analisis Diskriminan

Dalam menganalisis metode analisis diskriminan juga menggunakan SPSS untuk
menentukan prediksi jenis gangguan autism dalam klasifikasi terhadap gejala.
Perhitungan menggunakan metode ini mengalami keterbatasan dikarnakan dataset yang
diambil hanya berupa angka biner (0 dan 1). Ditambah lagi variable yang diambil hampir
menyerupai. Hubungan korelasi diantara variable dependent dengan independent cukup
kecil, banyak dipengaruhi oleh factor lain. Adapun nilai persentase menggunakan analisis
diskriminan hanya mampu mendeteksi sebesar 68.3%.Nilai persentase ini sangat riskan
untuk sebuah persentase.
Tabel 4.3 menjelaskan hasil dari prediksi dalam klasifikasi jenis gangguan
autisme, yang menunjukkan bagian-bagian persentasenya terhadap gejala yang
diuji.Jumlah nilai persentase setiap umur masing-masing berbeda.
Tabel 4.3. Hasil Klasifikasi Analisis Diskriminan
Classification Resultsa
Predicted Group Membership
Gangguan Gangguan
Gangguan autisme komunikasi prilaku Total
Original Count Gangguan komunikasi 47 51 98
Gangguan prilaku 70 124 187
Ungrouped cases 0 7 7
% Gangguan komunikasi 48.0 52.0 100.0
Gangguan prilaku 36.1 63.9 100.0
Ungrouped cases .0 100.0 100.0
a. 68.3% of original grouped cases correctly classified.
4.1.2.1. Analisis Statistik Deskriptif

Mengasung sebuah prediksi atau elaborasi suatu data yang ditunjukkan dari nilai rata-rata
(mean), standar deviasi, minimum, sum, range, kurtosis, varian, maksimum.Variabel yang
digunakan yaknimencakupGejala_1, Gejala_2, Gejala_3, Gejala_4, Gejala_5. Berikut
akan dipaparkan statistik deskriptif dari masing-masing variabel penelitian.

37
Tabel 4.4.Descriptive Statistic
Group Statistics
Valid N (listwise)
Gangguan autisme Mean Std. Deviation Unweighted Weighted
Gangguan komunikasi gejala_1 .65 .478 98 98.000
gejala_2 .51 .502 98 98.000
gejala_3 .69 .463 98 98.000
gejala_4 .49 .502 98 98.000
gejala_5 .74 .438 98 98.000
Gangguan prilaku gejala_1 .62 .486 194 194.000
gejala_2 .55 .499 194 194.000
gejala_3 .77 .423 194 194.000
gejala_4 .58 .494 194 194.000
gejala_5 .74 .439 194 194.000
Total gejala_1 .63 .483 292 292.000
gejala_2 .53 .500 292 292.000
gejala_3 .74 .438 292 292.000
gejala_4 .55 .498 292 292.000
gejala_5 .74 .438 292 292.000
Output dari Group Statistics di atas memperlihatkan bahwa jumlah data sebanyak 292
dari 292 data sehingga validitas 100% tanpa adanya data yang hilang atau tidak
diproses.Jika di lihat dari pengelompokkan berdasarkan variabel dependen yakni
gangguan komunikasi dan gangguan prilaku semuanya dikelompokkan.Akan tetapi untuk
mengukur baik buruknya standart indicator pada nilai standar deviasi, standar deviasi
akan lebih baik jika dalam pengelompokan lebih rendah daripada pengelompokan total.
Jika diperhatikan gejala_2 dan gejala_4 masuk katagori tidak memenuhi syarat karena
memiliki nilai lebih tinggi dari jumlah total.
Pada kolom Unweighted dapat diketahui yang termasuk kategori gangguan
komunikasi sebanyak 98 anak dan kategori gangguan prilaku sebanyak 194 anak. Ikut
disertakan nilai mean dan signifikan dari masing – masing gejala yang diuji.
4.1.2.2. Uji Asumsi Diskriminasi

38
a. Uji Normalisasi
Motif dari pengujian adalah untuk menentukan distribusi reguler. Statistik yang apikialah
data yang memiliki pola distribusi reguler, yaitu statistik tidak mengarah kiri atau ke
kanan. Uji coba normalitas dilproses dengan bantuan tes Kolmogorov-Smirnov.
Pemeriksaan normalitas diproses pada setiap peubah menggunakan penilaian yang baik
bahwa jika secara individual setiap variabel memenuhi asumsi normalitas, maka variabel
tersebut dapat dianggap memenuhi asumsi normalitas.
b. Uji Homogenitas
Dalam analisis diskriminan, dikatakan asumsi adalah semua variabel harus berkaitan dan
sejenis.Adapun caramengenalnilai peubah bebas/terikat yang mungkin mempengaruhi
anggota grupialah dengan mengenakan uji statistik Wilk’s Lambda dan taraf signifikansi.
Sebelum itu akan ditampilakna hasil dari uji box’s M terlebih dahulu.
Tabel 4.5.Test Result Box’s M
Test Results
Box's M 17.389
F Approx. 1.134
df1 15
df2 158222.756
Sig. .318
Hasil uji box’s M memperlihatkan bahwa box’s M bernilai 17.389, nilai F sebesar 1.134
dan signifikansi pada 0.318.Probabilitas ini melebihi 0.05 maka dapat dinyatakan bahwa
matrice covariance tidak berbeda.Dapat dikatakan pula tidak cukup bukti untuk menolak
(Ho).Dengan demikian analisis diskriminan dapat dilakukan. Terlihat dari ambang selisih
log determinan yang cukup jauh, sehingga group covariance matrices relatif terpautjarak
tiap-tiap kelompok. Walaupun begitu analisis fungsi diskriminan tetap robust.
c. Uji Multikolineritas
Evaluasi diskriminan mempunyaihipotesis bahwa tidak ada tanda-tanda multikolinitas

atau ada korelasi antara variabel independen yang membuatnya sulit untuk memberikan

39
pengaruh pada orang. Menguji hipotesis:individual. Hipotesis yang patut terpeenuhi yakni
tak terdapatketerkaitan antara kelima variabel (Independent) dimana tidak terjadi gejala
multikolinearitas jika nilai korelasi antar variabel independen berupa < 0.8. Namun jika
kelima gejala yang diambil mendapati keterkaitan yang erat, maka dapat
dinyatakansebagai multikolinieritas. Hipotesis pengujian:
H0: Adanya keterkaitan antar variabel (Independent)
H1: Tak ada keterkaitan antar variabel (Independent)
Tabel 4.6. Uji Korelasi Variabel
Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.
gejala_1 .999 .240 1 290 .624
gejala_2 .999 .341 1 290 .560
gejala_3 .994 1.875 1 290 .172
gejala_4 .992 2.263 1 290 .134
gejala_5 1.000 .002 1 290 .961
Hasil output SPSS yang ditunjukkan pada tabel 4.6, pengujian untuk setiap variabel bebas
yang ada. Seleksi dibuat dalam kisaran 0 hingga 1, jika mendekati 0 maka informasi
untuk setiap kelompok cenderung berbeda, sedangkan jika teknik kuantitas 1 maka
kisaran informasi keragaman data tinggi atau semakin kompleks.Outputpada tabel yang
disajikan, angka padaWilk’s Lambda berkisar antara 0.992 sampai 1.000. Dari kolom
signifikan dapat dilihat bahwa variabel gejala_5diatas 0.05 yang bermakna menjuruh
kearah yang sama. Bahkan nilai Wilk’s Lambda bisa dikatakan sempurna dikarnakan
cenderung mendekati angka 1.Dengan demikian terdapat korelasi antar variable bebas.
Selanjutnya, Tabel Eigenvalues digunakan untuk pengukur kerapatan hubungan
antara discriminant score dengan kategori gangguan komunikasi dan gangguan prilaku
yang ditunjukkan dengan nilai Canocical Correlation.Pada tabel diatas nilai canonical
correlation sebesar 0,121.Nilai tersebut mendekati 0 yang artinya terdapat keeratan
hubungan yang tidak cocok.

40
Tabel 4.7.Eigenvalues
Eigenvalues
Canonical
Function Eigenvalue % of Variance Cumulative % Correlation
a
1 .015 100.0 100.0 .121
Dikarenakan terdapat dua kelompok yang ingin dibentuk karenanya tabel Eigenvalues
hanya membentuk satu kolom saja. Dengan nilai Eigenvaluessebesar 0.015 dan nilai
canonical correlation sebesar 0.121.Untuk mengetahui nilai koefisien determinasi (r²)
maka perlu dipangkatkan nilai canonical correlation.Yaitu, 0.121² = 0.014. Angka ini
mengidentifikasi bahwa 14% rule dapat dijelaskan oleh model.
d. Uji Signifikasi
Tabel 4.8. Wilks' Lambda
Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 .985 4.232 5 .516
Pada tabel 4.8 menghasilkan nilai Wilks' Lambda sebesar 0.985 dengan fungsi
diskriminan. Nilai tersebut ditransormasikan ke angka bentuk chi-square menjadi 4.232
dengan derajat kebebasan (df) sebanyak 5 variabel. Dan memperoleh nilai sig.
0.516.Dengan demikian bahwa fungsi tersebut memiliki kemampuan untuk melakukan
analisis diskriminan.
e. Fungsi Dalam Prediksi gejala
Tabel 4.9.Standardized Canonical Discriminant
Function
1
gejala_1 -.460
gejala_2 .151
gejala_3 .502
gejala_4 .710
gejala_5 -.098

41
Tabel 4.10.Structure Matrix

Function
1
gejala_4 .725
gejala_3 .660
gejala_2 .281
gejala_1 -.236
gejala_5 -.023
Pada tabel 4.8 mengurutkan nilai perhitungan sesuai sample yang diuji menurut gejala
masing masing. Jika dilihat dari jumlah nilai pun cukup variatif.Akan tetapi pada tabel
selanjutnya yaitu tabel 4.9 menunjukkan hasil urutan yang berbeda, disini kelompok
gejala sudah diurutkan berdasrkan urutan dari nilai tertinggi ke nilai
terendah.Ditunjukkan bahwa gejala_1 dan gejala_2 merupakan nilai terendah.Sebaliknya
gejala yang memiliki nilai function yang tinggi memiliki kontribusi besar dalam
diskriminan.
f. Fungsi Diskriminan
Tabel 4.11.Canonical Discriminant Function Coefficients
Function
1
gejala_1 -.951
gejala_2 .301
gejala_3 1.149
gejala_4 1.429
gejala_5 -.224
(Constant) -1.034
Dari tabel diatas dapat kita bentuk fungsi dari diskriminan, adapaun nilai nya seperti yang
ditampilakan dari tabel diatas yaitu:
D = -1.034 + (-0.951)g1 + 0.301g2 + 1.149g3 + 1.429g4 – 0.224g5
= -1.034 + (-0.951)(1) + 0.301(1) + 1.149(0) + 1.429(0) – 0.224(1)
= -1.034 – 0.951 + 0.301 + 0 + 0 -0.224
= - 1.908

42
4.2. Pembahasan
4.2.1. Perbandingan Kinerja Analisis Decision Tree Dan Analisis diskriminan Dalam
Klasikasi
Pada permulaan proses , Dataset yang telah disediakan oleh penulis untuk pengujian ini
akan dipecahkan menjadi data training dan testing. Training set digunakan untuk
membangun tree yang memungkinkan penempatan suatu kelas ke dalam variabel target
dari record baru. Dalam perhitungan SPSS yang didalamnya terdapat unsur CART yang
berfungsi membangun binary tree dengan memecah record pada tiap node berdasarkan
fungsi variable input tunggal. Tugas pertama yang dijalankan adalah menentukan variable
independen yakni jenis gejala autism yang menjadi splitter terbaik. Splitter terbaik
maksudnya adalah yang dapat menyeleksi atau memperkecil ruang lingkup node tersebut
dalam mengklasifikasi gejala. Semakin sedikit jumlah record atau data yang diuji,
semakin kurang representative node tersebut. Akibatnya adalah model tree hanya dapat
memprediksi secara akurat untuk record yang berada pada training set, tetapi tidak dapat
memprediksi data pada record baru yang berasal dari luar training. Untuk mengurangi
overtraining, pemangkasan pohon atau pruning dapat dilakukan dan pruning
menghasilkan beberapa kandidat subtree. Subtree digunakan untuk memprediksi record
yang ada dalam data test sekaligus memberikan error terkecil terpilih sebagai model tree.
Cabang dari terminal ini akan dipecah menjadi beberapa subtree yang dapat dilihat pada
gambar 4.1. Langkah terakhir adalah mengevaluasi subtree terpilih (voting tertinggi)
dengan menerapkannya validation set. Nilai error yang diperoleh dari validation set
digunakan untuk memprediksi kegagalan kinerja metode. Dengan meminimalkan fungsi
kesalahan yang sesuai yang ditentukan sehubungan dengan kumpulan data yang dilatih
pada pengujian ini.
Sedangkan pada metode analisis diskriminan, adalah salah satu teknik statistik
yang bisa digunakan pada hubungan dependensi (hubungan antar variabel dimana sudah
bisa dibedakan mana variabel respon dan mana variabel penjelas). Pada metode ini ada
berapa asumsi yang harus terpenuhi seperti; Multivariate, tidak adanya multikolinearitas
antar variabel independen (antar atribut gejala yang diambil), Homogenitas Varians antar
kelompok, dan adanya perbedaan yang signifikan antara kelompok responden yang

43
memberikan keputusan 0 dengan kelompok yang memberikan keputusan 1. Adapun

analisis yang di uji berdasarkan dataset yang digunakan untuk mendapatkan akurasi nilai
yang baik. Ulasan lebih jelasnya dapat dilihat dari gambar dibawah.
Gambar 4.8. Perbandingan Hasil Persentase Dalam Klasifikasi Jenis Gejala Dari Kedua
Metode
Hasil pengelompokan dari kedua metode yang ditunjukkan melalui gambar 4.8 dengan
perolehan persentase 74.2% : 68.3% dalam mengklasifikasi jenis gejala. Dan memiliki
selisih nilai dari kedua metode sebesar 5.8%. Dengan demikian decision tree memperoleh
persentase sebesar 5.8% lebih tinggi dalam mengenali pola gejala autism.Walaupun pola
gejala yang diambil hampir serupa tetapi decision tree dapat mem-break out data tersebut
sehingga menghasilkan sebuah keputusan.
4.2.2. Hasil
Hasil analisis algoritma decision tree yang dimana menunjukkan keakuratan yang lebih
signifikan dibandingkan dengan metode analisis diskriminan. Dikarnakan decision tree
lebih mampu dalam meminimalisir error karena adanya validation set yang memprediksi
tingkatan missing data. Nilai error yang diperoleh dari validation set digunakan untuk
memprediksi kegagalan kinerja metode terkait. Dengan meminimalkan fungsi kesalahan
yang ditentukan sehubungan dengan kumpulan data yang dilatih pada pengujian ini.
Kemudian dibandingkan dengan mengevaluasi fungsi kesalahan menggunakan set
validasi independen atau dengan gejala-gejala yang diuji. Sedangkan analisis diskriminan

44
dalam penelitian ini mendapati kendala dalam mengenali variable yang hampir serupa.
Variabel yang dimaksud ialah gejala 1 dan lainnya yang cukup mendekati maknanya. Hal
ini dikarenakna dalam perhitungan metode ini hanya menerapkan prosedur memenuhi
asumsi antara atribut gejala autisme dan jenis target. Karenanya diskriminan hanya
mampu mendeteksi dengan persenatse lebih kecil.
Penelitian ini menghasilkan nilai persentase yang tergolong kecil untuk setiap
jenis gangguan, hal ini dikarenakan dataset yang diambil memiliki keterbatasan.
Penelitian yang dilakukan masih terdapat beberapa kekurangan diantaranya jumlah
training data dan atribut predictor. Hal ini berpengaruh pada kualitas pohon keputusan
dan analisis diskriminan yang dihasilkan. Adapun dataset yang diuji hanya mengandung
nilai biner (0-1). Selain itu, variable independent sebagai tolak ukur tergolong mirip.
Factor ini juga mempengaruhi kinerja metode yang diuji.
Proses pembentukan pohon decision tree tergolong unik. Dia akan mengurutkan
nilai tertinggi. Nilai tertinggi dilihat dari gejala yang paling banyak muncul dari sampel.
Setelahnya proses tersebut dieksekusi ulang untuk memperoleh nilai baru sampai final.
Terminal yang dihasilkan hanya terdiri dari dua arah hal ini dikarenakan nilai yang
diproses terdiri dari jumlah 0 dan 1. Terminal tersebut akan mengikuti aturan nilai dari
dataset itu sendiri, jika nilai dataset beragam maka akan menghasilkan cabang lebih
banyak lagi. Sedangkan pada proses analisis diskriminan, Dataset yang diambil harus
memenuhi ketentuan yang salah satunya yakni membentuk katagori. Nilai dependent
yang menjadi target harus berbentuk optional bukan nilai mutlak. Atribut target disini
berupa jenis gangguan. Gangguan prilaku disimpulkan sebagai katagori (1) sedangkan
gangguan komunikasi sebagai katagori (2). Hal ini diperlukan untuk mengetahui jenis
target yang akan dieksekusi sesuai ketentuan dari metedo tersebut. Diluar keterbatasan
nilai tersebut, kedua metode ini mampu mengkelompokkan dan menunjukkan jenis
gangguan autism yang ditargetkan oleh penulis dengan nilai akurasi yang sangat
memuaskan.

45
BAB 5
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Membandingkan kinerja algoritma Decision TreedanAnalisis Diskriminandalam proses
menentukan jenis gangguan autism anak dengan ketentuan target, gangguan komunikasi
dan gangguan prilaku. Kesimpulan yang diperoleh berdasarkan pada pengujian dua
metodedengan menggunakan aplikasi SPSS tersebutterbukti bahwa:
1. Proses klasifikasi menggunakan algoritma decision tree dan analisis diskriminan
dapat digunakan untuk mengolah data dalam jumlah yang besar.
2. Atribut gejala yang hampir serupa berpengaruh dalam memperoleh persentase dan
dari proses klasifikasi membuktikan bahwa algoritma decision tree memberikan
hasil yang baik pada proses pengujian, sehingga membuktikan bahwa algoritma
tersebut lebih fleksibel digunakan.
3. Proses perhitungan pada decision tree terdapat validation set untuk meminimalkan
fungsi kesalahan dalam pengklasifikasian sedangkan pada analisis diskriminan
tidak ada fungsi tersebut.
4. Dari jumlah data sebanyak 292 instance, dihasilkan tingkat kecocokan pada
algoritma decision tree sebanyak 72.4% dibandingkan model analisis diskriminan
sebesar 68.3%. Hasil penelitian menunjukkan bahwa gangguan prilaku lebih
sering terjangkit pada anak autisme dibandingkan gangguan komunikasi.
5.2 Saran
Untuk penelitian selanjutnya mengajukan perkembangan yang dilakukan didalam
penelitian ini berikut:
1. Pada penelitian ini penulis menggunakan dataset dengan atribut hanyaberupa
angka biner, disarankan untuk menggunakan data dengan nominal yang lebih
tinggi, dan berbobot

46
2. Melakukan penelitian dengan metode terbaharui supaya hasil lebih maksimal

dalam klasifikasi variable target.

47
DAFTAR PUSTAKA
American Psychiatric Association, 2013. Diagnostic and Statistical Manual of Mental

Disorders: DSM-5. (handbook)
Achmad, B. D. M., Slamat, F., & ITATS, F. T. I. (2012).Klasifikasi data karyawan untuk
menentukan jadwal kerja menggunakan metode decision tree.Jurnal IPTEK,
16(1).
Budiman, Edwar. Edy, S., & Tri A. 2017. Pendeteksi Jenis Autis pada Anak Usia Dini
Menggunakan Metode Linear Discriminant Analysis (LDA). Jurnal
Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) :583-592
Gardenia, M., 2015.Sistem Pakar Deteksi Autisme Pada Anak Menggunakan Metode
Fuzzy Tsukamoto. Universitas Tanjungpura
Hermanto, Bambang. 2017, Analisis Kinerja Decision Tree C4.5 dalam PrediksiPotensi
Pelunasan Kredit Calon Debitur, JURNAL INOVTEK POLBENG - SERI
INFORMATIKA, VOL. 2, NO. 2 ,ISSN : 2527-9866
Han, J., Kamber, M.dan Pei, J., 2012. Data Mining: Concepts and Techniques, Third
Edition. Morgan Kaufmann Publishers.
Hamzahan, A., Santosa, G., & Widiarto, W. (2002). Klasifikasi Objek Dalam Visi
Komputer Dengan Analisis Diskriminan. Makara Journal of Technology, 6(1),
146732.
Herdyansah, S. (2016). Pengklasifikasian Data Menggunakan Metode Analisis

Diskriminan Kuadratik Dengan Expected Cost Of Misclassification (ECM)
Minimum.
Johnson, R.A. dan D.W. Wichern. 2007. Applied Multivariate Statistical Analysis, 6th
Edition.United States of America: Prentice Hall.
Larose, D.T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining.

John Willey & Sons, Inc
Lubis, M.U., 2009. Penyesuaian Diri orang tua yang memiliki anak autis. Universitas
Sumatera Utara.
Musda, J. A. 2018. Analisis Diskriminan Dalam Memprediksi Kinerja Perbankan Di

Indonesia.Universitas Negeri Aluddin Makassar.

48
Fitriani, Ratika, and Yelfi Vitriani."The Comparison of Linear Regression Method and K-
Nearest Neighbors in Scholarship Recipient."2018 19th IEEE/ACIS International
Conference on Software Engineering, Artificial Intelligence, Networking and
Parallel/Distributed Computing (SNPD). IEEE, 2018.
Oktariana, Wieke. 2008. Riwayat Autism, Stimulasi Psikososial dan Hubungannya

Dengan Perkembangan Sosial Anak Dengan Gangguan Autism Spectrum
Disorder (ADS). Skripsi pada Program Studi Gizi Masyarakat dan Sumberdaya
Keluarga Fakultas Pertanian Institut Pertanian Bogor.Bogor : tidak diterbitkan.
Rohman, F.F. dan Fauzijah, A., 2008. Rancang Bangung Aplikasi Sistem Pakar Untuk
Menentukan Jenis Gangguan Perkembangan Pada Anak. Universitas Islam
Indonesia.
Sugara, Widyatmoko, and S. D. Prakoso. "Penerapan Algoritma C4. 5 untuk Deteksi Dini
Gangguan Autisme Pada Anak."Seminar Nasional Teknologi Informasi Dan
Komunikasi (SENTIKA). 2018.
Xu Haiwei. et ol., “An Improved Random Decision Trees Algorithm with Application to
Land Cover Classification” School of Info-physics and Geomatics Engineering.
IEEE.
Yogi Yusuf, W. Perbandingan Performansi Algoritma Decision Tree C5. 0, CART, dan
CHAID: Kasus Prediksi Status Resiko Kredit di Bank X. Islamic University of
Indonesia, 2007.
Yunita, D. (2017). Perbandingan Algoritma K-Nearest Neighbor dan Decision Tree untuk
Penentuan Risiko Kredit Kepemilikan Mobil.Jurnal Informatika Universitas
Pamulang, 2(2), 103-107.

49
LAMPIRAN Tabel 3.1 Data Set Autism Disorder
No gejala_1 gejala_2 gejala_3 gejala_4 gejala_5 Age Gender Ethinicity Jundice Autism Type of Disruption
1 1 1 0 0 1 6 m Others no no Communication
2 1 1 0 0 1 6 m 'Middle Eastern ' no no Communication
3 1 1 0 0 0 6 m ? no no Behavior
4 0 1 0 0 1 5 f ? yes no Behavior
5 1 1 1 1 1 5 m Others yes no Behavior
6 0 0 1 0 1 4 m ? no yes Behavior
7 1 0 1 1 1 5 m White-European no no Communication
8 1 1 1 1 1 5 f 'Middle Eastern ' no no Behavior
9 1 1 1 1 1 11 f 'Middle Eastern ' no no Communication
10 0 0 1 1 1 11 f ? no yes Behavior
11 1 0 0 0 1 10 m White-European yes no Behavior
12 0 1 0 0 1 5 f ? no no Communication
13 0 1 1 1 1 4 m White-European yes no Communication
14 1 0 0 0 0 4 f Black no no Behavior
15 1 1 1 1 1 6 m White-European no no Behavior
17 1 1 1 1 1 4 m 'South Asian' no no Behavior
19 1 0 1 1 1 11 m White-European no yes Behavior
20 1 1 1 1 1 5 m ? no no Communication
22 0 0 1 1 0 9 f ? no no Behavior
23 1 1 0 1 0 4 m Asian no no Communication
24 1 0 1 1 0 6 f 'South Asian' no no Communication
25 1 0 1 1 1 11 m ? no no Behavior
27 1 0 1 0 1 6 f 'Middle Eastern ' no no Behavior
29 0 1 1 0 0 6 m ? no yes Communication
30 0 0 1 0 1 4 f Others yes yes Behavior
32 0 0 1 0 0 6 m Pasifika yes no Behavior
33 1 0 0 1 0 ? m ? no no Behavior
34 1 0 0 0 1 5 m 'South Asian' yes no Behavior
36 0 1 0 0 0 7 f 'Middle Eastern ' yes no Behavior
40 0 1 1 1 1 4 m Asian no no Behavior
41 0 0 1 1 1 5 m ? yes no Behavior
42 0 1 0 0 0 4 m 'Middle Eastern ' no no Behavior
44 1 0 1 1 1 4 f ? no no Behavior
49 1 0 1 1 1 6 f White-European yes no Communication
50 0 1 0 0 1 7 m 'Middle Eastern ' no yes Behavior
53 1 0 0 1 0 6 m ? no no Behavior
55 1 0 1 1 0 5 m ? no no Behavior
57 0 0 1 0 0 6 m ? no no Behavior
58 1 0 1 1 1 4 f White-European no no Behavior

50

60 1 0 1 1 1 4 m Hispanic no yes Communication
61 1 0 1 0 1 4 m Turkish no no Behavior
63 1 1 1 0 1 4 f White-European yes no Behavior
64 1 1 1 0 1 9 m Asian yes no Behavior
66 0 0 1 0 0 ? m 'Middle Eastern ' no no Behavior
69 0 0 1 0 1 4 f ? no yes Behavior
73 1 0 1 1 1 6 m 'South Asian' no no Communication
75 1 0 1 1 1 8 f 'Middle Eastern ' no yes Behavior
77 1 1 1 1 0 11 f Others no no Behavior
79 1 1 1 1 1 4 m Latino no yes Communication
82 0 1 1 1 1 7 m White-European yes yes Behavior
89 1 1 1 1 0 5 m Latino no yes Behavior
90 0 1 1 1 1 6 m Hispanic no no Communication
92 1 0 0 1 1 11 f White-European yes yes Communication
95 1 1 1 1 1 6 m Latino no no Communication
102 1 1 1 1 0 6 f Asian no no Behavior
103 0 0 0 0 0 9 f White-European no no Communication
104 0 1 0 1 0 10 m Others no no Behavior
105 0 0 0 0 1 4 m Asian no yes Behavior
108 1 0 0 0 1 4 f White-European yes yes Behavior
111 0 1 1 1 1 5 m ? no no Behavior
117 1 1 1 1 1 10 f Asian no no Communication

51
120 0 1 1 0 1 4 m Asian no yes Communication

127 1 1 1 1 0 ? m ? yes no Behavior
128 0 0 1 0 1 4 f Asian yes no Communication
138 0 0 0 0 0 5 f Hispanic no no Behavior
139 0 1 1 0 1 ? m ? yes no Communication
145 1 1 0 1 1 7 f White-European no no Communication
146 1 1 1 1 1 4 m Black yes no Communication
150 0 0 0 0 1 4 m ? no no Behavior
151 1 1 1 1 1 4 m 'South Asian' no yes Communication
152 1 0 1 0 1 4 m Black no yes Behavior
156 1 1 1 1 1 6 m Others yes no Communication
157 0 1 0 0 0 6 f Asian no no Communication
158 1 1 0 0 1 6 f White-European no yes Behavior
161 1 0 1 1 1 11 m ? no no Behavior
164 1 0 0 1 1 7 m Black no no Communication
166 1 0 0 0 1 10 f Others no no Behavior
174 0 0 1 1 1 11 f Others yes no Behavior
175 0 1 1 0 0 4 m ? yes no Communication

52
181 1 1 1 1 1 4 f ? yes no Communication

183 1 0 0 1 1 11 m Hispanic no no Behavior
186 1 0 1 0 1 4 m Black yes no Behavior
191 1 1 1 0 1 4 m ? no no Behavior
195 1 1 0 0 1 5 m ? no no Behavior
197 1 1 1 1 1 8 m Black no no Behavior
198 0 0 1 0 1 4 m Pasifika no no Communication
200 1 0 0 0 1 9 m White-European no yes Communication
204 1 1 1 1 1 7 f Asian yes no Communication
210 1 0 1 1 1 5 m Latino no yes Behavior
211 1 0 1 1 1 5 m Latino no yes Communication
216 1 1 1 1 1 4 f Asian no yes Behavior
218 0 0 0 0 0 11 m Turkish no yes Communication
220 1 0 1 1 1 4 f Hispanic no no Behavior
227 0 0 0 0 1 8 f 'South Asian' no no Behavior
235 0 1 1 0 1 4 m Others yes no Behavior
238 0 1 1 0 0 11 f Latino yes no Behavior
240 1 0 0 1 1 11 f White-European no yes Communication

53

244 1 1 0 0 0 9 f ? yes no Behavior
245 0 1 1 0 1 7 m ? yes no Communication
247 1 1 1 0 1 5 m 'Middle Eastern ' yes no Communication
248 0 0 0 0 0 10 m 'Middle Eastern ' no yes Behavior
251 0 1 0 1 1 7 m 'Middle Eastern ' yes no Behavior
255 1 1 1 0 0 5 m 'Middle Eastern ' yes no Behavior
269 1 0 1 0 1 10 m ? yes no Behavior
272 1 0 1 0 0 4 f White-European no yes Communication
281 0 0 1 0 0 4 m Black no yes Communication
287 0 1 1 1 1 5 f Latino yes no Behavior
290 1 0 1 1 1 4 m Latino no no Behavior

Decision Tree PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Decision Tree PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

Universitas Sumatera Utara

Repositori Institusi USU http://repositori.usu.ac.id

Komparasi kinerja pada Algoritma

PROGRAM STUDI TEKNIK INFORMATIKA

Universitas Sumatera Utara

KOMPARASI KINERJA PADA ALGORITMA DECISION TREE

PROGRAM STUDI TEKNIK INFORMATIKA

Universitas Sumatera Utara

Judul : KOMPARASI KINERJA PADA ALGORITMA

Prof. Dr. Muhammad Zarlis Dr. Syahril Efendi, S.Si, M.IT

Universitas Sumatera Utara

KOMPARASI KINERJA PADA ALGORITMA DECISION TREE DAN ANALISIS

Universitas Sumatera Utara

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK

Nama : Cut Fadhilah

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada

KOMPARASI KINERJA PADA ALGORITMA DECISION TREE DAN

Demikian pernyataan ini dibuat dengan sebenarnya.

Universitas Sumatera Utara

Telah diuji pada

PANITIA PENGUJI TESIS

Universitas Sumatera Utara

Nama Lengkap berikut gelar : Cut Fadhilah , S.T

SD : SD NEGERI SEUPENG TAMAT : 2005

Universitas Sumatera Utara

UCAPAN TERIMA KASIH

Universitas Sumatera Utara

Universitas Sumatera Utara

Universitas Sumatera Utara

COMPARATIVE PERFORMANCE OF DECISION TREE ALGORITHMS AND

Keywords: Decision_Tree, Discriminant_Analysis, Autism

Universitas Sumatera Utara

Universitas Sumatera Utara

2.7.1. Kriteria Gangguan Autisme Anak ..................................................... 13

Universitas Sumatera Utara

Gambar 2. 1. Tahapan Dalam Klasifikasi Secara Umum .................................................. 7

Universitas Sumatera Utara

Tabel 3. 1. Dataset Asli Dari UCI Repository ................................................................. 19

Universitas Sumatera Utara

PROGRAM STUDI TEKNIK INFORMATIKA

Universitas Sumatera Utara

1.1 Latar Belakang

Klasifikasi adalah metode pembelajaran yang tidak menggunakan label untuk

Decision tree termasuk kedalam supervise learning yang menggabungkan lebih

Universitas Sumatera Utara

Penulisan ini diperkuat dengan penelitian (Xu Haiwei) dalam meningkatkan

1.2 Rumusan Masalah

Universitas Sumatera Utara

dengan dilakukannya perbandingan ini dapat menunjukkan algoritma mana yang

1.3 Tujuan Penelitian

1.4 Batasan Masalah

1.5 Manfaat Penelitian

1. Manfaat teoritis, sebagai pengetahuan baru bahwa dengan menggunaan

1.6 Penelitian Terdahulu

Universitas Sumatera Utara

Universitas Sumatera Utara

2.2. Data Mining

Universitas Sumatera Utara

Universitas Sumatera Utara

Step 1.Training Step 2. Testing

Gambar 2.1. Tahapan Dalam Klasifikasi Secara Umum

2.4. Decision Tree

Gambar 2.2. Proses Decision Tree

= - 0.36110.10836 - 0.638888 0.1923247