Anda di halaman 1dari 25

CHAID

(Chi-Squared Automatic Interaction Detector)

Merupakan salah satu metode dalam teknik klasifikasi Dikenal sebagai metode pohon klasifikasi (Classification Tree Method) Inti dari metode ini adalah membagi data menjadi kelompok-kelompok kecil berdasarkan keterkaitan antara variabel dependen dan independen

Chaid

Digunakan ketika data yang dipakai adalah data dengan variabel kategorik

Hanya efektif bila diterapkan pada data dengan pengamatan yang sangat banyak

Prosedurnya merupakan bagian dari AID (Automatic Interaction Detector) dan menggunakan statistik chi-kuadrat sebagai alat utamanya

Merupakan salah satu teknik iteratif yang menguji satu-persatu variabel independen yang digunakan dalam klasifikasi, dan menyusunnya berdasarkan pada tingkat signifikansi untuk statistik chi-kuadrat terhadap variabel dependennya. Digunakan untuk membentuk segmentasi yang membagi sebuah sampel menjadi dua atau lebih kelompok yang berbeda berdasarkan sebuah kriteria tertentu, kemudian diteruskan dengan membagi kelompok menjadi kelompok yang lebih kecil berdasarkan variabel independen yang lain. Proses berlanjut sampai tidak ditemukan lagi variabel independen yang signifikan secara statistik.

Chaid

Menurut Baron dan Philips, Analisis CHAID diringkas menjadi 3 elemen kunci: 1. Uji signifikan chi-kuadrat, dilakukan untuk mengidentifikasi variabel independen yang paling sig. dalam data 2. Koreksi Bonferroni 3. Sebuah algoritma yang digunakan untuk menggabungkan kategori-kategori variabel.

Variabel-Variabel dalam Analisis CHAID:


Dependen dan Independen : Kategorik Variabel independen dibedakan menjadi 3 bentuk yang berbeda, yaitu: 1. Monotonik Yaitu variabel indenpenden yang kategori di dalamnya dapat dikombinasikan atau digabungkan oleh CHAID hanya jika keduanya berdekatan satu sama lain atau mengikuti urutan aslinya (data ordinal). Contohnya: usia atau pendapatan. 2. Bebas Yaitu variabel independen yang kategori di dalamnya dapat dikombinasikan atau digabungkan ketika keduanya berdekatan ataupun tidak(data nominal). Contohnya: pekerjaan, kelompok etnik, dan area geografis. 3. Mengambang (Floating) Yaitu variabel independen yang kategori di dalamnya dapat diperlakukan seperti monotonik kecuali untuk kategori yang missing value, yang dapat berkombinasi dengan kategori

Algoritma CHAID
1.

a.
b.

c.

d.

Penggabungan (Merging) Pada tahap ini akan diperiksa signifikansi dari masing-masing kategori variabel independen terhadap variabel dependen. Tahap penggabungan untuk setiap variabel independen dalam menggabungkan kategori-kategori non-signifikan adalah sebagai berikut : Bentuk tabel kontingensi dua arah untuk masing-masing variabel independen dengan variabel dependennya. Hitung statistik chi-kuadrat untuk setiap pasang kategori yang dapat dipilih untuk digabung menjadi satu, untuk menguji kebebasannya dalam sebuah sub tabel kontingensi 2 x J yang dibentuk oleh sepasang kategori tersebut dengan variabel dependennya yang mempunyai sebanyak J kategori. Untuk masing-masing nilai chi-kuadrat berpasangan, hitung p-value berpasangan bersamaan. Diantara pasangan-pasangan yang tidak signifikan, gabungkan sebuah pasangan kategori yang paling mirip (yaitu pasangan yang mempunyai nilai chi-kuadrat berpasangan terkecil dan p-value terbesar) menjadi sebuah kategori tunggal, dan kemudian dilanjutkan kelangkah d. Periksa kembali kesignifikansian kategori baru setelah digabung dengan kategori lainnya dalam variabel independen. Jika masih ada pasangan yang belum signifikan, ulangi langkah c. Jika sudah semua sudah signifikan lanjutkan langkah berikutnya.

Uji chi-Kuadrat:
Menuliskan hipotesis Ho : pij = pi pj (Variabel i dan variabel j independen) H1 : pij pi pj (Variabel i dan variabel j dependen)

Menentukan = 0.05 Mencari harga Chi-Kuadrat Tabel (0,05; b-1, k-1) Menentukan daerah penolakan Menghitung :

Mengambil kesimpulan a. Bila masuk daerah penolakan, Ho ditolak b. Bila tidak masuk dalam daerah penolakan, Ho diterima

Algoritma CHAID
2. Pemisahan (Splitting) Tahap splitting memilih variabel independen yang mana yang akan digunakan sebagai split node (pemisah node) yang terbaik. Pemilihan dikerjakan dengan membandingkan p-value (dari tahap merging) pada setiap variabel independen. Langkah Splitting: a. Pilih variabel independen yang memiliki p-value terkecil (paling signifikan) yang akan digunakan sebagai split node. b. Jika p-value kurang dari sama dengan tingkat spesifikasi alpha, split node menggunakan variabel independen ini. Jika tidak ada variabel independen dengan nilai p-value yang signifikan, tidak dilakukan split dan node ditentukan sebagai terminal node (node akhir)

Algoritma CHAID
3. Penghentian (Stopping) Tahap stopping dilakukan jika proses pertumbuhan pohon harus dihentikan sesuai dengan peraturan pemberhentian di bawah ini : a. Tidak ada lagi variabel independen yang signifikan menunjukkan perbedaan terhadap variabel dependen. b. Jika pohon sekarang mencapai batas nilai maksimum pohon dari spesifikasi, maka proses pertumbuhan akan berhenti. Misalkan ditetapkan batas kedalaman pertumbuhan pohon klasifikasi adalah 3, ketika pertumbuhan pohon sudah mencapai kedalaman 3 maka pertumbuhan pohon klasifikasi dihentikan. c. Jika ukuran dari child node kurang dari nilai ukuran child node minimum spesifikasi, atau berisi pengamatan-pengamatan dengan banyak yang terlalu sedikit maka node tidak akan di-split. Misalkan ditetapkan ukuran minimal child node adalah 50, ketika splitting mengasilkan ukuran child node kurang dari 50, maka node tersebut tidak akan dipecah.

Koreksi Bonferroni
Koreksi Bonferroni adalah suatu proses koreksi yang digunakan ketika beberapa uji statistik untuk kebebasan atau ketidakbebasan dilakukan secara bersamaan (Kunto dan Hasana, 2006). Gallagher (2000) menyebutkan bahwa pengali Bonferroni untuk masing-masing jenis variabel independen adalah sebagai berikut: Variabel independen Monotonik

1.

dimana : M = Pengali Bonferroni , c = banyaknya kategori variabel independen awal, r = banyaknya kategori variabel independen setelah penggabungan 2. Variabel Independen Bebas 3. Variabel Independen Mengambang

Diagram Pohon Klasifikasi CHAID


Menurut Myers (Kunto dan Hasana, 2006), diagram pohon CHAID mengikuti aturan dari atas ke bawah (Top-down stopping rule), dimana diagram pohon disusun mulai dari kelompok induk (parent node), berlanjut di bawahnya sub kelompok (child node) yang berturut-turut dari hasil pembagian kelompok induk berdasarkan kriteria tertentu. Node pada ujung pohon yang tidak terdapat percabangan lagi disebut terminal node. Tiap-tiap node dari diagram pohon ini menggambarkan sub kelompok dari sampel yang diteliti dan berisi keseluruhan sampel dan frekuensi absolut ni untuk setiap kategori yang disusun. Pada pohon klasifikasi CHAID terdapat istilah kedalaman (depth) yang berarti banyaknya tingkatan node-node sub kelompok sampai ke bawah pada node sub kelompok yang terakhir. Pada kedalaman pertama, sampel dibagi oleh X1 sebagai variabel independen terbaik untuk variabel dependen berdasarkan uji chi-square. Tiap node berisi informasi tentang frekuensi variabel Y, sebagai variabel dependen, yang merupakan bagian dari sub kelompok yang dihasilkan berdasarkan kategori yang disebutkan (X1). Pada kedalaman ke-2 (node X2 dan X3) merupakan pembagian dari X1 (untuk node ke-1 dan ke-3). Dengan cara yang sama, sampel selanjutnya dibagi oleh variabel penjelas yang lain, yaitu X2 dan X3 ,

Diagram Pohon Analisis CHAID

DECISION TREE
1.

2.
3. 4.

ID3 C4.5 CART CHAID

1. ID3 (Iterative Dichotomiser 3)

iterative dichotomiser 3 ( ID3 ) merupakan suatu metode dalam learning yang akan membangun sebuah pohon keputusan yang merupakan suatu pemodelan dalam mencari solusi dari persoalan. Algoritma ID3 berusaha membangun decision tree (pohon keputusan) secara top-down (dari atas ke bawah), mulai dengan pertanyaan : atribut mana yang pertama kali harus dicek dan diletakkan pada root? pertanyaan ini dijawab dengan mengevaluasi semua atribut yang ada dengan menggunakan suatu ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur efektivitas suatu atribut dalam mengklasifikasikan kumpulan sampel data.

1. ID3 (Iterative Dichotomiser 3)


Karakteristik ID3 dalam membangun pohon keputusan adalah secara top-down dan divide-and-conquer. Top-down artinya pohon keputusan dibangun dari simpul akar ke daun, sementara divide-and-conquer artinya training data secara rekursif dipartisi ke dalam bagian-bagian yang lebih kecil saat pembangunan pohon. Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impuryt ,dan homogenity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai information gain (IG) masing-masing atribut. Entropy (S) = -p+ log2p+ -p.log2p Dimana: S : data sampel yg digunakan untuk training p+ : jumlah yang bersolusi positif (mendukung) pada data sampel untuk kriteria tertentu P- : jumlah yang bersolusi negatif (tidak mendukung) pada data sampel untuk kriteria tertentu

Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai entropy maka semakin baik digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah log2p bits untuk messages yang mempunyai probabilitas p. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas adalah : - p+log2 p+ - p- log2 pInformation Gain: setelah mendapat nilai entropy untuk suatu kumpulan data, maka kita dapat mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini disebut information gain.

Dimana: A : Atribut V : nilai yang mungkin untuk atribut A Value (A) : himpunan yang mungkin untuk atribut A : jumlah sampel untuk nilai V : jumlah seluruh sampel data

Flowchart:

keterangan dari tiap proses:


a. Data training dimasukkan. b. Hitung Information gain dan entropy dari masing-masing atribut data training yang ada. c. Buat simpul akar dari pemilihan atribut yang memiliki information gain terbesar. d. Hitung Information gain dan entropy dari masing-masing atribut dengan menghilangkan atribut yang telah dipilih sebelumnya. e. Buat simpul internal dari pemilihan atribut yang memiliki information gain terbesar. f. Cek apakah semua atribut sudah dibentuk pada pohon. Jika belum, maka ulangi proses d dan e, jika sudah maka lanjut pada proses berikutnya. g. Kemudian aturan keputusan digenerate mengikuti pohon yang telah dibentuk sebelumnya.

2. C4.5
Algoritma C4.5. merupakan kelompok algoritma decision tree. Algoritma ini mempunyai input berupa training samples dan samples. Training samples berupa data contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenaranya. Sedangkan samples merupakan field-field data yang nantinya akan kita gunakan sebagai parameter dalam melakukan klasifikasi data
Misal: S berisi data sampel. Anggap atribut class memiliki m nilai yang berbeda (Ci), anggap si menjadi jumlah sampel ada kelas Ci, maka besar informationnya: Dimana:

Misalkan atribut A mempunyai v nilai yang berbeda (a1, a2, ..., av), atribut A dapat digunakan untuk mempartisi S menjadi v subset dimana Sj berisi sampel pada S yang mempunyai nilai aj dari A. Jika A terpilih menjadi test atribut (yaitu, best atribut untuk splitting), maka subsetsubset akan berhubungan dengan pertumbuhan node-node cabang yang berisi S. Anggap sij sebagai jumlah samples class Ci pada subset Sj. Entropy, atau nilai information dari subset A adalah :

adalah bobot dari subset jth dan jumlah sampel pada subset (yang mempunyai nilai aj dari A) dibagi dengan jumlah total sampel pada S. Maka nilai information gain atribut A pada subset S adalah:

Dimana penghitungan I (s1, s2, ..., sm) dan E(A) hanya dilakukan pada atribut yang ada nlainya.

Kemudian untuk mencari gain dari atribut A: Gain (A) = Prob. S yang diketahui * E(A) Dimana: A : atribut dengan missing value yang sedang dicari nilai gain-nya dan S: jumlah sampel pada subset A yang diketahui nilainya. Sedangkan nilai Split pada atribut A dinyatakan dengan:

Dimana: u : prob samples pada atribut A yang merupakan missing values.

Nilai gain ratio pada atribut A : Gain Ratio (A) = Gain (A) / Split (A)

Flowchart:

keterangan dari tiap proses:


a. Data training dimasukkan. b. Hitung Gain Ratio, Split Info dan entropy dari masingmasing atribut data training yang ada. c. Buat simpul akar dari pemilihan atribut yang memiliki Gain Ratio terbesar. d. Hitung Gain Ratio, Split Info dan entropy dari masingmasing atribut dengan menghilangkan atribut yang telah dipilih sebelumnya. e. Buat simpul internal dari pemilihan atribut yang memiliki Gain Ratio terbesar. f. Cek apakah semua atribut sudah dibentuk pada pohon. Jika belum, maka ulangi proses d dan e, jika sudah maka lanjut pada proses berikutnya. g. Lakukan pemangkasan pohon untuk menghilangkan cabang-cabang yang tidak perlu. h. Kemudian aturan keputusan digenerate mengikuti pohon yang telah dibentuk sebelumnya.

3. CART (Classification And Regressiom Tree)


Pertama kali digagas oleh Leo Breiman, Jerome Friedman, dkk (2005). Ciri khas nya adalah noktah keputusan yang selalu bercabang dua / biner. Langkah-langkah: 1. Susun calon cabang (Candidate Split). Penyusunan ini dilakukan terhadap seluruh variabel prediktor secara lengkap. Data yang berisi calon cabang disebut daftar calon cabang mutakhir. 2. Menilai kinerja keseluruhan calon cabang yang ada pada daftar calon cabang mutakhir dengan jalan menghitung nilai besaran kesesuaian (s|t) 3. Menentukan calon cabang mana yang akan benar-benar dijadikan cabang dengan memilih calon cabang yang memiliki nilai kesesuaian (s|t) terbesar.

Anda mungkin juga menyukai