Anda di halaman 1dari 9

DATA REDUCTION

PCA ,VALUES REDUCTION &


FEATURE DISCRETIZATION
3. FEATURE DISCRETIZATION
 ChiMerge: suatu algoritma diskritisasi yang menganalisi
kualitas interval atas fitur yg diberikan dengan
menggunakan statistik X2.

 Algoritma menentukan kesamaan antara distribusi data


dalam interval yg berdekatan berdasarkan klasifikasi
output sample.

 Jika kesimpulan dari X2 test ini adalah class output yg


independen maka interval harus digabungkan, sebaliknya
jika perbedaannya terlalu besar maka tidak digabung.
 Algoritma ChiMerge berisi 3 tahap untuk diskritisasi:
1. Sort data atas fitur yg diberikan secara urut naik
2. Definisikan inisial awal interval sehingga setiap
nilai dalam interval terpisah
3. Ulangi hingga tidak ada x2 dari 2 interval yg
berdekatan lebih kecil dari nilai threshold.
 Dimana:
 k= jumlah kelas
 Aij=jumlah contoh dalam interval ke-i, kelas ke-j
 Eij =frekuensi yg diharapkan dari Aij, yg mana dihitung (Ri.Cj)/N
 Ri= jumlah contoh dalam interval ke –i
 Cj = jumlah contoh dalam kelas ke –j
 N= jumlah total dari contoh

Class 1 Class 2 ∑
Interval-1 A11 A12 R1
Interval-2 A21 A22 R2
∑ C1 C2 N
Contoh ilustrasi
Sample: F K
1   1 1
  2   3 2
  3   7 1
  4   8 1
  5   9 1
  6 11 2
  7 23 2
  8 37 1
  9 39 2
10 45 1
11 46 1
12 59 1
No Median
1 5.0
2 7.5
3 8.5
4 10.0
5 17.0
6 30.0
7 38.0
8 42.0
9 45.5
10 52.5
K=1 K=2 ∑
Interval [7.5, 8.5] A11 = 1 A12 = 0 R1 = 1
Interval [8.5, 10] A21 = 1 A22 = 0 R2 = 1
∑ C1 = 2 C2 = 0 N=2

Berdasarkan tabel di atas didapatkan:


E11 = 2/2 = 1
E12 0/2 ≈ 0.1
E21 = 2/2 = 1 dan
E22 = 0/2 ≈ 0.1

X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2


Oleh karena lebih kecil dari threshold (2.706 untuk distribusi dg α
K=1 K=2 ∑
Interval [0, 7.5] A11 = 2 A12 = 1 R1 = 3
Interval [7.5, 10] A21 = 2 A22 = 0 R2 = 2
∑ C1 = 4 C2 = 1 N=5

E11 = 12/5 = 2.4


E12 = 3/5 = 0.6
E21 = 8/5 = 1.6
E22 = 2/5 = 0.4

X2 = 0.834
K=1 K=2 ∑
Interval [0, 10.0] A11 = 4 A12 = 1 R1 = 5
Interval [10.0, 42.0] A21 = 1 A22 = 3 R2 = 4
∑ C1 = 5 C2 = 4 N=9

E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, dan χ2 = 2.72

Oleh karena dihasilkan > dari threshold (2.706), maka tidak


diperlukan lagi penggabungan

Anda mungkin juga menyukai