kode
Hitam
1000
Biru
0100
Hijau
0010
Cokelat
0001
Penyebab kurang baiknya kualitas data mentah adalah karena adanya kesalahan
dalam penyimpanan dan pengukuran, tapi bisa juga karena tidak adanya nilai
mewakili yang tersedia.
Outlier atau adanya nilai yang tidak biasa (lain dari umumnya) muncul karena
banyak hal, antara lain kesalahan pada entri data dan adanya data yang tidak
tersimpan sehingga nilai default otomatis tersimpan.
C. Transformasi Data
Data mentah perlu dilakukan proses transformasi untuk meningkatkan
performanya. Salah satu transformasi yang umum digunakan adalah dengan
melakukan normalisasi.
Contoh :
Pada tabel berikut ini, tiap faktor memiliki skala yang tidak sama, ada yang besar
dan ada yang kecil.
Tabel Evaluasi berdasarkan tiap faktor
Dari tabel diatas, dapat dilihat tidak adil karena skala yang dimiliki oleh maingmasing faktor berbeda.
Untuk mendapatkan hasil yang lebih adil mengunakan 2 cara:
1. Merangking Pilihan dari tiap faktor
Caranya:
Dimana:
Nab
Nbb
Naa
Nba
Maka semua data yang berada diluar range {-51.4, 131.2} adalah
Treshhold. Pada contoh diatas terdapat 3 nilai yang termasuk outlier: 156,
139, -67
2. Distance Based Outlier Detection
Metode yang kedua ini berusaha mengeliminasi keterbatasan dari
pendeteksian berdasarkan teknik statistik. Metode ini cocok digunakan
untuk data yang multidimensi. Cara yang dilakukan adalah dengan
mengevaluasi nilai jarak diantara semua sampel data set yang berukuran ndimensi.