Anda di halaman 1dari 6

Preprocessing Data Mining

A. Representasi dari data mentah


Data yang belum diproses disebut data mentah. Data mentah peru disiapkan
terlebih dahulu agar bisa dipakan dalam proses Data Mining.
Ada 2 tipe data secara umum:
1. numerik
Nilai numerik termasuk nilai real (pecahan) dan integer (bilangan bulat). Fitur
dengan nilai numerik memiliki 2 properti penting, yaitu: setiap nilai memiliki
urutan dan memiliki relasi jarak.
2. ketegorikal (simbolik)
Dinyatakan dengan sama dengan atau tidak sama dengan.. variabel kategori
yang memiliki 2 nilai dapat dikonversi menjadi variabel numerik dengan 2
nilai values (0 atau 1). Variabel pengkodean dengan N buah nilai dapat
dikonversikan ke dalam N buah variabel bertipe numerik yang memiliki nilai
biner untuk setiap kategorikal. Pengkodean ini disebut dummy variables.
Misal variabel mata memiliki empat buah nilai: hitam, biru, hijau, dan cokelat,
maka dapat dikodekan ke dalam empat digit biner:
Nilai variabel

kode

Hitam

1000

Biru

0100

Hijau

0010

Cokelat

0001

B. Karakteristik dari data mentah


Pada data mentah sering ditemukan banyaknya nilai yang hilang (missing value),
distorsi nilai, tidak tersimpannya nilai (misrecording), sampling yang tidak cukup
bagus dan sebagainya. Untuk itu perlu ditingkatkan kualitasnya dengan
melakukan penyiapan data (preprocessing).

Penyebab kurang baiknya kualitas data mentah adalah karena adanya kesalahan
dalam penyimpanan dan pengukuran, tapi bisa juga karena tidak adanya nilai
mewakili yang tersedia.
Outlier atau adanya nilai yang tidak biasa (lain dari umumnya) muncul karena
banyak hal, antara lain kesalahan pada entri data dan adanya data yang tidak
tersimpan sehingga nilai default otomatis tersimpan.
C. Transformasi Data
Data mentah perlu dilakukan proses transformasi untuk meningkatkan
performanya. Salah satu transformasi yang umum digunakan adalah dengan
melakukan normalisasi.
Contoh :
Pada tabel berikut ini, tiap faktor memiliki skala yang tidak sama, ada yang besar
dan ada yang kecil.
Tabel Evaluasi berdasarkan tiap faktor

Dari tabel diatas, dapat dilihat tidak adil karena skala yang dimiliki oleh maingmasing faktor berbeda.
Untuk mendapatkan hasil yang lebih adil mengunakan 2 cara:
1. Merangking Pilihan dari tiap faktor
Caranya:

Memberi rangking per baris

Menormalkan jumlah dengan cara

Tabel Evaluasi berdasarkan rangking

2. Mengubah nilai sehingga tiap faktor mempunyai nilai yang sama


Caranya:

Untuk mengubahnya supaya mempunyai range 0-1, menggunakan cara


geometri sederhana pada garis lurus.

Dimana:
Nab

: batas atas nilai baru

Nbb

: batas bawah nilai baru

Naa

: batas atas nilai asli

Nba

: batas bawah nilai asli

Tabel Evaluasi berdasarkan range 0-1

D. Penanganan terhadap data yang hilang


Metode data mining seringkali mensyaratkan semua dnilai data lengkap atau tidak
ada yang hilang. Padahal pada kenyataannya banyak atribut atau field dari
beberapa record yang tidak diketahui nilainya. Solusi paling sederhana adalah
dengan menghapus semua record yang berisi nilai yang kosong. Untuk data yang
besar mungkin cara ini tidak berpengaruh terhadap model data mining yang
dihasilkannya. Akan tetepi lain hasilnya jika data-data yang dihapus ini memiliki
potensi yang sangat besar.
Solusi untuk menangani data yang hilang adalah data miner bersama-sama dengan
pakar domain secar manual menguji data-data yang kosong kemudian
memperkirakan nilai yang tepat untk data tersebut. Akan tetepai metode ini akan
membutuhkan waktu yang lama apalagi jika data yang ditangani berukuran besar
dan berdimensi banyak.
Pendekatan kedua dilakukan dengan cara penggantian suatu nilai konstanta
terhadap nilai yang hilang tersebut.
Selain itu ada lagi cara yang bisa dilakukan, yaitu dengan mengintepretasikan
nilai yang hilang sebagai nilai dont care. Dengan cara ini, suatu sample data
dengan nilai yang kosong akan digantikan oleh beberapa data dari himpunan
sample buatan yang berisi semua kemungkinan yang ada dari domain nilai

tersebut. Sebagai contoh, jika sampel X merupakan sampel 3 dimensi dan


dinyatakan X={1,?,3}, dimana nilai fitur kedua adalah nilai yang hilang, maka
proses akan menggenerate lima sampel buatan yang domain fiturnya adalah=
[0,1,2,3,4].
X1= {1,0,3}, X2= {1,1,3}, X1= {1,2,3}, X3= {1,3,3}, X4= {1,4,3}
E. Analisa outlier
Seringkali pada data set, terdapat suatu nilai yang berbeda dari biasanya dan tidak
mencerminkan karakteristik data secara umum. Nilai yang tidak konsisten itu
dnamakan outlier
Berikut ini metode untuk melakukan deteksi terhadap outlier:
1. Deteksi outlier berdasarkan teknik statistik
Cara paling sederhana adalah dengan cara statistik. Perlu dilakukan
perhitungan rata-rata dan standar deviasi. Kemudian berdasarkan nilai
tersebut dibuat fungsi threshold berpotensi untuk dinyatakan sebagai
outlier

Maka semua data yang berada diluar range {-51.4, 131.2} adalah
Treshhold. Pada contoh diatas terdapat 3 nilai yang termasuk outlier: 156,
139, -67
2. Distance Based Outlier Detection
Metode yang kedua ini berusaha mengeliminasi keterbatasan dari
pendeteksian berdasarkan teknik statistik. Metode ini cocok digunakan
untuk data yang multidimensi. Cara yang dilakukan adalah dengan
mengevaluasi nilai jarak diantara semua sampel data set yang berukuran ndimensi.

Tabel jarak antar data

Anda mungkin juga menyukai