Anda di halaman 1dari 4

Data preprocessing

Nov 19th, 2008 by indrakharisma Data dalam dunia nyata sering kali kotor, yang dimaksud kotor adalah Incomplete : tidak lengkapnya nilai suatu attribute, tidak lengkapnya atribut-atribut yang penting, atau hanya mempunyai data yang merupakan rekapitulasi. Contoh : pekerjaan = Hal tersebut dapat disebabkan oleh perbedaan kebijakan ketika data tersebut didapatkan dan ketika data tersebut di analisa, bisa juga disebabkan oleh permasalahan yang ditimbulkan oleh manusia, hardware, atau software. Noisy : mengandung error atau merupakan value yang tidak wajar. Contoh : gaji = -100 Timbul karena kesalahan entry oleh manusia atau komputer error, atau karena terdapat kesalahan ketika proses pengiriman data. Inconsistent : mengandung nilai yang saling betentangan. Contoh : umur = 42 dan ulang tahun = 02/10/1981 Masalah ini muncul karena perbedaan sumber data, karena pada data mining data didapatkan dari banyak sumber dan sangat mungkin terdapat perbedaan persepsi pengolahan data. Selain itu permasalahan ini bisa muncul Karena pelangaran terhadap functional dependency misalnya melakukan perubahan pada data yang terhubung dangan data lain. Padahal data yang bisa diterima untuk bisa diproses menjadi informasi atau knowlage adalah data yang mempunyai kualitas diantaranya :
o o o o o o o

Akurat Lengkap Konsisten Relevan Bisa dipercaya Mempunyai nilai tambah Kemudahan untuk dimengerti

Jika data tidak dalam kualitas diatas maka bisa jadi kualitas analisa data menjadi kurang sehingga hasilnya pun kurang bermakna, hal tersebut harus dihindarkan karena hasil analisa yang salah bisa berujung pada solusi yang salah. Untuk itu perlu dilakukan data preprocessing yang tujuannya membuat data menjadi lebih berkualitas. Langkah-lahkah utama dari data preprocessing adalah sebagai berikut

Data cleaning

Mengisi/mengganti nilai-nilai yang hilang, menghaluskan data yang noisy, mengidentifikasi dan menghilangkan data yang tidak wajar(outliers), dan menyelesaikan masalah inconsistensi data.

Data integration

Mengabungkan beberapa database dan file menjadi satu sehingga didapatkan sumber data yang besar.

Data transformation

Normalisasi dan aggregasi data

Data reduction

Mengurangi volume data namun tetap mempertahankan arti dalam hal hasil analisis data.

Data discretization

Merupakan bagian dari data reduction dengan memperhitungkan data yang signifikan, khususnya pada data numeric.

Data cleaning Data cleaning merupakan masalah krusial dalam data warehousing. Data cleaning meliputi mengisi nilai yang hilang, menentukan data yang tidak wajar dan menormalkan data yang noisy.mengumpulkan data yang tidak konsisten, dan menyelesaikan data yang berulang (redundancy) yang diakibatkan oleh integrasi data. Incomplete data Data tidak selalu tersedia, banyak tuples tidak mempunyai nilai untuk beberapa attribute, misalnya pendapatan pelanggan pada data penjualan. ketika memilih pendekatan untuk menyelesaikan masalah data yang hilang atau tidak lengkap, perlu diperhatikan hasil yang sesuai dengan bentuk distribusi dari rasional.

Little and Rubin mendefinisikan 3 tipe data yang hilang (missing data mechanisms )

Missing Completely at Random (MCAR) kasus dimana data yang lengkap mempunyai kesamaan dengan kasus data yang hilang. Mising at random (MAR) kasus dimana data yang lengkap berbeda dengan kasus data yang lengkap. Nonignorable pola dari data yang hilang tidaklah acak dan tidak dapat diprediksi dari variable lain didalam database.

Dalam praktiknya data yang memenuhi asumsi MCAR sangatlah jarang, asusmsi MAR lebih sering muncul. Terdapat tool yang mengunakan model statistika untuk memprediksi data yang hilang tersebut, yaitu: Listwise or casewise data deletion : jika ada data yang hilang untuk satu variable yang digunakan pada suatu analisis, seluruh data tersebut di diacuhkan dalam proses analisis. Mean substitution : melakukan perhitungan rata-rata untuk mengganti nilai yang hilang. Regression methods : mengembangkan notasi regresi berdasarkan kasus data lengkap dengan variable tertentu.memperlakukan hasilnya sebagai nilai predictor terhadap data yang hilang. Hot deck imputation : membandingkan kasus data yang hilang dengan kasus yang mempunyai kemiripan dan memberikan nilai data yang hilang. Expectation Maximization (EM) approach : langkah iterative yang meliputi 2 tahapan, tahapan pertama menghitung nilai yang diprediksi dari data berdasarkan log likelihood. Langkah kedua memberi nilai berdasarkan perhitungan pada tahapan pertaman. Raw maximum likelihood methods : mengunakan semua data untuk mengenerate maximum likelihood-based sufficient statistics Noisy data Ketidak sempurnaan pada data bisa berasal dari salah perhitungan, kesalahan manusia, kesalahan dalam menklasifikasikan data training dalam expert judgement. Konsekuensinya adalah tingkat akurasi yang rendah pada hasil analisa serta hipotesa yang susah diinterpertasikan dan dimengerti oleh user. Salah satu metode untuk menangani noisy data adalah dengan background atau prior knowledge yang belajar dari domain tertentu, misalnya belajar dari data numerik.selain itu noisy data juga bisa muncul dari overfitting data yang merusak keaslian data, untuk itu overfitting harus dihindari dengan mengunakan metode tertentu. Inconsistency data Untuk beberapa alasan database tertentu mungkin tidak memenuhi integrity constraints, misalnya, saat ini adalah hasil dari integrasi beberapa sumber data independen. Namun, kemungkinan besar, informasi di dalamnya masih konsisten dengan integrity constraints, dan

masih bisa memberikan jawaban sesuai dengan query yang diminta dengan sedikit perbaikan pada database.

Anda mungkin juga menyukai