PERTEMUAN-3
KUALITAS DATA
Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan
data:
Kita mempunyai berat standar lab suatu benda adalah 1 gram, dan kita ingin
menghitung precision dan bias dari skala benda dari hasil pengukuran yang
baru. Kita melakukan pengukuran sebanyak 5 kali dan memperoleh {1.015,
0.990, 1.013, 1.001, 0.986}
Jawab:
Precision =
(1.015 − 1.001)2 + (0.990 − 1.001)2 + (1.013 − 1.001)2 + (1.001 − 1.001)2 + (0.986 − 1.001)2
√
4
= 0.000171
E-Learning STMIK Nusa Mandiri Page |2
Copyright © Maret 2020
Outliers: Adalah objek data dengan sifat yang berbeda sekali dari
kebanyakan objek data dalam data-set
–
Informasi tidak diperoleh (misal, orang-orang menolak
untuk memberikan informasi umur dan berat badan)
– Atribut yang mungkin tidak bisa diterapkan ke semua kasus
(misal, pendapatan tahunan tidak bisa diterapkan pada
anak-anak)
– Duplicate data: data-set mungkin terdiri dari objek data
yang ganda (duplikat), atau hamper selalu terjadi duplikasi
antara satu dengan yang lainnya. Persoalan utama ketika
menggabungkan data dari sumber-sumber yang bervariasi
(heterogen).
Contoh: orang yang sama dengan alamat email yang lebih dari satu.
Pembersihan data (data cleaning) merupakan proses yang berkaitan dengan
permasalahan data yang duplikat.
1. Pengumpulan (aggregation)
satu buah produk saja. Pada proses agregasi, atribut kuantitatif seperti harga dapat
digabungkan atau dikombinasikan dengan operasi sum ataupun rata-rata.
Penarikan contoh digunakan dalam data mining karena pengolahan himpunan data
yang diinginkan secara keseluruhan sangat mahal atau menghabiskan waktu.
waktu komputasi. Untuk itu perlu ditentukan ukuran yang tepat dan tidak terlalu
besar.
Salah satu permasalahan yang harus diatasi dalam penerapan algoritma data
mining adalah masalah dimensionalitas. Jika dimensi meningkat, data akan
meningkat secara halus dalam daerah yang ditempati. Definisi dari kepadatan dan
jarak antar titik, yang merupakan kondisi kritis untuk clustering dan outlier
detection, akan menjadi kurang berarti.
Salah satu cara untuk mengurangi dimensi adalah dengan memilih fitur yang tepat
atau hanya menggunakan atribut-atribut yang diperlukan. Secara koseptual,
E-Learning STMIK Nusa Mandiri Page |6
Copyright © Maret 2020
1. Fitur-fitur yang redundant, yaitu duplikasi sebagian besar atau semua data
informasi yang terkandung dalam satu atau lebih atribut lain. Contoh,
harga pembelian dari sebuah produk dan jumlah pajak penjualan yang
dibayar
2. Fitur-fitur yang tidak relevan yaitu fitur-fitur yang tidak mengandung
informasi berguna untuk tugas data mining secara langsung. Contoh, NIM
mahasiswa tidak relevan untuk memprediksi IPK mahasiswa
Merupakan proses membuat atribut baru yang dapat menangkap informasi penting
dalam sebuah himpunan data y (ombininang lebih efisien daripada atribut-atribut
yang ada. Ada tiga metodologi umum yang bisa digunakan untuk membuat fitur
baru, yaitu:
• Jika ada m nilai katagorikal, maka beri untuk setiap nilai tersebut dengan
sebuah nilai integer yang unik pada interval [0,m-1]. Jika atributnya
ordinal maka urutan harus diperhatikan dalam proses pemberian nilai
• Konversikan tiap nilai integer tersebut kedalam bilangan biner
Nilai Integer X1 X2 X3
Awful 0 0 0 0
Poor 1 0 0 1
OK 2 0 1 0
Good 3 0 1 1
Great 4 1 0 0
Contoh: Ubah atribut taxable income pada tabel dibawah menjadi atribut
katagorikal dengan katagori: rendah, sedang, dan tinggi
E-Learning STMIK Nusa Mandiri Page |9
Copyright © Maret 2020
Supervised discretization
Salah satu pendekatan dalam supervised discretization adalah entropy based
approach, yang langkahnya sebagai berikut:
𝑒𝑖 = ∑ 𝑝𝑗 𝑙𝑜𝑔2 𝑝𝑗
𝑖=1
𝑒 = ∑ 𝑤𝑖 𝑒𝑖
𝑖=1
Entropy dari satu interval merupakan ukuran kemurnian dari suatu interval. Jika
interval berisi hanya nilai-nilai dari satu klas maka entropy=0. Jika klas dari nilai
dalam satu interval menjadi sama maka entropy maksimum. Langkah paling
mudah adalah dengan membagi atribut kontinyu dalam dua interval yang
memberikan nilai entropy minimal. Teknik ini perlu mempertimbangkan tiap nilai
sebagai split point, karena diasumsikan bahwa interval berisi himpunan nilai yang
terurut. Proses splitting diulang untuk interval lain yang secara khusus memilih
E-Learning STMIK Nusa Mandiri Page |10
Copyright © Maret 2020
interval dengan entropy paling besar sampai jumlah interval yang ditentukan
tercapai.
Adalah suatu fungsi yang memetakan keseluruhan himpunan nilai dari atribut
yang diberikan ke suatu himpunan nilai-nilai pengganti yang baru sedemikian
hingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai baru tersebut.