Anda di halaman 1dari 10

E-Learning STMIK Nusa Mandiri Page |1

Copyright © Maret 2020

PERTEMUAN-3

KUALITAS DATA

Permasalahan kualitas data ditinjau dari aspek pengukuran data dan pengumpulan
data:

 Kesalahan Pengukuran (Measurement Error)


Mengacu pada permasalahan hasil dari proses pengukuran. Problem yang terjadi
adalah nilai yang dicatat berbeda dari nilai sebenarnya untuk beberapa tingkat.
Pada atribut kontinyu, beda numerik dari hasil pengukuran dengan nilai
sebenarnya disebut dengan “error”.

Yang termasuk dalam jenis kesalahan pengukuran adalah:

 Noise: Merupakan komponen random dari suatu error pengukuran. Noise


berkaitan dengan dengan modifikasi dari nilai asli. Contoh: Distorsi atau
penyimpangan dari suara orang saat berbicara ditelepon buruk dan “snow”
pada layar televisi
 Bias: Adalah suatu variasi pengukuran dari kuantitas yang sedang diukur
dengan pengurangan antara mean dan nilai kuantitas yang diketahui
 Precision: Adalah kedekatan dari pengukuran berulang (dari kuantitas
yang sama) satu dengan yang lainnya. Diukur dengan standard deviasi
 Accuracy: Adalah kedekatan pengukuran terhadap nilai sebenarnya dari
kuantitas yang sedang diukur
Perbedaan bias dan precision dapat dicontohkan pada soal berikut:

Kita mempunyai berat standar lab suatu benda adalah 1 gram, dan kita ingin
menghitung precision dan bias dari skala benda dari hasil pengukuran yang
baru. Kita melakukan pengukuran sebanyak 5 kali dan memperoleh {1.015,
0.990, 1.013, 1.001, 0.986}

Jawab:

Mean = (1.015 + 0.990 + 1.013 + 1.001 + 0.986)/5 = 1.001

Bias = 1.001 – 1 = 0.001

Precision =

(1.015 − 1.001)2 + (0.990 − 1.001)2 + (1.013 − 1.001)2 + (1.001 − 1.001)2 + (0.986 − 1.001)2

4

= 0.000171
E-Learning STMIK Nusa Mandiri Page |2
Copyright © Maret 2020

 Kesalahan Pengumpulan (Collection Error)


Mengacu pada kesalahan-kesalahan (error) seperti hilangnya objek data atau
nilai atribut, atau lingkup objek data yang tidak tepat.

Yang termasuk dalam jenis kesalahan pengumpulan adalah:

 Outliers: Adalah objek data dengan sifat yang berbeda sekali dari
kebanyakan objek data dalam data-set

 Missing Value: Merupakan nilai dari suatu atribut yang tidak


ditemukan.
Alasan terjadinya missing value adalah:


Informasi tidak diperoleh (misal, orang-orang menolak
untuk memberikan informasi umur dan berat badan)
– Atribut yang mungkin tidak bisa diterapkan ke semua kasus
(misal, pendapatan tahunan tidak bisa diterapkan pada
anak-anak)
– Duplicate data: data-set mungkin terdiri dari objek data
yang ganda (duplikat), atau hamper selalu terjadi duplikasi
antara satu dengan yang lainnya. Persoalan utama ketika
menggabungkan data dari sumber-sumber yang bervariasi
(heterogen).
Contoh: orang yang sama dengan alamat email yang lebih dari satu.
Pembersihan data (data cleaning) merupakan proses yang berkaitan dengan
permasalahan data yang duplikat.

Penanganan missing value adalah dengan:

• Mengurangi objek data


• Memperkirakan missing values
• Mengabaikan missing values pada saat analisis
• Mengganti dengan semua nilai yang mungkin (tergantung probabilitasnya)
E-Learning STMIK Nusa Mandiri Page |3
Copyright © Maret 2020

Pengolahan awal data (data preprocessing)

Data dalam Knowledge Discovery in Database (KDD) mengalami beberapa


proses pengolahan. Sebelum diterapkan algoritma data mining terhadap sebuah
data-set, perlu dilakukan pengolahan awal yang bertujuan untuk mendapatkan
data-set yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat.
Beberapa proses pengolahan awal adalah:

 Proses pengumpulan (aggregation)


 Penarikan contoh (sampling)
 Pengurangan dimensi (dimensionality reduction)
 Pemilihan fitur (feature subset selection)
 Pembuatan fitur (feature creation)
 Pendiskritan dan pembineran (discretization and binarization)
 Transformasi atribut (attribute transformation)

1. Pengumpulan (aggregation)

Proses pengumpulan (aggregation) adalah proses mengkombinasikan dua atau


lebih atribut-atribut atau objek-objek kedalam satu atribut tunggal atau objek.
Misalkan sebuah data-set yang berisi data transaksi yang mencatat penjualan
harian dari produk-produk dibanyak lokasi toko Indomaret, seperti terlihat pada
table berikut:

No_transaksi Nama Barang Lokasi toko Tanggal Harga

..... ...... ...... ...... .....

1001122 Supermie ayam Cawang 1 12-3-2016 2000

1001122 Gula 1 kg Cawang 2 12-3-2016 14000

1001123 Buku tulis antik Cengkareng 12-3-2016 8000

..... ...... ...... ...... .....

Proses pengumpulan (aggregation) dilakukan untuk mendapatkan sebuah transaksi


aggregasi terhadap data pada tabel tsb, misal untuk mendapatkan informasi
penjualan harian untuk satu lokasi toko saja atau untuk melihat transaksi harian
E-Learning STMIK Nusa Mandiri Page |4
Copyright © Maret 2020

satu buah produk saja. Pada proses agregasi, atribut kuantitatif seperti harga dapat
digabungkan atau dikombinasikan dengan operasi sum ataupun rata-rata.

Tujuan dari proses agregasi:

• Pengurangan data (data reduction), yaitu mengurangi jumlah atribut atau


objek
• Perubahan skala, misalkan kota yang dikumpulkan atau digabungkan
kedalam daerah, propinsi, Negara, dsb
• Lebih menstabilkan data. Data-data yang digabungkan cenderung lebih
sedikit variasinya.

2. Penarikan contoh (sampling)

Penarikan contoh (sampling) merupakan teknik utama yang digunakan untuk


seleksi data. Proses ini sering digunakan untuk persiapan penyelidikan dan
analisis data akhir.

Penarikan contoh digunakan dalam data mining karena pengolahan himpunan data
yang diinginkan secara keseluruhan sangat mahal atau menghabiskan waktu.

Prinsip utama untuk penarikan contoh yang efektif adalah:

• Menggunakan suatu contoh yang akan dapat bekerja hampir sebaik


penggunaan data-set keseluruhan, jika contoh tersebut representatif
(bersifat mewakili)
• Suatu contoh dikatakan representatif jika paling tidak mempunyai sifat
yang sama (dengan yang diperhatikan) sebagai himpunan data asli

Ada beberapa tipe penarikan contoh, yaitu:

• Penarikan contoh acak sederhana. Kemungkinan ada suatu pemilihan item


tertentu yang sama
• Penarikan contoh tanpa penggantian. Setiap item yang dipilih dikeluarkan
dari populasinya
• Penarikan contoh dengan penggantian. Objek-objek tidak dikeluarkan dari
populasi saat objek tersebut dipilih untuk sample. Dalam penarikan contoh
dengan penggantian, objek yang sama dapat terambil lebih dari satu kali
• Penarikan contoh bertingkat (stratified sampling). Membagi data dalam
beberapa bagian (partisi), kemudian menarik contoh dari tiap partisi

Ukuran dari sample sangat menentukan keakuratan dari pengambilan kesimpulan


jika diterapkan sebuah algoritma data mining. Semakin besar ukuran sample maka
hasilnya akan semakin akurat. Namun demikian, perlu dipertimbangkan juga
E-Learning STMIK Nusa Mandiri Page |5
Copyright © Maret 2020

waktu komputasi. Untuk itu perlu ditentukan ukuran yang tepat dan tidak terlalu
besar.

3. Pengurangan dimensi (Dimensionality reduction)

Salah satu permasalahan yang harus diatasi dalam penerapan algoritma data
mining adalah masalah dimensionalitas. Jika dimensi meningkat, data akan
meningkat secara halus dalam daerah yang ditempati. Definisi dari kepadatan dan
jarak antar titik, yang merupakan kondisi kritis untuk clustering dan outlier
detection, akan menjadi kurang berarti.

Manfaat dari pengurangan dimensi:

• Mencegah terjadinya efek dari dimensionalitas


• Mengurangi jumlah waktu dan memori yang dibutuhkan oleh algoritma
data mining
• Membuat data lebih mudah divisualisasikan
• Membantu untuk mengurangi fitur-fitur yang tidak relevan atau
mengurangi gangguan/derau

Teknik-teknik yang biasa digunakan untuk mereduksi jumlah dimensi adalah:

• Principle component analysis (PCA): bertujuan untuk mendapatkan


sebuah proyeksi yang menangkap sejumlah variasi data yang paling besar
• Singular value decomposition
• Supervised dan non-linear techniques

4. Pemilihan fitur (Feature subset selection)

Salah satu cara untuk mengurangi dimensi adalah dengan memilih fitur yang tepat
atau hanya menggunakan atribut-atribut yang diperlukan. Secara koseptual,
E-Learning STMIK Nusa Mandiri Page |6
Copyright © Maret 2020

pemilihan sub-set fitur merupakan suatu proses pencarian terhadap semua


kemungkinan sub-set fitur.

Dalam memilih fitur perlu diperhatikan:

1. Fitur-fitur yang redundant, yaitu duplikasi sebagian besar atau semua data
informasi yang terkandung dalam satu atau lebih atribut lain. Contoh,
harga pembelian dari sebuah produk dan jumlah pajak penjualan yang
dibayar
2. Fitur-fitur yang tidak relevan yaitu fitur-fitur yang tidak mengandung
informasi berguna untuk tugas data mining secara langsung. Contoh, NIM
mahasiswa tidak relevan untuk memprediksi IPK mahasiswa

Teknik yang digunakan untuk memilih sub-set fitur adalah:

• Brute-force approach: Mencoba semua kemungkinan fitur sub-set sebagai


masukan algoritma data mining
• Embedded approach: feature selection terjadi secara alami sebagai bagian
dari algoritma data mining
• Filter approach: fitur-fitur dipilih sebelum algoritma data mining
dijalankan
• Wrapper approach: Menggunakan algoritma data mining sebagai sebuah
kotak hitam untuk mendapatkan sub-set atribut-atribut yang paling baik

Proses pemilihan fitur terdiri dari empat bagian, yaitu:

1. Sebuah pengukuran untuk mengevaluasi suatu sub-set fitur


2. Sebuah strategi pencarian yang mengontrol pembangkitan sub-set fitur
yang baru
3. Sebuah kriteria penghentian
4. Sebuah prosedur validasi
5. Pembuatan fitur (Feature creation)

Merupakan proses membuat atribut baru yang dapat menangkap informasi penting
dalam sebuah himpunan data y (ombininang lebih efisien daripada atribut-atribut
yang ada. Ada tiga metodologi umum yang bisa digunakan untuk membuat fitur
baru, yaitu:

• Ekstraksi fitur: domain spesifik


• Pemetaan data ke ruang menggunakan transformasi fourier atau
transformasi wavelate
• Konstruksi fitur dengan menggabungkan fitur-fitur (combining fitur)
E-Learning STMIK Nusa Mandiri Page |7
Copyright © Maret 2020

6. Pendiskritan dan Pembineran (Discretization and binarization)

Beberapa algoritma data mining, khususnya algoritma klasifikasi, membutuhkan


data dalam bentuk atribut katagorikal. Sedangkan algoritma asosiasi memerlukan
data dalam bentuk atribut biner.

Transformasi atribut kontinyu kedalam bentuk atribut katagorikal disebut dengan


discretization.

Transformasi atribut kontinyu maupun diskrit kedalam bentuk atribut biner


disebut binarization.

Salah satu teknik binarization adalah:

• Jika ada m nilai katagorikal, maka beri untuk setiap nilai tersebut dengan
sebuah nilai integer yang unik pada interval [0,m-1]. Jika atributnya
ordinal maka urutan harus diperhatikan dalam proses pemberian nilai
• Konversikan tiap nilai integer tersebut kedalam bilangan biner

Contoh hasil pembineran:

Nilai Integer X1 X2 X3

Awful 0 0 0 0

Poor 1 0 0 1

OK 2 0 1 0

Good 3 0 1 1

Great 4 1 0 0

Transformasi dari atribut kontinyu ke atribut katagorikal meliputi dua langkah,


yaitu:

• Menentukan berapa banyak katagori. Setelah nilai dari atribut kontinyu


diurutkan, kemudian dibagi dalam n interval dengan menentukan n-1 split
point.
E-Learning STMIK Nusa Mandiri Page |8
Copyright © Maret 2020

• Menentukan bagaimana memetakan nilai-nilai dari atribut kontinyu ke


katagori-katagori ini. Semua nilai dalam satu interval dipetakan ke nilai
katagori yang sama.
Discretization untuk tujuan klasifikasi dibedakan menjadi dua, yaitu:

 Unsupervised discretization, yaitu metode discretization tanpa


menggunakan informasi kelas. Pendekatan yang digunakan adalah:
 Pendekatan equal with: membagi range atribut kedalam sejumlah
interval yang ditentukan user yang masing-masing mempunyai
lebar yang sama
 Pendekatan equal frequency (equal depth): menempatkan objek-
objek dengan jumlah yang sama dalam tiap interval
Contoh: Ubah atribut taxable income pada tabel dibawah menjadi atribut
katagorikal dengan katagori: rendah, sedang, dan tinggi

Contoh: Ubah atribut taxable income pada tabel dibawah menjadi atribut
katagorikal dengan katagori: rendah, sedang, dan tinggi
E-Learning STMIK Nusa Mandiri Page |9
Copyright © Maret 2020

 Supervised discretization
Salah satu pendekatan dalam supervised discretization adalah entropy based
approach, yang langkahnya sebagai berikut:

 Menentukan entropy: Misalkan diketahui ada k: jumlah klas, mi jumlah


nilai dalam interval ke-i dari sebuah partisi, dan mij: jumlah nilai dariklas j
dalam interval i. Maka entropy ei dari interval ke-i adalah:
𝑘

𝑒𝑖 = ∑ 𝑝𝑗 𝑙𝑜𝑔2 𝑝𝑗
𝑖=1

Dimana pij = mij/mi adalah probabilitas kelas j dalam interval i

 Entropy total, e dari partisi merupakan rata-rata entropy interval terboboti:


𝑛

𝑒 = ∑ 𝑤𝑖 𝑒𝑖
𝑖=1

Dimana m adalah jumlah nilai, wi=mi/m, dan n: jumlah interval

Entropy dari satu interval merupakan ukuran kemurnian dari suatu interval. Jika
interval berisi hanya nilai-nilai dari satu klas maka entropy=0. Jika klas dari nilai
dalam satu interval menjadi sama maka entropy maksimum. Langkah paling
mudah adalah dengan membagi atribut kontinyu dalam dua interval yang
memberikan nilai entropy minimal. Teknik ini perlu mempertimbangkan tiap nilai
sebagai split point, karena diasumsikan bahwa interval berisi himpunan nilai yang
terurut. Proses splitting diulang untuk interval lain yang secara khusus memilih
E-Learning STMIK Nusa Mandiri Page |10
Copyright © Maret 2020

interval dengan entropy paling besar sampai jumlah interval yang ditentukan
tercapai.

7. Transformasi Atribut (attribute transformation)

Adalah suatu fungsi yang memetakan keseluruhan himpunan nilai dari atribut
yang diberikan ke suatu himpunan nilai-nilai pengganti yang baru sedemikian
hingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai baru tersebut.

Contoh: fungsi-fungsi sederhana: xk,log(x),ex,|𝑥|

Salah satu fungsidari transformasi atribut adalah untuk standarisasi dan


normalisasi. Tujuan dari standarisasi dan normalisasi adalah untuk membuat
keseluruhan nilai mempunyai suatu sifat khusus. Salah satu contoh transformasi
standarisasi adalah:

• Hitung nilai tengah dengan median


• Hitung absolute standard deviation
• Lakukan transformasi dengan persamaan 𝜎𝐴 = ∑𝑚
𝑖=1|𝑥𝑖 − 𝜇|

Anda mungkin juga menyukai