Anda di halaman 1dari 14

LAPORAN KERJA PRAKTIKUM 5 DATA MINING

Kelompok 4 1. 2. 3. 4. Febriani Dwiprianti Irenne Dwi Ayu Mardiasih Rakhman Aji Nugraha Rindi Antika G64124063 G64124046 G64124025 G64124011

INSTITUT PERTANIAN BOGOR FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM DEPARTEMEN ILMU KOMPUTER 2014

Laporan Pendahuluan

1.

Apakah semua data dengan tipe.csv atau .arff dapat diproses untuk data mining dengan menggunakan Weka? Ya, semua data dengan tipe .csv atau .arff dapat diproses untuk data mining

2.

Praproses Data (Preprocessing Data) Data yang belum diproses disebut data mentah. Data mentah perlu disiapkan terlebih

dahulu agar bisa dipakai dalam proses pengolahan data mining. Namun, pada data mentah sering kali ditemukan banyaknya nilai yang hilang (missing value), distorsi nilai, tidak tersimpannya nilai (misrecording), sampling yang tidak cukup bagus dan sebagainya. Penyebab kurang baiknya kualitas data mentah adalah karena adanya kesalahan dalam penyimpanan dan pengukuran, dan tidak adanya nilai mewakili yang tersedia. Untuk itu perlu ditingkatkan kualitasnya dengan melakukan tahap penyiapan data (preprocessing). Preprocessing data merupakan proses atau tahapan yang harus dilakukan di awal proses mining data terhadap suatu dataset data mentah untuk mentransformasi data mentah tesebut ke suatu format agar prosesnya lebih mudah dan efektif sehingga hasil yang didapatkan berkualitas sesuai dengan kebutuhan pengguna (user). Adapun indicator yang perlu diperhatikan untuk menghasilkan data yang berkualitas saat preprocessing data adalah: accuracy and consistency completeness timeliness interpretability accessibility representational Teknik-teknik preprocessing data yang dapat dilakukan pada data mining antara lain, yaitu pembersihan data, integrasi data, transformasi data, reduksi data, dan diskretisasi data. Tahapan preprocessing dapat dilihat pada Gambar 1

Gambar 1 Tahapan preprocessing data mining

3.

Apakah setiap akan melakukan tahapan data mining harus dilakukan praproses data? Preprocessing merupakan tahapan awal yang harus dilakukan untuk memastikan data yang

akan diolah pada data mining adalah data yang baik. Hal ini disebabkan karena terdapat beberapa data mentah yang memiliki kualitas yang tidak baik. Kualitas data yang tidak baik terjadi karena ketidaklengkapan yang dapat disebabkan oleh beberapa hal yaitu: Kesalahan manusia atau mesin pada saat entry data, misalnya karena tidak ada type checking pada saat input, atau data kolom a dimasukkan ke kolom b. Kesalahan pada transmisi data, pada saat menyimpan data ke server, koneksi terputus sehingga hanya beberapa data saja yang berhasil disimpan. Tidak dilakukannya proses entry bersama data lain karena dianggap tidak penting, misalnya history harga barang yang tidak disimpan, sehingga tidak dapat dilihat pergerakan harga barang selama beberapa periode. Data dihapus karena tidak konsisten dengan data yang lain, misalnya kode sub organisasi yang berbeda-beda format, padahal kode tersebut dapat dipakai untuk identifikasi data. Data hanya berupa agregat, misal hanya dicatat jumlah total belanja, sehingga subtotal per jenis barang tidak dapat diketahui atau subtotal nilai belanja barang per jenis barang dicatat, tapi jumlah per jenis barang tidak dicatat sehingga tidak dapat diketahui trend jumlah pembelian atau harga satuannya. Untuk mengatasi masalah kualitas data yang tidak berkualitas tersebut, maka perlu dilakukan tahapan pre-processing terhadap data sebelum diolah dengan data mining. Proses preprocessing meliputi proses pembersihan data yang membuang duplikasi data, memeriksa data yang tidak konsisten, mengisi missing value, mengidentifikasi atau membuang outlier, dan memperbaiki kesalahan pada data seperti kesalahan cetak (tipografi), dan dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi yang relevan dan diperlukan untuk data mining.

4.

Apakah semua teknik praproses data harus dilakukan ketika melakukan praproses data? Teknik-teknik preprocessing data yang dapat dilakukan pada data mining antara lain, yaitu

pembersihan data, integrasi data, transformasi data, reduksi data, dan diskretisasi data. Semua teknik praproses data harus dilakukan ketika melakukan proses mining data untuk mendapatkan hasil pemrosesan berkualitas tinggi (high quality).

TUGAS PRAKTIKUM

1.

Buka dataset german-credit.arrf lalu identifikasi atribut apa saja yang mengalami missing value lalu lakukan pembersihan missing value dalam atribut tersebut. Jelaskan apa saja yang dapat dilakukan untuk menangani atribut missing value!

Atribut yang mengalami missing value adalah: Credit history Credit amount Property magnitude

No 1.

Atribut Credit Amount

Sebelum

Sesudah

2.

Credit History

No 3

Atribut Property Magnitude

Sebelum

Sesudah

Hal yang perlu dilakukan untuk mengatasi masalah missing values adalah: Mengabaikan record label klasifikasi yang kosong. Mengisikan secara manual Menggunakan mean atau median dari atribut yang mengandung missing value. Mean dipakai jika distribusi normal, sedangkan median digunakan jika distribusi data tersebar tidak normal. Menggunakan nilai global Menggunakan metode binning, regresi, dan cluster.

2.

Jelaskan secara singkat perbedaan pembersihan data ReplaceMissingValues pada atribut yang bersifat kualitatif dengan atribut yang bersifat kuantitatif?

Kualitatif : Pembersihan data ReplaceMissingValues pada atribut dapat dilakukan dengan melihat modus yang terdapat pada atribut tersebut. Data yang menjadi modus yang akan mengisi data-data yang kosong (missing values). Kuantitatif : Pembersihan data ReplaceMissingValues pada atribut dapat dilakukan dengan melihat mean yang terdapat pada atribut tersebut. Mean yang akan mengisi datadata yang kosong (missing values)

3.

Buat atribut baru bernama age-month yang isinya merupakan konversi umur dari tahun ke bulan berdasarkan atribut age pada dataset german-credit.arrf!

Proses pembuatan atribut baru age-month dengan Weka.

Tampilan output atribut baru age-month yang dihasilkan

Perbandingan hasil output antara Age Awal yang belum dikali dengan 12 dengan Age Akhir yang sudah dikali dengan 12. Age Awal (Sebelum dikali 12) Age Akhir (Setelah dikali 12)

4.

Jika nantinya dataset german-credit.arrf akan dilakukan deteksi outlier apakah perlu melakukan normalisasi data pada salah satu atau beberapa atribut pada dataset tersebut? Jelaskan secara singkat alasan anda! Normalisasi adalah proses penskalaan nilai atribut dari data sehingga bisa jatuh pada range

tertentu. Normalisasi sangat perlu dilakukan karena apabila terdapat nilai outlier pada data, maka akan mempengaruhi nilai ukuran kesetimbangan (rata-rata) atau pemusatan nilai data keseluruhan. Hal ini disebabkan karena nilai rata-rata data menunjukkan karakteristik dari sebuah data, misalnya : Apabila lokasi outlier melebihi nilai batas atas (Q4) dari rerata nilai distribusi, maka nilai rata-rata keseluruhan dari data tersebut akan menjadi tinggi. Namun, apabila lokasi outlier kurang dari nilai batas bawah (Q1) dari rerata nilai distribusi, maka nilai rata-rata dari data tersebut akan menjadi rendah.

5.

Lakukan diskretisasi data pada atribut credit_amount dan jelaskan bagaimana hasil diskretisasi data tersebut!

Proses sebelum diskretisasi data pada atribut credit_amount

Proses diskretisasi

Hasil diskretisasi

KESIMPULAN

1. Preprocessing data merupakan proses atau tahapan yang harus dilakukan di awal proses mining data untuk mendapatkan hasil berkualitas sesuai dengan kebutuhan pengguna (user). 2. Teknik-teknik preprocessing data yang dapat dilakukan pada data mining antara lain, yaitu pembersihan data, integrasi data, transformasi data, reduksi data, dan diskretisasi data. 3. Berdasarkan dataset german-credit, terdapat tiga attribute yang mengalami missing value adalah: Credit history Credit amount Property magnitude

4. Pembersihan data ReplaceMissingValues pada atribut dapat dilakukan dengan modus (pada data kualitatif) dan dengan mean (pada data kuantitatif) yang dapat digunakan untuk mengisi nilai pada data yang kosong.

Anda mungkin juga menyukai