DATA
Pertemuan ke :1
Pembersihan Data
Menurut Han dan Kamber (2006) Proses Cleaning dan pembersihan data adalah sebagai
berikut: Pembersihan data dan (cleaning) merupakan Proses ini digunakan untuk membuang data
yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basis data yang
mungkin berbeda format maupun platform yang kemudian diintegrasikan dalam satu database
datawarehouse. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang
dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini.
Pembersihan data juga akan mempengaruhi formasi dari sistem data mining karena data yang
ditangani akan berkurang jumlah dan kompleksitasnya.
1. Lakukan analisis data mining menggunakan Data Alumni untuk dilakukan proses import data.
2. Buka data set alumni dengan nama Data Alumni.xlxs
3. Perhatikan record-record pada tabel tersebut
4. Lakukan langkah berikut :
1) Membuka Anaconda Jupyter Notebook.
2) Import library yang akan digunakan.
a. openpyxl : library yang digunakan untuk read dan write file Excel
b. pandas : library data analysis, untuk mengolah data secara terstruktur
3) Inisialisasi file excel yang akan di import
PEMBERSIHAN DATA
Ikuti langkah praktikum berikut ini:
1. Jika akan dilakukan analisis data mining dengan menghapus data yang kosong pada atribut
Umur, IPK, Toefl, lama studi, gaji pertama bekerja dan lama masa tunggu mencari kerja.
Maka lakukanlah analisis data siswa untuk kemudian dilakukan proses pembersihan
data. Data kosong pada dataframe biasanya ditampilkan dengan None. None adalah objek
tunggal Python yang sering digunakan untuk mewakili data yang hilang pada Python. NA
adalah istilah yang digunakan untuk data hilang.
2. Buka data set siswa dengan nama Data Alumni.xlxs
3. Perhatikan record-record pada tabel tersebut
4. Lakukan pembersihan data menggunakan
a. dropna() : akan menghapus semua baris di mana ada (any) nilai null. sebagai alternatif,
kita dapat menurunkan nilai NA sepanjang sumbu yang berbeda,
b. axis = 0 : digunakan untuk menghapus semua baris yang mengandung nilai null.
Hasil :
1.5. TUGAS
1. Carilah data set minimal 30 data dengan minimal 5 atribut lakukanlah import data
dari data set tersebut.
2. Tampilkan data secara ascending dan descending salah satu kolom.
3. Tampilkan salah satu data kolom dalam bentuk tabel.
4. Dari data set tersebut lakukanlah pembersihan data dan analisis hasilnya