Pratikum 1
Pratikum 1
Pertemuan ke :1
Pembersihan Data
Menurut Han dan Kamber (2006) Proses Cleaning dan pembersihan data adalah sebagai
berikut: Pembersihan data dan (cleaning) merupakan Proses ini digunakan untuk membuang data
yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basis data yang mungkin
berbeda format maupun platform yang kemudian diintegrasikan dalam satu database
datawarehouse. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan
juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan
data juga akan mempengaruhi formasi dari sistem data mining karena data yang ditangani akan
berkurang jumlah dan kompleksitasnya.
1. Lakukan analisis data mining menggunakan Data Alumni untuk dilakukan proses import data.
2. Buka data set alumni dengan nama Data Alumni.xlxs
3. Perhatikan record-record pada tabel tersebut
4. Lakukan langkah berikut :
1) Membuka Anaconda Jupyter Notebook.
2) Import library yang akan digunakan.
a. openpyxl : library yang digunakan untuk read dan write file Excel
b. pandas : library data analysis, untuk mengolah data secara terstruktur
3) Inisialisasi file excel yang akan di import
PEMBERSIHAN DATA
Ikuti langkah praktikum berikut ini:
1. Jika akan dilakukan analisis data mining dengan menghapus data yang kosong pada atribut
Umur, IPK, Toefl, lama studi, gaji pertama bekerja dan lama masa tunggu mencari kerja. Maka
lakukanlah analisis data siswa untuk kemudian dilakukan proses pembersihan data. Data
kosong pada dataframe biasanya ditampilkan dengan None. None adalah objek tunggal Python
yang sering digunakan untuk mewakili data yang hilang pada Python. NA adalah istilah yang
digunakan untuk data hilang.
2. Buka data set siswa dengan nama Data Alumni.xlxs
3. Perhatikan record-record pada tabel tersebut
4. Lakukan pembersihan data menggunakan
a. dropna() : akan menghapus semua baris di mana ada (any) nilai null. sebagai alternatif, kita
dapat menurunkan nilai NA sepanjang sumbu yang berbeda,
b. axis = 0 : digunakan untuk menghapus semua baris yang mengandung nilai null.
Hasil :
1.5. TUGAS
1. Carilah data set minimal 30 data dengan minimal 5 atribut lakukanlah import data dari
data set tersebut.
2. Tampilkan data secara ascending dan descending salah satu kolom.
3. Tampilkan salah satu data kolom dalam bentuk tabel.
4. Dari data set tersebut lakukanlah pembersihan data dan analisis hasilnya