Anda di halaman 1dari 3

PRAKTIKUM 1: IMPORT DATA DAN PEMBERSIHAN

DATA

Pertemuan ke :1

Total Alokasi Waktu : 100 menit

1.1. TUJUAN DAN INDIKATOR CAPAIAN


Setelah mengikuti praktikum ini mahasiswa diharapkan:
1. Mahasiswa mampu menjelaskan pengertian data mining.
2. Mahasiswa mampu melakukan proses import data dan pembersihan data.

Indikator ketercapaian diukur dengan:


1. Import data untuk data mining dapat dilakukan dengan baik.
2. Dapat melakukan pembersihan data pada dataset yang diperoleh sebelumnya.

1.2. TEORI PENDUKUNG


Saat memulai suatu proyek tentang data science, kemungkinan besar kita akan
sering mengambil data melalui web scrapping, dan tidak menutup kemungkinan juga mengambil
data dari kumpulan data yang di unduh dari tempat lain, seperti Kaggle, Quandl, dll. Data tersebut
mungkin dalam format file Excel atau disimpan dalam ekstensi .csv.

Pembersihan Data
Menurut Han dan Kamber (2006) Proses Cleaning dan pembersihan data adalah sebagai
berikut: Pembersihan data dan (cleaning) merupakan Proses ini digunakan untuk membuang data
yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basis data yang
mungkin berbeda format maupun platform yang kemudian diintegrasikan dalam satu database
datawarehouse. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang
dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini.
Pembersihan data juga akan mempengaruhi formasi dari sistem data mining karena data yang
ditangani akan berkurang jumlah dan kompleksitasnya.

1.3. ALAT DAN BAHAN


Alat dan bahan yang digunakan dalam praktikum ini yaitu:
1. Komputer.
2. Anaconda app
3. Dataset

1.4. LANGKAH PRAKTIKUM


Ikuti langkah praktikum berikut ini:

1. Lakukan analisis data mining menggunakan Data Alumni untuk dilakukan proses import data.
2. Buka data set alumni dengan nama Data Alumni.xlxs
3. Perhatikan record-record pada tabel tersebut
4. Lakukan langkah berikut :
1) Membuka Anaconda Jupyter Notebook.
2) Import library yang akan digunakan.
a. openpyxl : library yang digunakan untuk read dan write file Excel
b. pandas : library data analysis, untuk mengolah data secara terstruktur
3) Inisialisasi file excel yang akan di import

a. load_workbook : nama function dari library openpyxl yang digunakan melakukan


import data dari excel (kemudian disimpan dalam variabel wb).
b. sheet_ranges : variable yang menampung data dari sheet mana yang akan diambil
dalam file excel (pada contoh ini adalah Sheet1).
c. DataFrame : adalah function dari library pandas yang digunakan untuk
melakukan parsing data terstruktur kedalam bentuk kolom dan baris, dengan
demikian data yang telah diparsing akan menjadi sebuah table yang nampak
seperti susunan pada relational database, dimana sebuah baris tunggal mewakili
sebuah contoh tunggal dan kolom mewakili atribut tertentu. (Kemudian
dimasukkan ke dalam variabel df ).
4) Setting data ke dalam template

a. d = df[1:9][[1,3,6,7,4,2,5,8]] : digunakan untuk memasukkan dataframe df


ke dalam variable d
b. columns : function dari library pandas
5) Menampilkan data pada kolom TTL

6) Menampilkan data pada kolom TTL dengan bentuk tabel

7) Menampilkan data dengan jumlah tertentu

8) Menampilkan data secara ascending atau descending berdasarkan kolom TTL

PEMBERSIHAN DATA
Ikuti langkah praktikum berikut ini:

1. Jika akan dilakukan analisis data mining dengan menghapus data yang kosong pada atribut
Umur, IPK, Toefl, lama studi, gaji pertama bekerja dan lama masa tunggu mencari kerja.
Maka lakukanlah analisis data siswa untuk kemudian dilakukan proses pembersihan
data. Data kosong pada dataframe biasanya ditampilkan dengan None. None adalah objek
tunggal Python yang sering digunakan untuk mewakili data yang hilang pada Python. NA
adalah istilah yang digunakan untuk data hilang.
2. Buka data set siswa dengan nama Data Alumni.xlxs
3. Perhatikan record-record pada tabel tersebut
4. Lakukan pembersihan data menggunakan
a. dropna() : akan menghapus semua baris di mana ada (any) nilai null. sebagai alternatif,
kita dapat menurunkan nilai NA sepanjang sumbu yang berbeda,
b. axis = 0 : digunakan untuk menghapus semua baris yang mengandung nilai null.
Hasil :

1.5. TUGAS
1. Carilah data set minimal 30 data dengan minimal 5 atribut lakukanlah import data
dari data set tersebut.
2. Tampilkan data secara ascending dan descending salah satu kolom.
3. Tampilkan salah satu data kolom dalam bentuk tabel.
4. Dari data set tersebut lakukanlah pembersihan data dan analisis hasilnya

Anda mungkin juga menyukai