Anda di halaman 1dari 3

PRAKTIKUM 1: IMPORT DATA DAN PEMBERSIHAN DATA

Pertemuan ke :1

Total Alokasi Waktu : 100 menit

1.1. TUJUAN DAN INDIKATOR CAPAIAN


Setelah mengikuti praktikum ini mahasiswa diharapkan:
1. Mahasiswa mampu menjelaskan pengertian data mining.
2. Mahasiswa mampu melakukan proses import data dan pembersihan data.

Indikator ketercapaian diukur dengan:


1. Import data untuk data mining dapat dilakukan dengan baik.
2. Dapat melakukan pembersihan data pada dataset yang diperoleh sebelumnya.

1.2. TEORI PENDUKUNG


Saat memulai suatu proyek tentang data science, kemungkinan besar kita akan sering
mengambil data melalui web scrapping, dan tidak menutup kemungkinan juga mengambil data dari
kumpulan data yang di unduh dari tempat lain, seperti Kaggle, Quandl, dll. Data tersebut mungkin
dalam format file Excel atau disimpan dalam ekstensi .csv.

Pembersihan Data
Menurut Han dan Kamber (2006) Proses Cleaning dan pembersihan data adalah sebagai
berikut: Pembersihan data dan (cleaning) merupakan Proses ini digunakan untuk membuang data
yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basis data yang mungkin
berbeda format maupun platform yang kemudian diintegrasikan dalam satu database
datawarehouse. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan
juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan
data juga akan mempengaruhi formasi dari sistem data mining karena data yang ditangani akan
berkurang jumlah dan kompleksitasnya.

1.3. ALAT DAN BAHAN


Alat dan bahan yang digunakan dalam praktikum ini yaitu:
1. Komputer.
2. Anaconda app
3. Dataset

1.4. LANGKAH PRAKTIKUM


Ikuti langkah praktikum berikut ini:

1. Lakukan analisis data mining menggunakan Data Alumni untuk dilakukan proses import data.
2. Buka data set alumni dengan nama Data Alumni.xlxs
3. Perhatikan record-record pada tabel tersebut
4. Lakukan langkah berikut :
1) Membuka Anaconda Jupyter Notebook.
2) Import library yang akan digunakan.
a. openpyxl : library yang digunakan untuk read dan write file Excel
b. pandas : library data analysis, untuk mengolah data secara terstruktur
3) Inisialisasi file excel yang akan di import

a. load_workbook : nama function dari library openpyxl yang digunakan melakukan


import data dari excel (kemudian disimpan dalam variabel wb).
b. sheet_ranges : variable yang menampung data dari sheet mana yang akan diambil
dalam file excel (pada contoh ini adalah Sheet1).
c. DataFrame : adalah function dari library pandas yang digunakan untuk melakukan
parsing data terstruktur kedalam bentuk kolom dan baris, dengan demikian data
yang telah diparsing akan menjadi sebuah table yang nampak seperti susunan pada
relational database, dimana sebuah baris tunggal mewakili sebuah contoh tunggal
dan kolom mewakili atribut tertentu. (Kemudian dimasukkan ke dalam variabel
df ).
4) Setting data ke dalam template

a. d = df[1:9][[1,3,6,7,4,2,5,8]] : digunakan untuk memasukkan dataframe df ke


dalam variable d
b. columns : function dari library pandas
5) Menampilkan data pada kolom TTL

6) Menampilkan data pada kolom TTL dengan bentuk tabel

7) Menampilkan data dengan jumlah tertentu

8) Menampilkan data secara ascending atau descending berdasarkan kolom TTL

PEMBERSIHAN DATA
Ikuti langkah praktikum berikut ini:

1. Jika akan dilakukan analisis data mining dengan menghapus data yang kosong pada atribut
Umur, IPK, Toefl, lama studi, gaji pertama bekerja dan lama masa tunggu mencari kerja. Maka
lakukanlah analisis data siswa untuk kemudian dilakukan proses pembersihan data. Data
kosong pada dataframe biasanya ditampilkan dengan None. None adalah objek tunggal Python
yang sering digunakan untuk mewakili data yang hilang pada Python. NA adalah istilah yang
digunakan untuk data hilang.
2. Buka data set siswa dengan nama Data Alumni.xlxs
3. Perhatikan record-record pada tabel tersebut
4. Lakukan pembersihan data menggunakan
a. dropna() : akan menghapus semua baris di mana ada (any) nilai null. sebagai alternatif, kita
dapat menurunkan nilai NA sepanjang sumbu yang berbeda,
b. axis = 0 : digunakan untuk menghapus semua baris yang mengandung nilai null.
Hasil :

1.5. TUGAS
1. Carilah data set minimal 30 data dengan minimal 5 atribut lakukanlah import data dari
data set tersebut.
2. Tampilkan data secara ascending dan descending salah satu kolom.
3. Tampilkan salah satu data kolom dalam bentuk tabel.
4. Dari data set tersebut lakukanlah pembersihan data dan analisis hasilnya

Anda mungkin juga menyukai