Anda di halaman 1dari 16

LAPORAN PRAKTIKUM PERTEMUAN 6

PENGENALAN SCIKIT LEARN


PRAKTIKUM PENAMBANGAN DAN PENGOLAHAN DATA

Muhammad Fahmi Husaen


20/460934/SV/18015

PROGRAM STUDI D4 TEKNOLOGI REKAYASA PERANGKAT LUNAK


DEPARTEMEN TEKNIK ELEKTRO DAN INFORMATIKA
SEKOLAH VOKASI
UNIVERSITAS GADJAH MADA
2020
1. Scikit Learn

Scikit learn atau biasa disebut sklearn merupakan sebuah library untuk bahasa
pemrograman Python yang memiliki fungsi untuk membantu dalam melakukan processing pada
data atau melakukan training pada data yang nantinya akan digunakan dalam membuat machine
learning. Sklearn sendiri memiliki banyak fitur yang dapat digunakan seperti classification,
regression, clustering, dimensionality. Reduction, preprocessing data, dan model selection yang
dapat digunakan dalam melakukan pemrosesan pada data.

2. Instalasi Scikit Learn

Berikut ini akan dijelaskan cara untuk melakukan instalasi library Scikit Learn pada
Python melalui command prompt. Untuk melakukan instalasi dapat menggunakan pip, berikut
ini cara intalasi Matplotlib :

1. Membuka link https://pypi.org/project/scikit-learn/ untuk melihat cara instalasi


menggunakan pip, seperti gambar di bawah ini.

2. Selanjutnya adalah menuliskan syntax atau perintah seperti gambar di atas pada command
prompt, kemudian tunggu sampai proses instalasi selesai seperti gambar di bawah ini.
3. Selanjutnya jika proses instalasi selesai dan sukses, maka library sudah bisa digunakan
untuk melakukan pengolahan data di Python. Jika ingin menggunakan Scikit-Learn, maka
harus melakukan import dimana memanggil dengan perintah from sklearn yang nanti akan
mengimport berbagai peritah atau fungsi yang akan digunakan terlebih dahulu dengan cara
seperti gambar di bawah ini :

3. Latihan menggunakan Scikit Learn

Selanjutnya akan dijelaskan berbagai contoh latihan dalam menggunakan Scikit Learn
atau biasa disebut sklearn untuk membantu dalam memproses data mentah yang nantinya akan
diolah oleh machine learning untuk meningkatkan kinerja mesin tersebut, berikut adalah contoh
latihannya :

a. Hal pertama yang dilakukan adalah melakukan import library yang akan digunakan untuk
membantu dalam proses pengolahan data. Berikut library yang akan digunakan adalah
numpy, matplotlib.pyplot, dan pandas.

b. Selanjutnya adalah membuat sebuah data yang nantinya akan dijadikan latihan untuk
mengolah data dengan menggunakan sklearn. Berikut ini data yang dibuat dinamakan
dataset yang memuat province, age, wage, dan life insured.

c. Selanjutnya adalah menampilkan dataset ke dalam bentuk tabel, dengan menggunakan


perintah seperti di bawah ini. Dan dapat dilihat pada tabel terdapat nilai kosong.
d. Selanjutnya adalah menampilkan data dengan membagi ke dalam 2 bentuk yaitu x dan y, di
mana x merupakan data yang berisi variabel yang akan menghasilkan nilai y dan nilai y
merupakan kesimpulan dari nilai x yang telah didapat. Berikut ini caranya, di mana untuk
memangil baris dan kolom dengan meggunakan iloc dan menuliskan index baris dan
kolomnya. Dimana x merupakan data yang diambil di semua baris dengan kolom dari
index 0 – (n-1) dimana n merupakan jumlah kolom yang ada, sedangkan y adalah data
yang berisi semua baris dari kolom terakhir.

e. Selanjutnya adalah proses untuk mengisi data yang kosong, dikarenakan data kosong maka
akan dilakukan data cleaning atau pembersihan data dengan mengisi data berdasarkan
dengan nilai rata-rata dari data. Jika ingin mengisi data dengan memasukan nilai rata-rata
dari nilai pada atribut adalah dengan menggunakan mean sebagai strategy-nya dan
memanggil nilai kosongnya dengan menuliskan nama value yang mengindikasikan jika
value tersebut kosong, pada kasus ini nilai yang kosongnya adalah ‘np.nan’. Berikut ini
cara untuk mengisi data kosong dengan menggunakan mean dimana kolom yang akan
diolah adalah kolom index ke – 1 (age) dan ke -2 (wage) :
f. Selain menggunakan nilai rata-rata atau mean, data yang kosong juga dapat diisi dengan
menggunakan modus atau nilai yang sering muncul. Pada latihan ini, menggunakan
dataset2 yang hampir sama dengan dataset pertama namun terdapat perubahan nilai pada
bagian province-nya untuk mencoba menggunakan modus. Jika ingin menggunakan modus
maka pada strategy-nya diubah menjadi ‘most_frequent’ kemudian karena hanya kolo
province saja maka tabel yang akan diolah adalah tabel di kolom indeks ke – 0. Berikut ini
tampilan untuk dataset2 dan proses pembersihan data (data cleaning).
Proses data cleaning :

g. Selanjutnya adalah dengan mengubah value pada sebuah kolom agar menjadi kode yang
nantinya akan lebih mudah dalam mengolah data. Pada tahap ini value yang akan dibuah
adalah value pada kolom province dan pada kolom life_insured. Pertama adalah dengan
mengimport library sklearn yaitu OneHotEncoder dan ColumnTranformer. Pertama adalah
kolom province dimana terdapat 3 kategori yaitu Banten, DKI Jakarta, dan Jawa Barat
nanti ketiga kategoti ini akan diubah dalam kode dengan tipe float64. Sedangkan untuk
kolom life_insured teradpat 2 kategori yaitu Yes dan No yang akan diubah dalam kode
dengan nilai 0 dan 1. Berikut ini cara dan hasil setelah melakukan perubahan value menjadi
kode :
- Kode untuk kolom province :

- Kode untuk kolom life_insured :


- Tampilan dalam keseluruhan tabel :

h. Sebelum melakukan pengujian, data dibagi menjadi 2 yaitu set data train dan set data test.
Set data train merupakan data yang akan digunakan untuk mencapai atau melampaui goal
sedangkan untuk data set test digunakan sebagai set data yang harus dicapai. Untuk
membagi data maka terlebih dahulu melakukan proses import untuk train_test_split,
kemudian membagai data x dan y menjadi train dan test dengan memberikan test_size
sebesar 0.2 atau 20% dari jumlah data keseluruhan untuk data set train, sehingga 0.8 atau
80% data untuk train secara random dengan nilai kembali sama sesuai dengan nilai
random_state yang digunakan. Berikut ini proses dan hasil data test yang nantinya akan
digunakan untuk melakukan pengujian :
- Nilai x_val dan x_train :

- Nilai y_val dan y_train :


i. Selain menggunakan sklearn untuk melakukan cleaning data yaitu mengisi data yang
kosong dapat menggunakan fillna yang merupakan fungsi bawaan dari pandas. Dengan
menggunakan fillna data yang kosong dapat diisi dengan menggunakan nilai mean atau
dengan median yang diproses dari data tersebut secara keseluruhan. Berikut ini contoh
penerapan menggunakan fillna dengan menggunakan mean dan median :

- Contoh data :

- Proses menggunakan mean dan median, beserta hasilnya :


4. Latihan Menggunakan Orange
Orange data mining merupakan software atau perangkat lunak yang digunakan untuk
membantu untuk mempresentasikan data yang di daapat dari hasil data mining, pengolahan data
untuk machine learning, dan data analisis. Orange ini merupakan hasil pengembangan oleh
GitHub dan sistem ini bersifat open source atau gratis. Berikut ini akan dijelaskan bagaimana cara
menggunakan orange untuk mengolah data :
a. Langkah pertama adalah melakukan import data, untuk kali ini klik file kemudian pilih
data yang ingin diolah.
b. Ketika sudah klik file maka pilih file yang akan digunakan dan ketika sudah maka akan
tampil seperti gambar di bawah ini, di mana terdapat penjelasan juga terkait isi kolom
beserta tipe data dan valuesnya seperti apa.

c. Selanjutnya ketika sudah, klik data table pada kolom menu yang terdapat dikiri atau
dengan menarik dari file kemudian pilih data table maka akan berbentuk seperti ini :
d. Data table berfungsi untuk menampilkan data yang akan kita proses, untuk melihat bentuk
tabel-nya dapat diklik icon data table maka akan tampil data seperti di bawah ini :

e. Pada data di atas dapat dilihat, terdapat nilai yang kosong pada kolom age dan salary
sehingga kali ini akan dilakukan proses untuk cleaning data atau pembersihan data dengan
mengisi data menggunakan avg atau rata-rata. Sebelum melakukan preprocessing, karena
hanya kolom age dan salary yang akan diproses maka tahap selanjutnya adalah memilih
atau select kolom terlebih dahulu dengan memilih Select Columns seperti di bawah ini.
Berikut ini proses pemilihan kolom, di mana yang akan digunakan ada kolom yang dipilih
di sebelah kanan.

f. Setelah memilih kolom, selanjutnya adalah melakukan preprocessing dengan memilih


preprocess seperti gambar dibawah ini dan memilih proses apa yang akan dijalankan.
Berikut ini pemilihan prosesnya, karena akan akan mengisi data yang kosong maka dengan
pilih impute missing values untuk mengisi data dan pilih average/most frequent untuk
mengisi data dengan nilai rata-rata. Karena data berbentuk Num maka akan mengambil
nilai rata-rata dari keseluruhan data sedangkan most_frequent biasanya digunakan untuk
data non numerical di mana mengambil data yang sering muncul atau biasanya disebut
dengan modus.

g. Selanjutnya adalah menampilkan hasil preprocess dengan menghubungkan dengan data


table baru, seperti gambar di bawah ini :
Berikut ini hasil preprocessing data yang telah dilakukan di mana data pada kolom age dan
salary yang kosong telah diisi dengan mengambil nilai rata- ratanya.

Anda mungkin juga menyukai