Scikit learn atau biasa disebut sklearn merupakan sebuah library untuk bahasa
pemrograman Python yang memiliki fungsi untuk membantu dalam melakukan processing pada
data atau melakukan training pada data yang nantinya akan digunakan dalam membuat machine
learning. Sklearn sendiri memiliki banyak fitur yang dapat digunakan seperti classification,
regression, clustering, dimensionality. Reduction, preprocessing data, dan model selection yang
dapat digunakan dalam melakukan pemrosesan pada data.
Berikut ini akan dijelaskan cara untuk melakukan instalasi library Scikit Learn pada
Python melalui command prompt. Untuk melakukan instalasi dapat menggunakan pip, berikut
ini cara intalasi Matplotlib :
2. Selanjutnya adalah menuliskan syntax atau perintah seperti gambar di atas pada command
prompt, kemudian tunggu sampai proses instalasi selesai seperti gambar di bawah ini.
3. Selanjutnya jika proses instalasi selesai dan sukses, maka library sudah bisa digunakan
untuk melakukan pengolahan data di Python. Jika ingin menggunakan Scikit-Learn, maka
harus melakukan import dimana memanggil dengan perintah from sklearn yang nanti akan
mengimport berbagai peritah atau fungsi yang akan digunakan terlebih dahulu dengan cara
seperti gambar di bawah ini :
Selanjutnya akan dijelaskan berbagai contoh latihan dalam menggunakan Scikit Learn
atau biasa disebut sklearn untuk membantu dalam memproses data mentah yang nantinya akan
diolah oleh machine learning untuk meningkatkan kinerja mesin tersebut, berikut adalah contoh
latihannya :
a. Hal pertama yang dilakukan adalah melakukan import library yang akan digunakan untuk
membantu dalam proses pengolahan data. Berikut library yang akan digunakan adalah
numpy, matplotlib.pyplot, dan pandas.
b. Selanjutnya adalah membuat sebuah data yang nantinya akan dijadikan latihan untuk
mengolah data dengan menggunakan sklearn. Berikut ini data yang dibuat dinamakan
dataset yang memuat province, age, wage, dan life insured.
e. Selanjutnya adalah proses untuk mengisi data yang kosong, dikarenakan data kosong maka
akan dilakukan data cleaning atau pembersihan data dengan mengisi data berdasarkan
dengan nilai rata-rata dari data. Jika ingin mengisi data dengan memasukan nilai rata-rata
dari nilai pada atribut adalah dengan menggunakan mean sebagai strategy-nya dan
memanggil nilai kosongnya dengan menuliskan nama value yang mengindikasikan jika
value tersebut kosong, pada kasus ini nilai yang kosongnya adalah ‘np.nan’. Berikut ini
cara untuk mengisi data kosong dengan menggunakan mean dimana kolom yang akan
diolah adalah kolom index ke – 1 (age) dan ke -2 (wage) :
f. Selain menggunakan nilai rata-rata atau mean, data yang kosong juga dapat diisi dengan
menggunakan modus atau nilai yang sering muncul. Pada latihan ini, menggunakan
dataset2 yang hampir sama dengan dataset pertama namun terdapat perubahan nilai pada
bagian province-nya untuk mencoba menggunakan modus. Jika ingin menggunakan modus
maka pada strategy-nya diubah menjadi ‘most_frequent’ kemudian karena hanya kolo
province saja maka tabel yang akan diolah adalah tabel di kolom indeks ke – 0. Berikut ini
tampilan untuk dataset2 dan proses pembersihan data (data cleaning).
Proses data cleaning :
g. Selanjutnya adalah dengan mengubah value pada sebuah kolom agar menjadi kode yang
nantinya akan lebih mudah dalam mengolah data. Pada tahap ini value yang akan dibuah
adalah value pada kolom province dan pada kolom life_insured. Pertama adalah dengan
mengimport library sklearn yaitu OneHotEncoder dan ColumnTranformer. Pertama adalah
kolom province dimana terdapat 3 kategori yaitu Banten, DKI Jakarta, dan Jawa Barat
nanti ketiga kategoti ini akan diubah dalam kode dengan tipe float64. Sedangkan untuk
kolom life_insured teradpat 2 kategori yaitu Yes dan No yang akan diubah dalam kode
dengan nilai 0 dan 1. Berikut ini cara dan hasil setelah melakukan perubahan value menjadi
kode :
- Kode untuk kolom province :
h. Sebelum melakukan pengujian, data dibagi menjadi 2 yaitu set data train dan set data test.
Set data train merupakan data yang akan digunakan untuk mencapai atau melampaui goal
sedangkan untuk data set test digunakan sebagai set data yang harus dicapai. Untuk
membagi data maka terlebih dahulu melakukan proses import untuk train_test_split,
kemudian membagai data x dan y menjadi train dan test dengan memberikan test_size
sebesar 0.2 atau 20% dari jumlah data keseluruhan untuk data set train, sehingga 0.8 atau
80% data untuk train secara random dengan nilai kembali sama sesuai dengan nilai
random_state yang digunakan. Berikut ini proses dan hasil data test yang nantinya akan
digunakan untuk melakukan pengujian :
- Nilai x_val dan x_train :
- Contoh data :
c. Selanjutnya ketika sudah, klik data table pada kolom menu yang terdapat dikiri atau
dengan menarik dari file kemudian pilih data table maka akan berbentuk seperti ini :
d. Data table berfungsi untuk menampilkan data yang akan kita proses, untuk melihat bentuk
tabel-nya dapat diklik icon data table maka akan tampil data seperti di bawah ini :
e. Pada data di atas dapat dilihat, terdapat nilai yang kosong pada kolom age dan salary
sehingga kali ini akan dilakukan proses untuk cleaning data atau pembersihan data dengan
mengisi data menggunakan avg atau rata-rata. Sebelum melakukan preprocessing, karena
hanya kolom age dan salary yang akan diproses maka tahap selanjutnya adalah memilih
atau select kolom terlebih dahulu dengan memilih Select Columns seperti di bawah ini.
Berikut ini proses pemilihan kolom, di mana yang akan digunakan ada kolom yang dipilih
di sebelah kanan.