Anda di halaman 1dari 9

Aldo Erwin Manurung

14S14022

IFS3101 - Kecerdasan Buatan

Week/session : 12 / 02
Topic : Simple Linear Regression
Due : None

Perhatikan dataset Salary_Data.csv anda. Terdapat dua kolom yaitu Years Experience dan
Salary. Pada praktikum ini, kita akan mengidentifikasi apakah ada korealasi antara kedua
variabel tersebut dengan menggunakan machine learning model. Salah satu model yang dapat
digunakan untuk mengidentifikasi korelasi antar variabel tersebut adalah model linear
regression. Untuk memulai praktikum kali ini, copy Salary_Data.csv ke dalam folder
\Machine-Learning-A-Z-Template-Folder\Machine Learning A-Z Template Folder\Part 2 -
Regression\Section 4 - Simple Linear Regression yang telah anda buat pada praktikum
sebelumnya.
Rumus Simple Linear Regression:

Keterangan :
y= Variabel dependen (nilai yang diprediksikan)
x= Variabel independen
b0= Konstanta (Nilai y apabila x=0)
b1= Koefisien Regresi (nilai peningkatan atau penurunan)

Jika digambarkan dalam bentuk grafik, berikut adalah sebaran nilai salary berdasarkan level
pengalaman kerja yang dimiliki.

Kecerdasan Buatan | 1
Aldo Erwin Manurung
14S14022

Perhatikan gambar di bawah ini.

Tanda yang berwarna merah menunjukan real salary yang dimiliki seseorang (y1), sementara
tanda yang berwarna hijau adalah predicted salary yang diberikan kepada orang tersebut (y2).
Untuk mengimplementasikan model regresi linear dalam model machine learning, berikut
adalah langkah- langkah yang harus anda lakukan.

DATA PREPROCESSING
1. Buka IDE Spyder anda dan buat file baru dengan nama simple_linear_regression.py
dan pastikan dataset Salary_Data.csv berada pada folder yang sama dengan file yang
baru anda buat.
2. Copy template data_preprocessing.py yang telah anda buat di praktikum sebelumnya.

3. Ubah nama dataset sesuai nama dataset yang ada pada folder anda (Salary_Data.csv).

Kecerdasan Buatan | 2
Aldo Erwin Manurung
14S14022

4. Run cell pada bagian import library dan import dataset (line pertama).

TUGAS:
Pada bagian mana dataset yang telah diimport dapat dilihat melalui IDE?
Variable Explorer
5. Format dataset anda, sehingga data yang ditampilkan adalah sebagai berikut (0 digit
dibelakang koma dengan tipe data float).
TUGAS:
Jelaskan langkah- langkah anda melakukan pengubahan tersebut!.
Klik tombol Format, maka akan tampil window berikut.

Ubah format seperti gambar berikut.

Klik tombol OK

Kecerdasan Buatan | 3
Aldo Erwin Manurung
14S14022

6. Langkah selanjutnya adalah mengubah X dan Y dimana X adalah independent


variabel dalam hal dataset merupakan YearsExperience, dan Y adalah dependent
variable, yaitu Salary dalam dataset. Variabel X yang akan digunakan terletak pada
indeks ke 0 untuk semua baris dam variabel Y terdapat pada indeks ke 1 pada dataset.

TUGAS:
Jelaskan maksud dari kode diatas!
Pada variabel X berarti akan ditampung keseluruhan data dimulai dari data pada
kolom paling awal/kiri hingga data pada kolom paling akhir/kanan – 1 (kolom) untuk
semua baris. Sementara untuk variabel y berarti akan ditampung data pada seluruh
baris yang terdapat pada kolom ke-1. (Kolom dimulai dari kolom ke-0)

7. Run cell kode yang baru saja anda tambahkan.

8. Pada Variable Explorer, anda dapat melihat terdapat penambahan matriks X dan factor
Y. Matriks ditandai dengan adanya baris dan kolom, sementara factor hanyalah terdiri
dari baris.

9. Langkah selanjutnya adalah melakukan splitting dataset. Ubahlah ukuran testset anda
menjadi 10 observation.

Kecerdasan Buatan | 4
Aldo Erwin Manurung
14S14022
10. Lihat perubahan pada Variable Explorer dimana telah terbentuk X_test dan Y_test,
serta X_train dan Y_train.

TUGAS:
Apa kegunaan dari test_set dan training_set?
Training_set berfungsi untuk sebagai tempat dimana model akan belajar dari data
train, sementara test_set berfungsi untuk menguji model yang telah dibentuk.

Kecerdasan Buatan | 5
Aldo Erwin Manurung
14S14022
FITTING SIMPLE LINEAR REGRESSION TO THE TRAINING SET
1. Langkah pertama adalam import linear regression test dengan menggunakan library
liner model.

2. Buat objek dari class LinearRegression dengan nama regressor.

3. Langkah selanjutnya adalah memasukan regressor ke dalam training set dengan


menggunakan method fit.

4. Dengan menggunakan code ini, maka model machine learning akan berlatih dengan
menggunakan dataset X_train dan y_train untuk memahami korelasi antara lama
pengalaman kerja dan besar salary yang didapatkan.

Kecerdasan Buatan | 6
Aldo Erwin Manurung
14S14022
PREDICTING TEST SET RESULT
Setelah model machine learning mempelajari dataset (terdiri dari X_train dan y_train),
langkah selanjutnya adalah menguji (test) model machine learning yang telah dibangun,
untuk mengidentifikasi apakah model tersebut dapat memprediksi jumlah salary yang
diberikan berdasarkan lama pengalaman kerja. Berikut adalah tahapan untuk menguji
model.
1. Buat sebuah variabel yang akan menampung nilai prediksi.

TUGAS:
Mengapa X_test digunakan sebagai parameter untuk method predict()?
X_test merupakan dataset yang akan digunakan untuk melakukan pengujian, sehingga
model dapat memprediksi nilai y yang akan dikeluarkan. Nilai prediksi ini kemudian
akan dibandingkan dengan y_test untuk melihat apakah hasil prediksi sudah akurat
jika dibandingkan dengan y_test.
2. Run Cell kode tersebut dan lihat hasilnya pada jendela Variable Explorer

3. Bandingkan hasil y_predict dengan y_test. Nilai yang ada pada y_test adalah nilai real
dari jumlah salary, sementara y_predict adalah jumlah prediksi salary yang dihasilkan
oleh model machine learning.
TUGAS:
Bandingkan dan analisis hasil perbandingan antara y_predict dengan y_test.
Apakah prediksi yang dihasilkan akurat?
Belum akurat untuk semua data.

Kecerdasan Buatan | 7
Aldo Erwin Manurung
14S14022
VISUALISING THE TRAINING TEST RESULT
Untuk melakukan visualisasi, library yang akan digunakan adalah matplotlib.pyplot.
1. Gunakan method scatter() untuk menggambarkan grafik dari hasil training test.
Parameter untuk method tersebut adalah kordinat X, kordinat Y, dan warna yang akan
digunakan.

2. Langkah selanjutnya adalah membuat plot untuk mengetahui perbedaan antara data
real salary dengan predicted salary.

TUGAS:
Mengapa parameter (kordinat Y) untuk method plot tidak menggunakan
y_predict?
Karena pada method plot untuk parameter koordinat X telah digunakan data X_train,
maka untuk parameter koordinat Y akan digunakan predict berdasarkan data pada
X_train juga, karena y_predict menggunakan data pada X_test.
3. Buat judul diagram serta nama untuk setiap kordinat.

4. Eksekusi cell tersebut, sehingga akan menampilkan grafik.

TUGAS:
Jelaskan makna grafik tersebut dan buat juga visualisasi untuk test set result.
(Capture grafik dan kode yang anda tuliskan)
Red : Real Salary Blue: Predicted Salary

Kecerdasan Buatan | 8
Aldo Erwin Manurung
14S14022
Grafik di atas merupakan gambaran bagaimana posisi prediksi yang dihasilkan oleh
model terhadap real data. Garis biru (predicted salary) merupakan hasil prediksi dari
model yang telah diciptakan berdasarkan data pada X_train (real data), sementara
untuk titik-titik merah (salary) merupakan real data dari training set (menggambarkan
korelasi data pada X_train dan y_train).

Kecerdasan Buatan | 9

Anda mungkin juga menyukai