Anda di halaman 1dari 14

TUGAS PERSONAL PENGANTAR SAINS DATA

Dosen Pengampu : HUSNI, S.Kom., MT.

Di Susun Oleh :

Narulita Arien Pramesti – 200411100065

PRODI TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS TRUNOJOYO MADURA

2021
Tutorial Mengenai Salah Satu Metode Macine Learning
Yang Dapat Digunakan Untuk Memprediksi Suatu Urusan
( Supervisited learning – Linear Regression )

1. Definisi
Machine Learning adalah metode yang digunakan untuk membuat
program yang bisa belajar dari data. Berbeda dengan program komputer
biasa yang statis, program machine learning adalah program yang
dirancang untuk mampu belajar sendiri.
Cara belajar program machine learning mengikuti cara belajar
manusia, yakni belajar dari contoh-contoh. Machine learning akan
mempelajari pola dari contoh-contoh yang dianalisa, untuk menentukan
jawaban dari pertanyaan-pertanyaan berikutnya.
Memang tidak semua masalah bisa dipecahkan dengan program
machine learning. Namun, seringkali algoritma yang sifatnya kompleks,
ternyata bisa dipecahkan dengan sangat simpel oleh machine learning.
Beberapa contoh program machine learning yang telah digunakan dalam
kehidupan sehari-hari:
 Pendeteksi Spam
 Pendeteksi Wajah
 Rekomendasi Produk
 Asisten Virtual
 Diagnosa Medis
 Pendeteksi Penipuan Kartu Kredit
 Pengenal Digit

Salah satu metode yang termasuk kedalam supervisited learning


adalah linear regression.
Supervised Learning adalah algoritma machine learning yang
dalam proses belajarnya membutuhkan serangkaian contoh input-output
yang benar, sebagai supervisor (pengawas/pelatih).
Contoh kasus yang dapat menerapkan algoritma ini adalah kasus di
tulisan sebelumnya di sini. Pada kasus Iris classification, kita memiliki
sejumlah dataset sampel input berupa data panjang dan lebar sepal dan
petal. Masing-masing sampel tersebut sudah memiliki output yang benar
(memiliki label). Serangkaian sampel input-output ini kemudian digunakan
untuk menge-train (melatih) algoritma kita, agar kelak dapat menghasilkan
output (label) yang sesuai ketika diberikan masukan data baru.
Algoritma Supervised Learning ini sendiri juga dibagi lagi menjadi
beberapa jenis algoritma tergantung dari task/tujuan dibentuknya
algoritma, antara lain:
 Klasifikasi: Logistik Regression, Decision Trees, Random Forest,
KNN, SVM, Neural Networks, Naïve Bayes, dll
 Prediksi Numerik/Regresi: Linear Regression, Decision Trees,
Neural Networks, SVM, Trees, dll
Algoritma Linear Regression
 Analisis Regresi Linear
Analisis regresi mempelajari bentuk hubungan antara satu
atau lebih peubah/variabel bebas (X) dengan satu peubah tak bebas
(Y). Dalam penelitian peubah bebas ( X) biasanya peubah yang
ditentukan oleh peneliti secara bebas misalnya dosis obat, lama
penyimpanan, kadar zat pengawet, umur ternak dan sebagainya.
Disamping itu peubah bebas bisa juga berupa peubah tak
bebasnya, misalnya dalam pengukuran panjang badan dan berat
badan sapi, karena panjang badan lebih mudah diukur maka
panjang badan dimasukkan kedalam peubah bebas (X), sedangkan
berat badan dimasukkan peubah tak bebas (Y).
 Jasa Olah Statistik
Sedangkan peubah tak bebas (Y) dalam penelitian berupa
respon yang diukur akibat perlakuan/peubah bebas (X). misalnya
jumlah sel darah merah akibat pengobatan dengan dosis tertentu,
jumlah mikroba daging setelah disimpan beberapa hari, berat ayam
pada umur tertentu dan sebagainya.
 Tujuan Regresi Linear
Regresi linier adalah salah satu dari jenis analisis peramalan
atau prediksi yang sering digunakan pada data berskala kuantitatif
(interval atau rasio).
 Bentuk Hubungan Variabel Bebas dan Terikat
Bentuk hubungan antara peubah bebas (X) dengan peubah
tak bebas (Y) bisa dalam bentuk polinom derajat satu (linear)
polinom derajat dua (kuadratik). Polinom derajat tiga (Kubik) dan
seterusnya. Disamping itu bisa juga dalam bentuk lain misalnya
eksponensial, logaritma, sigmoid dan sebagainya. Bentuk-bentuk
ini dalam analisis regresi-korelasi biasanya dilakukan transformasi
supaya menjadi bentuk polinom.
2. Rumus Persamaan Regresi

Dalam bentuk yang paling sederhana yaitu satu peubah bebas (X)
dengan satu peubah tak bebas (Y) mempunyai persamaan:

Y =a +bx

Disini a disebut intersep dan b adalah koefisien arah atau koefisien


beta. Dalam pengertian fungsi persamaan garis Y + a + bx hanya ada satu
yang dapat dibentuk dari dua buah titik dengan koordinat yang berbeda
yaitu ( X1, Y1) dan X2,Y2). Hal ini berarti kita bisa membuat banyak
sekali persamaan garis dalam bentuk lain melalui dua buat titik yang
berbeda koordinatnya/tidak berimpit.

Persamaan garis melalui dua buah titik dirumuskan sebagai


berikut:

Analisis Regresi

Contoh Persamaan Regresi


Sebagai contoh misalnya titik A (1,3) dan titik B ($,9) maka persamaan
garis linear yang dapat dibuat adalah:

Persamaan Garis Linear


Dalam bentuk matrik bisa kita buat persaman sebagai berikut:

Matrix Regresi Linear

Jadi a=1 dan b=2 sehingga persamaannya Y=1 +2X

Jika jumlah data sebanyak n maka persamaannya sebagai berikut:

Disini βo adalah penduga a, β1 adlah penduga b dan εi merupakan


besarnya simpangan persamaan garis penduga. Semakin kecil nilai εi
persamaan regresi yang diperoleh akan semakin baik.

Penulisan pengamatan
Jadi kita dapat menuliskan pengamatan kita menjadi:

Dengan notasi matriks dapat ditulis sebagai berikut:


Jadi kita peroleh matrik Y,X,β dan ε dengan dimensi sebagai berikut :

Jika diasumsikan E(ε) = 0 maka E(Y) = Xβ

Bila modelnya benar β merupakan penduga terbaik yaitu dengan jalan


melakukan penggandaan awal dengan X’ sehingga diperoleh persamaan
normal sebagai berikut:

Jadi β=(X’X)-1X’Y

Disini(X’X)-1 adalah kebalikan (inverse) dari matrik X’X

Contoh Perhitungan Regresi


Seorang peneliti ingin mengetahui bentuk hubungan antara jumlah cacing
jenis tertentu dengan jumlah telurnya pada usus ayam buras. Untuk tujuan
tersebut diperiksa 20 ekor ayam dan ditemukan sebagai berikut:
Tabel 1 jumlah cacing dan jumlah telurnya pada usus ayam buras.

Dari data diatas kita bisa menghitung:

Bila kita duga bentuk hubungan antara jumlah cacing (X) dan jumlah
telurnya (Y) adalah:
Jadi Ŷ=-2,442 + 4,103 Xi,
Persamaan Garis regresi Banyak Jenisnya
Persamaan garis regresi Yi =-2,442 + 4,103 Xi bukanlah satu-
satunya garis penduga untuk menyatakan hubungan antara jumlah cacing
dengan jumlah telurnya. Sudah barang tentu masih banyak lagi bentuk
persamaan penduga yang dapat dibuat misalnya dalam bentuk persamaan
Yi=βo+β1Xi+β2Xi2,Yi=βoXiβ1(dalam bentuk linear LnYi=Ln
βo+βiLnXi) dan masih banyak lagi bentuk yang lainnya.
Untuk menyatakan apakah garis yang diperoleh cukup baik untuk
menggambarkan hubungan antara peubah bebas (X) dengan peubah tak
bebas (Y) dapat dilakukan pengujian bentuk model yang digunakan dan
keeratan hubungannya (korelasi) untuk menyatakan ketepatan dan
ketelitian persamaan garis regresi yang diperoleh.

3. Dimana Itu Digunakan


Metode Supervisited Learning biasa digunakan untuk pembuatan
mesin yang akan dilatih dengan tujuan mencapai output seperti
(kelas/label) yang di inginkan, seperti input di mana output yang
diinginkan telah diketahui. Tahapan dari pembuatan mesin ini pertama
adalah membuat Algoritma pembelajaran mesin yang akan menerima
serangkaian input bersama dengan kelas output yang benar dan sesuai,
selanjutnya algoritma mesin akan belajar (biasanya menggunakan training
data), kemudian dengan membandingkan output aktual dengan output
yang benar untuk menemukan kesalahan. Kemudian memodifikasi model
sesuai. Melalui metode seperti klasifikasi, regresi, prediksi dan
peningkatan gradien. Pembelajaran terawasi menggunakan pola untuk
memprediksi nilai kelas/label pada data tambahan yang tidak berlabel.
Pembelajaran terawasi umumnya digunakan dalam aplikasi di mana data
historis memprediksi kemungkinan peristiwa di masa depan. Sebagai
contoh, ini dapat mengantisipasi ketika transaksi kartu kredit kemungkinan
penipuan atau pelanggan asuransi mana yang akan mengajukan klaim.
4. Keunggulan Dan Kekurangan

 Kelebihan Regresi Linear


Beberapa kelebihan dari regresi linear sehingga membuat metode ini
masih tetap digunakan adalah sebagai berikut:
o Memudahan untuk digunakan
Metode ini cukup simpel dan mudah dipahami, namun tetap
menghasilkan insight yang powerful.
o Menentukan Kekuatan Prediktor
Dapat mengidentifikasi sekuat apa pengaruh yang diberikan
oleh variabel prediktor (variabel independen) terhadap
variabel lainnya (variabel dependen).
o Dapat Memprediksi Tren di Masa yang Akan Datang
Dapat digunakan untuk memprediksi nilai yang ada pada
masa depan. Ini sejalan dengan fungsi dari analisis regresi
yang dapat digunakan untuk peramalan dan prediksi.

 Kelemahan Regresi Linear


o Hasil ramalan dari analisis regresi merupakan nilai estimasi,
sehingga kemungkinan untuk tidak sesuai dengan data aktual
tetaplah ada.
o Penentuan variabel independen dan variabel dependen yang
saling berkaitan dalam hal sebab-akibat juga terbilang cukup
susah, karena bisa jadi model yang tidak cukup bagus
disebabkan karena kesalahan dalam memilih variabel yang
digunakan untuk analisis.

5. Contoh Penggunaan, Step By Step, Termasuk Coding Dengan Python

Salah satu contoh penggunaan Algoritma linear regression adalah


pengaruh gaji karyawan terhadap lama bekerja karyawan tersebut pada
perusahaan yang bersangkutan. Dataset diambil dari Kaggle.com dan telah
dipilah serta diubah ke dalam angka numerik dan bahasa indonesia untuk
kemudahan analisis.
Data set yang digunakan

Mengimpor library dan dataset


In [1] berguna untuk mengimpor library yang dibutuhkan untuk
menyelesaikan tugas regresi linear sederhana. dataset =
pd.read_csv(‘Daftar_gaji.csv’) digunakan untuk mengimpor dataset.
dataset.head() berguna untuk memunculkan 5 data teratas dari dataset.
Menghitung jumlah data pada dataset

In [2] digunakan untuk mengetahui jumlah data pada dataset.

melakukan analisis deskriptif otomatis pada dataset

In [3] berfungsi untuk melakukan analisis deskriptif secara otomatis


terhadap dataset yang dipilih.

Menampilkan grafik plot

In [4] berfungsi untuk menampilkan grafik plot. Dalam analisis ini,


koordinat X merupakan lama bekerja karyawan dalam tahun sedangkan
koordinat Y merupakan gaji karyawan.

Menentukan variabel dan pembagian data

mengimpor LinearRegression dan membuat objek regessor


Bagian In [5] digunakan untuk menentukan variabel independen (sumbu
X) yaitu Tahun_bekerja dan menentukan variabel dependen (sumbu Y)
yaitu Gaji. Kemudian untuk In [10] adalah pembagian data menjadi dua
bagian untuk data training (training set) dan data test (test set), yaitu 80%
untuk data training dan 20% untuk data test. In [9] Digunakan untuk
mengimpor class LinearRegression dari library sklearn.linear_model yang
diperlukan untuk membuat model regresi. Selanjutnya adalah membuat
objek regressor sebagai fungsi dari LinearRegression dan kemudian
membuat model regresi untuk data training dengan menuliskan
regressor.fit(x_train, y_train).

Prediksi gaji karyawan secara manual

Kumpulan kode di atas merupakan prediksi gaji karyawan secara manual.


Hasil dari pencarian parameter intercept dan coef nantinya akan di
masukan ke dalam rumus y = intercept + coef * tahun_kerja dengan hasil
seperti diatas.

Prediksi gaji karyawan secara otomatis

Kode di atas berfungsi untuk memprediksi gaji karyawan yang akan


didapat berdasarkan tahun bekerja secara otomatis.
In [16] Menampilkan grafik plot dari data tahun bekerja dan gaji. In [17]
Menampilkan hasil dari Test set, di mana koordinat X merupakan lama
karyawan bekerja dalam tahun dan koordinat Y merupakan gaji karyawan.
In [18] Menampilkan hasil dari Training set, di mana koordinat X
merupakan lama karyawan bekerja dalam tahun dan koordinat Y
merupakan gaji karyawan.

Kesimpulan :
Semakin lama tahun bekerja karyawan, maka semakin besar juga gajinya.

Anda mungkin juga menyukai