Anda di halaman 1dari 9

MODUL 4 PRAKTIKUM

PENGENALAN KOMPUTASI
REGRESI LINEAR DAN BERGANDA

TIM MATERI PENGENALAN KOMPUTASI


STREAM DATA ANALYSIS
Daftar Isi
Pendahuluan ............................................................................................................................... 3
Fungsi Regresi Linear ................................................................................................................ 3
Pengujian Data dan Analisis Visual....................................................................................... 3
Scatter Plot ......................................................................................................................... 3
Box Plot – Mendeteksi Outlier .......................................................................................... 4
Membangun Model Regresi Linear ....................................................................................... 5
Diagnostik Regresi Linear ..................................................................................................... 6
Mencari Nilai Baru dari Regeresi .......................................................................................... 7
Fungsi Regresi Berganda ........................................................................................................... 8
Membangun Model Regresi Berganda .................................................................................. 8
Tambahan: Melakukan Operasi di R ......................................................................................... 9
Pendahuluan

Regresi linear digunakan untuk memprediksi sebuah output variabel Y berdasarkan input
prediktor dari variabel X. Tujuan dari regresi ini adalah untuk mendapatkan hubungan linear
sebagai hubungan matematika antara variabel prediktor dengan variabel respons. Dari
hubungan ini, kita dapat mengestimasi nilai dari respons Y ketika hanya diketahui nilai dari
prediktor X. Regresi linear akan membuat sebuah model kontinyu variabel Y sebagai fungsi
matematis dari satu atau lebih varabel X. Persamaan umum dari regresi ini adalah Y = β1 +
β2X, dimana β2 adalah kemiringan garis dan β1 adalah konstanta atau titik perpotongan dari
garis.

Fungsi Regresi Linear


Untuk analisis kali ini, kita akan menggunakan dataset yang ada di R secara default. cars
merupakan dataset pada R yang dapat digunakan untuk melakukan analisa linear. Untuk
mengakses dataset ini, Anda hanya perlu mengetik cars untuk mengakses data pada R console.
data ini terdiri dari 50 baris dan 2 kolom – dist dan speed.

Pengujian Data dan Analisis Visual


Untuk melakukan analisis regresi linear, Anda perlu terlebih dahulu mengetahui apakah data
Anda dapat digunakan untuk melakukan analisis regresi linear. Analisis ini dapat dilakukan
secara visual dengan menggunakan dua cara, yaitu Scatter plot dan Box plot.

Scatter Plot
Scatter plot dapat digunakan untuk memvisualisasikan hubungan linear antara variabel respons
dengan (dependen) dan variabel predictor (independent). Scatter plot dapat dibuat dengan kode
yang tertera dan akan menghasilkan grafik seperti di bawah ini:
Garis yang terbentuk di antara titik-titik data tersebut menyatakan bahwa data bersifat
meningkat antara variabel dist dan speed. Hal ini baik karena salah satu syarat regresi linear
adalah hubungan antara variabel respons dan prediktor adakah linear dan aditif.

Box Plot – Mendeteksi Outlier


Secara umum, data yang berada di luar 1.5 * interquartile range (IQR) dianggap sebagai
outlier. IQR diketahui sebagai jarak antara persentil ke-25 dan ke-75 untuk variabel tersebut.
Outlier sendiri merupakan data yang berada di luar ekspektasi untuk sekumpulan data tersebut.
Untuk regresi linear, data outlier berarti data tersebut berada di luar atau jauh dari kumpulan
data linear lainnya. Berikut ini merupakan kode yang digunakan untuk analisa regresi linear
dari data cars dan grafik yang akan ditampilkannya:
par(mfrow=c(1,2): bertujuan untuk meletakkan dua grafik di satu gambar yang sama. Kode
di atas bertujuan untuk menunjukkan apakah ada data outlier pada data cars yang digunakan.
Diketahui pada data distance ternyata terdapat outlier pada baris ke-120.

Membangun Model Regresi Linear


Setelah menguji data secara visual, selanjutnya adalah pembangunan model linear tersebut.
Fungsi yang digunakan untuk membangun model linear adalah lm( ). Fungsi lm( ) memiliki
dua argument, yaitu formula dan data. Berikut ini merupakan contoh penulisan dari rumus
tersebut:

Karena kita telah membangun model linear, maka kita dapat menuliskan persamaan
matematika ini secara sistematis Y = β1 + β2X dimana β2 adalah kemiringan garis dan β1
adalah konstanta atau titik perpotongan dari garis. Maka rumus persamaan di atas adalah Y =
-17.579 + 3.932X. Diketahui pada rumus di atas variabel X adalah speed sementara variabel
Y adalah dist. Formula secara umum dapat dituliskan formula = y ~ x. Maka dari itu,koefisien
speed yang ditunjukkan pada hasil merupakan β2 dan koefisien intercept merupakan β1.
Memvisualisasikan Regresi Linear dengan Grafik
Model linear yang telah didapatkan sebaiknya divisualisasikan menggunakan grafik untuk
mempermudah analisa lanjutan. Kode yang dapat digunakan utnuk menampilkan grafik dari
dataset di atas adalah sebagai berikut:

Maka grafik yang akan dihasilkan adalah sebagai berikut:

abline merupakan perintah yang berisi regresi linear yang kita inginkan dan harus dituliskan
agar grafik yang dibuat menjadi grafik regresi linear.

Diagnostik Regresi Linear


Ketika model linear telah dibangun, sekarang kita memiliki fungsi yang dapat digunakan untuk
memprediksi nilai dist jika nilai speed yang sesuai diketahui. Namun fungsi ini tidak dapat
langsung kita gunakan. Untuk mengetahui apakah model regresi ini baik dan dapat digunakan
(signifikan secara statistik) kita dapat menggunakan fungsi summary.
Contoh beberapa nilai yang dapat digunakan untuk mengetahui signifikasi statistik, dapat
digunakan p-value, F-statistic, adjusted R-squared, standard error, dan penilaian statistik
lainnya. Lebih besar nilai F-statistic dan adjusted R-squared serta lebih kecil nilai p-value dan
standard error maka lebih baik model linear tersebut.

Mencari Nilai Baru dari Regresi


Setelah Anda mendapatkan nilai dari regresi linear yang Anda inginkan, maka Anda dapat
menggunakan persamaan tersebut untuk mencari nilai baru yang terdapat pada rentang regresi
Anda. Pada contohnya di kode untuk dataset di atas adalah sebagai berikut:

Maka akan dihasilkan hasil sebagai berikut:

Kode di atas memberitahukan bahwa jika persamaan regresi linearMod dimasukkan nilai
speed sama dengan 21, maka nilai dist yang dihasilkan adalah 65,00149. Namun, hal ini hanya
berlaku jika data masukan yang baru memiliki berada di dalam rentang X data yang dijadikan
acuan regresi linear.
Fungsi Regresi Berganda
Regresi berganda (multiple regression) adalah model regresi atau prediksi yang melibatkan
lebih dari satu variabel bebas atau prediktor. Istilah regresi berganda dapat disebut juga dengan
istilah multiple regression. Kata multiple berarti jamak atau lebih dari satu variabel. Contoh
persamaan regresi berganda adalah sebagai berikut:
y = a + b1x1 + b2x2 +...bnxn

Dengan:
• y adalah variabel respon
• a, b1, b2…bn adalah koefisien
• x1, x2, …xn adalah variabel predictor

Membangun Model Regresi Berganda


Di R, model regresi (regression model) dapat dibuat dengan fungsi lm( ). Model ini akan
menentukan nilai koefisien menggunakan dataset yang telah ada. Selanjutnya kita dapat
memprediksi nilai variabel respon untuk satu set variabel prediktor tertentu menggunakan
koefisien ini.
Sintaks untuk fungsi lm( ) regresi berganda adalah sebagai berikut:
lm(y ~ x1+x2+x3...,data)

Dengan:
• y ~ x1+x2+x3 merupakan formula yang menyatakan hubungan antara variabel respon dan
variabel prediktor.
• data adalah dataset yang akan dibuat model regresinya.
Misalkan kita memiliki sebuah dataset sebagai berikut.

Dengan model sebagai jenis mobil, mpg sebagai mileage per gallon (berapa mil sebuah mobil
dapat melaju apabila memiliki bahan bakar sebanyak 1 gallon), disp sebagai cylinder
displacement, hp sebagai horse power, dan wt sebagai berat mobil.
Tujuan dari regresi berganda adalah membuat suatu relasi antara mpg sebagai variabel respons
dan disp, ht, dan wt sebagai variabel prediktor. Atau dengan kata lain, apabila kita memiliki
variabel disp, ht, dan wt, maka kita dapat mencari variabel mpg.
Berikut adalah contoh program yang memanfaatkan regresi berganda untuk membuat
persamaan untuk data diatas.

Kode diatas akan menghasilkan keluaran di console sebagai berikut:

Dari gambar diatas, dapat dilihat koefisien dari intercept dan koefisien dari masing-masing
variabel predictor. Sehingga, dengan memasukkan koefisien ke dalam persamaan, dapat dibuat
persamaan sebagai berikut:
mpg = 23.233734 + (-0.014023)*disp + (0.005292)*hp +
(-0.144331)*wt

Persamaan diatas berarti, nilai mpg bergantung dengan nilai disp, hp, dan wt sesuai dengan
persamaan diatas. Sebagai contoh, apabila kita ingin mengetahui nilai mpg dari suatu model
mobil yang memiliki nilai disp = 1, hp = 2, dan wt = 3, kita dapat mencarinya dengan cara:
mpg = 23.233734 + (-0.014023)*1 + (0.005292)*2 + (-0.144331)*3
mpg = 22.797302

Tambahan: Melakukan Operasi di R


Perhitungan atau operasi dapat dilakukan langsung di RStudio dan hasilnya dapat langsung di
print, seperti contoh kode berikut:

Maka akan dikeluarkan hasil seperti berikut:

Selamat belajar!

Anda mungkin juga menyukai