Anda di halaman 1dari 4

Apa itu regresi linier?

Regresi linear adalah teknik analisis data yang memprediksi nilai data yang tidak
diketahui dengan menggunakan nilai data lain yang terkait dan diketahui. Secara
matematis memodelkan variabel yang tidak diketahui atau tergantung dan variabel
yang dikenal atau independen sebagai persamaan linier. Misalnya, anggaplah
Anda memiliki data tentang pengeluaran dan pendapatan Anda untuk tahun lalu.
Teknik regresi linier menganalisis data ini dan menentukan bahwa pengeluaran
Anda adalah setengah dari penghasilan Anda. Mereka kemudian menghitung
biaya masa depan yang tidak diketahui dengan mengurangi separuh pendapatan
yang diketahui di masa depan.

Mengapa regresi linier penting?


Model regresi linier relatif sederhana dan memberikan rumus matematika yang
mudah ditafsirkan untuk menghasilkan prediksi. Regresi linier adalah teknik
statistik yang sudah ada dan mudah diterapkan pada perangkat lunak dan
komputasi. Bisnis menggunakannya untuk mengonversi data mentah secara andal
dan dapat diprediksi menjadi kecerdasan bisnis serta wawasan yang dapat
ditindaklanjuti. Para ilmuwan di berbagai bidang, termasuk biologi serta ilmu
perilaku, lingkungan, dan sosial menggunakan regresi linier untuk melakukan
analisis data awal dan memprediksi tren masa depan. Banyak metode ilmu data,
seperti machine learning dan kecerdasan buatan, menggunakan regresi linier
untuk memecahkan masalah yang kompleks.

Bagaimana cara kerja regresi linier?


Pada intinya, teknik regresi linier sederhana mencoba untuk menyusun grafik
garis antara dua variabel data, yaitu x dan y. Sebagai variabel independen, x
berada di sepanjang sumbu horizontal. Variabel independen juga disebut variabel
eksplanatori atau variabel prediktor. Variabel dependen, y, berada pada sumbu
vertikal. Anda juga dapat merujuk ke nilai y sebagai variabel respons atau variabel
yang diprediksi.

Langkah-langkah dalam regresi linier

Untuk gambaran umum ini, pikirkan bentuk paling sederhana dari persamaan
grafik garis antara y dan x; y=c*x+m dengan c dan m konstan untuk semua
kemungkinan nilai x dan y. Jadi, sebagai contoh, anggaplah bahwa set data input
untuk (x,y) adalah (1,5), (2,8), dan (3,11). Untuk mengidentifikasi metode regresi
linier, Anda akan melakukan langkah-langkah berikut:

1. Buat garis lurus dan ukur korelasi antara 1 dan 5.


2. Terus ubah arah garis lurus untuk nilai baru (2,8) dan (3,11) hingga semua
nilai sesuai.
3. Identifikasi persamaan regresi linier sebagai y=3*x+2.
4. Ramalkan atau prediksi bahwa y adalah 14 ketika x

Apa itu regresi linier dalam machine learning?


Dalam machine learning, program komputer yang disebut algoritme menganalisis
set data besar dan bekerja mundur dari data tersebut untuk menghitung persamaan
regresi linier. Ilmuwan data melatih algoritme pada set data yang diketahui atau
diberi label terlebih dahulu, kemudian menggunakan algoritme tersebut untuk
memprediksi nilai yang tidak diketahui. Data dalam kehidupan nyata lebih rumit
daripada contoh sebelumnya. Itu adalah alasan mengapa analisis regresi linier
harus memodifikasi atau mengubah nilai data secara matematis untuk memenuhi
empat asumsi berikut.

Hubungan linier

Hubungan linier harus ada antara variabel independen dan dependen. Untuk
menentukan hubungan ini, ilmuwan data membuat plot sebar—kumpulan acak
nilai x dan y—untuk melihat apakah nilai tersebut berada di sepanjang garis lurus.
Jika tidak, Anda dapat menerapkan fungsi nonlinier seperti akar kuadrat atau log
untuk membuat hubungan linier antara dua variabel secara matematis.

Independensi residual

Ilmuwan data menggunakan residual untuk mengukur akurasi prediksi. Residual


adalah selisih antara data yang diamati dengan nilai prediksi. Residual tidak boleh
memiliki pola yang dapat diidentifikasi. Misalnya, Anda tidak ingin residual
tumbuh semakin besar seiring berjalannya waktu. Anda dapat menggunakan uji
matematika yang berbeda, seperti uji Durbin-Watson, untuk menentukan
independensi residual. Anda dapat menggunakan data dummy untuk mengganti
variasi data apa pun, seperti data musiman.

Normalitas

Teknik pembuatan grafik seperti plot Q-Q menentukan apakah residual


terdistribusi secara normal. Residual harus berada di sepanjang garis diagonal di
tengah grafik. Jika residual tidak dinormalisasi, Anda dapat menguji data untuk
pencilan acak atau nilai yang tidak umum. Menghapus pencilan atau melakukan
transformasi nonlinier dapat mengatasi masalah tersebut.

Homoskedastisitas

Homoskedastisitas mengasumsikan bahwa residual memiliki varians atau standar


deviasi yang konstan dari rata-rata untuk setiap nilai x. Jika tidak, hasil analisis
mungkin tidak akurat. Jika asumsi ini tidak terpenuhi, Anda mungkin harus
mengubah variabel dependen. Karena varians terjadi secara alami dalam set data
yang besar, masuk akal untuk mengubah skala variabel dependen. Misalnya, alih-
alih menggunakan ukuran populasi untuk memprediksi jumlah stasiun pemadam
kebakaran di sebuah kota, ukuran populasi mungkin dapat digunakan untuk
memprediksi jumlah stasiun pemadam kebakaran per orang.

Apa saja jenis regresi linier?


Beberapa jenis analisis regresi lebih cocok untuk menangani set data yang
kompleks daripada yang lain. Berikut adalah beberapa contohnya.

Regresi linier sederhana

Regresi linier sederhana didefinisikan oleh fungsi linier:

Y= β0*X + β1 + ε 

β0 and β1 adalah dua konstanta yang tidak diketahui dan mewakili kemiringan
regresi, sedangkan ε (epsilon) adalah istilah kesalahannya.

Anda dapat menggunakan regresi linier sederhana untuk mencontoh hubungan


antara dua variabel, seperti ini:

 Curah hujan dan hasil panen


 Usia dan tinggi badan pada anak
 Suhu dan ekspansi logam merkuri dalam termometer

Regresi linier berganda

Dalam analisis regresi linier berganda, set data berisi satu variabel dependen dan
beberapa variabel independen. Fungsi garis regresi linier berubah untuk
memasukkan lebih banyak faktor sebagai berikut:

Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε 

Ketika jumlah variabel prediktor meningkat, konstanta β juga meningkat.

 Regresi linier berganda mencontoh beberapa variabel dan dampaknya terhadap


hasil:

 Curah hujan, suhu, dan penggunaan pupuk pada hasil panen


 Diet dan olahraga pada penyakit jantung
 Pertumbuhan upah dan inflasi pada tarif pinjaman rumah

Regresi logistik

Ilmuwan data menggunakan regresi logistik untuk mengukur probabilitas suatu


peristiwa terjadi. Prediksi adalah nilai antara 0 dan 1. Angka 0 menunjukkan suatu
peristiwa yang tidak mungkin terjadi dan angka 1 menunjukkan kemungkinan
maksimum bahwa peristiwa itu akan terjadi. Persamaan logistik menggunakan
fungsi logaritma untuk menghitung garis regresi.

Di bawah ini adalah beberapa contoh:

 Probabilitas menang atau kalah dalam pertandingan olahraga


 Probabilitas lulus atau gagal dalam ujian 
 Probabilitas sebuah gambar berupa buah atau hewan

Anda mungkin juga menyukai