Regresi linear adalah teknik analisis data yang memprediksi nilai data yang tidak
diketahui dengan menggunakan nilai data lain yang terkait dan diketahui. Secara
matematis memodelkan variabel yang tidak diketahui atau tergantung dan variabel
yang dikenal atau independen sebagai persamaan linier. Misalnya, anggaplah
Anda memiliki data tentang pengeluaran dan pendapatan Anda untuk tahun lalu.
Teknik regresi linier menganalisis data ini dan menentukan bahwa pengeluaran
Anda adalah setengah dari penghasilan Anda. Mereka kemudian menghitung
biaya masa depan yang tidak diketahui dengan mengurangi separuh pendapatan
yang diketahui di masa depan.
Untuk gambaran umum ini, pikirkan bentuk paling sederhana dari persamaan
grafik garis antara y dan x; y=c*x+m dengan c dan m konstan untuk semua
kemungkinan nilai x dan y. Jadi, sebagai contoh, anggaplah bahwa set data input
untuk (x,y) adalah (1,5), (2,8), dan (3,11). Untuk mengidentifikasi metode regresi
linier, Anda akan melakukan langkah-langkah berikut:
Hubungan linier
Hubungan linier harus ada antara variabel independen dan dependen. Untuk
menentukan hubungan ini, ilmuwan data membuat plot sebar—kumpulan acak
nilai x dan y—untuk melihat apakah nilai tersebut berada di sepanjang garis lurus.
Jika tidak, Anda dapat menerapkan fungsi nonlinier seperti akar kuadrat atau log
untuk membuat hubungan linier antara dua variabel secara matematis.
Independensi residual
Normalitas
Homoskedastisitas
Y= β0*X + β1 + ε
β0 and β1 adalah dua konstanta yang tidak diketahui dan mewakili kemiringan
regresi, sedangkan ε (epsilon) adalah istilah kesalahannya.
Dalam analisis regresi linier berganda, set data berisi satu variabel dependen dan
beberapa variabel independen. Fungsi garis regresi linier berubah untuk
memasukkan lebih banyak faktor sebagai berikut:
Regresi logistik