PENDAHULUAN
Analisis regresi adalah alat statistik yang luas digunakan untuk memahami
hubungan antara variabel dalam berbagai disiplin ilmu. Persamaan regresi, sebagai hasil
utama dari analisis regresi, digunakan untuk memodelkan dan memprediksi hubungan
antara variabel independen dan dependen. Ini merupakan konsep fundamental dalam
statistik dan telah diterapkan dalam berbagai konteks, termasuk ilmu pengetahuan alam,
ekonomi, ilmu sosial, kedokteran, dan lain-lain.
Dalam era digital saat ini, data telah menjadi semakin mudah didapatkan, dan
analisis regresi telah menjadi alat yang lebih relevan daripada sebelumnya. Ini disebabkan
oleh kemampuannya untuk menyajikan informasi yang berharga dari data yang telah
dikumpulkan, serta untuk membantu dalam pengambilan keputusan yang lebih baik.
Analisis regresi memungkinkan kita untuk membuat prediksi, mengidentifikasi tren, dan
memahami faktor-faktor yang memengaruhi hasil yang diamati.
Dalam analisis regresi ada dua jenis peubah, yaitu peubah penjelas (x) dan peubah
repons (y). Yang dimaksud dengan peubah penjelas adalah suatu peubah yang nilainya
dapat ditentukan atau dengan mudah dapat diukur. Sedangkan peubah respons adalah
suatu peubah yang nilainya sukar ditentukan atau tidak mudah diukur (Fauzy, 1998).
Biasanya peneliti ingin mengetahui bagaimana perubahan-perubahan pada peubah
penjelas dapat mempengaruhi nilai dari peubah respons. Antara peubah penjelas
dengan peubah respons tidak selalu tampak jelas perbedaannya dan adakalanya
Makalah statistikhal 1
tergantung kepada tujuan peneliti. Apa yang pada suatu tahap dianggap sebagai suatu
peubah respons mungkin pada tahap yang lain dapat dijadikan sebagai peubah
penjelas. Asumsi-asumsi yang mendasari model regresi antara lain linear atau aditif,
homogen dalam ragam, kenormalan dan independen atau kebebasan antar pengamatan.
Permasalahan yang sering didapatkan dalam regresi berganda adalah salah dalam
menenetukan persamaan terbaik untuk mengestimasi model yang telah dimiliki. Untuk
mendapatkan persamaan terbaik yang diinginkan terdapat dua pertimbangan dalam
pembentukan model, diantaranya: Agar persamaan regresi bermanfaat untuk tujuan
prediksi, seringkali diinginkan persamaan yang memuat sebanyak-banyaknya peubah
penjelas(x) yang mempengaruhi peubah respon (y) Karena pertimbangan biaya untuk
mendapatkan informasi, maka digunakan sesedikit mungkin peubah penjelas(x) yang
peubah respon (y). Untuk itu dibutuhkan metode agar dapat mengakomodasikan dua
kepentingan di atas yang digunakan untuk pemilihan.
Secara umum, teknik pemilihan variabel terbagi atas metode seleksi variabel
satu per satu (Seleksi Maju, Penyisihan, Bertahap), metode semua kombinasi yang
mungkin (All possible regression), metode R2 maksimum. Metode seleksi variabel
dilakukan dengan cara memasukkan atau mengeliminasi variabel independen satu per satu
pada setiap tahapannya. Oleh karena itu, metode ini dapat digunakan untuk jumlah variabel
independen yang banyak sehingga di dapatkan satu persamaan yang terbaik.
Adapun perumusan masalah yang ditarik dari latar belakang diatas adalah :
Makalah statistikhal 2
1.3 Tujuan penulisan
Makalah statistikhal 3
BAB II
PEMBAHASAN
Makalah statistikhal 4
1. Metode Seleksi Variabel: Ini melibatkan pemilihan variabel-variabel
yang paling relevan atau signifikan untuk dimasukkan ke dalam model
regresi. Metode ini bisa termasuk uji statistik seperti uji F atau uji t,
serta teknik seperti pemilihan mundur (backward selection) atau
pemilihan maju (forward selection).
2. Metode Regularisasi: Ini melibatkan penggunaan teknik regularisasi
seperti Lasso, Ridge, atau Elastic Net. Regularisasi digunakan untuk
mengontrol kompleksitas model dengan memasukkan hukuman
terhadap parameter-parameter model yang tidak signifikan.
3. Metode Evaluasi Model: Ini mencakup teknik seperti cross-validation,
di mana model dievaluasi dengan membagi data menjadi subset
pelatihan dan pengujian untuk mengukur kinerjanya. Metode ini
membantu memastikan bahwa model memiliki kemampuan yang baik
dalam menggeneralisasi data baru.
4. Metode Informasi: Metode ini menggunakan kriteria informasi seperti
AIC (Akaike Information Criterion) atau BIC (Bayesian Information
Criterion) untuk membandingkan dan memilih model berdasarkan
seberapa baik mereka memodelkan data dengan mempertimbangkan
kompleksitasnya.
"Model" merujuk pada rumus atau persamaan matematis yang digunakan untuk
menggambarkan hubungan antara satu atau lebih variabel independen (prediktor)
dan variabel dependen (variabel yang ingin diprediksi). Model regresi adalah
representasi matematis dari bagaimana variabel-variabel tersebut berinteraksi satu
sama lain.
Ada beberapa jenis model regresi yang umum digunakan, termasuk:
1. Regresi Linear Sederhana: Dalam model ini, hubungan antara satu
variabel independen dan satu variabel dependen dijelaskan oleh
persamaan garis lurus. Ini adalah model regresi paling dasar dan
sederhana.
Makalah statistikhal 5
2. Regresi Linear Berganda: Model ini menggambarkan hubungan antara
satu variabel dependen dan dua atau lebih variabel independen.
Persamaan regresi adalah linier dalam variabel-variabel independen.
3. Regresi Logistik: Model ini digunakan ketika variabel dependen adalah
biner atau kategori. Persamaan regresi logistik menggambarkan
probabilitas kejadian salah satu dari dua hasil.
4. Regresi Polinomial: Dalam model ini, hubungan antara variabel
independen dan dependen dijelaskan oleh persamaan polinomial, bukan
linier. Ini memungkinkan deskripsi yang lebih fleksibel dari hubungan.
5. Regresi Nonparametrik: Model ini tidak mengikuti bentuk fungsi
tertentu dan memberikan kebebasan lebih besar dalam menggambarkan
hubungan antara variabel independen dan dependen.
Analisis regresi merupakan suatu proses statistik untuk mengestimasi
hubungan antara variabel-variabel, yakni berupa teknik-teknik memodelkan dan
melakukan analisis beberapa variabel atas dasar bentuk hubungan antara satu
variabel tak bebas dan satu atau lebih variabel bebas (prediktor) (Amstrong,
2012:689).
Model atau persamaan regresi untuk populasi secara umum dapat
dipostulasikan sebagai berikut:
μy.x1,x2, ..., xk = f(X1, X2, ..., Xk│θ1, θ2, ..., θm,) (1.1) dengan θ1, θ2, , θm
parameter-parameter yang ada dalam regresi itu.Apabila hanya ada satu variabel
bebas dalam persamaan maka disebut model regresi sederhana dan disebut regresi
berganda jika ada dua atau lebih variabel bebas dengan jenis data tertentu.
Menurut Widarjono, ada tiga jenis data yang seringkali digunakan dalam
analisis regresi, yaitu:
1. data cross section adalah data yang dikumpulkan dalam kurun waktu tertentu
dari sampel
2. data time series adalah sekumpulan observasi dalam rentang waktu tertentu
yang dikumpulkan dalam interval waktu secara kontinu
3. data panel adalah data gabungan antara data cross section dengan data time
series (Fathurahman & Haeruddin, 2011:35).
Makalah statistikhal 6
Khusus pada data yang cenderung terpola, maka dalam hal ini regresi
parametrik dapat diterapkan. Oleh karena itu, dalam studi tentang hubungan atau
pengaruh dua atau lebih variabel bebas terhadap variabel tidak bebas, maka model
regresi yang digunakan adalah model regresi linier ganda (multiple linear regression
model) atau sering juga disebut dengan regresi klasik. Kemudian untuk
mendapatkan model regresi linier sederhana maupun model regresi linier ganda
dapat diperoleh dengan melakukan estimasi terhadap parameter- parameternya
menggunakan metode tertentu. Adapun metode yang dapat digunakan untuk
mengestimasi parameter model regresi linier sederhana maupun model regresi linier
ganda adalah dengan metode kuadrat terkecil (ordinary least square/OLS) dan
metode kemungkinan maksimum (maximum likelihood estimation/MLE).
Misalkan kita ingin menentukan suatu persamaan regresi linear dari peubah
respons tertentu y terhadap peubah-peubah penjelas x1, x2, ..., xk. Misalkan
pula z1, z2, ..., zr adalah semua fungsi dari satu atau lebih peubah penjelas x yang
merupakan kumpulan secara lengkap dari peubah yang diperlukan dan mencakup
sembarang fungsi yang kiranya diperlukan.
Dalam hal ini ada dua kriteria yang saling bertentangan, yaitu:
1. agar persamaan regresi dapat bermanfaat bagi tujuan prediksi, maka kita
biasanya ingin memasukkan sebanyak mungkin peubah penjelas pada
persamaan regresi, sehingga diperoleh nilai prediksi yang baik.
2. untuk memperoleh informasi dari banyak peubah dan melakukan penga- wasan,
maka seringkali diperlukan biaya yang besar dan waktu yang lebih lama.
Akibat dari hal tersebut, maka kita menginginkan persamaan regresi yang
mencakup sesedikit mungkin peubah penjelas.
Jalan tengah dari kedua kriteria yang bertentangan tersebut biasanya dikatakan
sebagai pemilihan persamaan regresi terbaik.
Dalam pemilihan persamaan regresi terbaik tidak ada satu prosedur statistik
yang baku. Misalkan kita dapat mengetahui besarnya ragam acak yang sesungguhnya
, maka pemilihan persamaan regresi terbaik akan lebih mudah dilakukan. Sayang
sekali besarnya ragam sesungguhnya tidak dapat diketahui. Ada beberapa prosedur
Makalah statistikhal 7
yang dapat digunakan untuk memilih persamaan regresi terbaik. Beberapa nilai yang
digunakan sebagai alat untuk memilih persamaan regresi terbaik adalah :
1. Nilai kuadrat koefisien determinasi ganda (R2)
adalah suatu ukuran besarnya keragaman antara y disekitar rataannya yang
dapat dijelaskan oleh persamaan regresi
sering digunakan sebagai ukuran tentang keberhasilan persamaan regresi di
dalam menjelaskan keragaman yang ada dalam data. Dengan demikian kita
harus yakin bahwa peningkatan nilai R2 dapat diakibatkan oleh penambahan
suatu peubah penjelas baru ke dalam model.
2. Nilai kuadrat tengah galat (s2)
evaluasi terhadap nilai kuadrat tengah galat untuk setiap kelompok sering
dapat menunjukkan titik pemisah yang terbaik bagi banyaknya peubah penjelas
yang sebaiknya dapat disertakan dalam regresi.
Makalah statistikhal 8
Dalam pemilihan model regresi, terdapat beberapa kriteria atau metrik yang
digunakan untuk mengevaluasi dan memilih model yang paling sesuai dengan data.
Pemilihan model yang tepat sangat penting karena dapat memengaruhi akurasi
prediksi dan interpretasi hasil. Beberapa kriteria umum yang digunakan dalam
pemilihan model meliputi:
1. R-squared (Koefisien Determinasi): R-squared mengukur sejauh mana
variabilitas dalam variabel dependen dapat dijelaskan oleh model. Nilai R-
squared yang lebih tinggi menunjukkan bahwa model lebih baik dalam
menjelaskan data. Namun, R-squared perlu dikombinasikan dengan metrik lain
karena model yang terlalu rumit dapat memiliki R-squared tinggi, tetapi
mungkin overfitting.
2. AIC (Akaike Information Criterion): AIC adalah metrik yang mengukur sejauh
mana suatu model cocok dengan data, dengan memperhitungkan kompleksitas
model. Model dengan AIC yang lebih rendah dianggap lebih baik. Ini
membantu mencegah pemilihan model yang terlalu rumit.
3. BIC (Bayesian Information Criterion): BIC serupa dengan AIC tetapi
memberikan hukuman yang lebih besar terhadap kompleksitas model. BIC
juga mencoba menghindari pemilihan model yang terlalu rumit.
4. Validasi Silang (Cross-Validation): Cross-validation melibatkan membagi data
menjadi subset pelatihan dan pengujian. Ini membantu mengukur sejauh mana
model berkinerja pada data yang tidak digunakan dalam pelatihan. Beberapa
teknik cross-validation yang umum meliputi validasi silang tumpang tindih (k-
fold cross-validation) dan validasi silang tingkat (leave-one-out cross-
validation).
5. MSE (Mean Squared Error): MSE mengukur seberapa baik model
memprediksi nilai sebenarnya dengan mengevaluasi selisih kuadrat antara
prediksi dan nilai sebenarnya. Model dengan MSE yang lebih rendah dianggap
lebih baik.
6. RMSE (Root Mean Squared Error): RMSE adalah akar kuadrat dari MSE dan
memberikan gambaran tentang seberapa besar kesalahan dalam prediksi dalam
satuan yang sama dengan variabel dependen.
Makalah statistikhal 9
7. Bias-Varians Trade-off: Pemilihan model juga melibatkan pertimbangan antara
bias dan varians. Model yang terlalu sederhana mungkin memiliki bias tinggi
dan tidak mampu menjelaskan variasi dalam data, sementara model yang
terlalu rumit dapat memiliki varians tinggi dan overfitting. Tujuannya adalah
mencapai keseimbangan yang baik antara bias dan varians.
8. Uji Hipotesis: Uji statistik, seperti uji t atau uji F, digunakan untuk
mengevaluasi apakah variabel prediktor memiliki efek yang signifikan pada
variabel dependen. Pemilihan variabel dapat didasarkan pada hasil uji ini.
2.3 Contoh persamaan regresi
Suatu penelitian terhadap populasi dari lulusan Sekolah Menengah Umum
(SMU) yang melanjutkan sekolah ke universitas di Amerika selama 10 tahun
terakhir ini. Lulusan tersebut setidaknya telah menyelesaikan studinya pada tahun
pertama kuliah. Direktur bagian akademik pada universitas tersebut tertatik untuk
meneliti seberapa baik Yi ; yaitu Indeks Prestasi (GPA) tahun pertama kuliah dari
mahasiswa; dapat diprediksi oleh peubah-peubah berikut :
Y X X X X Y X X X X
1 2 3 4 1 2 3 4
1. 32 24 2. 2.6 3. 6 66 3. 3.
Makalah statistikhal 10
9 1 7 3 3 1 6 4 2 3
7 0 4 9 1 7
2. 71 43 3. 3.5 1. 4 51 2. 2.
7 8 6 8 7 9 0 8 7 6
4 0 6 9 7 0
2. 35 57 2. 2.5 2. 5 36 1. 2.
1 8 8 9 7 2 8 4 4 9
9 8 0 2 7 0
2. 40 44 3. 2.2 3. 7 63 3. 3.
6 3 7 5 1 9 5 2 1 4
0 8 0 0 4 9
2. 64 56 3. 3.4 2. 4 43 1. 3.
9 0 3 3 8 0 5 5 5 2
8 8 2 1 4 0
1. 23 34 1. 2.1 3. 6 70 3. 3.
6 7 2 4 4 6 4 4 5 7
5 8 1 5 0 4
1. 27 47 1. 2.6 3. 7 34 3. 2.
8 0 2 6 4 0 9 1 2 9
9 7 7 1 0 3
2. 41 35 3. 2.5 2. 5 48 3. 3.
3 8 6 7 2 6 2 3 5 3
8 3 3 1 9 2
2. 44 32 3. 3.2 3. 5 66 3. 2.
6 3 7 0 0 1 9 5 4 7
6 9 1 4 2 0
1. 35 38 1. 3.4 3. 6 60 3. 3.
9 9 5 5 6 2 5 6 6 5
6 4 0 3 9 2
Beberapa kriteria tentang persamaan regresi terbaik yang dapat dijadikan sebagai
pegangan dalam mengevaluasi nilai-nilai di atas antara lain :
R2 akan mempunyai nilai yang terbesar dan pola peubah tersebut konsisten
dengan persamaan
s2 akan mempunyai nilai yang terkecil
Cp Mallows akan mempunyai nilai yang hampir sama dengan banyaknya
jumlah parameter, termasuk 0. Nilai Cp Mallows pada persamaan regresi
yang melibatkan semua peubah penjelas tidak dapat diperguna-kan sebagai
pegangan dalam memilih persamaan regresi terbaik, karena nilai dari Cp
Mallows tersebut akan sama dengan jumlah parameter (termasuk 0 ).
Hal lain yang perlu diperhatikan dalam mengevaluasi nilai-nilai di atas adalah
memper-timbangkan masalah biaya. Penambahan satu peubah penjelas akan
memperbesar biaya yang dikeluarkan dan menambah waktu penelitian. Apabila
penambahan satu peubah penjelas tidak terlalu banyak menaikkan nilai R2 dan
menurunkan s2, sedangkan biaya yang dikeluarkan untuk menambah satu
Makalah statistikhal 11
peubah
penjelas tersebut sangat besar, maka sebaiknya peubah tersebut tidak usah
dimasukkan ke dalam model persamaan regresi.
Nilai-nilai keofisien peubah penjelas dari semua kemungkinan persamaan regresi dan
nilai-nilai dari R2, Cp Mallows dan s2 dapat dicari dengan bantuan paket program
SAS 6.08 .
Tabel 1 Nilai R2, S2, C(p), intercept (0) dan koefisien peubah penjelas
dari semua kemungkinan persamaan regresi
peuba R s C(p interce nilai koefisien
h 2 2 ) pt
penje (0) X1 X X3 X4
las 2
1 0.721 0.1135 12.35 0.9670 0.00 - - -
71 7 3 318
Makalah statistikhal 12
66 0 0 0.4233 42 5 3
Keterangan:
- R2 =
nilai koefisien determinasi
ganda
- Cp = nilai dari statistik Cp Mallows
- s2 = nilai kuadrat tengah sisa
Berdasarkan nilai-nilai R2, Cp Mallows, dan s2 di atas, maka kita dapat memilih
persamaan regresi terbaik. Sebagai langkah awal, kita perhatikan dahulu model
persamaan regresi untuk satu peubah penjelas.
Selanjutnya kita perhatikan untuk dua, tiga dan empat peubah penjelas.
1. Satu peubah penjelas
untuk satu peubah penjelas, peubah terbaik yang dapat dipilih untuk masuk
dalam persamaan regresi adalah peubah penjelas X1. Peubah tersebut mem-
punyai nilai : R2 = 0,72171 ; Cp = 12,35300 ; s2 = 0,11357
Makalah statistikhal 13
Sedangkan nilai Cp-nya sebesar 5,25600. Nilai ini lebih mendekati jumlah
parameter, dimana jumlah parameternya adalah 3.
Dengan mempertimbangkan faktor biaya dan waktu, secara umum perubahan
nilai tersebut sangat berarti, sehingga persamaan regresi yang dipakai paling
tidak harus melibatkan peubah penjelas X1 dan X2. Persamaan regresi linear
terbaik dalam kombinasi dua peubah penjelas adalah sebagai berikut:
Y = 0,5071 + 0,00261 X1 + 0,00157 X2
3. Tiga peubah penjelas
untuk pasangan tiga peubah penjelas, pasangan peubah terbaik yang masuk
dalam persamaan regresi adalah peubah X1, X2 dan X3. Pasangan peubah
tersebut mempunyai nilai: R2 = 0,85036 ; Cp = 3,24600 ; s2 = 0,06870
Persamaan regresi linear yang digunakan dalam kombinasi tiga peubah
penjelas haruslah melibatkan peubah penjelas X1, X2, dan X3. Persamaan
tersebut adalah: Y = 0,3342 + 0,00218 X1 + 0,00131 X2 + 0,1799 X3
4. Empat peubah penjelas
Untuk semua peubah diperoleh nilai-nilai sebagai berikut:
R2 = 0,85277 ; Cp = 5,00000 ; s2 = 0,07210
nilai R2 dari tiga peubah penjelas terbaik menuju semua peubah penjelas
mengalami kenaikan sebesar 0,00241. Kenaikan tersebut tidak seimbang
dengan biaya yang harus dikeluarkan untuk menambah peubah keempat
masuk dalam model, sehingga model yang terbaik adalah model dengan tiga
peubah saja.
nilai Cp Mallows sebesar 5,0000. Nilai ini sama dengan jumlah parameter,
dimana jumlah parameternya adalah 5 (termasuk b0). Karena persamaan
regresinya mencakup semua parameter, maka nilai dari Cp Mallows di atas
tidak dapat dipergunakan sebagai dasar untuk memilih persamaan regresi
terbaik
Makalah statistikhal 14
BAB III
PENUTUP
3.1. kesimpulan
Analisis regresi merupakan suatu proses statistik untuk mengestimasi
hubungan antara variabel-variabel, yakni berupa teknik-teknik memodelkan dan
melakukan analisis beberapa variabel atas dasar bentuk hubungan antara satu
variabel tak bebas dan satu atau lebih variabel bebas (prediktor) (Amstrong,
2012:689).
Menurut Widarjono, ada tiga jenis data yang seringkali digunakan dalam
analisis regresi, yaitu:
1. data cross section adalah data yang dikumpulkan dalam kurun waktu tertentu
dari sampel
2. data time series adalah sekumpulan observasi dalam rentang waktu tertentu
yang dikumpulkan dalam interval waktu secara kontinu
3. data panel adalah data gabungan antara data cross section dengan data time
series (Fathurahman & Haeruddin, 2011:35).
Makalah statistikhal 15
X1 = Score matematika pada Ujian Kecakapan Scholastic (SATmath)
X2 = Score bahasa Inggris pada Ujian Kecakapan Scholastic (SATverbal)
X3 = Indeks prestasi dari semua nilai matematika ketika di SMU (HSmath)
Makalah statistikhal 16
3.2. saran
1. Lakukan Analisis Eksploratif yang Mendalam: Sebelum memutuskan
persamaan regresi yang tepat, sangat penting untuk melakukan analisis
eksploratif yang cermat terhadap data Anda. Ini mencakup memeriksa hubungan
antara variabel, mengidentifikasi outlier, dan memahami pola data yang ada.
2. Pertimbangkan Tujuan Penelitian: Pastikan Anda selalu mengingat tujuan
penelitian Anda. Pemilihan model harus selaras dengan pertanyaan penelitian
yang ingin dijawab.
3. Eksperimen dengan Berbagai Model: Jangan ragu untuk mencoba beberapa
model regresi yang berbeda.
4. Gunakan Teknik Seleksi Variabel yang Tepat: Jika Anda menghadapi banyak
variabel prediktor, pertimbangkan teknik seleksi variabel yang sesuai seperti
seleksi mundur, seleksi maju, atau seleksi variabel otomatis.
5. Jelaskan Hasil dengan Jelas: Terakhir, saran penting adalah menjelaskan hasil
analisis dengan jelas dalam konteks penelitian Anda. Sertakan interpretasi
koefisien, signifikansi statistik, dan efek praktis dari variabel yang dipilih dalam
model.
MAKALAH STATISTIKhal 17
DAFTAR PUSTAKA
MAKALAH STATISTIKhal 18
MAKALAH STATISTIKhal 19
MAKALAH STATISTIKHal 20