PENDAHULUAN
A. Latar Belakang
Istilah regresi pertama kali diperkenalkan oleh Sir Francis Galton pada tahun
1886. Galton pada saat itu menemukan adanya tendensi bahwa orang tua yang memiliki
tubuh tinggi memiliki anak-anak yang tinggi, orang tua yang pendek memiliki anak-
anak yang pendek pula. Kendati demikian. Galton juga mengamati bahwa ada
kecenderungan tinggi anak cenderung bergerak menuju rata-rata tinggi populasi secara
keseluruhan. Dengan kata lain, ketinggian anak yang amat tinggi atau orang tua yang
amat pendek cenderung bergerak kearah rata-rata tinggi populasi. Inilah yang disebut
hukum Golton mengenai regresi universal. Galton, menyebutnya sebagai regresi menuju
mediokritas.
Regresi sendiri adalah salah satu teknik statistika yang biasa digunakan untuk
menggambarkan hubungan fungsional antara suatu variabel tak bebas (respon)
dengan satu atau beberapa variabel bebas (deterministik). Menurut Drapper and Smith
(1992) analisis regresi merupakan metode analisis yang dapat digunakan untuk
menganalisis data dan mengambil kesimpulan yang bermakna tentang hubungan
ketergantungan variable terhadap variabel lainnya. Analisis regresi yang sering
digunakan dalam pemecahan suatu permasalahan adalah regresi linier. Secara umum,
analisis regresi pada dasarnya adalah studi mengenai ketergantungan satu variabel
dependen (terikat) dengan satu atau lebih variabel independent (variabel penjelas/bebas),
dengan tujuan untuk mengestimasi dan/ atau memprediksi rata-rata populasi atau niiai
rata-rata variabel dependen berdasarkan nilai variabe! independen yang diketahui. Pusat
perhatian adalah pada upaya menjelaskan dan mengevalusi hubungan antara suatu
variabel dengan satu atau lebih variabel independen. Hasil analisis regresi adalah berupa
koefisien regresi untuk masing-masing variable independent. Koefisien ini diperoleh
dengan cara memprediksi nilai variable dependen dengan suatu persamaan.
B. Tujuan
Tujuan pembuatan makalah ini ada beberapa yaitu :
1. Mengetahui tentang pengertian serta kegunaan regresi logistik untuk data
kategorik
2. Mengetahui tentang pengertian dari regresi logistik biner
3. Mengetahui tentang uji simultan
4. Mengetahui tentang uji parsial
5. Mengetahui langkah-langkah regresi logistik di aplikasi SPSS
BAB II
PEMBAHASAN
A. Regresi
Pengertian Regresi adalah bagian dari analisis regresi yang digunakan ketika
variable dependen (respon) merupakan variabel dikotomi. Variabel dikotomi biasanya hanya
terdiri atas dua nilai,yang mewakili kemunculan atau tidak adanya suatu kejadian yang biasanya
diberi 0 atau angka.2.
Contoh Aplikasi dan Analisis Regresi Logistik
Jika kita ingin mengetahui pembelian tas merk tertentu oleh beberapa orang wanitadengan
beberapa variabel penjelas antara lain adalah umur, tingkat pendapatan (low, medium,high), dan
status (M – menikah; S untuk single). Pada data tersebut, pembelian merupakanvariabel
prediktor yang dijelaskan dengan angka 1 sebagai membeli dan 0 sebagai tidakmembeli.
Fungsi regresi yaitu untuk membentuk persamaan atau fungsi dengan pendekatan maximum
likelihood , yang memaksimalkan peluang pengklasifikasian objek yang diamati menjadi
kategori yang sesuai kemudian mengubahnya menjadi koefisien regresi yang sederhana.
dengan nilai tengah dan ragam sebesar 𝐸(𝑌) = 𝑛𝑝 dan 𝑉𝑎𝑟(𝑌) = 𝑛𝑝(1 − 𝑝). Sedangkan
data biner yang tidak berkelompok menyebar menurut sebaran Bernoulli, yaitu bentuk
khusus sebaran Binomial untuk 𝑛 = 1, sehingga sebaran peluangnya adalah :
𝐵(𝑦; 1, 𝑝) = 𝑝𝑦(1 − 𝑝)1−𝑦 𝑦 = 0,1
dengan nilai tengah dan ragam masing-masing sebesar 𝐸(𝑌) = 𝑝 dan 𝑉𝑎𝑟(𝑌) = 𝑝(1 −𝑝).
Analisis regresi logistik digunakan untuk menjelaskan hubungan antara variabel
respon yang berupa data dikotomik/biner dengan variabel bebas yang berupa data berskala
interval dan atau kategorik (Hosmer dan Lemeshow, 1989). Variabel
yang dikotomik/biner adalah variabel yang hanya mempunyai dua kategori saja, yaitu
kategori yang menyatakan kejadian sukses (Y=1) dan kategori yang menyatakan kejadian
gagal (Y=0). pada model model linear umum komponen acak tidak harus mengikuti sebaran
normal, tapi harus masuk dalam sebaran keluarga eksponensial. Sebaran bernoulli termasuk
dalam salah satu dari sebaran keluarga eksponensial. Variabel respon Y ini, diasumsikan
mengikuti distribusi Bernoulli. Sebenarnya untuk masalah diatas bisa digunakan analisis
regresi OLS. Tapi harus memenuhi asumsi bahwa 0 <= E(Yi ÷ Xi) <= 1. Namun persyaratan
tersebut sulit untuk terpenuhi. sehingga metode regresi OLS kurang cocok untuk data
kuantitatif dan lebih baik menggunakan metode regresi logistik.
Analisis regresi biasa tidak dapat digunakan untuk memodelkan hubungan antara
variabel respon biner dengan beberapa variabel prediktor. Salah satu pendekatan yang
dapat digunakan untuk mengatasi masalah ini adalah analisis regresi logistik.
Tetapi sebelum melakukan analisis ini perlu dilakukan transformasi yang dapat
menjamin nilai peluang sukses 𝑝i akan selalu berada dalam selang. Hal ini dikarenakan
dalam menduga koefisien regresi 𝖰̂ pada model penduga dari Persamaan, yaitu
:
𝑝̂7 = 𝛽̂0 + 𝛽̂1 X1i + 𝛽̂2 X2i + ⋯ + 𝛽̂𝑘 X𝑘i (2.5)
Penduga koefisien regresi 𝖰̂ tidak memiliki batasan nilai. Kombinasi linier dari nilai
𝖰̂ dapat berada pada selang (−∞, ∞), sehingga tidak ada jaminan bahwa dugaan nilai
peluang tersebut akan berada pada selang ,0,1-. Oleh karena itu perlu dilakukan transformasi
dimana salah satu bentuknya adalah transformasi logi
exp*(𝑥 − 𝜇)/𝑟+
ƒ(𝑥) =
; −∞ ≤ 𝑥 ≤ ∞ ; 𝑟 > 0
𝑟,1 + exp*(𝑥 − 𝜇)/𝑟+-2
.
Kemudian untuk membentuk model regresi logistik maka dilakukan
Variabel independent tidak harus memiliki keragaman yang sama antar kelompok
variabel
Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat
eksklusif
Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50
sampel data untuk sebuah variabel prediktor (bebas).
Pendugaan Parameter
Metode untuk mengestimasi parameter-parameter yang tidak diketahui dalam model
regresi logistik ada 3 yaitu:
Dari Ketiga metodei di atas, metode yang banyak digunakan adalah metode maksimum
likelihood dengan alasan lebih praktis (Nachrowi dan Usman, 2002). Metode maksimu
likelihoood ini menduga parameter dengan nilai yang memaksimumkan fungsi likelihood
(likelihood function).
Odds Ratio
Odds ratio merupakan ukuran risiko atau kecenderungan untuk mengalami kejadian ‘sukses
‘ antara satu kategori dengan kategori lainnya, didefinisikan sebagai ratio dari odds untuk xj = 1
terhadap xj = 0. Odds ratio ini menyatakan risiko atau kecenderungan pengaruh observasi
dengan xj = 1 adalah berapa kali lipat jika dibandingkan dengan observasi dengan xj = 0. Untuk
variabel bebas yang berskala kontinyu maka interpretasi dari koefisien βj pada model regresi
logistik adalah setiap kenaikan c unit pada variabel bebas akan menyebabkan risiko terjadinya
Y = 1, adalah exp(c.βj) kali lebih besar. Odds ratio dilambangkan dengan θ, didefinisikan
sebagai perbandingan dua nilai odds xj = 1 dan xj = 0, sehingga
C. Uji Simultan
Uji F bertujuan untuk mencari apakah variabel independen secara bersama – sama
(stimultan) mempengaruhi variabel dependen. Uji F dilakukan untuk melihat pengaruh dari
seluruh variabel bebas secara bersama-sama terhadap variabel terikat. Tingakatan yang
digunakan adalah sebesar 0.5 atau 5%, jika nilai signifikan F < 0.05 maka dapat diartikan
bahwa variabel independent secara simultan mempengaruhi variabel dependen ataupun
sebaliknya (Ghozali, 2016). Uji simultan F (Uji Simultan) digunakan untuk mengetahui ada
atau tidaknya pengaruh secara bersama – sama atau simultan antara variabel independen
terhadap variabel dependen. Pengujian statistik Anova merupakan bentuk pengujian hipotesis
dimana dapat menarik kesimpulan berdasarkan data atau kelompok statistik yang
disimpulkan. Pengambilan keputusan dilihat dari pengujian ini dilakukan dengan melihat
nilai F yang terdapat di dalam tabel ANOVA, tingkat signifikansi yang digunakan yaitu
sebesar 0,05. Adapun ketentuan dari uji F yaitu sebagai berikut (Ghozali, 2016) :
1. Jika nilai signifikan F < 0,05 maka H 0ditolak dan H1 diterima. Artinya semua
variabel independent/bebas memiliki pengaruh secara signifikan terhadap variabel
dependen/terikat.
2. Jika nilai signifikan F > 0,05 maka H 0 diterima dan H1 Artinya, semua variabel
independent/bebas tidak memiliki pengaruh secara signifikan terhadap variabel
dependen/terikat.
D. Uji Parsial
Uji t digunakan untuk mengetahui apakah variable variable independent secara parsial
berpengaruh nyata atau tidak terhadap variable dependen. Derajat signifikansi yang
digunakan adalah 0,05. Apabila nilai signifikansi lebih kecil dari derajat kepercayaan maka
kita menerima hipotesis alternative, yang menyatakan bahwa suatu variable independent
secara parsial mempengaruhi variable dependen.
Uji ini digunakan untuk mengetahui apakah dalam model regresi variable independent
(x1,x2….., xa) secara parsial berpengaruh signifikan terhadap variable dependen (Y), Statistika
Uji :
Ket :
bi : Koefisien
1. Merumuskan hipotesa
H0 : βi = 0, artinya variable bebas bukan merupakan penjelas yang signifikan terhadap
variable terikat
H1 : βi ≠ 0, artinya variable bebas merupakan penjelas yang signifikan terhadap
variable terikat
2. Menentukan taraf nyata / level of signifikan = α
Taraf nyata / derajat keyakinan yang digunakan sebesar α = 1%, 5%, 10%,dengan :
Df = n – p
Dimana :
Df = degree of freedom / derajat kebebasan
N = jumlah sampel
P = benyaknya koefisien regresi + Konstanta
3. Kriteria Uji
Untuk mengetahui kebenaran hipotesis digunakan kriteria sebagai berikut.
Ho diterima apabila t (α / 2 ; n – p) ≤ t hitung ≤ t ( α / 2 ; n – k), artinya tidk ada
pengaruh antara variable bebas terhadap variable terikat
Ho ditolak apabila t hitung > t (α / 2 ; n – p) atau t hitung < -t (α / 2 ; n – k), artinya
ada pengaruh antara variable bebas terhadap variable terikat
4. Menentukan Uji Statistik
5. Mengambil Keputusan
Keputusan bias menolak Ho menerima H1.
Nilai t table yang diperoleh dibandingkan dengan nilai t hitung, bila t hitung lebih
besar dari t table, maka ho ditolak, sehingga ddapat disimpulkan bahwa variable
ondependen berpengaruh pada variable dependen.
Apabila t hitung lebih kecil dari t table, maka Ho diterima sehingga dapa disimpulkan
bahwa variable independent tidak berpengaruh terhadap variable dependen.
STUDI KASUS SPSS
Diketahui data 70 siswa yang terdiri dari data kadar hemoglobin, data rata-rata nilai,
dan data lama belajar yang digunakan untuk mengetahui hubungan kadar hemoglobin
terhadap prestasi siswa.