Anda di halaman 1dari 19

TUGAS STATISTIKA

ANALISIS REGRESI LOGISTIK BINER

Dosen Pengampu
Dr. Vita Ratnasari, M.Msi.

Oleh:
Novia Al Adawiyah (03111850030015)

MANAJEMEN PROYEK KONSTRUKSI


JURUSAN TEKNIK SIPIL
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA
BAB I

PENDAHULUAN

1.1.Pengertian Regresi Logistik

Dalam sebuah penelitian biasanya kita memodelkan hubungan antar 2 variabel, yaiitu
variabel X (independent) dan Y (dependent). Metode yang biasa dipakai dalam penelitian seperti
ini adalah regresi linier, baik sederhana maupun berganda. Namun, adakalanya regresi linier
dengan metode OLS (Ordinary Least Square) yang dipakai tidak sesuai untuk digunakan. Regresi
linier yang sering digunakan kadang terjadi pelanggaran asumsi Gauss-Markov. Misalnya pada
kasus dimana variabel dependent (Y) bertipe data nominal, sedangkan variabel bebas/prediktornya
(X) bertipe data interval atau rasio.

Ingin diketahui apakah mahasiswa sudah melek keuangan berdasarkan jenis kelamin,
fakultas yang dipilih dan indeks prestasi kumulatif. Dalam kasus ini hanya ada 2 kemungkinan
respon mahasiswa, yaitu mahasiswa melek keuangan dan mahasiswa tidak melek keuangan.

Dari contoh kasus di atas, dapat diketahui bahwa tipe data variabel respon (Y) adalah
nominal, yaitu kategorisasi keputusan mahasiswa melek keuangan atau tidak (misal melek
keuangan angka 1, sedangkan tidak melek keuangan angka 0), sedangkan tipe data untuk variabel
bebas (X) setidaktidaknya interval (skala likert). Bila metode regresi linier biasa diterapkan pada
kasus semacam ini, menurut Kutner, dkk. (2004), akan terdapat 2 pelanggaran asumsi Gauss-
Markov dan 1 buah pelanggaran terhadap batasan dari nilai duga (fitted value) dari variabel respon
(Y), yaitu:

1) Error dari model regresi yang didapat tidak menyebar normal.


2) Ragam (variance) dari error tidak homogen (terjadi heteroskedastisitas pada ragam
error).
3) Sedangkan, pelanggaran bagi batasan nilai duga Y (fitted value) adalah bahwa nilai
duga yang dihasilkan dari model regresi linier biasa melebihi rentang antara 0 s.d. 1.
Hal ini jelas tidak masuk akal , karena batasan nilai pada variabel Y (dalam kasus ini
adalah Pemahaman literasi keuangan tinggi =1 dan Pemahaman literasi keuangan
rendah =0). Untuk mengatasi masalah ini, diperkenalkan metode Regresi Logistik.
Regresi logistik (kadang disebut model logistik atau model logit), dalam statistika
digunakan untuk prediksi probabilitas kejadian suatu peristiwa dengan mencocokkan
data pada fungsi logit kurva logistik.

Regresi logistik adalah sebuah pendekatan untuk membuat model prediksi seperti halnya
regresi linear atau yang biasa disebut dengan istilah Ordinary Least Squares (OLS) regression.
Perbedaannya adalah pada regresi logistik, peneliti memprediksi variabel terikat yang berskala
dikotomi. Skala dikotomi yang dimaksud adalah skala data nominal dengan dua kategori,
misalnya: Ya dan Tidak, Baik dan Buruk atau Tinggi dan Rendah. Apabila pada OLS mewajibkan
syarat atau asumsi bahwa error varians (residual) terdistribusi secara normal. Sebaliknya, pada
regresi logistik tidak dibutuhkan asumsi tersebut sebab pada regresi logistik mengikuti distribusi
logistik.

Asumsi yang harus dipenuhi dalam Regresi Logistik antara lain:

1) Regresi logistik tidak membutuhkan hubungan linier antara variabel independen dengan
variabel dependen.
2) Variabel independen tidak memerlukan asumsi multivariate normality.
3) Asumsi homokedastisitas tidak diperlukan
4) Variabel bebas tidak perlu diubah ke dalam bentuk metrik (interval atau skala ratio).
5) Variabel dependen harus bersifat dikotomi (2 kategori, misal: tinggi dan rendah atau baik
dan buruk)
6) Variabel independen tidak harus memiliki keragaman yang sama antar kelompok variabel
7) Kategori dalam variabel independen harus terpisah satu sama lain atau bersifat eksklusif
8) Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50
sampel data untuk sebuah variabel prediktor (independen).
9) Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non linier
log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik sering
dinyatakan sebagai probabilitas.

Model persamaan aljabar layaknya OLS yang biasa kita gunakan adalah berikut: Y = B0 +
B1X + e. Dimana e adalah error varians atau residual. Dengan regresi logistik, tidak menggunakan
interpretasi yang sama seperti halnya persamaan regresi OLS. Model Persamaan yang terbentuk
berbeda dengan persamaan OLS.
Sebagaimana metode regresi biasa, Regresi Logistik dapat dibedakan menjadi 2, yaitu:

1. Binary Logistic Regression (Regresi Logistik Biner).

Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel respon
(Y), misal membeli dan tidak membeli.

2. Multinomial Logistic Regression (Regresi Logistik Multinomial).

Regresi Logistik Multinomial digunakan ketika pada variabel respon (Y) terdapat
lebih dari 2 kategorisasi.

Berikut persamaannya regresi logistic :

Di mana:

Ln : Logaritma Natural.

B0 + B1X : Persamaan yang biasa dikenal dalam OLS.

Sedangkan P Aksen adalah probabilitas logistik yang didapat rumus probabilitas regresi logistic
sebagai berikut:

Di mana:

exp atau ditulis "e" adalah fungsi exponen.

(Perlu diingat bahwa exponen merupakan kebalikan dari logaritma natural. Sedangkan logaritma
natural adalah bentuk logaritma namun dengan nilai konstanta 2,71828182845904 atau biasa
dibulatkan menjadi 2,72).
Dengan model persamaan di atas, tentunya akan sangat sulit untuk menginterprestasikan koefisien
regresinya. Oleh karena itu maka diperkenalkanlah istilah Odds Ratio atau yang biasa disingkat
Exp(B) atau OR.

Exp(B) merupakan exponen dari koefisien regresi. Jadi misalkan nilai slope dari regresi adalah
sebesar 0,80, maka Exp(B) dapat diperkirakan sebagai berikut:

Besarnya nilai Exp(B) dapat diartikan sebagai berikut:

Misalnya nilai Exp (B) pengaruh fakultas terhadap terhadap melek keuangan mahasiswa adalah
sebesar 2,23, maka disimpulkan bahwa mahasiswa yang kuliah di fakultas ekonomi lebih
menjamin untuk mahasiswa lebih melek huruf dibandingkan dengan mahasiswa yang tidak kuliah
di fakultas ekonomi. Interprestasi ini diartikan apabila pengkodean kategori pada tiap variabel
sebagai

berikut:

1. Variabel bebas adalah melek keuangan: Kode 0 untuk tidak melek keuangan, kode 1 untuk
melek keuangan.
2. Variabel terikat adalah fakultas: Kode 0 untuk fakultas non ekonomi, kode 1 untuk fakultas
ekonomi.

Perbedaan lainnya yaitu pada regresi logistik tidak ada nilai "R Square" untuk mengukur
besarnya pengaruh simultan beberapa variabel bebas terhadap variabel terikat. Dalam regresi
logistik dikenal istilah Pseudo R Square, yaitu nilai R Square Semu yang maksudnya sama atau
identik dengan R Square pada OLS.

Jika pada OLS menggunakan uji F Anova untuk mengukur tingkat signifikansi dan seberapa baik
model persamaan yang terbentuk, maka pada regresi logistik menggunakan Nilai Chi-Square.
Perhitungan nilai Chi-Square ini berdasarkan perhitungan Maximum Likelihood.
BAB II
TINJAUAN PUSTAKA

2.1 Regresi Logistik Biner


Regresi logistik merupakan suatu metode analisis data yang digunakan untuk mencari
hubungan antara variabel respon (y) yang bersifat biner atau dikotomus dengan variabel prediktor
(x) yang bersifat polikotomus (Hosmer dan Lemeshow, 1989). Outcome dari variabel respon y
terdiri dari 2 kategori yaitu “sukses” dan “gagal” yang dinotasikan dengan y=1 (sukses) dan y=0
(gagal). Dalam keadaan demikian, variabel y mengikuti distribusi Bernoulli untuk setiap observasi
tunggal. Fungsi Probabilitas untuk setiap observasi adalah diberikan sebagai berikut,
f ( y )   y (1   )1 y ; y = 0, 1 (2.1)

Dimana jika y = 0 maka f(y) = 1 – π dan jika y = 1 maka f(y) = π. Fungsi regresi logistiknya
dapat dituliskan sebagai berikut
1 ekuivalen ez
f ( z)  f ( z)  (2.2)
1  ez 1 ez
Dengan z   0  1 x1  ...   p x p

Nilai z antara   dan   sehingga nilai f (z ) terletak antara 0 dan 1 untuk setiap nilai z
yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya menggambarkan
probabilitas atau risiko dari suatu objek. Model regresi logistiknya adalah sebagai berikut
(  0  1 x1 ...  p x p )
e
 ( x)  (  0  1 x1 ...  p x p )
(2.3)
1 e
Diman p = banyaknya variabel prediktor
Untuk mempermudah pendugaan parameter regresi maka model regresi logistik pada
persamaan (2.3) dapat diuraikan dengan menggunakan transformasi logit dari  (x) .

 ( x)1  e (    x ...  = 
0 1 1 pxp )
(  0  1 x1 ...  p x p )

 ( x)   ( x)e (    x ... x


0 1 1 p
= e
p)
(  0  1 x1 ...  p x p )

 (x) = e (    x ... 
0 1 1 pxp )
–  ( x) e (  0  1 x1 ...  p x p )

 (x) = 1   ( x) e (    x ...  0 1 1 pxp )

 ( x) = e ( 0  1x1 ...  p x p )
1   ( x)
  ( x) 
ln   = ln e (  0  1 x1 ...  p x p )

 1   ( x) 

  ( x)  =  0  1 x1  ...   p x p
ln  
 1   ( x) 

Sehingga diperoleh persamaan berikut


  ( x) 
g ( x)  ln     0  1 x1  ...   p x p (2.4)
 1   ( x) 
Model tersebut merupakan fungsi linier dari parameter-parameternya. Dalam model regresi
linier, diasumsikan bahwa amatan dari variabel respon diekspresikan sebagai y = E(Y|x) + ε dimana
EY | x     x  x
1 2
 ...   x p
(2.5)
0 1 2 p

Merupakan rataan dari populasi dan ε merupakan komponen acak yang menunjukkan
penyimpangan amatan dari rataannya dan ε diasumsikan mengikuti sebaran normal dengan rataan
nol dan varians konstan. Pada regresi logistik, variabel respon diekspresikan sebagai y   (x)  

dimana ε mempunyai salah satu dari kemungkinan dua nilai yaitu ε = 1   ( x) dengan peluang  (x)
jika y=1 dan ε =   (x) dengan peluang 1   ( x) jika y=0 dan mengikuti distribusi binomial dengan
rataan nol dan varians (  (x) )( 1   ( x) ) (Wulandari, 2009).

2.2 Uji Independensi


Uji chi-square digunakan untuk mengetahui ada tidaknya hubungan antara dua variabel.
Hipotesis:
H0 : Tidak ada hubungan antara variabel bebas dengan variabel tak bebas.
H1 : Ada hubungan antara variabel bebas dengan variabel tak bebas.
Statistik uji:
O  Eij 
2

 
2 ij
hit (2.6)
i, j Eij

Dimana:
Oij : nilai observasi / pengamatan baris ke-i, kolom ke-j.
Eij : nilai ekspektasi baris ke-i, kolom ke-j.

Daerah kritis:
Tolak H0 jika X2hit >X(α)(a-1)(b-1)
2.3 Uji Kesesuaian Model
Pengujian ini dilakukan untuk menguji apakah model yang dihasilkan berdasarkan regresi
logistik multivariat/serentak sudah layak. Dengan kata lain tidak terdapat perbedaan antara hasil
pengamatan dan kemungkinan hasil prediksi model. Pengujian kesesuaian model dilakukan
dengan hipotesis sebagai berikut.
H0 : Model sesuai (tidak terdapat perbedaan yang signifikan antara hasil pengamatan dengan
kemungkinan hasil prediksi model)
H1 : Model tidak sesuai (terdapat perbedaan yang signifikan antara hasil pengamatan dengan
kemungkinan hasil prediksi model)
Statistik uji:
g
o  n' k  k  2

Cˆ   k (2.13)
k 1 n' k  k 1   k 

Dimana:
Ck
o k : Observasi pada grup ke-k (  y j dengan ck : respon (0, 1))
j 1

Ck
m j ˆ j
 k : Rata-rata taksiran peluang (  )
j 1 n' k
g : Jumlah grup (kombinasi kategori dalam model serentak)
n' k : Banyak observasi pada grup ke-k

Daerah kritis: Tolak H0jika  2 hitung>  2 (db,α)atau G2 >  2 (db,α)


(Wulandari, 2009)

2.4 Uji Kelayakan Model


Variabel prediktor dalam model memiliki hubungan yang nyata dengan variable responnya
dibuktikan dengan dilakukan pengujian kelayakan model baik secara parsial maupun serentak.
1. Penguian Hipotesis secara serentak
H0 : 1   2  ...   i  0

H1 : Paling tidak terdapat satu  i  0 ; i = 1, 2, ..., p


Statistuk uji:
n n0
 n1   n0 
i

   
G  2 ln n  n (2.14)
n

 ˆ 1  ˆ 
i 1
i
yi
i
1 yi 

n n
Dimana: n1   y i n0   1  y i  n  n1  n0
i 1 i 1

Daerah kritis:
Tolak H0 jika G   2 ( v , ) dengan v derajat bebas adalah banyaknya parameter dalam model

tanpa  0 .
2. Pengujian Hipotesis secara parsial
H0 :  i  0

H1 :  i  0 ; i = 1, 2, ..., p
Statistik uji:
ˆi
W (2.15)
SE( ˆi )

Dimana:𝑆𝑆𝐸: ∑𝑛𝑖=1(𝑦𝑖− 𝑦̂𝑖 )2 𝑆𝑆𝑅: [∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑖 )2 ] − [∑𝑛𝑖=1(𝑦𝑖− 𝑦̂𝑖 )2 ]Daerah kritis:
Tolak H0jika W  Z  / 2 atau P_value <α (Wulandari, 2009)

2.5 Odd Ratio


Menurut Hosmer dan Lemeshow (2000),estimasi koefisien dari variabel prediktor
menyatakan slope atau nilai perubahan variabel respon untuk setiap perubahan satu unit variabel
prediktor. Interpretasi meliputi, penentuan hubungan fungsional antara variabel respon dan
variabel prediktor serta mendefinisikan unit perubahan variabel respon yang disebabkan oleh
variabel prediktor (Hosmer dan Lemeshow, 2000).
Untuk menginterpretasikan koefisien parameter digunakan nilai odds ratio ().
Sebelumnya akan dilakukan pembahasan terhadap beberapa keadaan variabel pengamatan untuk
melakukan interpretasi koefisien parameter. Variabel penjelas x yang bersifat kategori terbagi
dalam 2 kategori yang dinyatakan dengan kode 0 dan 1. Disini kategori 1 dibandingkan terhadap
kategori 2 berdasarkan nilai -nya yang menyatakan variabel 1 berpengaruh  kali variabel 2
terhadap variabel respon. Berdasarkan model ada dua nilai (x) dan dua nilai 1-(x). Nilai–nilai
itu dapat dinyatakan seperti pada Tabel 2.3.
Tabel 2.3 Nilai Model Regresi Logistik bila Variabel X Dikotom.
Variabel Variabel Prediktor (X)

Respon (Y) X=1 X=0

𝑒 𝛽0 +𝛽1 𝑒 𝛽0
Y=1 𝜋(1) = 𝜋(0) =
1 + 𝑒𝛽0 +𝛽1 1 + 𝑒𝛽0

1 1
Y=0 1 − 𝜋(1) = 1 − 𝜋(0) =
1 + 𝑒𝛽0 +𝛽1 1 + 𝑒𝛽0

Total 1.0 1.0

Hubungan antara odds rasio dan koefisien regresi adalah sebagai berikut.

 e     1 0
 1

    
1 e  1  e
 

OR  
0 1 0 1

(2.16)
 e   1 
 0

    
1  e  1  e 
 0 0

e  
0 1

 
e 0

 e (    ) 
0 1 0

 e 1

Karena itu, untuk regresi logistik dengan variabel independen dikotomus diberi kode 1 dan
0.
Odds rasio adalah ukuran asosiasi yang dapat diartikan secara luas, terutama dalam
epidemiologi. Berdasarkan persamaan 3.6, odds rasio berarti rata-rata besarnya kecenderungan
variabel respon bernilai tertentu jika x = 1 dibandingkan jika x= 0 (Hosmer dan Lemeshow,
2000)
BAB III

PEMBAHASAN

Seorang peneliti ingin mengetahui bagaimana pengaruh Pendapatan Keluarga terhadap


Kepemilikan rumah. Pendapatan keluarga diteliti melaluji variabel Usia kepala keluarga (X1) dan
penghasilan kepala keluarga (X2). Kepemilikan rumah (Y) sebagai variabel dependent adalah
variabel dummy dimana dimana jika responden menjawab punya rumah maka kita beri skor 1 dan
jika menjawab tidak punya rumah kita beri skor 0.

Uji Validitas

Uji Validitas Item atau butir dapat dilakukan dengan menggunakan software SPSS. Untuk proses
ini, akan digunakan Uji Korelasi Pearson Product Moment. Dalam uji ini, setiap item akan diuji
relasinya dengan skor total variabel yang dimaksud. Dalam hal ini masing-masing item yang ada
di dalam variabel X dan Y akan diuji relasinya dengan skor total variabel tersebut.

Agar penelitian ini lebih teliti, sebuah item sebaiknya memiliki korelasi (r) dengan skor total
masing-masing variabel ≥ 0,25. Item yang punya r hitung < 0,25 akan disingkirkan akibat mereka
tidak melakukan pengukuran secara sama dengan yang dimaksud oleh skor total skala dan lebih
jauh lagi, tidak memiliki kontribusi dengan pengukuran seseorang jika bukan malah mengacaukan.
Cara melakukan Uji Validitas dengan SPSS:

1. Klik Analyze > Correlate > Bivariate

2. Masukkan seluruh item variable x ke Variables


3. Ceklis Pearson ; Two Tailed ; Flag

4. Klik OK

Hasil Uji Validitas

Correlations
X1 X2
X1 Pearson
1 .789**
Correlation
Sig. (2-tailed) .000
N 50 50
X2 Pearson
.789** 1
Correlation
Sig. (2-tailed) .000
N 50 50
**. Correlation is significant at the 0.01 level
(2-tailed).
Seluruh item pembentuk variabel sebaiknya memiliki korelasi (r) dengan skor total masing-
masing variabel ≥ 0,25. Karena seluruh item memiliki skor total lebih besar dari 0,25 maka
seluruh item dikatakan valid.

Uji Realibilitas
Uji Reliabilitas dilakukan dengan uji Alpha Cronbach. Rumus Alpha Cronbach sebagai berikut:

Note:
α = Koefisien reliabilitas Alpha Cronbach
K = Jumlah item pertanyaan yang diuji
Σs2i = Jumlah Varians skor item
SX2 = Varians skor-skor tes (seluruh item K)
Kriteria koefisien reliabilitas menurut Guilford (Ruseffendi, 2005:160) adalah sebagai
berikut :

Jika alpha rendah, kemungkinan satu atau beberapa item tidak reliabel: Segera identifikasi dengan
prosedur analisis per item. Item Analysis adalah kelanjutan dari tes Aplha sebelumnya guna
melihat item-item tertentu yang tidak reliabel. Lewat Item Analysis ini maka satu atau beberapa
item yang tidak reliabel dapat dibuang sehingga Alpha dapat lebih tinggi lagi nilainya.
Cara Uji Reliabilitas Variabel X dengan SPSS:
1. Klik Analyze > Scale > Reliability Analysis

2. Masukkan seluruh item Variabel X ke Items, Pastikan pada Model terpilih Alpha

3. Klik OK

Hasil Uji Reliabilitas Variabel

Reliability Statistics
Cronbach's
Alpha N of Items
.863 2
Nilai Alpha Cronbach antara 0,70 – 0,90 maka reliabilitas Tinggi

Langkah Regresi Logistik

1. Klik Analyze > Regression > Binary Logistic

2. Masukkan variable Y sebagai Dependent dan variable X1 dan X2 sebagai covariates

3. Klik OK
Output dan Interpretasi Regresi Logistik

3.1 Uji Serentak


Uji Serentak dilakukan untuk mengetahui signifikansi dari estimasi parameter yang
didapatkan. Dengan menggunakan metode maximum likelihood, diperoleh hasil sebagai berikut :
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 1 Step 23.181 2 .000
Block 23.181 2 .000
Model 23.181 2 .000

H0 : tidak ada variabel X yang signifikan mempengaruhi variabel Y


H1 : minimal ada satu variabel yang signifikan mempengaruhi variabel Y
Korelasi bersama X1 dan X2 → Y (Korelasi majemuk) dengan teknik Chi-Square didapat nilai
Chi-Square 23.181 dengan Nilai Sig 0.000 < 0.05 berarti secara bersama-sama Usia kepala
keluarga (X1) dan Pendapatan Kepala Keluarga (X2) berhubungan dengan kepemilikan rumah
(Y)

Dari tabel di atas, dapat dilihat bahwa model dengan memasukkan tiga variabel independen
ternyata telah terjadi perubahan dalam penaksiran parameter (-2 Log likelihood) sebesar 45,412.
Jika dilihat nilai R-square sebesar 0.371 atau 37,1% (Cox & Snell) dan koefisien determinan
regresi logistik yakni 0.497 sehingga dapat dikatakan kontribusi variabel X1 dan X2 terhadap Y
adalah sebesar 50%
Tabel di atas memperlihatkan bahwa ketepatan prediksi dalam penelitian ini adalah sebesar 82%.

Tolak hipotesis nol (H0) jika nilai p-value signifikansi < 0.05 Dari tabel di atas merupakan tabel
utama dari analisis data dengan menggunakan regresi logistik. Nilai pvalue signifikansi variabel
X1 sebesar 0.543 > 0.05 maka terima H0. Dapat disimpulkan bahwa secara sendirian tidak terdapat
pengaruh yang signifikan X1 terhadap Y dengan nilai koefisien pengaruh sebesar 0,187. Karena
variabel X1 tidak memiliki pengaruh yang signifikan terhadap Y maka lebih baik dihilangkan.

Sedangkan Nilai p-value signifikansi variabel X2 < 0.05 maka tolak H0 yang membuktikan bahwa
terdapat pengaruh yang signifikan X2 terhadap Y.

Hasil Variables in equation setelah variabel X1 dihilangkan

Nilai p-value signifikansi variabel X2 setelah variable X1 dihilangkan menjadi 0,000 < 0.05 maka
tolak H0 yang berarti variabel X2 memiliki pengaruh yang signifikan terhadap Y.
3.2 Interpretasi Odds Ratio (OR)

Nilai Odds ratio ini juga disediakan oleh tabel “Variables in The Equation” pada kolom Exp(B) :

OR = e 0,731 = 2,078 ≈ 2

Berdasarkan hasil spss di atas kita dapat menginterpretasikan Odds ratio sebagai berikut :

1. Jika penghasilan kepala keluarga bertambah 1 juta maka kecenderungan memiliki rumah
menjadi 2,078/2 kali lipat.

Anda mungkin juga menyukai