Anda di halaman 1dari 17

LEMBAR KERJA MAHASISWA

Nama : Muchamad Nur Kholis


NIM : 19611095
Kelas : C

Praktikum Analisis Data Kategorik


Modul 6: Regresi Logistik Biner

1. Studi Kasus
Suatu perusahaan mengadakan open recruitment untuk posisi karyawan baru yang
ditujukan untuk fresh graduate. Penelitian dilakukan untuk melihat pengaruh nilai IPK, skor
TOEFL, dan keikutsertaan mengikuti training leadership terhadap hasil kelulusan recruitment.
Dimiliki variabel-variabel berikut:
Hasil recruitment : 1 = Lulus; 0 = Tidak Lulus
Skor TOEFL : Nilai TOEFL terakhir
Keikutsertaan training : 1 = Mengikuti training; 0 = Tidak mengikuti training
IPK : Indeks Prestasi Kumulatif

Berikut data yang digunakan:


Tabel 1. 1. Data Open Recruitment

Skor
Hasil Recruitment IPK Keikutsertaan Training
TOEFL
0 2,76 410 1
0 2,87 530 1
0 3,03 560 1
1 3,92 607 1
0 2,63 520 1
0 3,32 520 1
0 3,57 563 1
1 3,26 600 1
0 3,53 365 1
0 2,74 550 1
0 2,75 467 1
0 2,83 467 1
0 3,12 550 0
1 3,16 611 0
0 2,06 563 0
1 3,62 650 0
0 2,89 389 0
0 3,51 620 0
1 3,54 600 0
1 2,83 635 0
1 3,39 467 0
0 2,67 600 0
1 3,65 550 0
1 4,00 580 0
0 3,10 550 0
1 2,39 490 0

Dengan studi kasus yang telah dipaparkan, permasalahan yang harus diselesaikan adalah
sebagai berikut :
1. Lakukanlah analisis regresi logistik biner menggunakan SPSS!
2. Tuliskan model yang didapatkan dari data tersebut !
3. Berapa peluang seseorang lulus recruitment dengan skor TOEFL = 431, IPK = 2,19, dan
mengikuti training leadership?
4. Berapa peluang seseorang lulus recruitment dengan skor TOEFL = 545, IPK = 3,81, dan
tidak mengikuti training leadership?

*soal tambahan (opsional, boleh dikerjakan boleh tidak (untuk menambah nilai))
1. Lakukanlah analisis regresi logistik biner menggunakan R sesuai video di modul 6.
2. Deskripsi Kerja
1. Sebelum memasuki studi kasus, inputkan data yang akan dianalisis dengan SPSS.
Pertama-tamap buka software SPSS lalu klik pada bagian Variable View seperti pada
gambar berikut.

Gambar 2. 1. Variable View pada SPSS


2. Lalu, praktikan mengisikan variabel-variabel terkait dan sesuaikan dengan tipe datanya
seperti pada gambar berikut.

Gambar 2. 2. Mengisi Variabel-variabel Terkait


3. Kemudian, kodekan input pada kolom “Hasil” dengan 0 untuk “Tidak Lulus” dan 1 untuk
“Lulus” seperti pada gambar berikut.

Gambar 2. 3. Memberi Value Labels pada Variabel Hasil


4. Kodekan juga input pada kolom “Training” dengan 0 untuk “Tidak Ikut” dan 1 untuk
“Ikut” seperti pada gambar berikut.

Gambar 2. 4. Memberi Value Labels pada Variabel Training


5. Selanjutnya, masukkan data dari Tabel 1. 1 ke dalam SPSS seperti pada gambar berikut.

Gambar 2. 5. Memasukkan Data ke SPSS


6. Kemudian, praktikan melakukan analisis regresi logistik biner dengan cara pada Menu
pilih Analyze > Regression > Binary Logistic… seperti pada gambar berikut.

Gambar 2. 6. Melakukan Analisis Regresi Biner


7. Lalu, akan muncul tampilan logistic regression. Pada bagian Dependent isikan dengan
variabel “Hasil” sedangkan pada bagian covariates isikan dengan variabel “IPK”,
“Skor_TOEFL”, dan “Training” dengan Method pilih “Enter” seperti pada gambar
berikut.

Gambar 2. 7. Membuat Model Logistik Biner


8. Sebelumnya praktikan telah membuat model logistik biner dengan mengisi bagian
Dependent dan Covariates. Langkah selanjutnya, klik save lalu pada bagian Predicted
Values centang “Probabilities” dan “Group membership” seperti pada gambar berikut.
Lalu klik Continue.

Gambar 2. 8. Mengatur Predicted Values


9. Kemudian, praktikan akan kembali pada tampilan Logistic Regression. Setelah itu, klik
Options lalu pada bagian Statistics and Plots centang “Classification plots” dan
“Hosmer-Lemeshow goodness-of-fit” seperti pada gambar berikut. Lalu klik Continue
dan akan kembali ke tampilan Logistic Regression. Kemudian, klik OK.

Gambar 2. 9. Mengatur Options


10. Setelah melihat hasil, ternyata terdapat variabel yang tidak signifikan, maka perlu
dilakukan metode backward: wald untuk menghapus variabel yang tidak signifikan.
Dapat dilakukan pengujian ulang dengan cara pilih menu Analyze > Regression > Binary
Logistic. Kemudian pilih pada Dependent pilih variabel “Hasil” dan pada Covariates
pilih variabel “IPK” dan “Training” dengan menggunakan method “Backward: Wald”
seperti pada Gambar 2.10. Setelah itu, lakukan seperti pada Langkah kerja ke-8 dan 9.
Kemudian, klik Continue dan klik OK.

Gambar 2. 10. Melakukan Backward


11. Selanjutnya, praktikan akan mengerjakan studi kasus dengan software R. Pertama-tama,
buka software R lalu impor data ke dalam R dengan syntax read.csv() seperti pada
gambar berikut.

Gambar 2. 11. Memasukkan Data ke R


12. Kemudian, praktikan membuat model logistik biner dengan syntax glm() dengan model
yang sama yaitu “Hasil ~ IPK” seperti berikut.

Gambar 2. 12. Memuat Model Logistik Biner dengan R


13. Selanjutnya, praktikan melakukan uji overall. Untuk melakukan uji overall ini,
dibutuhkan packages “pscl”. Oleh karena itu, aktifkan packages “pscl” dengan syntax
library(). Kemudian, praktikan mencari statistik dari model dengan syntax pR2() lalu

praktikan akan mengambil nilai G2 dan dimasukkan ke variabel “G2”. Setelah itu,
praktikan mencari nilai pvalue dengan syntax pchisq(). Syntax keseluruhan untuk uji
overall seperti berikut.

Gambar 2. 13. Melakukan Uji Overall dengan R


14. Lalu, untuk melihat statistik dari model yang dibuat gunakan syntax summary()seperti
pada gambar berikut.

Gambar 2. 14. Melihat Statistik dari Model yang Dibuat dengan R


3. Pembahasan
Sebelumnya telah dipaparkan deskripsi kerja mengenai langkah kerja untuk
menyelesaikan studi kasus. Pada bab kali ini praktikan akan menjelaskan lebih detail lagi
mengenai hal tersebut.
Pada studi kasus tersebut, praktikan diminta melakukan analisis regresi biner dari
Tabel 1. 1. Untuk melakukan analisis regresi biner ini, praktikan menggunakan bantuan
software SPSS maupun R.
3.1 Penyelesaian dengan SPSS
Yang perlu diperhatikan dalam melakukan analisis regresi biner ini yaitu praktikan
perlu membuat value label untuk tiap-tiap tipe data kategorik (variabel Hasil dan Training)
dengan cara klik Variable View pada bagian bawah layar dan isikan kode pada kolom
“Values” seperti yang dijelaskan pada Langkah Kerja. Kemudian, praktikan menginputkan
data ke SPSS seperti pada Gambar 2. 5.
Selanjutnya, praktikan melakukan analisis regresi biner dengan cara pada menu pilih
Analyze > Regression > Binary Logistic seperti pada Gambar 2. 6. Lalu, akan muncul
tampilan logistic regression. Pada bagian Dependent isikan dengan variabel “Hasil”
sedangkan pada bagian covariates isikan dengan variabel “IPK”, “Skor_TOEFL”, dan
“Training” dengan Method pilih “Enter” seperti pada Gambar 2. 7. Kemudian, klik save lalu
pada bagian Predicted Values centang “Probabilities” dan “Group membership” seperti pada
Gambar 2. 8. Dan yang terakhir, klik Options lalu pada bagian Statistics and Plots centang
“Classification plots” dan “Hosmer-Lemeshow goodness-of-fit” seperti pada Gambar 2. 9.
Kemudian, klik Continue dan akan kembali ke tampilan Logistic Regression. Lalu, klik OK.
Maka akan terdapat output seperti pada Gambar 3. 1..

Gambar 3. 1. Output Metode Enter


Setelah melihat hasil pada Gambar 3. 1., ternyata terdapat variabel yang tidak
signifikan yaitu pada variabel “Skor_TOEFL” karena 𝑝𝑣𝑎𝑙𝑢𝑒 = 0.254 > 𝛼 = 0.05, maka
perlu dilakukan metode backward: wald untuk menghapus variabel yang tidak signifikan.
Dapat dilakukan pengujian ulang dengan cara pilih menu Analyze > Regression > Binary
Logistic. Kemudian pilih pada Dependent pilih variabel “Hasil” dan pada Covariates pilih
variabel “IPK” dan “Training” dengan menggunakan method “Backward: Wald” seperti
pada Gambar 2.10. Setelah itu, lakukan seperti pada Langkah kerja ke-8 dan 9. Kemudian,
klik Continue dan klik OK. Dan didapat hasil bahwa semua variabel sudah signifikan. Lalu,
akan dilakukan uji lanjutan.

Uji Signifikansi Parameter (Overall)


1. Hipotesis Uji
H0 : 𝛽𝑖 = 0; 𝑖 = 1,2 (Tidak ada pengaruh variabel bebas secara simultan terhadap
variabel tak bebas)
H1 : Minimal terdapat 𝛽𝑖 ≠ 0 (Ada pengaruh paling sedikit satu variabel bebas terhadap
variabel yang tak bebas)
2. Taraf signifikansi
𝛼 = 5% = 0.05
3. Daerah Kritis
H0 ditolak jika 𝑝𝑣𝑎𝑙𝑢𝑒 < 𝛼
4. Statistik Uji

Gambar 3. 2. Output Uji Overall


5. Keputusan
Karena 𝑝𝑣𝑎𝑙𝑢𝑒 = 0.006 < 𝛼 = 0.05, maka tolak 𝐻0
6. Kesimpulan
Dengan tingkat kepercayaan 95% , data yang ada menolak 𝐻0 , yang artinya terdapat
minimal 1 pengaruh variabel independen terhadap variabel dependen sehingga model
layak digunakan.

Gambar 3. 3. Output Uji Parsial


Uji Parsial
1. Hipotesis Uji
H0 : 𝛽𝑖 = 0; 𝑖 = 1,2 (Variabel bebas ke-i tidak memiliki pengaruh signifikan terhadap
variabel tidak bebas)
H1 : 𝛽𝑖 ≠ 0; 𝑖 = 1,2 (Variabel bebas ke-i memiliki pengaruh signifikan terhadap variabel
tidak bebas)
2. Taraf signifikansi
𝛼 = 5% = 0.05
3. Daerah Kritis
H0 ditolak jika 𝑝𝑣𝑎𝑙𝑢𝑒 < 𝛼
4. Statistik Uji dan Keputusan
Variabel 𝑝𝑣𝑎𝑙𝑢𝑒 Tanda 𝛼 Keputusan
Training 0.042 < Tolak 𝐻0
0.05
IPK 0.045 < Tolak 𝐻0

5. Kesimpulan
Dengan tingkat kepercayaan 95%, data yang ada menolak 𝐻0 , yang artinya variabel
bebas ke-i memiliki pengaruh signifikan terhadap variabel tak bebas.
Interpretasi Model

Gambar 3. 4. Estimasi Model


• Model Peluang
𝑒𝑥𝑝( 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 )
𝜋(𝑥) =
1 + 𝑒𝑥𝑝( 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 )
𝑒𝑥𝑝( − 7.482 + 2.492 𝑥1 − 2.166 𝑥2 )
𝜋(𝑥) =
1 + 𝑒𝑥𝑝( − 7.482 + 2.492 𝑥1 − 2.166 𝑥2 )
• Model Logit
𝑔(𝑥) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2
𝑔(𝑥) = −7.482 + 2.492 𝑥1 − 2.166 𝑥2
Dengan 𝑥1 adalah IPK dan 𝑥2 adalah keikutsertaan dalam training.
Sehingga, jika kita mengabaikan nilai pada variabel 𝑥1 (IPK) dan 𝑥2 (Training), g(x)
akan bernilai sebesar -7.482. Dengan mengabaikan variabel yang lain, setiap penambahan
satu satuan pada nilai 𝑥1 (IPK) akan meningkatkan nilai 𝑔(𝑥) sebesar 2.492, sedangkan
setiap penambahan satu satuan pada nilai 𝑥2 (Training) akan mengurangi nilai 𝑔(𝑥) sebesar
2.166. Dalam hal ini, 𝑔(𝑥) adalah variabel dependen yaitu variabel Hasil.

Odds Ratio

Gambar 3. 5. Nilai Odds Ratio


Odds Ratio merupakan ukuran resiko atau kecenderungan untuk mengalami kejadian
sukses 1 kategori dengan kategori lainnya. Dari hasil output di atas dapat dilihat bahwa nilai
Exp(Bx1 ) = 12.081, maka setiap kenaikan satu satuan 𝑥1 akan berpengaruh sebanyak 12.081
kali lebih besar untuk mendukung terjadinya Y=1. Sedangkan, Exp(Bx2 ) = 0.115, maka
setiap kenaikan satu satuan 𝑥2 akan berpengaruh sebanyak 0.115 kali lebih besar untuk
mendukung terjadinya Y=1.

Uji Goodness of Fit


1. Hipotesis Uji
H0 : Model cukup mampu menjelaskan data
H1 : Model tidak cukup mampu menjelaskan data
2. Taraf signifikansi
𝛼 = 5% = 0.05
3. Daerah Kritis
H0 ditolak jika 𝑝𝑣𝑎𝑙𝑢𝑒 < 𝛼
4. Statistik Uji

Gambar 3. 6. Output Uji Goodness of Fit


5. Keputusan
Karena 𝑝𝑣𝑎𝑙𝑢𝑒 = 0.907 > 𝛼 = 0.05, maka gagal tolak 𝐻0
6. Kesimpulan
Dengan tingkat kepercayaan 95% , data yang ada gagal menolak 𝐻0 , yang artinya model
cukup mampu menjelaskan data atau layak digunakan.

R Squared

Gambar 3. 7. Nilai R Squared


Dari tabel model summary di atas dapat dilihat bahwa nilai R-Square (Nagelkerke R
Square) sebesar 0.443 yang artinya bahwa pengaruh faktor atau variabel 𝑥1 dan 𝑥2 terhadap
variabel Y sebesar 44.3%, sedangkan 55.7% lainnya dipengaruhi oleh faktor lain di luar
model.

Tabel Klasifikasi

Gambar 3. 8. Tabel Klasifikasi


Dari output tabel klasifikasi tersebut, didapatkan hasil bahwa:
• Dari 16 data dengan label Y=0, model yang ada mampu memprediksi dengan benar pada
13 data dengan nilai Y=0 dan 3 data lainnya terprediksi sebagai Y=1.
• Dari 10 data dengan label Y=1, model yang ada mampu memprediksi dengan benar pada
7 data dengan nilai Y=1 dan 3 data lainnya terprediksi sebagai Y=0.

3.2 Penyelesaian dengan R


Selanjutnya, praktikan akan mengerjakan studi kasus dengan software R. Pertama-
tama, buka software R lalu impor data ke dalam R dengan syntax read.csv() seperti pada
Gambar 2. 11. Kemudian, praktikan membuat model logistik biner dengan syntax glm()
dengan model yang sama yaitu “Hasil ~ IPK” seperti pada Gambar 2. 12.
Selanjutnya, praktikan melakukan uji overall. Untuk melakukan uji overall ini,
dibutuhkan packages “pscl”. Oleh karena itu, aktifkan packages “pscl” dengan syntax
library(). Kemudian, praktikan mencari statistic dari model dengan syntax pR2() lalu
praktikan akan mengambil nilai G2 dan dimasukkan ke variabel “G2”. Setelah itu, praktikan
mencari nilai pvalue dengan syntax pchisq(). Syntax keseluruhan untuk uji overall seperti
pada Gambar 2. 13. Maka, akan didapat hasil seperti pada Gambar 3. 9..
Gambar 3. 9. Uji Overall dengan R
Dari output pada Gambar 3. 9. Didapat nilai G2 (statistik chi-square) sebesar 10.25502
dan didapat nilai pvalue sebesar 0.0059313. Hasil ini sama dengan hasil yang didapat dengan
software SPSS.

Uji Signifikansi Parameter (Overall)


1. Hipotesis Uji
H0 : 𝛽𝑖 = 0; 𝑖 = 1,2 (Tidak ada pengaruh variabel bebas secara simultan terhadap
variabel tak bebas)
H1 : Minimal terdapat 𝛽𝑖 ≠ 0 (Ada pengaruh paling sedikit satu variabel bebas terhadap
variabel yang tak bebas)
2. Taraf signifikansi
𝛼 = 5% = 0.05
3. Daerah Kritis
H0 ditolak jika 𝑝𝑣𝑎𝑙𝑢𝑒 < 𝛼
4. Statistik Uji
G2 df pvalue
10.25502 2 0.0059313

5. Keputusan
Karena 𝑝𝑣𝑎𝑙𝑢𝑒 = 0.0059313 < 𝛼 = 0.05, maka tolak 𝐻0
6. Kesimpulan
Dengan tingkat kepercayaan 95% , data yang ada menolak 𝐻0 , yang artinya terdapat
minimal 1 pengaruh variabel independen terhadap variabel dependen sehingga model
layak digunakan.

Kemudian, untuk melihat statistik dari model yang dibuat gunakan syntax
summary()seperti pada Gambar 2. 14. Dari output ini akan didapat nilai estimasi maupun
uji parsial. Hasil yang didapat seperti pada Gambar 3. 10..

Gambar 3. 10. Statistik dari Model

Uji Parsial
1. Hipotesis Uji
H0 : 𝛽𝑖 = 0; 𝑖 = 1,2 (Variabel bebas ke-i tidak memiliki pengaruh signifikan terhadap
variabel tidak bebas)
H1 : 𝛽𝑖 ≠ 0; 𝑖 = 1,2 (Variabel bebas ke-i memiliki pengaruh signifikan terhadap variabel
tidak bebas)
2. Taraf signifikansi
𝛼 = 5% = 0.05
3. Daerah Kritis
H0 ditolak jika 𝑝𝑣𝑎𝑙𝑢𝑒 < 𝛼
4. Statistik Uji dan Keputusan
Variabel 𝑝𝑣𝑎𝑙𝑢𝑒 Tanda 𝛼 Keputusan
Training 0.0419 < Tolak 𝐻0
0.05
IPK 0.0453 < Tolak 𝐻0

5. Kesimpulan
Dengan tingkat kepercayaan 95%, data yang ada menolak 𝐻0 , yang artinya variabel
bebas ke-i memiliki pengaruh signifikan terhadap variabel tak bebas.

Interpretasi Model

• Model Peluang
𝑒𝑥𝑝( 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 )
𝜋(𝑥) =
1 + 𝑒𝑥𝑝( 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 )
𝑒𝑥𝑝( − 7.482 + 2.492 𝑥1 − 2.166 𝑥2 )
𝜋(𝑥) =
1 + 𝑒𝑥𝑝( − 7.482 + 2.492 𝑥1 − 2.166 𝑥2 )
• Model Logit
𝑔(𝑥) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2
𝑔(𝑥) = −7.482 + 2.492 𝑥1 − 2.166 𝑥2
Dengan 𝑥1 adalah IPK dan 𝑥2 adalah keikutsertaan dalam training.
Sehingga, jika kita mengabaikan nilai pada variabel 𝑥1 (IPK) dan 𝑥2 (Training), g(x)
akan bernilai sebesar -7.482. Dengan mengabaikan variabel yang lain, setiap penambahan
satu satuan pada nilai 𝑥1 (IPK) akan meningkatkan nilai 𝑔(𝑥) sebesar 2.492, sedangkan
setiap penambahan satu satuan pada nilai 𝑥2 (Training) akan mengurangi nilai 𝑔(𝑥) sebesar
2.166. Dalam hal ini, 𝑔(𝑥) adalah variabel dependen yaitu variabel Hasil.

3.3 Prediksi
Jika seseorang dengan skor TOEFL = 431, IPK = 2,19, dan mengikuti training
leadership, maka peluang dia lulus recruitment adalah
𝑒𝑥𝑝( − 7.482 + 2.492 𝑥1 − 2.166 𝑥2 )
𝜋(𝑥) =
1 + 𝑒𝑥𝑝( − 7.482 + 2.492 𝑥1 − 2.166 𝑥2 )
𝑒𝑥𝑝( − 7.482 + 2.492 (2.19) − 2.166 (1))
= = 0.01491
1 + 𝑒𝑥𝑝( − 7.482 + 2.492 (2.19) − 2.166 (1))
Jadi, peluang seseorang lulus recruitment dengan skor TOEFL = 431, IPK = 2,19, dan
mengikuti training leadership adalah 0.01491.
Jika sesorang dengan skor TOEFL = 545, IPK = 3,81, dan tidak mengikuti training
leadership, maka peluang dia lulus recruitment adalah
𝑒𝑥𝑝( − 7.482 + 2.492 𝑥1 − 2.166 𝑥2 )
𝜋(𝑥) =
1 + 𝑒𝑥𝑝( − 7.482 + 2.492 𝑥1 − 2.166 𝑥2 )
𝑒𝑥𝑝( − 7.482 + 2.492 (3.81) − 2.166 (0))
= = 0.88211
1 + 𝑒𝑥𝑝( − 7.482 + 2.492 (3.81) − 2.166 (0))
Jadi, peluang seseorang lulus recruitment dengan skor TOEFL = 431, IPK = 2,19, dan
mengikuti training leadership adalah 0.88211.

Anda mungkin juga menyukai