Oleh :
161610101002
Kelas A
UNIVERSITAS JEMBER
OKTOBER 2017
1
KATA PENGANTAR
Puji dan syukur kehadirat Allah SWT atas segala rahmat dan karunia-Nya,
sehingga penulis dapat menyelesaikan makalah yang berjudul ”Anova”. Makalah
ini disusun untuk memenuhi tugas Ujian Praktikum Tengah Blok pada Blok
Epidemiologi dan Biostatistika di Fakultas Kedokteran Gigi Universitas Jember.
Penulis
2
DAFTAR ISI
HALAMAN JUDUL................................................................................................1
BAB I (PENDAHULUAN)
I.3 TUJUAN………………..……………………………………..……….5
BAB II (PEMBAHASAN)
KESIMPULAN………………...………………….……………………..17
DAFTAR PUSTAKA………………………………….….…..…………………18
3
BAB I
PENDAHULUAN
4
I.2 RUMUSAN MASALAH
I.3 TUJUAN
1. Mengetahui pengertian Uji Regresi Logistik
2. Memahami fungsi Uji Regresi Logistik
3. Memahami macam Uji Regresi Logistik
4. Memahami cara pengaplikasian dan analisa Uji Regresi Logistik dengan
SPSS
5
BAB II
PEMBAHASAN
6
II.3 Macam Uji Regresi Logistik
Berdasarkan skala data, uji regresi logistik dibagi menjadi 3 macam (Antina,
Ahdika, 2015) :
Regresi Logistik Biner ialah regresi dengan variabel respon (y) yang
mempunyai dua kategori atau dua kejadian, yakni sukses atau gagal. Dengan
demikian sering disebut dengan regresi logistik biner. Sedangkan jenis data pada
variabel prediktor (x) dapat berupa nominal, ordinal, interval maupun ratio.
Variabel respon y terdiri dari 2 kategori yaitu sukses dan gagal yang dinotasikan
dengan y=1 (sukses) dan y=0 (gagal). Dalam keadaan demikian, variabel y
mengikuti distribusi Bernoulli untuk setiap observasi tunggal. Fungsi Probabilitas
untuk setiap observasi adalah diberikan sebagai berikut (Hakim, 2014).
Dimana jika y = 0 maka f(y) = 1 – π dan jika y = 1 maka f(y) = π. Fungsi regresi
logistiknya dapat dituliskan sebagai berikut
7
2. Regresi Logistik Multinomial (Multinomial Logistic Regression)
Pada regresi logistik multinomial, data variabel respon yang digunakan adalah
data berskala nominal dengan lebih dari 2 kategori. Sedangkan jenis data pada
variabel prediktor dapat berupa nominal, ordinal, interval maupun ratio. Regresi
logistik multinominal digunakan saat variabel dependen mempunyai skala yang
bersifat polichotomous atau multinomial. Metode yang digunakan dalam penelitian
ini adalah regresi logistik dengan variabel respon berskala nominal dengan tiga
kategori. Model yang digunakan pada regresi logistik multinomial (Subekti, 2014).
Berdasarkan kedua fungsi logit tersebut maka didapatkan model regresi logistik
trchotomous sebagai berikut
8
3. Regresi Logistik Ordinal (Ordinal Logistic Regression)
Pada regresi logistik ordinal, data variabel respon yang digunakan adalah
data berskala ordinal dengan lebih dari 2 kategori. Sedangkan jenis data pada
variabel prediktor dapat berupa nominal, ordinal, interval maupun ratio. Regresi
logistik ordinal digunakan untuk menganalisa hubungan antara variabel respon
dengan variabel prediktor, dimana variabel respon bersifat polikotomus dengan
skala ordinal. Model yang dapat digunakan untuk regresi logistik ordinal adalah
model logit, dimana sifat yang tertuang dalam peluang kumulatif sehingga
cumulative logit models merupakan model yang dapat dibandingkan dengan
peluang kumulatif yaitu peluang kurang dari atau sama dengan kategori respon ke-
r pada p variabel prediktor yang dinyatakan dalam vektor xi adalah P(Y≤ r|xi)
dengan peluang lebih besar dari kategori respon ke-r pada p variabel prediktor P(Y>
r|xi). Peluang kumulatif P(Y≤ r|xi) didefinisikan sebagai berikut.
dengan nilai βk untuk setiap k = 1, 2, …, p pada setiap model regresi logistik ordinal
adalah sama. Jika terdapat tiga kategori respon dimana r = 1, 2, 3 maka peluang
kumulatif dari respon ke-r seperti pada persamaan 4 dan 5.
9
Berdasarkan kedua peluang kumulatif pada persamaan 4 dan 5, didapatkan peluang
untuk masing-masing kategori respon sebagai berikut.
10
II. 5 Pengolahan Data Dengan Spss
1. Identifikasi Data yang Hilang
Menunjukkan kode variabel terikat, yang dalam hal ini adalah 0 untuk
konsumen tidak membeli mobil dan 1 untuk konsumen membeli mobil (Handoko,
2013).
11
3. Uji Signifikansi Omnibus terhadap Model
Merupakan nilai Chi Square (χ2) dari model regresi. Sebagaimana halnya
model regresi linear dengan metode Ordinary Least Square (OLS), kita juga dapat
melakukan pengujian arti penting model secara keseluruhan. Jika metode OLS
menggunakan uji F, maka pada model logit menggunakan uji G. Statistik G ini
menyebar menurut sebaran Chi Square (χ2). Karenanya dalam pengujiannya, nilai
G dapat dibandingkan dengan nilai χ2 tabel pada α tertentu dan derajat bebas (df) =
k-1 (kriteria pengujian dan cara pengujian persis sama dengan uji F pada metode
regresi OLS). Tetapi, kita juga bisa melihat nilai p-value dari nilai G ini yang
biasanya ditampilkan oleh sofware-software statistik, termasuk SPSS. Dari Tabel
4, didapatkan nilai χ2 sebesar 12,822 dengan p-value sebesar 0,005. Karena nilai
tersebut signifikan atau jauh di bawah α = 10%, maka dapat disimpulkan bahwa
model regresi logistik secara keseluruhan dapat menjelaskan kemungkinan
seseorang memiliki kolesterol tinggi (Handoko, 2013).
Cox & Snell R Square merupakan ukuran yang mencoba meniru ukuran R2
pada multiple regression yang didasarkan pada teknik estimasi likelihood dengan
12
nilai maksimum kurang dari 1 sehingga sulit diinterpretasikan. Dilihat dari Tabel 5,
nilai Cox & Snell R Square adalah 0,274 (Handoko, 2013).
Nagelkerke R Square merupakan modifikasi dari koefisien Cox & Snell R
Square untuk memastikan bahwa nilainya bervariasi dari 0 sampai 1. Kisaran nilai
Nagelkerke R Square adalah 0 hingga 1. Semakin nilai Nagelkerke R Square
mendekati angka 1, maka semakin kuat variabel bebas memprediksi variabel
terikat. Hal ini dilakukan dengan cara membagi nilai Cox & Snell R Square dengan
nilai maksimumnya. Oleh karena itu, nilai Nagelkerke R Square dapat
diinterpretasikan seperti nilai R2 pada multiple regression. Dilihat dari output
SPSS, nilai Nagelkerke R Square adalah 0,374. Ini berarti variabilitas variabel
dependen yang dapat dijelaskan oleh variabilitas variabel independen sebesar 0,374
%.
Hipotesis untuk menilai model fit adalah:
H0 = Model yang dihipotesakan fit dengan data.
HA = Model yang dihipotesakan tidak fit dengan data.
Dari hipotesis ini jelas bahwa kita tidak akan menolak H0 agar supaya
model fit dengan data. Dalam data ini digunakan hipotesisnya sebagai berikut:
H0 = tidak ada perbedaan yang nyata antara klasifikasi yang diprediksi (predicted)
dengan klasifikasi yang diamati (observed).
H1= ada perbedaan yang nyata antara klasifikasi yang diprediksi (predicted)
dengan klasifikasi yang diamati (observed).
(Handoko, 2013)
Hosmer and Lemeshow Test menguji hipotesis nol bahwa data empiris
cocok atau sesuai dengan model (tidak ada perbedaan antara model dengan data
sehingga model dapat dikatakan fit) (Handoko, 2013).
13
Dasar pengambilan keputusannya adalah dengan memperhatikan nilai
signifikansi dari Chi Square terhadap kriteria pengujian α = 0.1 pada Hosmer and
Lemeshow Test yaitu:
Jika probabilitas > 0,1 maka H0 diterima
Jika probabilitas < 0,1 maka H1 diterima
Tabel di atas menunjukkan bahwa besarnya nilai Hosmer and Lemeshow Test
sebesar 7,211 dengan probabilitas signifikansi 0,111 > α = 0,1 maka H0 diterima.
Hal ini berarti model regresi binary logistic layak digunakan untuk analisis
selanjutnya, karena tidak ada perbedaan yang nyata antara klasifikasi yang
diprediksi dengan klasifikasi yang diamati (Handoko, 2013).
14
Penafsirannya adalah:
Angka negatif dianggap probabilitas = 0.
Angka > 1 dianggap probabilitas = 1.
Angka di antara 0 sampai 1, probabilitasnya sesuai angka yang tertera.
(Handoko, 2013)
Nilai Exp(B) dari variabel independen umur sebesar 1,031, maka peluang umur
sebesar 1 (karena Exp(B) > 1 maka dibulatkan menjadi 1) dapat diartikan bahwa
seseorang yang berumur lebih tua satu tahun, peluang memiliki kolesterol tinggi
adalah 1,031 kali dibandingkan seseorang yang berumur lebih muda (satu tahun),
jika sejarah keluarga dan jenis kelamin mereka sama. Artinya orang yang lebih tua
memiliki peluang yang lebih tinggi memiliki kolesterol tinggi. Dalam konteks umur
ini (yang merupakan variabel dengan skala rasio), hati-hati menginterpretasikan
nilai perbedaan peluangnya. Jika perbedaan umur lebih dari 1 tahun, misalnya 10
tahun, maka odds ratio-nya akan menjadi 0,31, yang diperoleh dari perhitungan exp
(10 x 0,031). Artinya peluang seseorang memiliki kolesterol tinggi berumur lebih
tua 10 tahun adalah 0,31 kali dibandingkan konsumen yang lebih muda (10 tahun)
darinya (Handoko, 2013).
Nilai Exp(B) variabel independen jenis kelamin (jenis kelamin dimana 1 =
wanita dan 0 = pria) sebesar 2,702, maka peluang jenis kelamin sebesar 2,702.
Dapat diartikan bahwa peluang wanita memiliki kolesterol tinggi adalah 2,702 kali
dibandingkan pria, jika umur dan sejarah keluarga mereka sama. Artinya wanita
memiliki peluang lebih tinggi memiliki kolesterol tinggi dibandingkan pria
(Handoko, 2013).
Nilai Exp(B) variabel independen sejarah keluarga sebesar 11,115, maka
peluang orang yang memiliki sejarah keluarga kolesterol tinggi sebesar 11,115.
dapat diartikan bahwa peluang seseorang yang memiliki sejaarah keluarga
berkolesterol tinggi adalah 11,115 kali dibandingkan seseorang yang tidak memiliki
sejarah keluarga berkolesterol tinggi, jika umur dan jenis kelaminnya sama
(Handoko, 2013).
Untuk menguji faktor mana yang berpengaruh nyata seseorang yang memiliki
kolesterol tinggi tersebut, dapat menggunakan uji signifikansi dari parameter
15
koefisien secara parsial dengan statistik uji Wald, yang serupa dengan statistik uji t
atau uji Z dalam regresi linear biasa, yaitu dengan membagi koefisien terhadap
standar error masing-masing koefisien. Dengan uji t (Uji Wald) dan p-value-nya
(dengan menggunakan kriteria pengujian α = 10%) terlihat bahwa X3 berpengaruh
nyata (karena memiliki p-value dibawah 10%) seseorang yang memiliki kolesterol
tinggi. Variabel independen umur dan jenis kelamin tidak signifikan pada α = 10%,
namun model regresi ini layak digunakan untuk memprediksi variabel seseorang
berkolesterol tinggi, karena secara faktual variabel independen berupa umur dan
jenis kelamin bisa saja mempengaruhi seseorang berkolesterol tinggi.
Ketidaksignifikan data ini mungkin disebabkan karena pengumpulan data yang
kurang akurat atau terbatasnya sampel yang diambil (Handoko, 2013).
16
BAB III
PENUTUP
KESIMPULAN
17
DAFTAR PUSTAKA
Hosmer, D. W., dan Lemeshow, S. 1989. Applied Logistic Regression. New York:
John Wiley & Sons.
18