Anda di halaman 1dari 16

TUGAS ANALISIS DATA KATEGORIK

REGRESI LOGISTIK MULTINOMIAL


Dosen Pembimbing : Fitri Catur Lestari S.Si. , M.Si.

Kelompok 3 Kelas 3SK5:

Achmad Tasylichul Adib

Kwinta Rahmidatul Nanda (14.8209)

Lely Mariani Rosenta R.

(14.8214)

Radita Nareswari MP

(14.8322)

Rezki Melany Sabil

(14.8338)

Yulintin Riana Dewi

(14.8438)

(14.7939)

SEKOLAH TINGGI ILMU STATISTIK


JAKARTA
2017

1. Kajian Teori
Regresi logistik multinomial adalah model regresi yang digunakan untuk menyelesaikan
kasus regresi dengan variabel Y (dependent) berupa data kualitatif berbentuk multinomial (lebih
dari dua kategori) dengan satu atau lebih variabel X (independent). Misal X variabel independen
yang berukuran (p+1) dan variabel dependen Y (j kategori) mempunyai kategori j = 0, 1, 2 dengan
2

probabilitas respon 0, 1, 2 dan

j
j=0

1. Probabilitas bersyarat P ( y = j x ) = j (x), j = 0, 1,

2. Maka probabilitas bersyarat j = 0,1,2 dapat ditulis:


0 ( x )=

1
1+e

g 1 (x)

+e

g2 (x)

e g (x)
1 ( x )=
1+e g ( x)+ e g ( x)
1

2 ( x )=

e g (x)
1+e g ( x)+ e g ( x)
2

Dengan fungsi logit sebagai berikut:


g1 ( x )= 0 + 11 x 1+ 12 x 2
g2 ( x )= 0 + 21 x 1 + 22 x 2
Persamaan model regresi logistik multinomial dapat dituliskan sebagai berikut:

g j x j 0 j1 x1 j 2 x 2 ... jp x p

, dengan

variabel kategori politomus dengan skala nominal,


adalah parameter.

g j x
xp

menyatakan variabel dependen berupa

menyatakan variabel independen, dan

jp

Metode yang digunakan untuk mengestimasi parameter model regresi logistik multinomial
adalah metode maksimum likelihood (maximum likelihood methods). Persamaan likelihood pada
regresi logistik multinomial merupakan persamaan nonlinear dalam parameter koefisien regresi
, sehingga untuk menyelesaikan persamaan tersebut sampai diperoleh nilai estimasi
parameternya digunakan algoritma Newton Raphson. Kemudian setelah diperoleh estimasi
parameter, dilakukan uji taraf nyata parameter menggunakan Uji rasio likelihood dan uji Wald.
Langkah-langkah dalam Analisis Regresi Logistik Multinomial:
1. Melakukan pengujian parameter secara simultan untuk mengetahui kecocokan model analisis
tersebut.

Pengujian parameter dengan uji likelihood ratio (uji simultan atau uji G).
Statistik uji G, yaitu uji yang digunakan untuk menguji peranan variabel independen dalam
model secara bersama-sama (Hosmer dan Lemeshow, 1989).
Pengujian hipotesis:
H0: 1 = = p = 0 (tidak ada pengaruh antara sekumpulan variabel independen dengan
variabel dependen)
H1: minimal ada satu j 0 (minimal ada satu variabel independen yang berpengaruh terhadap
variabel dependen)
Dengan uji statistik :
l0
lk
2
2
Tolak H0 jika G > ,df atau p-value
[]
2
G =2 ln
dimana:
l0 adalah likelihood tanpa variabel bebas.
lk adalah likelihood dengan variabel bebas.
2. Melakukan pengujian parameter secara parsial untuk mengetahui variabel bebas yang paling
berpengaruh dalam model tersebut.
Pengujian variabel dilakukan satu per satu menggunakan statistik Uji Wald (Hosmer dan
Lemeshow, 1989). Uji ini dilakukan dengan membandingkan model terbaik yang dihasilkan
oleh uji simultan terhadap model tanpa variabel bebas di dalam model terbaik.
Pengujian Hipotesis:
H0: j = 0, artinya tidak ada pengaruh antara variabel independen ke-j terhadap variabel
dependen.
H1: j 0, artinya ada pengaruh variabel independen terhadap variabel dependen.
Statistik uji:
^

2
se
^
j

W =
j = 0, 1, 2, ... , p
2
Tolak H0 jika W > , df
dimana

atau p-value

^ j
adalah penduga dari j.

3. Melakukan Uji Kesesuaian Model.


H0: Model sesuai.
H1: Model tidak sesuai.
Statistik uji yang digunakan adalah chi-square
2
g
( O jn j j )
2
=
j ( 1 j )
j=1 n j

g=1 0 (Azen & Walker)

Tolak H0 jika

> ,df

atau p-value

4. Melakukan interpretasi terhadap nilai rasio kecenderungan yang terbentuk.


Rasio kecenderungan adalah ukuran yang memperkirakan berapa besar kecenderungan
variabel-variabel independen terhadap variabel dependen (Hosmer dan Lemeshow, 1989). Odds
ratio digunakan untuk mengetahui risiko kecenderungan untuk mengalami suatu kejadian
tertentu antara kategori yang satu dengan yang lain dalam suatu variabel yang dinotasikan
dengan .

2. Penjelasan Kasus
FAKTOR-FAKTOR YANG MEMPENGARUHI MAHASISWA
MEMILIH JENIS PERKULIAHAN DI UNIVERSITY OF CALIFORNIA
(UCLA)
Peneliti tertarik untuk membahas tentang faktor-faktor yang
mempengaruhi mahasiswa memilih Jenis Kelas Perkuliaham di University of
California (UCLA). Data yang digunakan merupakan data sekunder yang
bersumber dari website University of California (UCLA). Data kemudian
diolah menggunakan SPSS.
Variabel dependen:
Jenis perkuliahan, yang terdiri dari 3 kategori:
a. General
b. Academic
c. Vocational (kategori referensi)
Variabel independen:
a. Status sosial ekonomi (kategorik), tediri dari 3 kategori:
Low } diberi kode 0
Medium
High
diberi kode 1
b. Total score ujian (kontinu)
Dalam hal ini, metode yang digunakan adalah adalah regresi logistik
multinomial karena variabel dependen (jenis perkuliahan) berupa data
kualitatif kategorik dengan jumlah kategori lebih dari 2 kategori.
3. Data
Data di lampiran file spss.
4. Pengolahan Data (Langkah-langkah)
Langkah-langkah pengolahan data:
1. Buka aplikasi SPSS pada komputer. Pada penelitian ini, peneliti
menggunakan SPSS versi 21
2. Buka file data hsbdemo.sav , yang akan diolah pada komputer

3. Berikutnya data akan menampilkan beberapa variable. Pada pengolahan


ini variable independent yang digunakan ialah type of program (prog),
sedangkan variable dependent ialah social economic status(ses) & Total
Score (Total_score).

4. Mentransformasikan variabel-variabel kategorik menjadi variabel dummy.


0 = low
1 = middle and high
Caranya klik Transform Record into Different Variables kemudian
pilih variabel social economic status (ses), beri nama label kemudian klik
Old and New Values. Setelah itu, klik Value pada Old Value dan New
Value, kemudian ganti new Value dengan angka 0 = Urban dan 1 = Rural.

5. Selanjutnya dilakukan regresi dengan cara klik Analyze -> Regression->


Multinomial Logistic. Kemudian pada kolom dependent masukkan
variable type of program(prog), pada kolom Factor(s) masukkan variable
ses yang telah di recode yaitu ses_ dan variable total score (total_score)

pada kolom covariate(s).


Sedangkan pada reference
menggunakan last category yakni kategori vocation.

category,

6. Pada pilihan button Statistics, beri tanda centang pada Case Processing
Summary,Pseudo R-Square, Step Summary,Model fitting information,
Classification table, Goodness of fit, Estimates, Likelihood ratio test dan
Covariate patterns defined by factors and covariates. Akan muncul kotak
dialog seperti pada gambar dibawah ini

7. Selanjutnya pilih continue dan akan menghasilkan output seperti pada


gambar dibawah
Case Processing Summary
N

type
program

of

ses_
Valid
Missing
Total
Subpopulation

general
academ
ic
vocation
.00
1.00

45
105

Marginal
Percentage
22.5%
52.5%

50
47
153
200
0

25.0%
23.5%
76.5%
100.0%

200
139a

a. The dependent variable has only one value observed in


106 (76.3%) subpopulations.

Model Fitting Information

Model

Intercept
Only
Final

Model Fitting
Criteria
-2 Log
Likelihood
349.602

Likelihood Ratio Tests


ChiSquare

290.231

59.371

Goodness-of-Fit
Chidf
Square
259.078
272

Pearso
n
Devian
ce

238.911

df

272

Sig.

.000

Sig.
.703
.927

Pseudo R-Square
Cox
and
.257
Snell
Nagelkerke
.295
McFadden
.145
Likelihood Ratio Tests
Effect

Model Fitting
Criteria
-2 Log
Likelihood of
Reduced
Model
290.231a
344.480

Likelihood Ratio Tests


ChiSquare

df

Sig.

Intercept
.000
0
.
Total_scor
54.249
2
.000
e
ses_
294.647
4.416
2
.110
The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model
is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0.
a. This reduced model is equivalent to the final model because omitting the effect does not increase the degrees of freedom.

type of programa

Std.
Error

Parameter Estimates
Wald
df
Sig.

Exp(
B)

95% Confidence Interval for


Exp(B)
Lower Bound
Upper Bound

1.651
11.615
5.6
27
.
.033
10.839
Total_score
10
general
8
1.0
.496
4.198
[ses_=.00]
16
[ses_=1.00]
0b
.
.
1.621
32.212
Intercept
9.1
99
.
.032
36.990
Total_score
19
academ
3
ic
.
.494
.950
[ses_=.00]
48
1
[ses_=1.00]
0b
.
.
a. The reference category is: vocation.
b. This parameter is set to zero because it is redundant.

.001

.001

1.114

1.045

1.187

.040

2.763

1.045

7.305

0
1

.
.000

.000

1.213

1.140

1.291

.330

1.618

.615

4.261

Intercept

Observed

general
academic
vocation
Overall
Percentage

Classification
Predicted
genera
academ
vocatio
l
ic
n
6
28
11
7
88
10
4
22
24
8.5%
69.0%
22.5%

Percent
Correct
13.3%
83.8%
48.0%
59.0%

5. Interpretasi
a. Uji Simultan
H0: Tidak ada variabel independen yang secara signifikan mempengaruhi
variabel dependen
H1: Minimal ada satu variabel independn yang secara signifikan
mempengaruhi variabel dependen
: 0,05
Statistik Uji: Likelihood Ratio Test

Model

Intercept Only
Final

Model Fitting Information


Model Fitting
Likelihood Ratio Tests
Criteria
-2 Log Likelihood Chi-Square
df
Sig.
349.602
290.231

59.371

.000

x hit 59,371

p-value = 0,000
Wilayah kritis: Tolak H0 jika p-value
Keputusan: Tolak H0 karena p-value (0,000) (0,05)
Kesimpulan: Dengan tingkat signifikansi 5% dapat disimpulkan bahwa
minimal ada satu variabel yang mempengaruhi mahasiswa dalam
pemilihan jenis kelas perkuliahan.
b. Uji Parsial
Likelihood Ratio Tests
Model Fitting
Likelihood Ratio Tests
Criteria
-2 Log Likelihood Chi-Square
df
Sig.
of Reduced
Model
Intercept
290.231a
.000
0
.
Total_score
344.480
54.249
2
.000
ses_
294.647
4.416
2
.110
The chi-square statistic is the difference in -2 log-likelihoods between the
final model and a reduced model. The reduced model is formed by
omitting an effect from the final model. The null hypothesis is that all
parameters of that effect are 0.
a. This reduced model is equivalent to the final model because omitting
the effect does not increase the degrees of freedom.
Effect

Status sosial ekonomi


H0: Status sosial ekonomi tidak berpengaruh secara signifikan terhadap
variabel pemilihan jenis kelas perkuliahan
H1: Status sosial ekonomi berpengaruh secara signifikan terhadap variabel
pemilihan
jenis kelas perkuliahan
: 0,05
Statistik Uji:
x hit 4,416

p-value = 0,110

Wilayah Kritis: Tolak H0 jika p-value


Keputusan: Gagal tolak H0 karena p-value (0,110) > (0,05)
Kesimpulan: Dengan tingkat signifikansi 5% dapat disimpulkan bahwa
status sosial ekonomi berpengaruh secara signifikan terhadap variabel
pemilihan jenis kelas perkuliahan.
Total Score
H0: Total score tidak berpengaruh secara signifikan terhadap variabel
pemilihan jenis kelas perkuliahan
H1: Total score berpengaruh secara signifikan terhadap variabel pemilihan
jenis kelas perkuliahan
: 0,05
Statistik Uji:
x hit 54,249

p-value = 0,000
Wilayah Kritis: Tolak H0 jika p-value
Keputusan: Tolak H0 karena p-value (0,000) < (0,05)
Kesimpulan: Dengan tingkat signifikansi 5% dapat disimpulkan bahwa
rata-rata nilai ujian berpengaruh secara signifikan terhadap variabel
pemilihan jenis kelas perkuliahan.
c. Persamaan Regresi
type of programa

Std.
Error

Parameter Estimates
Wald
df
Sig.
Exp(B)

95% Confidence Interval for Exp(B)


Lower Bound
Upper Bound

Intercept

-5.627 1.651

11.615

.001

Total_score
[ses_=.00]
[ses_=1.00]
Intercept

.108
.033 10.839
1.016
.496 4.198
0b
.
.
-9.199 1.621 32.212

1
1
0
1

.001
.040
.
.000

1.114
2.763
.

1.045
1.045
.

1.187
7.305
.

academi Total_score
.193
.032 36.990
1
c
[ses_=.00]
.481
.494
.950
1
[ses_=1.00]
0b
.
.
0
a. The reference category is: vocation.
b. This parameter is set to zero because it is redundant.

.000
.330
.

1.213
1.618
.

1.140
.615
.

1.291
4.261
.

general

Persamaan Regresi:
1) Logit 1 ( Program kelas pada kategori 1 = general dengan kategori 3 =
vocation )
g 1 ( x )=5,233+0,108 Total Score+1,016 ses

Interpretasi:

Total Score
Saat Total score bertambah satu satuan nilai, maka kecenderungan
memilih program kelas general naik sebesar 0,108 kali dibandingkan
memilih program kelas vocation dengan asumsi variabel lainnya
konstan.
Social Economic Status (SES)
Kecenderungan mahasiswa yang memiliki status sosial ekonomi
rendah untuk memilih program kelas general daripada program kelas
vocation naik sebesar 1,016 kali dibandingkan yang memiliki status
sosial ekonomi tinggi dengan asumsi variabel lainnya konstan.

2) Logit 2 ( Program kelas pada kategori 2 = academic dengan kategori 3


= vocation )
g 2 ( x )=9,199+0,193 Total Score+0.481 ses

Interpretasi:
Total Score
Saat Total score bertambah satu satuan nilai, maka kecenderungan
memilih program kelas academic naik sebesar 0,193 kali dibandingkan
memilih program kelas vocation dengan asumsi variabel lainya
konstan.
Social Economic Status (ses)
Kecenderungan mahasiswa yang memiliki status sosial ekonomi
rendah untuk memilih program kelas academic daripada program kelas
vocation naik sebesar 0.481 kali dibandingkan yang memiliki status
ekonomi tinggi dengan asumsi variabel lainnya konstan.

d. Exp (Odd Ratio)


1) General
Total Score
Mahasiswa yang total score-nya lebih tinggi 1 satuan, maka
kecenderungan untuk memilih kelas general 1,114 kali lipat
dibandingkan dengan memilih kelas vocational.
Sosial Ekonomi Status (SES)
Kecenderungan seorang mahasiswa yang berstatus sosial ekonomi
rendah utnuk memilih kelas general daripada mahasiswa yang memilih
kelas vocational sebesar 2,763 kali lipat dari seorang mahasiswa yang
berstatus ekonomi menengah dan tinggi.
2) Academic
Total Score
Mahasiswa yang total score-nya lebih tinggi 1 satuan, maka
kecenderungan untuk memilih kelas academic 1,213 kali lipat
dibandingkan dengan memilih kelas vocational.

Sosial Ekonomi Status (SES)


Kecenderungan seorang mahasiswa yang berstatus sosial ekonomi
rendah utnuk memilih kelas academic daripada mahasiswa yang
memilih kelas vocational sebesar 1,618 kali lipat dari seorang
mahasiswa yang berstatus ekonomi menengah dan tinggi.

e. Uji Kecocokan Model


H0: Model fit
H1: Model tidak fit
: 0,05
Statistik uji: Goodness of fit test
Goodness-of-Fit
Chidf
Squa
re
259.
27
078
2

Pe
ars
on
De
via
nc
e

238.
911

27
2

Si
g.
.
70
3
.
92
7

Wilayah kritis: Tolak H0 jika p-value


Keputusan: Gagal tolak H0 karena p-value (0.703) > (0,05)
Kesimpulan: Dengan tingkat signifikansi 5% dapat disimpulkan bahwa
model fit.
Pseudo R-Square
Cox and
Snell
Nagelke
rke
McFadd
en

.
25
7
.
29
5
.
14
5

R-square terbesar yaitu Nagelkerke dengan nilai 0,295 sehingga dapat


dikatakan bahwa variabel X (status sosial ekonomi dan total score) dalam
penelitian mampu menjelaskan keragaman variabel Y (jenis perkuliahan)
sebesar 29,5% dan sisanya dijelaskan oleh variabel lain.
f. Tabel Klasifikasi
Tabel klasifikasi digunakan untuk mengetahui seberapa model dalam
mengklasifikasikan objek secara benar.

Observed
ge
ne
ral
general
academic
vocation
Overall
Percentage

6
7
4
8.
5
%

Classification
Predicted
aca
vo
de
ca
mic
tio
n
28
11
88
10
22
24
69.
22
0%
.5
%

Percent
Correct

13.3%
83.8%
48.0%
59.0%

Dari tabel di atas, model hanya dapat mengklasifikasikan objek secara


benar sebesar 59,0%, artinya 41,0% objek diklasifikasikan secara salah.
Daftar Pustaka
Utomo, Agung Priyo. Multinomial Logistik Regression.
Adisantoso, Julio. 2010. Model Log-Linier dan Regresi Logistik. Bogor: IPB.

Anda mungkin juga menyukai