Anda di halaman 1dari 10

PENGARUH MIXED DISTRIBUTION

PADA PENDEKATAN QUASI-LIKELIHOOD


DALAM MODEL LINEAR 1)

Anang Kurnia
Departemen Statistika FMIPA IPB
Jl. Meranti, Wing 22 Level 4 Kampus IPB Darmaga, Bogor
Email: anangk@ipb.ac.id

Abstrak. Diawali oleh Wedderburn (1974), perkembangan metode “quasi-


likelihood” (QL) telah memberikan manfaat yang sangat besar dalam
pemodelan statistika. Dengan keuntungan yang dimilikinya yaitu tidak
memerlukan diketahuinya bentuk sebaran dari peubah respon, metode QL
telah menjadi alternatif dalam pemodelan statistika yang komplek. Namun
demikian, inferensi berdasarkan metode quasi-likelihood hanya bisa dilakukan
berdasarkan sifat asimtotik. Disamping itu, pengaruh data pencilan atau
terjadinya mixed distribution pada peubah respon akan mempengaruhi akurasi
pendugaan yang dihasilkannya.

Kajian simulasi untuk hal tersebut, menunjukkan bahwa terjadinya mixed


distribution dibawah 10% masih memungkinkan untuk digunakan quasi-
likelihood dengan menganggap respon berasal dari satu populasi. Sedangkan
jika terjadi mixed distribution diatas 10%, analisis harus mempertimbangkan
kondisi ini karena pendugaaan dan inferensi jika hal tersebut diabaikan
menjadi jauh dari kondisi sebenarnya.

Kata Kunci : Quasi-likelihood, mixed distribution

1. Pendahuluan
Pemodelan statistika berkembang sangat cepat sejalan dengan perkembangan teknologi komputasi.
Namun demikian banyak masalah-masalah aktual dalam pemodelan yang tidak bisa dilakukan dengan
sederhana. Pendekatan full likelihood memiliki keterbatasan pada asumsi sebaran peubah respon.
Diawali oleh Wedderburn (1974), kemudian McCullagh (1983) dikembangkan suatu pendekatan lain
“quasi-likelihood” yang memiliki keuntungan tidak memerlukan diketahuinya bentuk sebaran dari
peubah respon, karena estimating function dibentuk hanya berdasarkan pada momen satu dan momen
kedua. Namun demikian, keuntungan ini tidak menjadikan quasi-likelihood sebagai metode yang
power-full. Oleh karena sifatnya yang relatif bebas sebaran, inferensi berdasarkan metode quasi-
likelihood hanya bisa dilakukan berdasarkan sifat asimtotik. Disamping itu, pengaruh data pencilan
atau terjadinya mixed distribution pada peubah respon akan mempengaruhi akurasi pendugaan yang
dihasilkannya. Seberapa besar pengaruh mixed distribution mempengaruhi pendugaan pada metode
quasi-likelihood menjadi kajian pada paper ini.

2. Tinjauan Pustaka
Generalized Linear Model (GLM)

Model linear khususnya model regresi sudah mulai digunakan sejak awal abad 19, ditandai dengan
kajian-kajian yang dilakukan oleh Francis Galton (1822-1911) tentang hubungan tinggi badan ayah
dan anaknya. Dalam perkembangannya, model regresi linear dengan asumsi peubah respon Yi ~ N(µi,
σ2) tidaklah mampu menjawab masalah-masalah yang dihadapi dalam pemodelan statistik.
Generalized Linear Model (GLM) merupakan pengembangan dari model linear ”klasik” khususnya

1)
Paper disampaikan pada Seminar Nasional Statistika, Universitas Islam Bandung, 24 Mei 2007

1
dalam mengatasi kendala peubah respon yang tidak normal. Namun demikian, peubah respon dalam
GLM diasumsikan memiliki sebaran yang termasuk dalam keluarga sebaran eksponensial.

Ada tiga komponen utama dalam GLM (McCullagh dan Nelder,1989), meliputi :
1. Komponen acak, yaitu peubah respon Y1, Y2, …, Yn yang merupakan contoh acak dimana Yi
~ (µi, σ2) dan termasuk dalam keluarga sebaran eksponensial
2. Komponen sistematik yang merupakan fungsi dari peubah penjelas : ηi = β1x1i + β2x2i + β3x3i
+ … + βpxpi
3. Fungsi hubung yang menghubungkan suatu fungsi dari nilai tengah komponen acak dengan
komponen sistematik : g(µi) = ηi .

Jika Y adalah suatu peubah acak, baik kontinu maupun diskret, dan termasuk dalam keluarga sebaran
eksponensial, maka fungsi peluang atau fungsi kepekatan peluang Y dapat dimodelkan sebagai berikut

dengan a, b, dan c merupakan fungsi spesifik yang diturunkan berdasarkan fungsi peluang atau fungsi
kepekatan peluang dari Y.

Nilai harapan dan ragam peubah acak Y dinotasikan :

Jika µ merepresentasikan nilai tengah dari Y, dan ragam merupakan fungsi dari nilai tengah, maka

dimana V(.) adalah suatu fungsi ragam yang diketahui.

Fungsi likelihood dari n peubah acak Y1, Y2, ..., Yn didefinisikan sebagai fungsi kepekatan peluang
bersama dari n peubah acak f(y|θ) yang dilihat sebagai fungsi dari θ dan dinotasikan dengan L(θ | y).
Untuk suatu gugus y yang diketahui, memaksimumkan L(θ | y) adalah metode kemungkinan
maksimum dalam menduga θ. Dalam kasus Yi adalah keluarga sebaran eksponensial, log [L(θ | y)]
adalah

Jika E(Y) = µ tergantung pada parameter β1, β2, …, βp maka penduga kemungkinan maksimum
untuk setiap βj adalah penyelesaian dari persamaan berikut

dimana ηi = Xiβ, atau dapat pula ditulis dalam notasi score function yang merupakan turunan pertama
terhadap θ dari fungsi log-likelihood.

Sedangkan nilai harapan dari turunan keduanya

E ( )
disebut Fisher information function. Solusi kemungkinan maksimum dari θ adalah penyelesaian S(θ)
= 0, dan [I(θ)]-1 adalah penduga ragamnya.

Quasi Likelihood

Quasi-likelihood (QL) merupakan suatu framework dalam pemodelan statistika yang didasari oleh
pendekatan terhadap model fungsi likelihood. Keuntungan dari quasi-likelihood adalah tidak

2
memerlukan diketahuinya bentuk sebaran dari peubah respon, karena estimating function dibentuk
berdasarkan momen satu dan momen kedua.

Model dasar quasi-likelihood pertama kali dikembangkan oleh Wedderburn (1974). Fungsi quasi-
likelihood didefinisikan sebagai

dengan E(yi) = µi dan ragam var(yi) = V(µi) dengan V merupakan suatu fungsi yang diketahui. Dalam
kasus regresi, µi biasanya tergantung pada suatu fungsi linear xβ melalui suatu fungsi hubung g
sehingga µi = g-1(xβ). Wedderburn (1974) memperlihatkan bahwa perhatian pada µi dan koefisien
regresi β dari fungsi Q(µi;yi) memiliki sifat yang sama dengan fungsi log-likelihood. Hal ini dapat
dijelaskan dengan memperhatikan prinsip-prinsip quasi-likelihood yang mirip dengan GLM, meliputi
:
1. Pola hubungan nilai tengah dengan peubah bebas yang membentuk suatu fungsi hubung,
g(µi) = ηi .
2. Pola hubungan ragam dengan nilai tengah yang membentuk fungsi ragam (variance
function), Var(Yi) = φV(µi), dengan φ adalah dispersion parameter.

Berdasarkan dua komponen yang menyusun QL tersebut, jelas menjadikan quasi-likelihood mirip
dengan fungsi log-likelihood pada GLM sehingga QL dapat diselesaikan dengan cara yang sama
seperti pada penyelesaian GLM. Parameter yang akan diduga pada quasi-likelihood adalah θ = (β, φ)
dimana β merupakan parameter yang menjadi perhatian, sedangkan φ biasanya bukan merupakan
parameter yang menjadi perhatian dan sering disebut nuisance parameter. Pengaruh φ digunakan
pada pendugaan galat baku penduga β.

Dalam kasus model linear, Pawitan (2001) menunjukkan bahwa dengan kondisi E(yi) = xi’β = µi(β)
dan var(yi) = σi2 = Vi(β), maka untuk µi(.) dan Vi(.) yang diketahui, penduga bagi β adalah
penyelesaian dari persamaan berikut
n ∂µ ( y µi )
∑ i i
=0
i =1 ∂β Vi

3. Kajian Simulasi untuk Kasus Mixed Distribution


Desain Simulasi

Kajian simulasi didasarkan pada model linear.


Untuk pasangan pengamatan (yi, xi), i = 1, 2, …, n dimana
E(yi) = xi’β = µi(β)
var(yi) = σi2 = Vi(β)
Dengan memperhatikan bahwa penduga β merupakan penyelesaian dari
n ∂µ ( y µi ) n ( yi xi ' β)
∑ i i
= 0 ⇔ ∑ xi =0
i =1 ∂β Vi i =1 σi 2
sehingga
∑in=1 x i yi σi 2
βˆ =
∑in=1 x i x i ' σi 2
= (X’V-1X)-1 X’V-1Y
2
dengan V = diag[σi ].
Dengan demikian, untuk kasus Yi ~ N(µi, σi2) penyelesaian dengan quasi-likelihood, restricted
maximum likelihood maupun ordinary least square akan menghasilkan pendugaan yang sama.

3
Kajian simulasi dilakukan dengan memberikan intervensi pada peubah respon seolah-olah berasal dari
dua populasi yang berbeda. Banyaknya intervensi berturut-turut 5%, 10%, 15%, 20%, dan 25% dari
banyaknya pengamatan. Banyaknya pengamatan ditentukan n = 200 dan masing-masing diulang
sebanyak 30 ulangan.

Algoritma pembangkitan data didesain sebagai berikut :


1. Bangkitkan X (sebagai peubah bebas), X ~ Seragam(145, 190)
2. Tetapkan parameter, β = (-100 1,1)
3. Hitung µi = Xiβ
4. Untuk setiap proporsi intervensi, set µi = Xiβ + 15
5. Hitung ragam untuk setiap pengamatan, σi2 = sqrt(µi)
6. Bangkitkan Y (peubah respon), Yi ~ N(µi, σi2)
7. Evaluasi pasangan pengamatan (yi, xi) dengan metode quasi-likelihood, restricted maximum
likelihood dan ordinary least square

Hasil Kajian Simulasi

Gambar 1 dan Gambar 2 menyajikan pola distribusi data simulasi. Gambar 1 adalah pola distribusi
data simulasi untuk 200 pengamatan dengan intervensi mixed distribusion sebesar 5%. Sedangkan
Gambar 2 adalah pola distribusi data simulasi dengan pengamatan 200 dan intervensi mixed
distribution sebesar 25%.

Gambar 1. Sebaran peubah respon dengan intervensi 5%

Gambar 2. Sebaran peubah respon dengan intervensi 25%

Deskripsi hasil simulasi disajikan pada Tabel 1. Terlihat bahwa semakin besar intervensi yang
dilakukan pada data, bias pendugaan baik intersep maupun koefisien model semakin besar. Gambar 3
menyajikan pola perubahan bias pendugaan parameter berdasarkan perubahan intervensi pada data.

Berdasarkan Tabel 1 dan Gambar 3, terlihat bahwa intervensi data sampai dengan 10% dari
banyaknya pengamatan masih memberikan toleransi bias pendugaan yang kecil. Baik intersep

4
maupun koefisien parameter memiliki nilai mutlak bias dibawah 5%. Nilai mutlak bias naik dengan
tajam jika intervensi data lebih dari 10%.

Tabel 1. Deskripsi rata-rata pendugaan parameter model

Presentase
Intercept Coeff MSE-Model
Intervensi
5 -96.76 1.09 95.95
10 -105.20 1.14 104.49
15 -73.28 0.95 160.10
20 -64.92 0.90 175.72
25 -31.56 0.70 247.71

80
Persentase Bias

60

40

20

0
5 10 15 20 25
Persentase Intervensi

Series1
Intersep Series2
Koefisien

Gambar 3. Persentase bias pendugaan parameter


untuk setiap persentase intervensi pada data

Pendugaan MSE-model juga memiliki pola yang serupa dengan pola nilai mutlak bias pendugaan
parameter. Untuk intervensi yang lebih dari 10% dari data pengamatan, besarnya pendugaan MSE-
model meningkat dengan cukup tajam. Peningkatan MSE-model seperti yang disajikan pada Gambar
4, juga berpengaruh langsung secara linear dalam pendugaan galat baku atau MSE-penduga
parameter, karena MSE-penduga parameter merupakan fungsi linear dari MSE-model.

300
247.71
250

200 175.72
160.10
150
104.49
95.95
100

50

0
5 10 15 20 25
Persentase Intervensi

Gambar 4. Perubahan pendugaan MSE-Model


untuk setiap persentase intervensi pada data

Peningkatan yang tajam baik pada nilai mutlak bias maupun MSE penduga parameter model untuk
intervensi data memberikan indikasi bahwa jika ada indikasi mixed-distribution, apalagi lebih dari

5
10% data pengamatan, peneliti harus lebih hati-hati dalam melakukan analisis. Memaksakan
melakukan analisis dengan menganggap bahwa respon berasal dari satu populasi beresiko dalam
pendugaan parameter.

4. Kesimpulan
Penggunaan metode quasi-likelihood (QL), restricted maximum likelihood (REML) maupun ordinary
least square (OLS) untuk data simulasi yang dibangkitkan dari populasi normal menghasilkan
pendugaan parameter yang sama. QL dan OLS adalah dua metode yang tidak mensyaratkan
diketahuinya sebaran peubah respon, sedangkan REML ataupun maximum likelihood untuk kasus
data normal secara analitik akan menghasilkan pendugaan parameter yang sama dengan QL maupun
OLS.

Pengaruh intervensi mixed distribution pada data simulasi baik dilakukan analisis dengan metode QL,
OLS maupun REML memberikan hasil yang sama. Peningkatan proporsi intervensi yang diberikan
semakin meningkaktan nilai mutlak bias maupun pendugaan MSE. Intervensi mixed distribution yang
kurang dari 10%, menyebabkan bias kurang dari 5%, sehingga jika hal ini terjadi pada data empirik
masih memungkinkan untuk dilakukan analisis dengan mengasumsikan data berasal dari satu
populasi. Namun untuk intervensi yang lebih dari 10%, mengasumsikan data masih berasal dari satu
populasi memberikan resiko yang besar dalam inferensi model, sehingga seharusnya dilakukan
analisis berbasis mixed distribution.

Daftar Pustaka
Godambe VP. dan Heyde CC. 1987. Quasi-likelihood and optimal estimation. Intl Statist Review.
;55:231–244.
McCullagh P. 1983. Quasi-likelihood functions. Ann Statist. ;11:59–67.
McCullagh, P.dan Nelder, JA. 1989. Generalized Linear Models. 2. Chapman and Hall, London.
Nelder JA, dan Lee Y. 1992. Likelihood, quasi-likelihood and pseudolikelihood: some comparisons. J
R Statist Soc B.;54:273–284.
Pawitan, Y. 2001. In All Likelihood: Statistical Modelling and Inference Using Likelihood. Clarendon
Press, Oxford.
Wedderburn RWM. 1974. Quasi-likelihood functions, generalized linear models, and the Gauss-
Newton method. Biometrika.;61:439–447.

6
Lampiran 1. Sebagian Output Quasi-Likelihood, Restricted Maximum Likelihood dan Ordinary Least
Square pada data simulasi dengan intervensi 5 %.

The GLIMMIX Procedure


Model Information

Response Distribution Unknown


Link Function Identity
Variance Function 1
Estimation Technique Quasi-Likelihood

Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept -104.09 9.2952 198 -11.20 <.0001
X 1.1250 0.05552 198 20.26 <.0001
Residual 107.87 . . . .

The GLIMMIX Procedure


Model Information

Response Distribution Gaussian


Link Function Identity
Variance Function Default
Estimation Technique Restricted Maximum Likelihood

Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept -104.09 9.2952 198 -11.20 <.0001
X 1.1250 0.05552 198 20.26 <.0001
Scale 107.87 10.8412 . . .

The REG Procedure


Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 44280 44280 410.50 <.0001
Error 198 21358 107.86816
Corrected Total 199 65638

Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 -104.09398 9.29518 -11.20 <.0001
X X 1 1.12497 0.05552 20.26 <.0001

7
Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood
Intervensi 5% Intervensi 10%
No.
B0 B1 MSE-Model B0 B1 MSE-Model
1 -104.0900 1.1250 107.8700 -110.2000 1.1752 109.2200
2 -105.3000 1.1373 107.9700 -105.3500 1.1426 90.2208
3 -95.7839 1.0829 123.0500 -111.7600 1.1837 101.4700
4 -87.9778 1.0257 102.4000 -107.1400 1.1510 112.9300
5 -87.9365 1.0320 98.1003 -96.7979 1.0897 86.9418
6 -106.4700 1.1469 91.1556 -108.8600 1.1591 97.2449
7 -100.2000 1.1117 87.8798 -110.4800 1.1709 88.0713
8 -92.0821 1.0548 99.9047 -96.5088 1.0921 119.8200
9 -88.5113 1.0357 93.2441 -110.3300 1.1762 101.5100
10 -105.1900 1.1385 105.1400 -97.3053 1.0974 102.9200
11 -96.5193 1.0867 87.6829 -108.4900 1.1566 103.7700
12 -111.7500 1.1701 108.7800 -103.3100 1.1313 113.4600
13 -96.3774 1.0775 93.7820 -101.4900 1.1185 94.1875
14 -90.1284 1.0455 81.1876 -91.3852 1.0530 92.0453
15 -101.7400 1.1156 82.6093 -105.4900 1.1381 108.6100
16 -94.7503 1.0760 106.6200 -98.5473 1.1008 108.8100
17 -94.4194 1.0758 76.6619 -98.6479 1.1036 97.7858
18 -94.7401 1.0724 85.0134 -105.0000 1.1431 95.3625
19 -89.4162 1.0377 89.4151 -99.5995 1.1043 106.5400
20 -91.4737 1.0551 76.5309 -110.1500 1.1662 95.9693
21 -91.8156 1.0550 87.3936 -110.0800 1.1724 110.7100
22 -96.3271 1.0841 113.2000 -120.8700 1.2343 118.0000
23 -91.7637 1.0589 98.6719 -108.0900 1.1557 118.2000
24 -104.3900 1.1310 76.9285 -107.5400 1.1517 108.3800
25 -94.5840 1.0714 96.0896 -119.3300 1.2277 121.6000
26 -94.4193 1.0762 91.5096 -96.8744 1.0936 105.0300
27 -106.5200 1.1390 98.1910 -94.1486 1.0725 107.3100
28 -95.1057 1.0800 116.3600 -100.6700 1.1119 109.8900
29 -99.1103 1.1036 99.3868 -118.6700 1.2155 105.1700
30 -93.7602 1.0673 95.6922 -102.7600 1.1230 103.4800

8
Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood
Intervensi 15% Intervensi 20%
No.
B0 B1 MSE-Model B0 B1 MSE-Model
1 -61.6212 0.8789 160.1500 -70.1561 0.9256 180.6800
2 -80.9142 1.0006 164.4600 -58.5970 0.8620 182.9000
3 -76.9403 0.9668 164.3200 -69.4084 0.9222 186.8000
4 -66.3130 0.9102 162.6100 -71.8121 0.9382 156.9100
5 -77.7803 0.9796 147.7500 -50.8781 0.8119 190.5300
6 -74.2710 0.9544 143.4200 -70.9390 0.9364 180.2800
7 -69.0762 0.9183 140.3500 -61.4570 0.8777 184.2900
8 -65.0806 0.8949 159.8700 -41.6533 0.7528 185.1000
9 -80.4510 0.9970 176.6500 -53.4820 0.8316 174.2500
10 -78.4694 0.9783 177.8000 -62.3355 0.8830 180.1600
11 -70.0338 0.9337 158.0600 -62.2864 0.8818 177.6400
12 -72.4576 0.9465 191.2600 -76.2894 0.9704 178.1000
13 -71.3514 0.9421 171.3600 -68.6345 0.9256 146.4300
14 -74.1147 0.9508 149.6100 -71.5045 0.9352 201.1400
15 -63.9835 0.8905 155.2800 -71.7678 0.9343 156.0400
16 -88.4130 1.0424 149.5100 -67.5960 0.9081 168.5400
17 -72.9315 0.9453 170.0400 -78.1077 0.9740 197.0900
18 -62.3561 0.8782 143.8300 -51.2083 0.8155 174.3000
19 -74.5510 0.9514 182.3800 -53.9479 0.8349 168.7500
20 -78.8687 0.9872 137.5900 -54.0066 0.8273 194.7900
21 -74.0964 0.9497 175.6700 -70.6045 0.9309 180.5500
22 -61.2068 0.8709 132.9700 -64.5814 0.8947 145.0000
23 -66.0670 0.9142 162.4900 -76.7923 0.9676 191.3900
24 -73.5612 0.9483 151.2100 -78.2506 0.9769 165.0700
25 -68.8475 0.9202 157.9300 -61.6423 0.8759 180.1800
26 -71.5390 0.9360 175.1000 -70.2674 0.9313 176.1200
27 -77.8568 0.9807 141.5900 -59.8571 0.8620 173.7300
28 -83.5256 1.0147 149.4500 -70.1822 0.9261 161.0100
29 -87.8618 1.0456 175.6300 -63.8013 0.8907 158.6900
30 -74.0090 0.9556 174.5200 -65.4642 0.8980 175.2300

9
Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood
Intervensi 25%
No.
B0 B1 MSE-Model
1 -32.7793 0.7046 230.2600
2 -39.5092 0.7475 261.1200
3 -31.5739 0.6994 243.6500
4 -35.5297 0.7264 221.2300
5 -26.5146 0.6736 220.6000
6 -26.5101 0.6700 246.3800
7 -30.9150 0.7009 259.2900
8 -19.2076 0.6294 239.1700
9 -22.3491 0.6459 228.2400
10 -43.7108 0.7747 236.9300
11 -39.5022 0.7494 267.8400
12 -35.2377 0.7256 257.8700
13 -26.7754 0.6710 236.2700
14 -26.7865 0.6737 231.5800
15 -36.1538 0.7331 238.1200
16 -24.2711 0.6613 266.6100
17 -34.8963 0.7203 231.0000
18 -31.0452 0.7020 215.9000
19 -40.2408 0.7550 264.6400
20 -23.6834 0.6511 247.5700
21 -17.7075 0.6206 289.9100
22 -20.6716 0.6389 262.4400
23 -32.1472 0.7082 251.8500
24 -31.7064 0.7019 269.5000
25 -42.0327 0.7665 266.5200
26 -45.5136 0.7898 261.8100
27 -26.7614 0.6736 244.9800
28 -40.2888 0.7568 252.6900
29 -28.3523 0.6805 242.5700
30 -34.2910 0.7194 244.6700

10

Anda mungkin juga menyukai