Anda di halaman 1dari 6

Paradigma, Vol. 13 No. 2 Agustus 2009 hlm.

189194

MODEL REGRESI SEMIPARAMETRIK SPLINE UNTUK DATA


LONGITUDINAL PADA KASUS KADAR CD4 PENDERITA HIV
Lilis Laome1)
1) Jurusan Matematika FMIPA Universitas Haluoleo Kendari 93232

ABSTRAK
Pemodelan data longitudinal telah dilakukan dengan regresi semiparametrik spline. Selanjutnya
diaplikasikan untuk menduga pola hubungan CD4 awal (X) dengan kadar CD4 pasien HIV (Y) dan
waktu pemeriksaan (t) dengan kadar CD4 pasien HIV (Y), sehingga diperoleh model terbaik dengan
melihat MSE terkecil dan R2 terbesar.
Kata kunci: data longitudinal, regresi semiparametrik, spline
ABSTRACT
The modeling of longitudinal data have been done with spline semiparametric regression. Then
application for estimating CD4 number and pre-CD4 for a subject with linear parametric pattern,
and checking time with nonparametric pattern, so that it is obtained the best model with the lowest
MSE and the biggest R2.
Keywords: longitudinal data, semiparametric regression, spline
Diterima: 20 Maret 2009
Disetujui untuk dipublikasikan: 21 Agustus 2009

1. Pendahuluan
Regresi semiparametrik adalah gabungan antara regresi parametrik dan regresi
nonparametrik. Penelitian tentang regresi semiparametrik telah banyak dilakukan. Srinadi
telah meneliti estimator spline pada model semiparametrik [1]. Mulianah meneliti
pendekatan kernel dalam regresi semiparametrik dan pemilihan bandwidth optimal [2].
Ampa meneliti model linier parsial pada hilangnya data komponen parametrik [3]. Namun
penelitian-penelitian tersebut hanya pada data cross section atau data yang diamati pada
suatu waktu tertentu. Untuk kasus khusus, regresi semiparametrik dapat digunakan pada
data longitudinal.
Analisis tentang pemodelan data longitudinal sudah banyak dikaji oleh peneliti.
Brumback dan Rice menggunakan smoothing spline dalam mengestimasi fungsi
nonparametrik pada data progesteron [4]. Namun penelitian tersebut hanya terbatas pada
regresi nonparametrik. Kuswanto menggunakan model Gamma-Frailty untuk memodelkan
data longitudinal [5]. Kemudian Zeger dan Diggle meneliti model campuran

Model Regresi Semiparametrik Spline untuk Data Longitudinal pada Kasus Kadar CD4 Penderita HIV

102

semiparametrik untuk data longitudinal menggunakan smoothing kernel, dalam risetnya


membahas tentang HIV berdasarkan kadar CD4 dalam darah [6]. Penggunaan estimator
kernel dalam model semiparametrik pada data longitudinal, tidak sesuai untuk data yang
mempunyai pola data yang rumit. Sehingga sulit untuk memperoleh estimasi komponen
nonparametrik yang sesuai. Zhang et al. menggunakan estimator spline untuk
mengestimasi model semiparametrik [7]. Dalam paper ini, dibahas penggunaan regresi
semiparametrik spline untuk data longitudinal pada kasus kadar CD4.
2. Data Longitudinal
Data longitudinal adalah data pengamatan berulang pada unit eksperimen, berbeda
dengan data cross section yaitu data dari masing-masing individu diamati dalam sekali
waktu [5]. Ada beberapa keuntungan dari studi mengenai data longitudinal dibandingkan
dengan data cross section. Pertama, studi longitudinal lebih powerful dari studi cross
section untuk sejumlah subjek yang tetap. Dengan kata lain, untuk memperoleh kekuatan
uji statistik yang sama, studi longitudinal membutuhkan subjek yang lebih sedikit. Kedua,
dengan jumlah subjek yang sama, hasil pengukuran error menghasilkan penaksir efek
perlakuan yang lebih efisien dari data cross section. Ketiga, data longitudinal mampu
menyediakan informasi tentang perubahan individu, sedangkan data cross section tidak [5].
3. Model Regresi Semiparametrik untuk Data Longitudinal
Regresi semiparametrik untuk data longitudinal dapat ditulis dengan :
yij XTij f (tij ) ij , i 1, 2, ..., n ; j 1, 2,..., ni

(1)

dimana terdapat n subjek dengan subjek ke-i mempunyai ni observasi.menurut waktu. yij ,
i = 1,...,n,

j = 1,...,ni

merupakan respon untuk subjek ke-i pada waktu tij.

= ( 1 , 2 , ..., p )T adalah vektor p 1 pada koefisien regresi kovariat X ij , dengan X ijT


diasumsikan tidak mempunyai intersep, f (tij ) adalah fungsi yang terdeferensiabel dua kali
dengan panjang periode sama dengan T dan ij adalah random error yang saling bebas
dengan mean 0 dan variansi 2 R .

Paradigma, Vol. 13 No. 2 Agustus 2009 hlm. 101106

103

a. Estimasi parametrik
Secara umum bentuk regresi parametrik linear digambarkan sebagai berikut [8] :
yi 0 1 X i i , i 1, 2,..., n

(2)

atau dalam bentuk matrik dapat ditulis dengan :

Y = X + , dimana ~ N (0, 2 )
Estimasi koefisien regresi dapat menggunakan metode kuadrat terkecil. Metode
estimasi

ini

dilakukan

dengan

meminimumkan

terhadap

Untuk

T ( Y X)T ( Y X ) , dengan menurunkan T tehadap dan menyamakan

dengan nol sehingga diperoleh estimator :


= (XT X)-1 X T Y

(3)

b. Estimasi nonparametrik
Untuk n pengamatan yang independen, (ti , yi ), i 1, 2,..., n , maka model regresi
secara umum dapat ditulis dengan :
yi f (ti ) i , i 1, 2,..., n

(4)

dimana yi adalah variabel respon ke -i , f (ti ) adalah fungsi regresi dan i adalah error
random yang diasumsikan independen dan identik dengan mean 0 dan variansi 2 .
Menurut Eubank fungsi regresi f (ti ) dapat diestimasi menggunakan regresi
nonparametrik [8]. Pendekatan nonparametrik digunakan untuk mengestimasi kurva regresi
karena model tidak ditentukan terlebih dahulu seperti pada regresi parametrik. Salah satu
pendekatan nonparametrik yang bisa dilakukan adalah dengan fungsi spline.
Secara umum, fungsi spline berorde k adalah sembarang fungsi yang dapat ditulis
dalam bentuk :
k

S (t ) i t i j (t j ) k
i 1

dengan

j 1

(5)

Model Regresi Semiparametrik Spline untuk Data Longitudinal pada Kasus Kadar CD4 Penderita HIV

(t j ) k
(t j )
0

104

,t j

,t j

dan adalah konstanta real dan 1 , 2 ,..., h adalah titik-titik knot.


4. Aplikasi
Pada penelitian ini, difokuskan untuk melihat hubungan antara CD4 awal (X) dan
waktu pemeriksaan kadar CD4 setelah terapi (t) terhadap persentase kadar CD4 setelah
terifeksi HIV (Y), dimana CD4 awal merupakan variabel penjelas komponen parametrik
dan waktu pemeriksaan merupakan variabel penjelas komponen nonparametrik.
Langkah yang dilakukan adalah memilih titik-titik knot optimum pada pemodelan
data secara parsial, sehingga diperoleh model parsial awal. Kemudian dari titik-titik knots
optimum tersebut dibuat model simultan, sehingga diperoleh model semiparametrik
berikut :
yij 0, 6 x1 j x2 j x3 j ... 0,1x55 j 39, 8 t1 j
1

52, 3( t1 j 0, 5) 13, 2( t1 j 2, 4)
1

(6)

15, 8 (t1 j 4, 96) 22,1 t 2 j 17, 3( t 2 j 1, 5)


1

... 29, 9 t 55 j 99, 9 (t 55 j 1, 5)


1

119, 5( t55 j 2) 48, 4(t55 j 2, 33)

dengan nilai MSE dan R2 masing-masing sebesar 7,096 dan 94,97 %.


Pada data ini terdapat korelasi didalam pengamatan berulang pada setiap subjek.
Indikasi adanya korelasi dapat terlihat pada variabel respon yang berpengaruh terhadap
waktu. Adanya kasus korelasi menunjukkan bahwa model semiparametrik simultan (6)
selayaknya disempurnakan dengan mengikutkan suatu bobot. Langkah yang dilakukan
adalah menentukan bobot. Misal bobot yang diberikan adalah W dan W*, sehingga dari
kedua bobot tersebut diperoleh model masing-masing sebagai berikut :
yij 0,43 x1 j 0,91 x2 j 1,17 x3 j ... 10,53 x55 j 275,17 t1 j +
2

(7)

292,25 t1 j 295,23 ( t1 j 0, 5) 12,37 ( t1 j 4, 22)


1

22,1 t 2 j 17, 3( t 2 j 2, 4) ... 263,11 t55 j + 269,06 (t 55 j 1, 4)

Paradigma, Vol. 13 No. 2 Agustus 2009 hlm. 101106

105

y ij 0,77 x1 j 0,93 x2 j 1,08 x3 j ... 0, 92 x55 j


2

23,94 t1 j 24,23 t1 j 5,04 t1 j


3

(8)

7,13 ( t1 j 2, 2) 19, 39 t 2 j 14, 59( t 2 j 1, 6)


1

... 2,39 t 55 j + 7, 29( t55 j 4,1)

Berdasarkan model (7), nilai MSE dan R2 sebesar 1,72 dan 99,15%, sedangkan pada model
(8) nilai MSE dan R2 adalah sebesar 23,72 dan 94,92%. Berdasarkan ketiga model simultan
(6), (7), dan (8) terlihat bahwa model (7) mempunyai nilai MSE terkecil dan nilai R2 yang
lebih baik. Akhirnya diperoleh model parsial, misalkan tiga model parsial yaitu untuk
pasien 1, pasien 6, dan pasien 43 masing-masing adalah :
2
2
y1 j = 0,43 x1 j 275,17 t1 j 292,25 t1 j 295,23 ( t1 j 0, 5)
2

(9)

12,37 ( t1 j 4, 22) , j 1, 2, ...,12


2
2
y 6 j = 0,48 x6 j +31,4 t6 j +25,13 t 6 j 9, 39 ( t 6 j 2, 3) ,

(10)

j 1, 2,...,11
1
y 43 j 0,59 x43 j 4, 97 t 43 j +6,04 ( t 43 j 3, 7) ,

(11)

j 1, 2,...,12

Berdasarkan ketiga model parsial (9), (10), dan (11), dapat dilihat bahwa untuk
ketiga pasien tersebut mempunyai pola data yang berbeda. Khususnya pada pola perubahan
kadar CD4, untuk pasien 1 pada model (9) terlihat pada waktu 0,5 tahun dan 4,22 tahun
mengalami perubahan pola. Sedangkan untuk pasien 6 pada model (10) terlihat pada waktu
2,3 tahun. Dan untuk pasien 43 pada model (11) terlihat pada waktu 3,7 tahun.
5. Kesimpulan
Pemodelan data longitudinal dengan regresi semiparametrik spline telah dilakukan
pada kasus menduga pola hubungan antara CD4 awal (X) dengan kadar CD4 pasien HIV
(Y) dan waktu pemeriksaan (t) dengan kadar CD4 pasien HIV (Y). Model yang diperoleh
mempunyai nilai MSE terkecil dan R2 yang terbesar. Berdasarkan model yang diperoleh
menunjukkan pola perubahan kadar CD4 setiap pasien berbeda-beda. Pasien 1 mengalami
perubahan kadar CD4 pada waktu 0,5 tahun dan 4,22 tahun; pasien 6 mengalami

Model Regresi Semiparametrik Spline untuk Data Longitudinal pada Kasus Kadar CD4 Penderita HIV

106

perubahan kadar CD4 pada waktu 2,3 tahun; dan pasien 43 mengalami perubahan kadar
CD4 pada waktu 3,7 tahun.

DAFTAR PUSTAKA
[1]

Srinadi, I.A.M. 2002. Estimator Spline pada Model Semiparametrik, Tesis. Surabaya :
Institut Teknologi Sepuluh Nopember.

[2]

Mulianah. 2006. Pendekatan Kernel dalam Regresi Semiparametrik dan Pemilihan Bandwith
Optimal, Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.

[3]

Ampa, A.T. 2006. Model Linier Parsial pada Hilangnya Data Komponen Parametrik, Tesis.
Surabaya : Institut Teknologi Nopember.

[4]

Brumback, B. dan Rice, J.A. 1998. Smoothing Spline Models for the Analysis of Nested and
Crossed Sampels of Curves. Journal of American Statistical Association, 93 (443), 961994.

[5]

Kuswanto, H. 2005. Model Gamma-Frailty untuk Data Longitudinal dan Penggunaan


Korelasi Serial dengan Metode Composite Likelihood, Tesis. Surabaya : Institut
Teknologi Sepuluh Nopember.

[6]

Zeger dan Diggle. 1994. Semiparametric Models for Longitudinal Data with Application to
CD4 Cell Numbers in HIV Seroconverters. Journal of the American Statistical
Association, 50 (3), 689-699.

[7]

Zhang, D., Lin, X., Raz, J. Dan Sower, M.F. 1998. Semiparametric Stochastic Mixed Models
for Longitudinal Data. Journal of the American Statistical Association, 93 (442), 710719.

[8]

Eubank, R.L. 1998. Spline Smoothing and Nonparametric Regression. New York : Marcel
Dekker.