Anda di halaman 1dari 19

Analisis Proyek

Written By:
Yogo L. Baskoro - 09211850096016
I. MODEL REMS

Proses analisis dimulai dengan menghitung probabilitas pasien yang


bertahan hidup (survive probability) dan odds ratio (odds) menggunakan formula
sebagai berikut:

Dari perhitungan diperoleh hasil sebagai berikut :

REMS P Odds
50 1 #DIV/0!
150 0.96667 29
250 0.93548 14.5
350 0.87209 6.81818
450 0.78704 3.69565
550 0.62745 1.68421
650 0.42063 0.72603
750 0.27679 0.38272
850 0.19608 0.2439
950 0.09677 0.10714

Langkah selanjutnya yang dilakukan adalah menghitung π dan Likelihood (LL)


dengan formulasi sebagai berikut :

Karena menggunakan solver pada Microsoft Excel, maka nilai a dan b untuk β
(dimana 𝛽𝑥=𝑎+𝑏𝑥) yang dicari, sehingga formulasi 𝜋 pada excel adalah sebagai
berikut.

Dimana x adalah data rapid eyes movement sleep (REMS).


Rumus likelihood (LL) merupakan hasil formulasi ulang rumus 𝑓 (𝑦; 𝜃; 𝜙), sehingga
di dapatkan formulasi sebagai berikut.

Dimana y adalah data survived probability (p)


Sehingga didapatkan tabel hasil perhitungan sebagai berikut:

x Y π LL
50 1 0.984 -0.3387
150 0.96667 0.96761 -4.3848
250 0.93548 0.93554 -22.247
350 0.87209 0.87579 -32.891
450 0.78704 0.77403 -55.981
550 0.62745 0.62463 -67.352
650 0.42063 0.44702 -85.921
750 0.27679 0.28198 -66.075
850 0.19608 0.16022 -25.471
950 0.09677 0.08482 -9.8834
Total -370.55

Langkah ketiga adalah mencari nilai a dan b dari persamaan 𝛽𝑥=𝑎+𝑏𝑥


menggunakan excel solver. Nilai a dan b dapat ditentukan dengan mencari nilai
max (maksimal) dari set objective berupa total likelihood dan changing variable
cells berupa cells untuk a dan b. Dari perhitungan solver didapatkan nilai 𝛽𝑥=𝑎+𝑏𝑥
sebagai berikut.
a 4.47995
b -0.0072

Setelah mendapatkan nilai a dan b, maka bisa didapatkan hasil regresi


logistik binomial data REMS adalah 𝜷𝒙=𝟒.𝟒𝟕𝟗𝟗𝟓−𝟎.𝟎𝟎𝟕𝟐𝒙. Hasil regresi tersebut
dapat di intrepetasikan sebagai berikut. Jika Rapid Eyes Movement Sleep (REMS)
naik satu gerakan maka nilai 𝛽 akan turun dan bernilai 4.47995-0.0072(1) =
4.47275. Semakin besar nilai REMS maka akan memperkecil nilai 𝛽.

Minitab
Jika digunakan analisi menggunakan minitab, perlu diawali dengan
memasukkan data REMS ke dalam minitab seperti tabel berikut.
Kemudian dilanjutkan dengan menekan menu Stat → Regression → Binary
Logistic Regression → Fit Logistic Model. Selanjutnya isi slot pada fungsi binary
logistic regression Minitab, yaitu memilih response in event/trial format, memilih
kolom survived pada slot number of events, memilih kolom total pada slot number
of trials, dan memilih kolom REMS pada slot continuous predictors karena data
REMS merupakan data continuous.
Hasil perhitungan coefficient menunjukkan nilai a dan b, sehingga hasil
regresi logistik binomial data REMS adalah 𝜷𝒙=𝟒.𝟒𝟕𝟕−𝟎.𝟎𝟎𝟕𝟐𝟏𝟒𝒙. Hasil regresi
tersebut akan diintepretasikan sebagai berikut: Saat Rapid Eyes Movement Sleep
(REMS) naik satu gerakan maka nilai 𝛽 akan turun dan bernilai 4.47995-0.0072(1)
=4.47275. Semakin besar nilai REMS maka akan memperkecil nilai 𝛽.

R-Studio

Langkah pertama untuk melakukan binary logistic regression pada r-studio


adalah dengan memasukkan data REMS dari csv ke r-studio. Data yang di import
adalah data survived and died people vs REMS. Kedua data tersebut harus dijadikan
numeric dari bentuk integer sebelumnya.
Selanjutnya dilakukan pengolahan data atau melakukan binary logistic regression
pada data survived and died people terhadap REMS. Hasil yang didapatkan
adalah seperti berikut :

Terlihat dalam hasil coding model_logit$coefficients nilai a dan b sehingga


hasil regresi logistik binomial data REMS adalah
𝜷𝒙=𝟒.𝟒𝟕𝟔𝟕𝟎𝟔𝟎𝟎𝟖−𝟎.𝟎𝟎𝟕𝟐𝟏𝟒𝟑𝟕𝟐𝒙. Hasil regresi tersebut di intrepetasikan
sebagai berikut: Saat Rapid Eyes Movement Sleep (REMS) naik satu gerakan
maka nilai 𝛽 akan turun dan bernilai 4.47995-0.0072(1) =4.47275. Semakin besar
nilai REMS maka akan memperkecil nilai 𝛽.
II. ANALISA DATA REGRESI POISSON

Jumlah Penyandang tumor di suatu lokasi dengan ukuran komunitas populasi


tertentu diduga dipengaruhi oleh keberadaan cigaret dan kondisi psikologis.
Menggunakan software R akan dilakukan permodelan menggunakan regresi
poison.
1. Deskripsi Data

Data sebanyak 15 kolom dengan variabel respon adalah penyandang tumor dan
variabel prediktor adalah cigaret dan kondisi psikologis. Variabel psikologi
berskala nominal dengan kode A, B dan C. Type data dan juga summary
sebagai berikut:

Berdasarkan tabel 1 dan 2 diatas, setiap variabel memiliki 15 pengamatan yang


valid. Rata- rata dan varians masing-masing variabel tidak jauh beda.
Menggunakan fungsi di tapply R untuk menampilkan ringkasan berdasarkan
jenis Psikologi.
Tabel 3 di atas menunjukkan rata-rata penyandang tumor berdasarkan kondisi
psikologi. Hasil nilai rata-rata penyandang tumor bervariasi menurut kondisi
psikologi.

Gambar 1 Histogram Penyandang Tumor vs Psikologi

Histogram pada gambar 1 diatas ini digunakan untuk menunjukkan distribusi


dari kondisi psikologi penyandang tumor. Kondisi psikologi A dengan jumlah
penyandang tumor terbanyak di range 70 sampai 100. Kondisi psikologi B
dengan jumlah penyandang tumor terbanyak di range 12 sampai 50. Kondisi
psikologi C dengan jumlah penyandang tumor terbanyak di range 25 sampai 75.

2. Model Regresi Poison


Analisis regresi poison menggunakan glm function di R. Model yang
sesuai bernama mymodel dan ringkasan model juga akan ditunjukkan pada link
function berikut ini:
Variabel Respon adalah penyandang tumor dan untuk variabel prediktornya
variabel cigaret dan kondisi psikologi. Hasilnya sebagai berikut:

Berdasarkan analisa diatas, dapat disimpulkan bahwa variabel cigaret, kondisi


psikologi B dan kondisi psikologi C signifikan pada p < 0.05 level. Langkah
selanjutnya menentukan robust SE untuk memperkirakan parameter untuk
mengontrol asumsi distribusi bahwa varians sama dengan rata-rata. Dengan
menggunakan paket R sandwich untuk menghitung robust SE dan nilai P_values
yang sesuai. Bersamaan dengan menentukan nilai p_values juga menghitung
95% confident interval menggunakan estimasi parameter dan robust SE.

Hasil Output sebagai berikut:


Tabel 5 diatas adalah koefisien regresi poison untuk masing-masing variabel
bersama dengan nilai robust SE, z-scores, p_values dan 95% confidence interval.
Variabel respon dalam regresi poison dimodelkan sebagai log rata-rata. Namun,
akan jauh lebih mudah untuk menafsirkan koefisien regresi jika dalam skala asli
variabel respon penyandang tumor daripada jumlah log penyandang tumor.
Eksponensial koefisien memungkinkan untuk interpretasi dalam skala asli

Hasil Output sebagai berikut:

Berdasarkan tabel 4 diata, kita dapat melakukan interpretasi model regresi


poison sebagai berikut:
a. Konstanta (intercept) bernilai 52.60 artinya jumlah rata-rata penyandang
tumor sebanyak 52.60 dengan asumsi variabel prediktor konstan.
b. Koefisien cigaret bernilai 1.50, dapat dikatakan jika keberadaan cigaret
bertambah sebesar 1 satuan maka akan memiliki kecenderungan untuk
menderita tumor sebesar 1.50% dengan asumsi tidak memperhatikan jenis
kondisi psikologi atau variabel kondisi psikologi konstan.
c. Koefisien Psikologi B bernilai 0.42, dapat dikatakan jika seseorang dengan
kondisi B bertambah 1 satuan, maka penyandang tumor akan mengalami
kecenderungan kenaikan sebesar 0.42% jika dibandingkan kondisi psikolog
A dengan asumsi variabel prediktor lainnya konstan.
d. Koefisien Psikologi C bernilai 0.62, dapat dikatakan jika seseorang dengan
kondisi psikologi tipe C bertambah 1 satuan maka penyandang tumor akan
mengalami kecenderungan kenaikan sebesar 0.62% jika dibandingkan
kondisi psikolog A dengan asumsi variabel prediktor lainnya konstan.
e. Jika cigaret bertambah 1 % dengan seseorang yang memiliki kondisi
psikologi B dan C, maka penyandang tumor akan mengalami kecenderungan
kenaikan sebesar 55.14%.
3. Goodness of Fit
Test

Dengan menggunakan residual deviance untuk melakukan goodness of fit


model secara keseluruhan. residual deviance adalah perbedaan antara
penyimpangan model saat ini dan penyimpangan maksimum model ideal,
dimana nilai yang diprediksikan identik dengan yang diamati. Oleh karena itu
jika perbedaan residual kecil maka goodness of fit test tidak akan signifikan dan
menunjukkan model sesuai dengan data. Hipotesis yang digunakan dalam
pengujian kesesuaian model yaitu:

𝐻0 = Model sesuai
𝐻1 = Model tidak sesuai

Berdasarkan tabel 4 diatas, nilai p_values sama dengan 0.05 sehingga dapat
disimpulkan terima 𝐻0 yang menunjukkan model sesuai. Efek keseluruhan kondisi
psikologi juga dapat diuji dengan membandingkan deviance keseluruhan model dengan
deviance model yang tidak ada kondisi psikologi.

Berdasarkan hasil uji goodness of fit di atas, model 1 yang sesuai


4. Over-Dispersion
Overdispersion terjadi ketika varians yang diamati dari variabel respon lebih besar dari
yang akan di prediksi oleh distribusi Poison. Dalam R, overdispersion dapat dianalisis
menggunakan paket "qcc". Analisis diilustrasikan di bawah ini.

Hasil output sebagai berikut:

Berdasarkan tabel 9 diatas, nilai p_values kurang dari 5% yang sangat menunjukkan
adanya overdispersion yang artinya varians data model dengan varians data sebenarnya
itu jauh berbeda. Agar varians model dan data sebenarnya itu tidak jauh beda maka
dapat dilakukan fitting model menggunakan glm () function dengan menganti family=”
Poisson” dengan family =” quasipoisson”. Quasi-Poisson Regression adalah generalisasi
dari regresi Poisson dan digunakan saat memodelkan variabel hitungan yang terlalu
banyak didispersi. Model Poisson mengasumsikan bahwa varians sama dengan rata-
rata, yang tidak selalu merupakan asumsi yang adil. Ketika varians lebih besar dari rata-
rata, model QuasiPoisson, yang mengasumsikan bahwa varians adalah fungsi linear
rata-rata.

Hasil output sebagai berikut:


Berdasarkan tabel 11 diatas, terlihat bahwa perkiraan parameter dalam
pendekatan quasi- poisson identik dengan yaang dihasilkan oleh pendekatan
poison, meskipun kesalahan standar berbeda untuk kedua pendekatan. Nilai
dispersion turun menjadi 1.78 yang didapatkan dari residual deviance dibagi df.
III. MODEL EWS
Langkah pertama adalah klik Stat → Basic Statistics → Coorelation. Pilih metode
Spearman dan variable yang kita gunakan adalah LR1 sampai dengan RR2. Berikut hasil
korelasinya:
Pasangan variabel yang berkorelasi ditunjukan dengan nilai p-value dibawah 0.05
(α). Namun cara korelasi di atas dinilai kurang cukup untuk mendapatkan variabel penting
terhadap variabel respon. Sehingga dibutuhkan langkah selanjutnya.
Berikutnya kita akan melakukan analisa regresi dan menentukan variable yang
paling berpengaruh dengan stepwise. Fungsinya dapat diakses di minitab dari Stat →
Regression → Fit Regression Model.

Analisa regresi dengan fit regression model dilakukan dengan memasukan


variabel rating sebagai variabel respon dan semua variabel prediktor pada slot continuous
predictor (karena semua prediktor berupa data rasio). Lalu klik stepwise untuk
mengetahui variabel prediktor yang paling berpengaruh pada variabel respon dengan α =
0.05 atau 5%.
Dari analisa regresi pada fit regression model dapat dianggap bahwametode ini
kurang tepat dilakukan pada data ini karena adanya nilai lack of fit < α (0.05) yang
menyatakan bahwa H0 ditolak. Banyak juga variabel dengan IVF di atas 10 yang
menyatakan terjadinya multikolinearitas. Metode stepwise juga menandakan hanya ada
8 variabel yang berpengaruh dalam data EWS.
Selanjutnya kita akan melakukan analisa deskriptif untuk variable respons dari
fungsi descriptive statistics pada variable rating.

Terlihat data variabel berbentuk ordinal sehingga diperlukan beberapa metode lain guna
mendapatkan hasil regresi yang optimal. Langkah berikutnya kita melakukan principal
component analysis dari fungsi multivariate dengan 7 component dan LR1-RR2 sebagai
variabelnya. Dari sini kita akan mendapatkan scree plot sebagai berikut.
Terlihat pada scree plot di atas grafik mengalami penurunan pada eigenvalue
bernilai 1 lalu cenderung membentuk garis lurus apabila nilai eigenvalue di bawah 1. Hal
tersebut menunjukkan bahwa terdapat variabel prediktor yang mempengaruhi variabel
respons secara significant dan ada yang tidak (ada variabel yang tidak independent).
Sehingga dibuat cut off pada eigenvalue 1 dan melakukan principal component analysis
kembali dengan number of components to compute sebanyak jumlah titik di atas cut off,
yaitu 7 serta menyimpan coefficient dan scores pada cell yang kosong.

Bisa dilihat hanya 7 principal component sudah mewakili 92% dari 22 variabel
prediktor dengan eigenvalue di atas 1.
Dilakukan regresi (dengan fungsi fit regression model pada minitab) dengan variabel respons
berupa rating dan variabel prediktor berupa hasil storage PC1 hingga PC 7, sehingga di
dapatkan hasil regresi sebagai berikut.

Anda mungkin juga menyukai