RINGKASAN PAPER
Dosen Pengampu:
Dr. Deiby Tineke Salaki S.Si, M.Si
Disusun oleh:
Christina Irwan (20101103025)
Friska Sagai (20101103042)
Jose Carlos Tahitu (20101103032)
Regina Riung (20101103010)
Wilyam Sekewael (20101103011)
2. Metode
2.1 Kalibrasi Data Khusus NIR
Dalam studi ini, kita mempertimbangkan dua dataset nyata pada kalibrasi
spektrometer inframerah dekat. Data khusus disini merupakana spektrum dari 80
spesimen jagung yang diukur pada dua spektrometer yang berbeda di (mp5 dan mp6) pada
700 panjang gelombang antara 1100 dan 2496 nm dalam interval 2 nm. Setiap
spektrometer menghasilkan matriks berukuran 80 × 700. Dari setiap spesimen yang diukur
dari jagung, kadar air, minyak, protein dan pati. Rata-rata korelasi antar variabel dalam
data khusus pada jagung di mp5 dan mp6 masing-masing adalah 0,997 dan 0,982.
Untuk beberapa setelan parameter λ > 0. Fungsi pinalti yang berbeda p λ akan sampai
pada solusi nilai yang berbeda untuk β . Dalam regresi ridge (RR), estimasi ^β RR dapat
p
diperoleh dengan menetapkan p λ ( β 1 ,… , β b )=λ ∑ β j . Dapat ditunjukkan bahwa taksiran
2
j=1
'
{
p λ ( β )=λ I ( β ≤ λ )+
( aλ−β )
(a−1) λ }
+ I( β ≥ λ)
untuk beberapa a > 2, di mana p λ (0) = 0, dan I (·) adalah fungsi indikator yang sama
dengan satu jika kondisi di dalam kurung benar dan nol sebaliknya. Dalam penelitian kami,
parameter λ dalam metode estimasi yang berbeda ini diperkirakan menggunakan metode
validasi silang.
Dimana X (k) adalah matriks prediktor berukuran n × p(k), β (k ) merupakan p(k) sebuah
vector parameter model yang terkait dengan X ( k ) , dan ϵ ( k ) merupakan istilah kesalahan acak.
Parameter model β (k ) adalah diperkirakan menurut metode estimasi yang berbeda seperti
yang dijelaskan di bawah ini.
Setelah di dapatkan perkiraan ^β(k ), kita mendefinisikan ^y (k) sebagai vektor yang
dipasang berdasarkan model M k , yaitu ^y (k)=X (k ) ^β(k). Dimana vektor yang dipasang untuk
MA, ^y MA, dapat ditulis sebagai:
K
^y MA=∑ w k k^ (k ) ,
k=1
∑ wk =1.
k =1
K
^β j =∑ w k ^β j ,(k)
k=1
bahwa, jika prediktor j tidak ada dalam kandidat model k, maka ^β j ,(k) = 0 untuk j = 1, 2, ... ,
p, dan k = 1, 2, ... , K.
Akaike’s Information Criterion (AIC), Mallows’s Cp, dan Cross Validation (CV).
Akaike’s Information Criterion (AIC). AIC menunjukkan kualitas relatif dari
model statistik yang diberikan oleh sebuah data. Pertimbangkan AIC dari model
kandidat M k , dilambangkan sebagai
AIC ( M k ) =−2l n ( β (k ) ) +2 d ( M k )
Dimana A IC min adalah AIC minimum di antara semua model kandidat. Oleh
karena itu, AIC bobot yang akan diberikan dalam model kandidat M k diberikan oleh
w k =exp (−∆k /2)¿ ¿
K
Bobot (wk’s) berdasarkan AIC dalam hal ini menunjukkan probabilitas model
M k menjadi model terbaik dalam kumpulan model kandidat yang dipertimbangkan.
Mallows’s Cp. Model rata-rata Mallow’s Cp (MMA) diusulkan oleh Hansen dan
didasarkan pada kriteria Mallow’s Cp yang terkenal dalam menghitung bobot wk’s.
Mallow’s Cp adalah kriteria untuk MA yang diberikan oleh:
C M ( w ) =w T ϵ^ T ϵ^ w+2 σ^ 2 ΦT w
T
Dimana w ≡(w1 , w2 … , wk ) adalah vektor bobot untuk calon model yang
berbeda,ϵ^ adalah matriks dari semua vektor residual di K calon model ukuran n × K,
T
Φ adalah vektor dari Φ k yaitu ¿ ≡ ( Φ1 , … ,Φ k ) dan Φ k adalah jumlah prediktor yang
digunakan pada kandidat ke k model, k = 1, ... ,K. Mempertimbangkan ini sebagai
masalah estimasi, dengan bobot vektor w diperkirakan oleh
M
^ =arg min C ( w )
w
w∈ W
{ }
K
Dimana W = wk ϵ [ 0,1 ] , ∑ w k =1 ; k=1 , … , K .Ini merupakan sebuah masalah
k
mana baris ke-i dihapus, atau (dalam perkiraan estimasi OLS) diberikan oleh
~ k (k )
μi =x i ¿
Dalam konteks pendugaan regresi ridge, maka taksiran di ruas kanan persamaan
di atas disesuaikan.
Misalkan ~ μ =( ~
k
μ¿ ¿1 , ~
k
μ2 , … , ~
k k T
μ n) ¿ menjadi n vektor dari nilai prediksi dari CV
dalam model kandidat ke-k. Vektor residual CV dari model kandidat ke-k
dilambangkan oleh ϵ (k)= y −~
μ k . Di seluruh model kandidat K, dapat diringkas menjadi
sebuah matriks (ukuran n × K) dilambangkan sebagai ε =(ϵ 1 , … , ϵ k ). Oleh karena itu,
berdasarkan bobot optimal pada CV dapat dihitung dengan meminimalkan,
1
C J ( w ) = w T ε T εw ,
n
^ =arg min C J ( w )
w
3. Studi Simulasi
3.1 Pengaturan Simulasi
Untuk memahami kinerja prediksi metodologi MA, dilakukan studi simulasi di mana
beberapa parameter simulasi bervariasi. Khususnya, untuk jumlah variabel yang berbeda
termasuk dalam tanggal model ( v ), bagaimana parameter model diestimasi, dan bagaimana
calon model bobot (w k ' s ) mempengaruhi kinerja prediksi dalam struktur korelasi data
yang berbeda.
Data simulasi matriks X ukuran n × p , dengan n = 300 dan p = 1000, dihasilkan
menurut distribusi normal multivariat dengan mean nol dan matriks kovarians C, atau X ~
MVN(0, C). Cara mempertimbangkan C yaitu dengan mendefinisikan struktur korelasi
dari data simulasi. Dalam studi ini, dibuat struktur korelasi yang berbeda sebagai berikut.
Pertama, kita definisikan C sebagai :
[ ]
2 2 2
1 τ τ ⋯ τ
τ2 1 τ2 ⋯ τ2
C= τ 2 τ2 1⋯ τ2
⋮ ⋮ ⋮⋱ ⋮
2 2 2
τ τ τ ⋯ 1
dimana τ 2 = 0,1, 0,75, 0,85, dan 0,95. Nilai τ 2 = 0,1 mewakili kasus korelasi rendah
sementara nilai-nilai lain mewakili kasus korelasi tinggi. Perbedaan nilai τ 2 dalam
merepresentasikan adalah untuk menyoroti perhatian pada data yang ditemui dalam
kalibrasi instrumen NIR.
Kedua, pertimbangkan data korelasi blok independen sehingga C didefinisikan
sebagai:
[ ]
C1 0 ⋯ 0
0 C2 ⋯ 0
C=
⋮ ⋮ ⋱ ⋮
0 0 ⋯ CQ
dimana
[ ]
2 2 2
1 τ τ ⋯ τ
τ2 1 τ2 ⋯ τ2
C= τ 2 τ
2
1⋯ τ
2
⋮ ⋮ ⋮⋱ ⋮
τ2 τ2 τ2 ⋯ 1
0 adalah sub-matriks dari nol dengan ukuran yang sesuai dengan C q, dan τ 2 = 0,95. Q
di sini menunjukkan jumlah blok korelasi dalam data dan anggap Q = 2, 5, 10 sehingga
setiap C q, q = 1, . . . , Q , berukuran 1000/Q .
Ketiga, pertimbangkan data korelasi blok-korelasi sehingga C didefinisikan sebagai :
[ ]
C1 Cr ⋯ 0
r
⋯ 0
C= C C 2
⋮ ⋮ ⋱ ⋮
0 0 ⋯ CQ
dimana C q seperti yang sudah didefinisikan di atas dan C r adalah sub-matriks yang
berisi korelasi antara balok dengan elemen c rij =0.7 , ∀ i, j .
T
Variabel respon simulasi y ≡( y 1 , y 2 ,. . . , y n ) dihasilkan sebagai berikut :
p
y i=∑ β j x ij + ϵ i ; i=1 , … , n
j=1
Dimana β j = 1 untuk j = 1, ... , 200, dan β j = 0 untuk j = 201, ... , 1000, dan untuk
kesalahan ϵ diambil sampelnya dari N (0 , 0.3).
Sebagai ringkasan, untuk setiap struktur korelasi, kami memvariasikan parameter
simulasi berikut :
1) Jumlah prediktor yang termasuk dalam kandidat model v ditetapkan sebesar 10, 20,
40, 100, dan 200, yang sesuai dengan jumlah calon model masing-masing K =100,
50, 25, 10, dan 5,.
2) Metode membangun model kandidat ditetapkan berdasarkan marginal korelasi dan
partisi acak.
3) Metode untuk mengestimasi parameter model kandidat ditetapkan menjadi kuadrat
terkecil (OLS) dan regresi ridge (RR).
4) Bobot kandidat model ditetapkan berdasarkan AIC, C p Mallows, dan CV.
Berdasarkan poin no 2–4, terdapat 12 framework MA : MOA, MOM, MOC, MRA,
MRM, MRC, ROA, ROM, ROC, RRA, RRM dan RRC. Untuk huruf pertama, 'M'
mengacu pada korelasi marjinal dan 'R' mengacu pada partisi acak untuk membangun
kandidat model. Huruf kedua sesuai dengan estimasi parameter model kandidat ('O' untuk
OLS, dan 'R' untuk RR), dan huruf ketiga sesuai dengan bobot ('A' untuk AIC, 'M' untuk
Mallows' Cp, dan 'C' untuk CV).
{ }
n 1
1
∑ v ,π 2 2
RMSEP ( π ) =
n i=1
( y i − ^y i )
v
Dimana π mewakili jenis atau metode kerangka kerja. Validasi silang ini dipisahkan
dari validasi silang untuk memperkirakan λ dalam estimasi regresi punggungan dan dari itu
untuk memperkirakan bobot calon model.
4. Hasil
4.1. Hasil simulasi
Hasil studi simulasi ditunjukkan pada Tabel 1 dan 2 serta Gambar 2 dan 3. Dalam
Tabel 1 dan 2, Root Mean Square Error Prediction (RMSEP) dari keadaan simulasi yang
berbeda di 500 dataset simulasi ditunjukkan untuk kandidat model berdasarkan korelasi
marginal dan partisi acak. RMSEP dari metode pemelihan model (LASSO, Adaptive
LASSO, MCP, SCAD, dan Elastis Net) yang ditunjukkan dalam tabel. Pada Tabel 1, ada
beberapa situasi di mana MA memiliki RMSEP lebih tinggi daripada metode pemilahan
model. Hal ini berlaku untuk kasus korelasi rendah, 10 independent block correlation, dan
5 independent block correlation.
Pada Tabel 2, MA memiliki nilai RMSEP lebih rendah daripada metode pemilihan
model di semua situasi, kecuali pada low-correlation. Pada Tabel 1 dan 2 menunjukkan
bahwa RMSEP menurun karena jumlah prediktor dalam model kandidat meningkat.
Table 1. Root mean squared error of predictor (RMSE) dari framework Moving
Averaging (MA) yang berbeda untuk jumlah variabel yang berbeda dalam model
kandidat (v) dan dalam berbagai struktur korelasi.
Catatan: Ada enam Framework MA: MOA, MOM, MOC, MRA, MRM dan MRC. Huruf pertama ('M')
mengacu pada korelasi marjinal untuk membentuk model kandidat, huruf kedua sesuai dengan estimasi
parameter model kandidat ('O' untuk OLS, dan 'R' untuk RR), dan huruf ('A' untuk AIC, 'M' untuk Mallows'
Cp, dan 'C' untuk CV). Untuk gambar RMSEP di mana konstruksi model kandidat didasarkan pada partisi
acak, lihat Tabel 2. RMSEP dari metode pemilihan model (LASSO, Adaptive LASSO, MCP, SCAD, dan
Elastic net) juga disajikan sebagai perbandingan.
Table 2. Root mean squared error of predictor (RMSE) dari framework Moving
Averaging (MA) yang berbeda untuk jumlah variabel yang berbeda dalam model
kandidat (v) dan dalam berbagai struktur korelasi.
Catatan: Ada enam framework MA: ROA, ROM, ROC, RRA, RRM dan RRC. Huruf pertama ('R') mengacu
pada metode partisi acak untuk membangun model kandidat, huruf kedua sesuai dengan estimasi parameter
model kandidat ('O' untuk OLS, dan 'R' untuk RR), dan huruf ketiga bobot ('A' untuk AIC, 'M' untuk Mallows'
Cp, dan 'C' untuk CV). Untuk gambar RMSEP di mana konstruksi model kandidat didasarkan pada korelasi
marginal, lihat Tabel 1. RMSEP dari metode pemilihan model (LASSO, Adaptive LASSO, MCP, SCAD, dan
Elastic net) juga disajikan sebagai perbandingan
Gambar 2. RMSEP untuk beberapa Model Averaging (MA) dengan masing-masing 5
prediktor yang berbeda dalam data simulasi korelasi tinggi (Corr: 0,95).
Namun, ketika parameter model diestimasi menggunakan OLS atau metode kuadrat
terkecil, RMSEP cenderung meningkat lagi ketika jumlah prediktor adalah 200 pada model
kandidat. Indikasi ini umumnya tidak terlihat ketika kita menggunakkan estimasi regresi
ridge. Hal ini wajar karena ketika jumlah prediktor dalam model kandidat meningkat
menjadi n, maka estimasi OLS menjadi tidak stabil dan estimasi regresi ridge diketahui
dapat mengatasi masalah ini. Selanjutnya, 100 (n/3) prediktor dan 200 (2n/3) prediktor
dalam model kandidat cenderung memberikan prediksi yang optimal ketika menggunakan
estimasi regresi ridge.
Gambar 3. RMSEP untuk beberapa model Moving Averaging (MA) masing-masing lima
angka prediktor yang berbeda dalam data simulasi korelasi tinggi (Corr: 0,95).
Tabel 3. RMSE dari model kalibrasi di dataset NIR pada model averaging (MA) dengan
metode model pemilihan (LASSO, Adaptive LASSO, MCP, SCAD, dan Elastic Net).
Pada (mp6), MA hanya memberikan RMSEP yang lebih rendah ketika variabel hasil
adalah minyak. Untuk variabel hasil lainnya, MA memberikan RMSEP lebih tinggi daripada
metode pemilihan model. Tabel 3 menunjukkan bahwa framework MA dengan estimasi
ridge menghasilkan RMSEP lebih sedikit dibandingkan dengan estimasi OLS. Perlu
diperhatikan bahwa penerapan MA pada dataset nyata menunjukkan bahwa pilihan bobot
kurang penting. RMSEP terendah dalam setiap variabel hasil dalam framework MA dapat
diperoleh dengan bobot berdasarkan AIC, Mallows Cp, dan cross validation. Perlu dicatat
bahwa semua minimum ini dicapai hanya ketika parameter diestimasi menggunakan regresi
ridge.
5. Diskusi dan kata penutup
Hasil dari penelitian menunjukkan dampak dari jumlah yang berbeda dari prediktor,
metode estimasi parameter, dan skema pembobotan pada prediksi dalam kerangka MA. Selain
itu, peningkatan jumlah prediktor dalam model kandidat diharapkan dapat meningkatkan
kinerja prediksi secara umum. Namun, hal ini konsisten ketika kita mempertimbangkan
regresi punggungan untuk memperkirakan parameter model kandidat.
Ketika kita mempertimbangkan perkiraan OLS, prediksi mulai terpengaruh secara negatif
ketika jumlah prediktor semakin mendekati jumlah pengamatan. Ini adalah hasil utama yang
penting untuk dicatat karena semua studi yang diketahui di MA. Dengan perkiraan
punggungan, studi simulasi menunjukkan kinerja yang stabil dalam prediksi.
Hasil studi simulasi juga menunjukkan bahwa bobot Cp dan CV Mallows lebih bermanfaat
untuk prediksi dibandingkan dengan bobot AIC. Secara keseluruhan, Cp Mallows lebih
disukai, karena ini terbukti konsisten di seluruh struktur korelasi yang berbeda dari data
simulasi. Keuntungan MA dibandingkan dengan metode pemilihan model (LASSO, Adaptive
LASSO, MCP, SCAD, dan Elastic Net) terlihat di semua struktur korelasi dalam data
simulasi, kecuali dalam pengaturan korelasi yang lebih rendah. Dalam konteks korelasi blok
independen sepuluh dan lima, MA masih memiliki keunggulan dibandingkan dengan metode
pemilihan model ketika kita membangun model kandidat menggunakan partisi acak, tetapi
tidak ketika menggunakan korelasi marginal. Dalam pengaturan yang berbeda dari data
simulasi korelasi tinggi, seperti kasus kalibrasi instrumen NIR menemukan bahwa MA
umumnya lebih baik daripada metode pemilihan model. Hasil simulasi ini penting untuk
memandu peneliti apakah akan mempertimbangkan MA atau pendekatan pemilihan model
dalam prediksi. Jadi, pemeriksaan yang cermat pada struktur korelasi data diperlukan ketika
mempertimbangkan pendekatan mana yang akan digunakan.
Prinsip-prinsip dalam studi simulasi, sebagian besar terlihat dalam aplikasi data nyata.
Rata-rata model punggungan terbukti secara umum lebih unggul dibandingkan dengan MA
OLS yang lebih umum. MA ridge juga menghasilkan RMSEP yang lebih rendah
dibandingkan metode pemilihan model pada data Jagung (mp5). Pada data Jagung (mp6), MA
ridge hanya menghasilkan RMSEP yang lebih rendah dibandingkan metode pemilihan model
ketika variabel outcome adalah minyak. Hal ini menunjukkan bahwa, dalam konteks kalibrasi
instrumen NIR dengan data dimensi tinggi yang berkorelasi, kami masih menganggap
pendekatan MA sebagai alternatif yang lebih disukai.
Untuk jumlah prediktor dalam model kandidat v, dalam studi simulasi bahwa n/3 lebih
disukai untuk mencapai prediksi optimal untuk estimasi regresi OLS dan ridge dalam
kerangka MA. Hal ini dianggap sebagai aturan praktis daripada resep. Pada aplikasi data real
di mana v diatur menjadi n/4, n/3 dan n/2, MA berhasil mencapai RMSEP yang lebih baik
daripada metode pemilihan model pada sebagian besar variabel hasil. MA memberikan
peluang untuk prediksi yang lebih baik dalam masalah kalibrasi dibandingkan dengan metode
pemilihan model, meskipun ada beberapa masalah yang tersisa untuk pekerjaan di masa
mendatang.