Anda di halaman 1dari 11

7.

2 POLYNOMIAL MODELS IN ONE VARIABLE

7.2.1 Basic Principles

Sebagai contoh model regresi polinomial dalam satu variabel, pertimbangkan

y=β 0 + β 1 x + β 2 x 2 +ε (2.1)

Model ini disebut model orde dua dalam satu variabel. Model ini juga disebut model
kuadrat,karena nilai yang diharapkan dari y adalah

E ( y )=β 0 + β 1 x + β 2 x 2 (2.2)

β 1 sebagai parameter efek linier, β 2 sebagai parameter efek kuadrat. Parameter β0 adalah
mean dari y ketika x = 0 jika range datanya termasuk x = 0. Jika tidak, β0 tidak memiliki
interpretasi fisik.

Secara umum, model polinomial orde k- dalam satu variabel adalah

y=β 0 + β 1 x + β 2 x 2 +...+ β k x k + ε (2.3)

Jika kita tentukan xj = xj , j = 1, 2,. . . , k , lalu Persamaan. (2.2) menjadi model regresi
linier berganda di k regressors x1 , x2,. . . xk . Jadi, model polinomial orde k dapat dipasang
menggunakan teknik yang dipelajari sebelumnya.
Model polinomial berguna dalam situasi di mana analis mengetahui bahwa efek
curvilinier hadir dalam fungsi respons yang sebenarnya. Model polinomial juga berguna
sebagai fungsi perkiraan untuk hubungan nonlinier yang tidak diketahui dan mungkin sangat
kompleks. Dalam pengertian ini, model polinomial hanyalah perluasan deret Taylor dari
fungsi yang tidak diketahui. Jenis penerapan ini tampaknya paling sering terjadi dalam
praktik. Ada beberapa pertimbangan penting yang muncul saat memfilter polinomial dalam
satu variabel. Beberapa di antaranya dibahas di bawah ini.
1. Urutan Model penting untuk menjaga urutan model serendah mungkin . Ketika fungsi
respon tampaknya lengkung, Transformasi harus mencoba untuk menjaga model urutan
pertama. Jika gagal, polinomial orde dua harus dicoba. Sebagai aturan umum penggunaan
polinomial orde tinggi ( k > 2) harus dihindari kecuali mereka dapat dibenarkan karena alasan
di luar data. Model orde rendah dalam variabel yang ditransformasi hampir selalu lebih
disukai daripada model orde tinggi dalam metrik asli. Memodifikasi polinomial tingkat tinggi
secara sewenang-wenang adalah penyalahgunaan analisis regresi yang serius. Ingatlah bahwa
dalam kasus ekstrim selalu mungkin untuk melewatkan polinomial berorde n - 1 melalui n
poin sehingga polinomial dengan derajat yang cukup tinggi selalu dapat ditemukan
memberikan kesesuaian yang "baik" untuk data. Dalam kebanyakan kasus, ini tidak akan
melakukan apa pun untuk meningkatkan pemahaman tentang fungsi yang tidak diketahui,
juga tidak akan menjadi prediktor yang baik.
2. Model - Membangun Strategi Berbagai strategi untuk memilih urutan polinom yang
mendekati telah disarankan. Salah satu pendekatannya adalah dengan secara berturut-turut
menyesuaikan model urutan naik sampai t ujiuntuk suku orde tertinggi tidak signifikan.
Prosedur alternatif adalah untuk tepat sesuai model urutan tertinggi dan kemudian hal
menghapus satu per satu, dimulai dengan urutan tertinggi, sampai tertinggi agar sisa jangka
memiliki t statistic signifikan. Kedua prosedur ini masing-masing disebut seleksi maju dan
eliminasi mundur.
3. Ekstrapolasi Ekstrapolasi dengan model polinomial bisa sangat berbahaya. Misalnya,
perhatikan model orde kedua pada Gambar 7.2. Jika kita mengekstrapolasi di luar rentang
data asli, respons yang diprediksi akan menurun. Ini mungkin bertentangan dengan perilaku
sebenarnya dari sistem. Secara umum, model polinomial dapat berubah ke arah yang tidak
terduga dan tidak sesuai, baik dalam interpolasi maupun ekstrapolasi.

Gambar Danger of Extrapolation


4. Ill-Conditioning I Sebagai urutan dari meningkatnya polinomial, X'X matriks menjadi ill-
Conditioned. Ini berarti bahwa kalkulasi invers matriks akan menjadi tidak akurat, dan
kesalahan yang cukup besar dapat dimasukkan ke dalam estimasi parameter. Misalnya, lihat
Forsythe [1957]. Nonesensial ill-Conditioning I disebabkan oleh pilihan sewenang-wenang
asal dapat dihapus oleh pusat variabel regressor pertama (yaitu, mengoreksi x untuk rata-
ratanya x́), tetapi Bradley dan Srivastava [1979] menunjukkan, bahkan berpusat data masih
dapat hasil dalam korelasi sampel besar antara koefisien regresi tertentu.
5. Ill - Conditioning II Jika nilai x dibatasi pada kisaran sempit, terdapat kondisi ill-
conditioning atau multikolinearitas yang signifikan pada kolom matriks X. Misalnya, jika x
bervariasi antara 1 dan 2, x2 bervariasi antara 1 dan 4, yang dapat menciptakan
multikolinieritas yang kuat antara x dan x2.
6. Hierarchy Model regresi

y=β 0 + β 1 x + β 2 x 2 + β 3 x 3 +ε

dikatakan hierarkis karena berisi semua term orde 3 dan menurun. Sebaliknya,model

y=β 0 + β 1 x + β 3 x 3 + ε

tidak hirarkis. Peixoto [1987, 1990] menunjukkan bahwa hanya model hierarki yang tidak
berubah di bawah transformasi linier dan menyarankan bahwa semua model polinomial harus
memiliki properti ini (frase "model yang dirumuskan dengan baik secara hierarki" sering
digunakan). Sangat menarik untuk memiliki bentuk model yang diawetkan setelah
transformasi linier (seperti memfilter model dalam variabel berkode dan kemudian
mengonversinya ke model dalam variabel alami), tetapi ini murni kesempurnaan matematis.
Ada banyak model mekanistik yang tidak hierarkis; misalnya, hukum gravitasi Newton
adalah hukum kuadrat terbalik, dan hukum dipol magnet adalah hukum kubus terbalik. Selain
itu, terdapat banyak situasi dalam menggunakan model regresi polinomial untuk
merepresentasikan hasil eksperimen yang dirancang di mana model seperti

y=β 0 + β 1 x 1 + β 12 x 1 x 2+ ε

akan didukung oleh data, di mana istilah produk silang mewakili interaksi dua faktor.
Sekarang model hierarki akan membutuhkan penyertaan efek utama lainnya x2 . Namun,
istilah lain ini benar-benar tidak diperlukan dari perspektif signifikansi statistik. Mungkin
sangat logis dari sudut pandang sains atau teknik yang mendasari untuk memiliki interaksi
dalam model tanpa satu (atau bahkan dalam beberapa kasus baik) dari efek utama individu.
Ini sering terjadi ketika beberapa variabel yang terlibat dalam interaksi bersifat kategoris.
Saran terbaik adalah menyesuaikan model yang memiliki semua istilah signifikan dan
menggunakan pengetahuan disiplin daripada aturan sewenang-wenang sebagai panduan
tambahan dalam perumusan model. Secara umum, model hierarki biasanya lebih mudah
dijelaskan kepada "pelanggan" yang tidak terbiasa dengan pembuatan model statistik, tetapi
model non-hierarki dapat menghasilkan prediksi yang lebih baik untuk data baru.

7.2.2 Piecewise Polynomial Fitting (Splines)

Terkadang ditemukan bahwa polinomial orde rendah tidak sesuai data, dan
meningkatkan orde polinomial secara sederhana tidak secara substansial memperbaiki situasi.
Gejala dari hal ini adalah kegagalan jumlah sisa persegi untuk menstabilkan atau plot sisa
yang menunjukkan struktur yang tersisa yang tidak dapat dijelaskan. Masalah ini dapat terjadi
ketika fungsi berperilaku berbeda di berbagai bagian rentang x. Kadang-kadang transformasi
pada x dan atau y dapat menghilangkan masalah ini. Pendekatan yang, bagaimanapun, adalah
dengan membagi rentang x menjadi beberapa segmen dan sesuai kurva yang di setiap
segmen. Fungsi spline menawarkan cara yang berguna untuk melakukan jenis demi sedikit
ini piecewice polynomial fitting..

Spline adalah polinomial berorde k. Titik-titik sambungan dari potongan-potongan


tersebut biasanya disebut simpul . Umumnya kita memerlukan nilai fungsi dan turunan
pertama k - 1 untuk disepakati pada simpul, sehingga spline adalah fungsi kontinu dengan k
turunan kontinu k - 1. Spline kubik (k = 3) biasanya cukup untuk masalah yang paling
praktis.

Sebuah spline kubik dengan h knot, t1 < t2 <· · · < th , dengan turunan kontinyu
pertama dan kedua dapat ditulis sebagai

3 h
E( y)=S ( x)=∑ β0 j x j + ∑ βi ¿ ¿ ¿ (7.3)
j=0 i =1

dengan

Diasumsikan bahwa posisi knot telah diketahui. Jika posisi simpul merupakan parameter
yang akan diestimasi, masalah yang dihasilkan adalah masalah regresi nonlinier. Namun,
ketika posisi simpul diketahui, Persamaan (7.3) dapat dicapai dengan penerapan langsung
kuadrat terkecil linier.

Menentukan jumlah dan posisi simpul serta urutan polinomial di setiap segmen
tidaklah mudah. Wold [1974] menyarankan bahwa harus ada simpul sesedikit mungkin,
dengan setidaknya empat atau lima titik data per segmen. Perhatian yang cukup besar harus
dilakukan di sini karena fleksibilitas yang baik dari fungsi spline membuatnya sangat mudah
untuk "menyesuaikan" data. Wold juga menyarankan bahwa tidak boleh lebih dari satu titik
ekstrim (maksimum atau minimum) dan satu titik infleksi per segmen. Sejauh mungkin, titik-
titik ekstrim harus dipusatkan pada ruas tersebut dan titik-titik belok harus dekat dengan
simpul. Ketika informasi sebelumnya tentang proses pembuatan data tersedia, ini terkadang
dapat membantu dalam penentuan posisi simpul.

Model spline kubik dasar (7.3) dapat dengan mudah dimodifikasi menjadi polinomial
dengan urutan berbeda di setiap segmen dan untuk memberlakukan batasan kontinuitas yang
berbeda pada simpul. Jika semua h + 1 polinomial berorde 3, maka model spline kubik tanpa
batasan kontinuitas adalah

3 h
j
E( y)=S ( x)=∑ β0 j x + ∑ βij ¿¿
j=0 j=0

dimana ¿sama dengan 1 jika x > t dan 0 jika x ≤ t . Jadi, jika istilah βij ada dalam model, ini
memaksa diskontinuitas pada t j pada turunan ke- j dari S ( x ). Jika suku ini tidak ada, turunan
ke- j dari S ( x ) kontinu pada tj semakin sedikit batasan kontinuitas yang diperlukan, semakin
baik kecocokannya karena lebih banyak parameter dalam model, sedangkan semakin banyak
batasan kontinuitas yang diperlukan, semakin buruk kecocokan, tetapi kurva akhirnya akan
menjadi lebih mulus. Menentukan urutan segmen polinomial dan batasan kontinuitas yang
tidak secara substansial menurunkan kesesuaian dapat dilakukan dengan menggunakan
metode pengujian hipotesis regresi berganda standar.

Sebagai ilustrasi pertimbangkan spline kubik dengan simpul tunggal di t dan tidak ada
batasan kontinuitas; sebagai contoh,

E( y)=S (x)=β 00 + β 01 x + β 02 x 2+ β 03 x 3 + β 10 ¿
Perhatikan bahwa S ( x ), S’( x ), dan S″ ( x ) tidak selalu kontinu pada t karena adanya suku
yang melibatkan β10, β11 , dan β12 dalam model. Untuk menentukan apakah memberlakukan
batasan kontinuitas mengurangi kualitas dari kesesuaian, uji hipotesis H0 : β10= 0 [kontinuitas
S ( x )] , H0: β10 = β11 = 0 [kontinuitas S ( x ) dan S′ ( x )], dan H0: β10= β11 = β12 = 0
[kontinuitas S ( x ), S′ ( x ), dan S″ ( x )]. Untuk menentukan apakah spline kubik
menyesuaikan data dengan lebih baik daripada polinomial kubik tunggal pada rentang x,
cukup uji H0: β10 = β11 = β12 = β13 = 0.

Deskripsi yang sangat baik dari pendekatan ini untuk kesesuaian splines ada di Smith
[1979]. Kerugian potensial dari metode ini adalah bahwa X ′ X matriks menjadi tidak baik
jika ada banyak knot. Masalah ini dapat diatasi dengan menggunakan representasi spline
yang berbeda yang disebut kubik B - spline . Kubik B - splines didefinisikan dalam
perbedaan yang terbagi

i
Bi ( x )= ∑ ¿¿ (7.5)
j=i−4

dan

h+4
E ( y )=S ( x )=∑ γ i B i ( x ) (7.6)
i=1

dimana γi ,i = 1, 2,. . . , h + 4, adalah parameter yang akan diestimasi. Dalam Persamaan. (7.5)
ada delapan knot tambahan, t-3 < t-2 < t-1 < t0 dan th + 1 < th + 2 < th + 3 < th + 4. Kita biasanya
mengambil t0 = xmin dan th + 1 = xmin ; simpul lainnya berubah-ubah.

Contoh 7.2 Voltage Drop Data

Penurunan tegangan baterai pada motor peluru kendali yang diamati selama penerbangan
rudal ditunjukkan pada Tabel 7.3. Scatterplot pada Gambar 7.6 menunjukkan bahwa
penurunan tegangan berperilaku berbeda dalam segmen waktu yang berbeda, sehingga kita
akan memodelkan data dengan spline kubik menggunakan dua knot pada t1 = 6,5 dan t2 = 13
detik setelah peluncuran. Penempatan simpul ini secara kasar sesuai dengan perubahan arah
rudal.
Tabel Voltage Drop Data

Gambar Scatterplot dari Voltage Drop Data


(dengan perubahan terkait dalam kebutuhan daya), yang diketahui dari data lintasan. Model
penurunan tegangan dimaksudkan untuk digunakan dalam model simulasi digital-analog dari
misil.

Model spline kubik adalah

y=β 00 + β 01 x + β 02 x 2+ β 02 x 3 + β 1 ¿
Tabel 4 Ringkasan Statistik untuk Model Spline Kubik dari Voltage Drop Data

Gambar 7.7 Plot of residuals ei, versus fitted values ^y i for the cubic spline model
Gambar 7.8 Plot of residuals ei, versus fitted values ^y i for the cubic polynomial model

dan kuadrat-terkecil adalah

^y =8.4657−1.4531 x+ 0.4899 x 2−0.0295 x 3 +0.0247 ¿

Ringkasan statistik model ditampilkan pada Tabel 7.4. Plot residu versus ^y ditunjukkan pada
Gambar 7.7. Plot ini (dan plot sisa lainnya) tidak mengungkapkan penyimpangan serius dari
asumsi, jadi kami menyimpulkan bahwa model spline kubik cukup sesuai dengan data
penurunan tegangan.
Kita dapat dengan mudah membandingkan model spline kubik yang sesuai dari
Contoh 7.2 dengan sampel polinomial kubik selama penerbangan rudal; misalnya,
^y =6.4910+ 0.7032 x +0.0340 x 2−0.0033 x3

Ini adalah model sederhana yang berisi lebih sedikit parameter dan akan lebih disukai
daripada model spline kubik jika model tersebut memberikan kesesuaian yang memuaskan.
Residu dari polinomial kubik ini diplot versus ^y pada Gambar 7.8. Plot ini menunjukkan
indikasi kelengkungan yang kuat, dan berdasarkan struktur yang belum terjelaskan ini, kami
menyimpulkan bahwa polinomial kubik sederhana adalah model yang tidak memadai untuk
data penurunan tegangan.

Kita juga dapat menyelidiki apakah model spline kubik meningkatkan kesesuaian
dengan menguji hipotesis H0 : β1 = β2 = 0 menggunakan metode extra - sum - of - square.
Jumlah regresi kuadrat untuk polinomial kubik adalah

S SR ¿
dengan tiga derajat kebebasan. Jumlah ekstra kuadrat untuk menguji H0 : β1 = β2 = 0 adalah
S S R ( β 1 , β 2 β 00 , β 01 , β 02 , β03 ) =S S R ( β 01 , β 02 , β 03 , β 2 , β 2 β 00 )−S S R ( β 01 , β 02 , β03 β 00)
¿ 260.1784−230.4444
= 29.7340

dengan dua derajat kebebasan,

F 0=S S R ¿ ¿
yang akan dirujuk ke distribusi F2, 35, kami menolak hipotesis bahwa H0 : β1 = β2 = 0. Kami
menyimpulkan bahwa model spline kubik lebih cocok.

POLYNOMIAL DAN TRIGONOMETRIC TERMS

Polynomial dan trigonometric terms erkadang berguna untuk mempertimbangkan model


yang menggabungkan polinomial dan istilah trigonometri sebagai alternatif untuk model yang
hanya berisi suku polinomial. Secara khusus, jika diagram sebar menunjukkan bahwa
mungkin ada beberapa periodisitas atau perilaku siklik dalam data, menambahkan istilah
trigonometri ke model mungkin sangat bermanfaat, dalam model dengan istilah yang lebih
sedikit dapat dihasilkan daripada jika hanya suku polinom yang digunakan. Manfaat ini telah
dicatat oleh Graybill [1976] dan Eubank dan Speckman [1990].

Model untuk regressor tunggal x adalah

d r
i
y=β 0 + ∑ β i x + ∑ [δ j sin ( jx)+γ j cos ( jx)]+ ε
i=1 j=1

Jika regressor x berjarak sama, maka pasangan suku sin ( jx ) dan cos ( jx ) adalah ortogonal.
Bahkan tanpa spasi yang sama persis, korelasi antara suku-suku ini biasanya akan sangat
kecil.
Eubank dan Speckman [1990] menggunakan data penurunan tegangan dari Contoh
7.2 untuk mengilustrasikan pemasangan model regresi polinomial-trigonometri. Mereka
terlebih dahulu melakukan penskalaan ulang regressor x (waktu) sehingga semua pengamatan
berada pada interval (0, 2 π) dan menyesuaikan model di atas dengan d = 2 dan r = 1
sehingga model tersebut berbentuk kuadrat dalam waktu dan memiliki a sepasang suku sinus
- kosinus. Jadi, model mereka hanya memiliki empat suku, sedangkan model regresi spline
kami memiliki lima. Eubank dan Speckman memperoleh R2 = 0.9895 dan MSRes = 0.0767,
hasil yang sangat mirip dengan yang ditemukan untuk model spline (Tabel 7.4). Karena data
penurunan tegangan menunjukkan beberapa indikasi perioditas di scatterplot (Gambar 7.6),
model regresi polinomial-trigonometri tentunya merupakan alternatif yang baik untuk model
spline. Ini memiliki satu suku yang lebih sedikit (selalu merupakan properti yang diinginkan)
tetapi kuadrat rata-rata sisa yang sedikit lebih besar. Bekerja dengan versi yang diskalakan
dari variabel regressor mungkin juga dianggap sebagai potensi kerugian oleh beberapa
pengguna.

Anda mungkin juga menyukai