Anda di halaman 1dari 13

HANDOUT

ANALISIS REGRESI DAN KORELASI

DOSEN PENGAMPU: Chairunisah S.Si,M.Si

DISUSUN OLEH

KELOMPOK 5

1. ELLA WINANDA 4203230023


2. KATHRIN NISSIPUTRI LASE 4203230004
3. RISKA SYAHDIA 4201230013
4. RUTH MARGARETHA TAMBUNAN 4203530004

KELAS : PSMB 2020

PROGRAM STUDI MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS NEGERI MEDAN

2022/2023
PEMERIKSAAN SISA DAN DATA
Ada dua hal yang menyebabkan kecocokan model dengan data terok masih jelek yaitu:

6.1 Kekurangcocokan

Dalam hal demikian hubungan antara peubah dengan respons yang terdapat pada data
telah terwakili dengan cukup baik dalam model. Gambaran ini dapat dilukiskan sebagai

Respons= pola umum (prediksi) + pola acak.

Jadi jika antara model dengan data telah terdapat kecocokan yang baik maka sisa akan
berbentuk acak dan rataan kuadrat sisa merupakan penaksir 𝜎 2 yang takbias. Sisa berpola acak
bila korelasi antara sisa sama, atau dekat, dengan nol. Salah satu cara yang baik untuk menguji
apakah kecocokan (lebih tepat, ketidakcocokan) antara model dengan data ialah dengan
membanding taksiran 𝜎 2 yang diperoleh dari rata kuadrat sisa dengan nilai 𝜎 2 yang
sesungguhnya. Bila rataan kuadrat sisa 𝜎 2 ∞ 1 maka antara model dengan data terdapat
kecocokan yang baik. Atau, lebih tepat, tidak terdapat ketidakcocokan antara data dengan model.

Dalam praktek, kendati model sudah cukup baik, sulit mengharapkan pola sisa akan
betul-betul acak, begitupun rataan kuadrat sisa dibagi 𝜎 2 mungkin sedikit lebih besar dari 1

Bila 𝝈𝟐 diketahui

Jika 𝜎 2 diketahui

𝐽𝐾𝑠𝑖𝑠𝑎 (𝑛 − 𝑝)𝜎 2 2
= 𝑏𝑒𝑟𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑠𝑖 𝑥𝑛−𝑝
𝜎2 𝜎2

bila 𝜎 2 rataan kuadrat sisa, n ukuran terok, dan p = banyaknya parameter dalam model,
termasuk 𝛽0 Nilai 𝑧 2 dengan dk-n-p .Bila nilai 𝑧𝑛−𝑝2
hasil perhitungan lebih besar dari yang
tertera pada tabel untuk dk-n-p dan taraf keberartian a tertentu maka dikatakan ketidakcocokan
berarti pada taraf a Dalam keadaan demikian maka model lain perlu dicari karena model yang
telah diuji tidak mempunyai kecocokan yang baik denganndata.

Bila 𝒕𝒊𝒅𝒂𝒌 𝝈𝟐 diketahui

Umumnya 𝜎 2 tidaklah diketahui. Hanya dalam keadaan tertentu tersedia nilai 𝜎 2 i dan
hal ini jarang terjadi. Karena itu diperlukan sumber khusus untuk mendapatkan penaksir 𝜎 2
yang takbias dan tidak tergantung pada model. Sumber khusus itu adalah replikasi yang dengan
sengaja dibuat dalam rancangan penelitian.

Replikasi hendaklah dibedakan dengan pengulangan pengukuran (repetisi). Pengukuran


berat seseorang beberapa kali merupakan pengulangan pengukuran dan bertujuan meninggikan
keyakinan kita (konfirmasi) akan kebaikan keburukan pengukuran tersebut. Makin kecil variasi
pengukuran makin yakin kita akan ketelitian alat/cara pengukuran. Tetapi jika kita ingin
mengaitkan umur (x) dengan berat badan orang (y) dan kita mengukur berat badan beberapa
orang yang Jama umurnya maka kita membuat replikasi pengukuran pada suatu.

Jumlah Kuadrat galat murni

Misalkanlah replikasi diamati pada beberapa nilai 𝑥𝑖 , sebagai beriku (untuk memudahkan
penulisan dimisalkan modelnya hanya terdiri at satu peubah bebas x). Perhitungan jumlah
kuadrat galat murni da berbeda sedikitpun bila model mengandung lebih dari satu bebas).

Replikasi pada nilai x

Nilai x replikasi y rata-


rata 𝑦1
𝑥1 𝑦𝑖1 , 𝑦𝑖 2, … , 𝑦𝑖𝑛𝑓 𝑦1
̅̅̅

𝑥2 𝑦21 , 𝑦𝑖 2, … , 𝑦2𝑛𝑓 𝑦2
̅̅̅

.
.
.
𝑦𝑚1 , 𝑦𝑚 2, … , 𝑦2𝑛𝑓 𝑦𝑚
̅̅̅̅
𝑥𝑚

Pada tiap nilai x, terdapat 𝑛𝑖 replikasi nilai y

𝑦1 = ∑𝑛𝑗=1 𝑦𝑖𝑗/𝑛 Seluruhnya ada 𝑛 = ∑𝑚


̅̅̅ 𝑖=1 𝑛𝑖

Beberapa 𝑛1 mungkin bernilai 1; dalam hal seperti itu maka tidak ada replikasi pada nilai 𝑥1
yang bersangkutan. Replikasi pada suatu 𝑥1 menyumbang variasi pada jumlah kuadrat si sebesar

𝑛𝑗 𝑛𝑗 𝑛𝑗 2
2
𝑦1 = ∑ 𝑦 2 𝑖𝑗 − (∑ 𝑦 𝑖𝑗 ) /𝑛𝑖
∑(𝑦𝑖𝑗 − ̅̅̅)
𝑗=1 𝑗=1 𝑗=1

Jika semua variasi ini dijumlahkan maka kita peroleh jumlah kuadrat galat murni

𝑚 𝑛𝑗
2
𝐽𝐾𝑔𝑎𝑙𝑎𝑡 𝑚𝑢𝑟𝑛𝑖 = ∑ ∑(𝑦𝑖𝑗 − ̅̅̅)
𝑦1
𝑖=1 𝑗=1
Derajat kebebasan jumlah kuadrat ini juga diperoleh dengan cara yang mirip sama. Bila ada n1
replikasi pada suatu nilai x1, maka ada𝑛1 − 1 derajat kebebasan yang berasal dari padanya.
Bahwa dk lebih kecil 1 dari kiranya mudah dipahami karena dalam perhitungan jumlah
kuadratnya (lihat rumus (6.3)) ada pengurangan dengan . Bila seluruh dk seperti ini dijumlahkan
maka diperoleh
𝑚

𝑑𝑘𝑔𝑎𝑙𝑎𝑡 𝑚𝑢𝑟𝑛𝑖 = ∑(𝑛1 − 1)


𝑖=1

∑ 𝑛1 − 𝑚 = 𝑛 − 𝑚
𝑖=1

6.2 Gunanya Pemeriksaan Sisa

Sejauh ini telah kita pelajari cara mencocokan model dengan data, menguji koefisien
regresinya, membandingkan R² dari model yang berlainan, dan lainnya. Semua ini bertujuan
melihat bagaimana kecocokan model dengan data. Akan tetapi penyimpangan suatu model dari
data susah dilihat melalui pemeriksaan koefisien regresi ataupun R Makin besar sisa makin jauh
data menyimpang dari model. Begitupun adanya pola yang teratur (sistematis) dalam sisa
menunjukkan bahwa modelnya belumlah baik. Model yang sudah baik ditandai oleh pola sisa
yang acak.

Dari suatu kelompok data sering terdapat beberapa yang tidak mengikuti pola unum. Data
seperti itu sering terdapat di pinggir. Mungkin munculnya karena kesalahan mengamati atau
mencatat tapi tidak jarang pula dala itu sesungguhnya sejati. Salah satu kelemahan metode
kuadrat terkecil ialah bahwa data yang aneh tersebut mempunyai pengaruh yung proporsional
lebih besar dari data yang terletak di bagian tengah. Hal ini tchal kita lihat di depan di pasal 2.7.
Salah satu tujuan pemeriksaan sisa alah untuk menentukan apakah data ini tadi dapat
dikategorikan sebagai pencilan atau bukan. Ini disebut diagnostik regresi.

Jadi dalam membentuk model kita melihat pola umum data sedangkan dalam analisis sisa
kita melihat penyimpangannya dari pola tersebut. Dalam setiap analisis data keduanya harus
dipadu secara harmonis agar diperoleh model yang baik.

Bagaimana pentingnya pemeriksaan sisa telah ditunjukkan oleh Anscombe melalui contoh
berikut. Kelompok (a) – (c) mempunyai 𝑥 yang sama sedangkan kelompok (d) nilai 𝑥 ∗nya
hampir sama semua kecuali pengamatan yang ke-8. Nilai 𝑦 untuk tiap kelompok berlainan tetapi
rata-ratanya sama, begitu pula variansinya. Tiap pasangan menghasilkan persamaan regresi :

𝑦̂ − 7,5 = 0,5(𝑥 − 9,0)


Tabel 6.3 Empat kelompok data fiktif dari Anscomba
(a)-(c) (a) (b) (c) (d)
Data Peubah
x y y y x y
No. Pengamatan 1 10,0 8,04 9,4 7,46 6,0 6,58
2 8,0 6,95 8,4 6,77 8,0 5,76
3 13,0 7,58 8,4 12,74 8,0 7,71
4 0,0 8,81 8,7 7,11 8,0 8,64
5 11,0 8,35 9,6 7,61 8,0 0,47
6 14,0 9,96 8,0 8,84 8,0 7,04
7 6,0 7,24 6,0 6,08 8,0 5,25
8 4,0 4,26 3,0 5,39 19,0 12,50
9 12,0 10,84 9,3 8,15 8,0 5,56
10 7,0 4,82 7,6 5,42 8,0 7,91
11 5,0 5,68 4,4 5,73 8,0 6,88
Jumlah 99 82,51 82,1 82,50 99 82,51
Rata-rata 9 7,50 7,0 7,50 9 7,50
Variansi 11 4,127 4,27 4,123 11 4,123

atau

𝑦̂ = 0,5𝑥 + 3

dengan 𝑟𝑥𝑦 = 0,8165 atau 𝑅2 = 66,7%. Nilai kritis untuk 𝑏 adalah 0,0022.
Dari hasil ini kelihatannya keempat kelompok tidaklah berbeda satu sama lain. Kecocokan
antara data dan model sudah lumayan baik. Koefisien regresi berbeda dengan nol. Gambar 6.1
memperlihatkan data dengan garis regresi untuk tiap kasus. Dari gambar tersebut terlihat bahwa
tidak semuanya sudah baik. Begitupun dengan sisa.
Ada beberapa hal yang menyebabkan sisa belum berbentuk acak. Disatu pihak, model
belum mengandung semua peubah yang seharusnya termasuk di dalamnya. Ataupun kalau sudah
masuk, belum dalam bentuk fungsi yang tepat. Misalnya dimasukkan dalam bentuk linear
padahal seharusnya berbentuk log. Di pihak lain, data sesungguhnya tidak memenuhi anggapan
regresi, seperti kesamaan variansi dan/atau kenormalan. Dalam hal terakhir ini, harus diusahakan
mencari transformasi sehingga, setelah ditransformasikan, data yang baru ini memenuhi
anggapan regresi. Pemilihan transformasi yang sesuai untuk suatu kelompok data sering tidak
begitu mudah. Cara sederhana menanganinya dapat dilihat di Erickson dan Nosanchuk (1983).
Bagian a kedua gambar memperlihatkan bahwa kecocokan antara data dengan model sudah
baik dan kelihatannya sudah tidak dapat lagi diperbaiki. Sisa terlihat acak. Bagian b
memperlihatkan pola data yang melengkung sehingga model kuadratis, seperti = 𝛽0 + 𝛽1 𝑥 +
𝛽2𝑖 𝑥 2 + 𝜀𝑖 , kelihatannya akan lebih baik. Dan bila ini dicoba diperoleh
𝑦̂ = −6,00 − 2,78𝑥 − 0,13𝑥 2 ,

Kecocokannya sempurna.

Pada bagian c hampir semua datanya terletak pada suatu garis lurus kecuali satu.
Kemungkinan data ini merupakan pencilan yang tidak jarang terjadi karena mencatat. Analisis
sebaiknya dikerjakan dengan membanding kecocokan garis regresi tanpa mengikutsertakan data
yang aneh tersebut. Kalau ini dikerjakan maka diperoleh

𝑦̂ = 4,006 + 0,345𝑥, 𝑅2 = 100,0%

suatu kecocokan yang sempurna.

Perbedaan kedua kecocokan regresi ternyata mencolok. Karena data ini hanya ciptaan, jadi
tidak berasal dari keadaan alam sesungguhnya, maka kita tidak dapat menyarankan kecocokan
yang mana sebaiknya diambil. Kendati demikian peneliti hendaknya melaporkan kedua hal
seperti telah dikemukakan di depan. Membuang data pencilan mungkin tindakan yang amat
keliru, data tersebut mungkin berasal daribibit unggul.
Bagian d lebih aneh lagi. Arah garis regresi sepenuhnya ditentukan oleh satu titik data dan
lebih aneh lagi data itu sama sekali tidak mengikuti pola data yang lainnya. Jika data yang aneh
ini dibuang maka sisanya hanyalah replikasi pada 𝑥 = 8,0 sebanyak 10 kali. Untuk mendapatkan
garis regresi yang baik dibutuhkan variasi nilai 𝑥 yang lebih banyak.

Tujuan Pemeriksaan Sisa

Secara umum, analisis data bertujuan memeriksa apakah regresi dipenuhi dan apakah ada
data yang tidak mengikuti pola urutan data. Adanya pencilan mungkin merupakan petunjuk
bahwa modelnya belum cocok dengan data, judul, jadi modelnya masih perlu diperbaiki. Jika
modelnya diperbaiki, pencilan mungkin akan hilang. Akan tetapi, dalam banyak hal, pencilan
muncul secara wajar dan tidak mengisyaratkan kekurangcocokan model.
Tujuan pemeriksaan sisa, secara implisit, juga berarti apakah peubah bebas yang besar
pengaruhnya sudah masuk ke dalam model dan dalam bentuk (linear, kuadrat, log, dsb) yang
sesuai. Secara lebih terperinci, tujuan pemeriksaan sisa adalah:
1) Apakah sisa tidak berpola acak
2) Apakah anggapan normal tidak dilanggar
3) Apakah variansi dapat dianggap tidak berubah (sama)
4) Apakah ada data yang tidak mengikuti pola umum (pencilan)
5) Apakah peubah yang masuk dalam model barangkali bukan berbentuk linear
6) Apakah peubah yang berpengaruh telah masuk ke dalam model

Perlu ditegaskan kembali bahwa uji statistic yang digunakan (𝑡 𝑑𝑎𝑛 𝐹) bersifat kekar. Ini
berarti bahwa anggapan kenormalan dan kesamaan variabel tidak perlu dipenuhi dengan ketat
tapi cukup agak kasar. Di samping itu, perlu pula ditegaskan bahwa sesungguhnya distribusi
normal lebih merupakan mitos karena distribusi normal tidak ada dalam praktek.
Berikut ini diberikan beberapa rajah sisa yang penting mengikuti N. Draper dan H. Smith,
dengan judul buku : Applied Regression Analysis.
6.3 Berbagai Rajah Sisa

1) Rajah Sisa menurut besarnya


Gambar 6.3 menyajikan rajah 𝑒𝑖 , 𝑖 = 1, 2, … , 𝑛 menurut besarnya dari contoh
ditabel 6.2. dalam gambar ini dua atau lebih titik sisa yang sama besarnya disusun
bertumpuk. Terlihat bahwa rajah a cukup lumayan, dalam arti kata, agak setangkup dan
memencar agak acak dan lebih banyak di tengah. Tidak ada tanda bahwa anggapan
keacakan dan kenormalan dilanggar oleh data. Bagian b agak aneh, datanya
mengelompok. Kendati bentuknya hampir setangkup tapi tidak acak. Pada bagian c,
terlihat satu data menyendiri di sebelah kanan dan cukup jauh dari titik nol (pusat data).
Bagian d tidak menunjukkan keanehan.

2) Rajah menurut waktu


Pengaruh waktu sering masuk dalam pengambilan data melalui urutan melakukan
percobaan. Suatu reaksi kimia mungkin dipengaruhi oleh cahaya sehingga pengamatan
yang dilakukan waktu siang dan malam berlainan hasilnya, begitu pun prestasi orang
yang bekerja pagi dan sore mungkin berlainan. Seseorang yang banyak melakukan
pengamatan akan berkurang ketelitiannya makin lama dia bekerja, begitupun suatu alat
mungkin bertambah aus ketelitiannya sebagai alat ukur berkurang. Rajah c menunjukkan
jalur yang melebar, menunjukkan bahwa sisa makin berfluktuasi bila I bertambah besar.

3) Rajah sisa menurut 𝑦̂𝑖 dan 𝑥𝑗𝑛 𝑓 = 1, 2, … , 𝑘


Sisa juga sebaiknya dirajah menurut 𝑦̂𝑖 dan masing-masing peubah bebas 𝑥𝑗𝑛 𝑓 =
1, 2, … , 𝑘. Dalam setiap hal, bila hasilnya mirip pola a gambar 6.4 maka tidak ada
masalah. Pola b mestinya tidak akan muncul kecuali kalau ada kesalahan dalam
perhitungan. Seperti terdahulu, bila pola e yang muncul maka anggapan kesamaan
variansi mungkin dilanggar dan transformasi pada respons y, atau x, atau keduanya,
mungkin diperlukan. Pada setiap kasus yang dihadapi tidak dapat diharapkan bahwa
anggapan kenormalan dan kesamaan variansi akan dipenuhi dengan tepat.

Seperti sebelumnya, pola d menunjukkan perlunya dimasukkan bentuk kuadrat ataupun mungkin
perkalian antara dua peubah bebas (interaksi) dalam model.

Selanjutnya, sisa hendaknya dirajah menurut setiap cara yang dia wajar. Tetapi membuat rajah
sma terhadap y tidaklah banyak menolong, malahan dapat menyesatkan, karena kend model
sudah baik, antara y dan e masih berkorelasi.

Statistik untuk menangani sisa telah mulai banyak diciptakan tetapi tidak mudah
menggunakannya.

6.4 Sisa dan data berpengaruh

Jika beta (tidak SMA dgn) 0 maka telah dijelaskan di depan bahwa
∑𝑛1 𝑒𝑖 = 0.

Begitupun telah dijelaskan di bab 5 bahwa bila modelaya takhias dan menyatakan banyaknya
parameter dalam model maka
𝑛 2 2
𝐸 (∑1 𝑒𝑖 ) = 𝜎 (9𝑛 − 𝑝).
( Lihat persamaan 5.36). Jadi derajat kebebasan JK hanya n-p. tidak pernah sama dengan n. Jadi
kendati 𝜀1 , 𝜀2 , … , 𝜀𝑛 bebas satu sama lain tetapi penaksirnya 𝑒1 , 𝑒2 , … , 𝑒𝑛 , tidaklah demikian. lni
berani bahwa rajah sisa antara sisa tersebut terdapat korelasi. Hal ini menimbulkan kesulitan
dalam pemeriksaan sisa, Berikut akan dibahas bentuk sisa yang lain: sisa terbaku dan sisa
terstudent. Selanjutnya akan dibahas pengaruh suatu titik data pada model Penelitian sisa saja
rupanya tidak cukup untuk menetukan pengaruh suatu titik data terhadap model.

Bila anggapan kenormalan dan kesamaan variansi dipenuhi maka ale berdistribusi N (0,1), dan di
bawah anggapan keacakan ala, i1,2,... , bebas sau sama lain. Karena itu beralasan memandang
sisa, dalam bentuk e/e1,2,, n, bila diketahui dan e/s bila tidak diketahui jika menyatakan rataan
kuadrat sisa. Sisa ini disebut sisa terbaku.

Sebelum kita membahas sifat sisa terbaku ini ada baiknya kita kembali sebentar ke persamaan
(5.33). Di situ telah didefinisikan matriks topi (proyeksi) HX(XX) Xyang amat berguna dalam
pemeriksaan sisa Matriks ini hanya tergantung pada matriks rancangan (peubah bebas) dan tidak
tergantung pada respons y. Bila unsur diagonal H, namakan h besar maka ini berarti bahwa data
jauh dari pusat data (), Pengertian jauh di sini menggunakan apa yang disebut Jarak Mahalanobir

Pengamatan yang jauh dari pusat data (peubah bebas) mungkin sekali berpengaruh besar
terhadap koefisien regresi dan berpotensi sebagai pencilan. Pengamatan no. 8 di tabel 6.3 d amat
jauh dari pusat data (x= 19) dan pengaruhnya besar sekali (koefisien regresi sepenuhnya
ditentukan oleh pengamatan ini). Di soal 5.5 b dibuktikan bahwa 1/Sh s 1. bilan ukuran terok.
Makin besar ha makin besar 'pengaruh' (leverage, dalam bahasa Inggris) pengamatan kei. Untuk
pengamatan no. 8 di tabel 6.3 d. 1. Selanjutnya dari penurunan persamaan (5.36) terlihat bahwa
hp (lihat juga soal 5.5 a) untuk model dengan p parameter. Jadi rata-rata pin. Bila h>2p/n maka
h, dianggap besar, tapi ada pula yang mengambil k> 3pin (asal bilangan ini < 1). Kembali ke sisa
terbaku. Dari persamaan (5.37) terlihat bahwa var(e)-(-A), 1, 2, .

Ini berarti bahwa kendati semua anggapan regresi dipenah varie) vare), bila i j. Jadi, di samping
e, i1,2,. Jain, variansinyapun tidak sama. Karena itu tidak dapat diharapkan bahwa -N(0,1) dan,
sejalan dengan itu, juga tidak berlakon bahwa Tetapi rupanya, untuk tujuan praktek pada
umumnya, diario fr cukup dekat ke f Dengan demikian penggunaan sifat kanormalm seperti
persamaan (1.13) maupun rajah normal dapat dilakukan menggunakan sisa terbaku. Bilan-p
cukup ber maka perbedaan antara e/o dengan e/s tidak banyak menimbulkan kesalahan. Tetapi
bila n-p kecil maka sebaiknya gunakan tabel dengan
Cara yang dianggap lebih baik membakukan sisa ialah dengan membagi n dengan penaksir
simpangan bakunya.
𝑒𝑖
𝑒𝑖 ∗ = , 𝑖 = 1,2, … , 𝑛
𝑥√1 − ℎ𝑖𝑖

Besaran ini disebut sisa terstudent dan merupakan fungsi monoton dari distribusi t-student
(Weisberg (1980), h. 115) dan dapat dipandang sebagai distribusi dengan dk=n-p-1. Sisa ini
mempunyai beberapa sifat yang baik, seperti E(e;)= E(e)-0 dan, bila modelnya tidak bias, var (e)
1 untuk setiap 1. Tetapi ee, tidaklah bebas satu sama lain. Dari rumus di atas terlihat bahwa bila
h, besar (mendekatil) maka penyebut menjadi kecil sehingga ej menjadi besar, pada umumnya.
Dalam banyak hal, khususnya bila r besar, perbedaan antara sisa terba dan sisa terstudent
mungkin hanya kecil sehingga informasi yang mereka berikan hampir sama pula. Untuk
pengamatan ke 13 di contoh 2.5 (libat tabel 2.6-7) diperoleh sisa terbaku 3 sedangkan sisa
terstudent>8, susu perbedaan yang amat besar.

6.4.1 Data berpengaruh

Besarnya pengaruh suatu titik data tidak hanya ditentukan olah nilai x (yang dapat dilihat dari
besarnya nilai h,,i=1, 2,.,n) tapi juga dari jauhnya nilai y dari rata-rata y seperti telah terlibat dari
contoh 6.1

pengamatan no. 13. Pandang selanjutnya gambar 6.6. Pengamatan bertandadi a akan
berpengaruh besar terhadap koefisien regresi by sodangkan yang di b hanya berpengaruh
terhadap be. Suatu data mungkin

GAMBAR

Gambar 6.6 Pengaruh suatu pengamatan

letaknya terpencil, tapi kalau pengaruhnya terhadap koefisien regresi kecil maka kita tidak perlu
memberi perhatian besar padanya. Makin besar, ukuran terok n makin kecil pengaruh suatu titik
data. Pengaruh suatu data juga tergantung pada model yang digunakan. Suatu titik data mungkin
merupakan pencilan bila menggunakan suatu model tapi tidak bila model lain yang digunakan.

Cara termudah menilai pengaruh suatu titik data ialah dengan membuat dua analisis, satu
dengan seluruh data dan satu lagi tanpa data tersebut, kemudian bandingkan perbedaan
koefisien regres yang diakibatkannya.

Suatu cara sederhana ialah dengan menggunakan sisa terstudent dengan dkn-p-1. Bila sita ini
lebih besar dari nilai r(n-p-1, a) dari tabel-r maka anggap data tersebut terpencil. Cara ini
mudah dikerjakan bila pencilannya cuma satu, atau, kalau lebih dari satu, letaknya tidak
berdekatan. Kalau pencilannya ditemukan cukup banyak barangkali modelnya tidak tepat,
mungkin skala yang digunakan kurang tepat. Dalam hal itu diperlukan transformasi terhadap x
dan y, atau kedua-duanya.

6.5 Memilih transformasi

Tujuan kita ialah mencari suatu transformasi (berbentuk fungsi) sehingga data terk dalam hal
ini data sisa, menjadi berbentuk setangkup dan kedu jungnya tidak terlalu tebal. Data pencilan
seharusnya masih tetap pencilan sesudah transformasi, jika tidak maka barangkali Innsformasi
telah memampatkan data terlalu keras. Pengalaman dan pengetahuan mengenai persoalan yang
melatarbelakangi data yang sedang dihadapi sangat menolong dan kita sering harus berani
main coba-coba. Ada dua macam transformasi yang akan dibahas ransformasi mengenai y dan
transformasi mengenai x. Tujuan kita ialah mengusahakan agar anggapan regresi dipenuhi:
kenormalan, kesamaan variansi dan peubah bebas yang masuk ke dalam persamaan regresi
berbentuk linear. Kalau data tidak diambil secara acak maka tidak ada apapun yang dapat
dikerjakan untuk memperbaikinya.

6.5.1. Transformasi y

Untuk mengurangi unsur coba-coba, Box dan Cox (1964) mengusulkan penggunaan
transformasi

yλ − 1
𝑧=𝑦 (λ)
= { λ ,λ = 0
ln 𝑦, λ = 0

untuk data yang positif (y>0). Jika data yang kita hadapi negatif, penambahan dengan suatu
tetapan dapat dikerjakan. Perhatikan bahwa bagian kedua rumus di atas adalah hal khusus dari
bagian pertama bila 20. Ini diperlukan untuk menjaga agar z-y kontinu pada 2-0.

Jika A-1/2, transformasi zy, yaitu mengambil akar dari semua data bila 2-0,2-logy; bila λ=-1,
z=1/y, sedangkan bila λ= 1, z=y, artinya tidak perlu ada transformasi. Terlihat bahwa
transformasi Box dan Cox ini merupakan suatu kelompok transformasi untuk menangani
berbagai penyimpangan terhadap anggapan regresi.

Transformasi ini mengubah bentuk galat & jadi menganggap bahwa anggapan kenormalan
belum dipenuhi, karena itu pemeriksaan koalan masih perlu dilakukan terhadap sisa setelah
transformasi Untuk menjaga agar JKsi masih dapat dibandingkan setelah transformasi maka
bentuk (6.10) perlu dibakukan dengan mengalikannya dengan Jakobinya, sehingga (6.10)
menjadi
Box dan Cox menggunakan metode kemungkinan maksimam untuk menaksir A. Taksiran
seperti ini dapat pula dicari dengan mencari nilai terhadap peubah bebas, gambarkan grafik yang
meminimumkan JKS sebagai fungsi dari 2. Untuk berbagai nilai JKS(A) sebagai fungsi dari 2.,
kemudian dari grafik baca nilal yang regresikan respons za), meminimumkan JKS. Ini harus
dikerjakan dengan sedikit main coba coba, mungkin memerlukan sekitar 10 percobaan atau
lebih, misalnya dimulai dengan beberapa nilai 2 seperti 2-2,-1, 0, 1, dan 2 Selangnya kemudian
dipersempit begitu kita mengetahui pada ren yang mana letaknya ?

Akan diperlihatkan bahwa model ini masih dapat diperbaiki melalui transformasi yang cocok.
Transformasi Box dan Cox dicobakan mula-mula untuk 𝜆 = −2, −1, 0, 1, 2. Terlihat bahwa
minimum JKS terletak antara 0 < 𝜆 < 1. Kemudian dicoba beberapa nilai 𝜆 lagi, disini 𝜆 = 0,4,
0,5, 0,6. Ternyata 𝜆 = 0,5 memberikan hasil minimum. Hampir tidak banyak beda hasil akhirnya
apakah diambil 𝜆 = 0,55 atau 0,5. Untuk 𝜆 = 0,5 diperoleh R2 = 99,9% (Hampir sempurna).

dk JKsisa diambil 9, berkurang 1 karena 𝜆 ditaksir. Korelasi sisa dengan taksiran harapan nya
0,987. Terlihat bahwa transformasi z = 𝑦 (𝜆) = √𝑦 dapat memperbaiki model.

6.5.2 Transformasi pada x


Transformasi ini digunakan bila suku galat dianggap telah memenuhi anggapan kenormalan,
tetapi belum semua peubah bebas x1, x2, . . . , xk terkait secara linier dengan respons y. Box dan
Tidwell (1962) mengusulkan transformasi

𝑥𝛼, 𝛼 ≠ 0
𝑥∗ = { (6.12)
ln 𝑥, 𝛼 = 0

Kemudian gunakan model

𝛾𝑖 = 𝛽0 + 𝛽0 𝑥𝑖∗ + 𝜀 (6.13)

𝛼 ditaksir melalui proses iterasi dan kekonvergenan, dalam banyak hal, dicapai secara cepat.
Pada nilai limit 𝛼, JKS mencapai minimum sebagai fungsi dari 𝜆. Iterasi dapat dimulai dari 𝛼 = 1
dan dilanjutkan sebagai berikut:

Regresikan (𝛼 = 1) 𝑦̂ = 𝑏0 + 𝑏1 𝑥 .

Kemudian bentuk peubah bebas baru, namakan misalnya z,

z = x. ln x

Regresikan y terhadap x dan z:

𝑦̂ = 𝑏0𝑙 + 𝑏1𝑙 𝑥 + 𝑐𝑙 𝑧.
Perhatikan bahwa umumnya 𝑏0 ≠ 𝑏0𝑙 dan 𝑏1 ≠ 𝑏1𝑙

Misalkan selanjutnya
𝑐
𝛼1 = (𝑏1 ) + 1
1

Pandang peubah baru 𝑥 ∗ = 𝑥 𝛼1 dan ulangi proses semula. Deretan nilai 𝛼1 , 𝛼2 , … akan menuju 1
akhirnya dan kemudian ambil

𝛼 = 𝛼1 , 𝛼2 , … , 𝛼𝑘

Bila iterasi dilakukan k kali.

6.5.3 Transformasi menstabilkan variansi


Jika anggapan kesamaan variansi tidak dipenuhi maka diperlukan suatu transformasi untuk
menstabilkannya. Transformasi ini umumnya menyangkut y dan kadang-kadang y dan x
bersama-sama. Pemilihan transformasi tergantung pada bentuk pelanggaran yang dihadapi.
Rajah data mentah y terhadap x, rajah sisa terhadap 𝑦̂ dan terhadap x akan sangat menolong
mengenali bentuknya.

Gambar 6.11 di buku memperlihatkan rajah data mentah y terhadap x yang berasal dari proporsi
yang berhasil pada distribusi binom dengan n = 5. Bilangan pada gambar menunjukkan banyak
nya titik data yang terletak di tempat itu. Terlihat pemencaran di tengah lebih lebar daripada
kedua pinggirnya. Regresi sederhana y terhadap x menghasilkan sisa seperti gambar 6.12 yang
memperlihatkan lebih jelas bahwa kesamaan variansi memang dilanggar. Data seperti ini sering
muncul dari percobaan pada data yang bersifat proporsi.

Pada gambar 6.13 berasal dari distribusi Poisson n = 17, 𝜆 = 2, memperlihatkan bentuk
pemencaran yang mirip dengan gambar 6.4 (c). Pada distribusi Poisson rataan sama dengan
variansi. Mengingat bahwa dalam model regresi (sederhana) Ε(𝑦) = 𝛽0 + 𝛽𝑥 , jadi Ε(𝑦)
berubah linear terhadap x, maka var (y) juga akan ikut berubah mengikuti x, sehingga anggapan
kesamaan variansi dilanggar pada kedua contoh ini.

Kendall dan Stuart (1983), h. 98-102, begitu pula Bartlett (1947), h. 39-52, membahas cara
pemilihan transformasi bila var (y) merupakan fungsi dari Ε(𝑦). Dalam hal Poisson maka
transformasi y* = √𝑦 akan menyelesaikan masalah karena var (√𝑦) tidak tergantung pada
rataannya. Dalam hal binom disarankan menggunakan transformasi arcsin √𝑦.

Pada tabel berikut diterapkan beberapa transformasi dengan berbagai keadaan untuk k suatu
tetapan.
Hubungan var (y) dengan E (y) Transformasi
var (y) = k E(y) (Poisson) y* = √𝑦 atau √𝑦 + √𝑦 + 1
var (y) = k E(y) (1-E(y)) y* = arcsin √𝑦
(binom, proporsi 0% < y < 100%)
var (y) = k (E(y))2 y* = log √𝑦
var (y) = k (E(y))3 y* = 1/√𝑦
var (y) = k (E(y))4 y* = 1/y

Pengetahuan yang melatarbelakangi data akan sangat membantu untuk menentukan pemilihan
transformasi. Jika anggapan kesamaan variansi tidak dipenuhi maka variansi dari taksiran
koefisien regresi akan membengkak. Umumnya y harus lebih besar dari 0 agar dapat
menggunakan transformasi di tabel diatas. Penggunaan log y, misalnya sering menolong untuk
rentangan y yang besar, nilai y besar agak jarang sedangkan yang kecil amat berdekatan. Fungsi
log y akan mendekatkan nilai y yang besar dan meregangkan nilia-nilai y yang kecil.
Transformasi 1 / √𝑦 sedikit lebih keras dari log y dan 1 / √𝑦 lebih keras dari √𝑦. Transformasi
1/y akan cocok digunakan bila nilai-nilai (positif) dekat 0 (antara 0 dan 1) amat rapat sedangkan
nilai y yang besar ada tapi amat jarang.

Anda mungkin juga menyukai