Anda di halaman 1dari 4

Residual Analysis: Validating Model Assumptions

Residual untuk observasi i adalah selisih antara nilai observasi dari variabel dependen ( yi ) dan nilai
prediksi dari variabel dependen ( yi ).

Dengan kata lain residual ke-i adalah kesalahan yang dihasilkan dari penggunaan estimasi persamaan
regresi untuk memprediksi nilai variabel dependen. Residu untuk contoh Armand's Pizza Parlors dihitung
pada Tabel 14.7. Nilai observasi variabel dependen ada di kolom kedua dan nilai prediksi variabel
dependen, yang diperoleh dengan menggunakan persamaan regresi estimasi ^y = 60 + 5X , ada di kolom
ketiga. Analisis residu yang sesuai pada kolom keempat akan membantu menentukan apakah asumsi
yang dibuat tentang model regresi tepat

Mari kita tinjau asumsi regresi untuk contoh Armand's Pizza Parlors. Model regresi linier sederhana
diasumsikan.

y=β 0 + β 1 x +∈

Model ini menunjukkan bahwa kami mengasumsikan penjualan triwulanan ( y) menjadi fungsi linier dari
ukuran populasi siswa (x) ditambah suku kesalahan . Pada Bagian 14.4 kami membuat asumsi berikut
tentang istilah kesalahan . 1. E( ) 0. 2. Varians dari , dilambangkan dengan σ2 , adalah sama untuk semua
nilai x. 3. Nilai-nilai independen. 4. Error term berdistribusi normal.

Residual memberikan informasi terbaik tentang ; karenanya analisis residu merupakan langkah penting
dalam menentukan apakah asumsi untuk tepat. Sebagian besar analisis residual didasarkan pada
pemeriksaan plot grafis. Pada bagian ini, kita membahas plot sisa berikut.

1. Plot residu terhadap nilai variabel bebas x

2. Plot residu terhadap nilai prediksi dari variabel dependen y

3. Sebuah plot sisa standar

4. Plot probabilitas normal


Residual Plot Against x

Plot residual terhadap variabel independen x adalah grafik di mana nilai-nilai variabel independen
diwakili oleh sumbu horizontal dan nilai-nilai residu yang sesuai diwakili oleh sumbu vertikal. Suatu titik
diplot untuk setiap sisa. Koordinat pertama untuk setiap titik diberikan oleh nilai xi dan koordinat kedua
diberikan oleh nilai yang sesuai dari residual y1 −¿ ^ yi . Untuk plot residual terhadap x dengan data
Armand's Pizza Parlors dari Tabel 14.7, koordinat titik pertama adalah (2, 12), sesuai dengan x1 = 2 dan y1
−¿ ^ yi = - 12
; koordinat titik kedua adalah (6, 15), sesuai dengan x2 = 6 dan y2 −¿ ^y 2 = 15 seterusnya. Gambar 14.11
menunjukkan plot sisa yang dihasilkan.Residual Plot Against

Plot sisa lainnya mewakili nilai prediksi dari variabel dependen pada sumbu horizontal dan nilai sisa pada
sumbu vertikal. Titik diplot untuk setiap sisa. Koordinat pertama untuk setiap titik diberikan oleh i yn dan
koordinat kedua diberikan oleh nilai yang sesuai dari sisa ke-i y1 −¿ ^yi .. Dengan data Armand dari Tabel
14.7, koordinat titik pertama adalah (70, 12), sesuai dengan 1 70 dan y1 1 12; koordinat titik kedua
adalah (90, 15); dan seterusnya. Gambar 14.13 menyediakan plot sisa. Perhatikan bahwa pola petak sisa
ini sama dengan pola petak sisa terhadap variabel bebas x. Ini bukan pola yang akan membuat kita
mempertanyakan model sebagai asumsi. Untuk regresi linier sederhana, plot residual terhadap x dan
plot residual memberikan pola yang sama. Untuk analisis regresi berganda, residual plot terhadap lebih
banyak digunakan karena adanya lebih dari satu variabel independen.U

Residual Standar Banyak plot residu yang disediakan oleh paket perangkat lunak komputer
menggunakan versi standar residu. Seperti yang ditunjukkan dalam bab-bab sebelumnya, variabel acak
distandarisasi dengan mengurangkan rata-ratanya dan membagi hasilnya dengan standar deviasinya.
Dengan metode kuadrat terkecil, rata-rata residunya adalah nol. Jadi, hanya membagi setiap residu
dengan standar deviasinya memberikan residu standar. Dapat ditunjukkan bahwa standar deviasi
residual i bergantung pada kesalahan standar estimasi s dan nilai yang sesuai dari variabel independen x

Plot residual standar dapat memberikan wawasan tentang asumsi bahwa istilah kesalahan memiliki
distribusi normal. Jika asumsi ini terpenuhi, distribusi residu terstandar akan terlihat berasal dari
distribusi probabilitas normal standar. Jadi, ketika melihat plot residu standar, kita akan melihat sekitar
95% residu standar antara 2 dan 2. Kita lihat pada Gambar 14.14 bahwa untuk contoh Armand semua
residu standar adalah antara 2 dan 2. Oleh karena itu, berdasarkan residu standar, plot ini tidak
memberi kita alasan untuk mempertanyakan asumsi yang memiliki distribusi normal.

Normal Probability Plot Pendekatan lain untuk menentukan validitas asumsi bahwa error term memiliki
distribusi normal adalah normal probability plot. Untuk menunjukkan bagaimana plot probabilitas
normal dikembangkan, kami memperkenalkan konsep skor normal. Misalkan 10 nilai dipilih secara acak
dari distribusi probabilitas normal dengan rata-rata nol dan standar deviasi satu, dan proses
pengambilan sampel diulang terus menerus dengan nilai di setiap sampel 10 diurutkan dari yang terkecil
hingga yang terbesar. Untuk saat ini, mari kita pertimbangkan hanya nilai terkecil di setiap sampel.
Variabel acak yang mewakili nilai terkecil yang diperoleh dalam pengambilan sampel berulang disebut
statistik orde pertama.

Sekarang mari kita tunjukkan bagaimana 10 skor normal dapat digunakan untuk menentukan apakah
residu standar untuk Armand's Pizza Parlors tampaknya berasal dari distribusi probabilitas normal
standar. Kita mulai dengan mengurutkan 10 residu standar dari Tabel 14.8. 10 skor normal dan urutan
residu terstandar ditunjukkan bersama pada Tabel 14.10. Jika asumsi normalitas terpenuhi, residual
standar terkecil harus mendekati skor normal terkecil, residual standar terkecil berikutnya harus
mendekati normal terkecil berikutnya.

Gambar 14.15 adalah plot probabilitas normal untuk contoh Armand's Pizza Parlors. Penghakiman
digunakan untuk menentukan apakah pola yang diamati menyimpang dari garis cukup untuk
menyimpulkan bahwa residu standar bukan dari distribusi probabilitas normal standar. Pada Gambar
14.15, kita melihat bahwa titik-titik dikelompokkan dengan rapat di sekitar garis. Oleh karena itu kami
menyimpulkan bahwa asumsi istilah kesalahan memiliki distribusi probabilitas normal adalah masuk
akal. Secara umum, semakin dekat titik-titik tersebut mengelompok di sekitar garis 45 derajat, semakin
kuat bukti yang mendukung asumsi normalitas. Setiap kelengkungan substansial dalam plot probabilitas
normal adalah bukti bahwa residu tidak berasal dari distribusi normal. Skor normal dan plot probabilitas
normal terkait dapat diperoleh dengan mudah dari paket statistik seperti Minitab.

14.9 Residual Analysis: Outliers and Influential Observations

Mendeteksi Outlier Gambar 14.16 adalah diagram pencar untuk kumpulan data yang mengandung
outlier, titik data (pengamatan) yang tidak sesuai dengan tren yang ditunjukkan oleh data yang tersisa.
Penyimpangan mewakili pengamatan yang mencurigakan dan memerlukan pemeriksaan yang cermat.
Mereka mungkin mewakili data yang salah; jika demikian, data harus diperbaiki. Mereka mungkin
menandakan pelanggaran asumsi model; jika demikian, model lain harus dipertimbangkan. Akhirnya,
mereka mungkin hanya nilai-nilai yang tidak biasa yang terjadi secara kebetulan. Dalam hal ini, mereka
harus dipertahankan.

Residual standar juga dapat digunakan untuk mengidentifikasi outlier. Jika pengamatan sangat
menyimpang dari pola data lainnya (misalnya, outlier pada Gambar 14.16), residual standar yang sesuai
akan menjadi besar dalam nilai absolut. Banyak paket komputer secara otomatis mengidentifikasi
pengamatan dengan residu standar yang memiliki nilai absolut yang besar. Pada Gambar 14.18 kami
menunjukkan keluaran Minitab dari analisis regresi data pada Tabel 14.11. Baris terakhir dari output
menunjukkan bahwa residual standar untuk pengamatan 4 adalah 2,67. Minitab menyediakan daftar
setiap observasi dengan residual standar kurang dari 2 atau lebih besar dari 2 di bagian Unusual
Observation dari keluaran; dalam kasus seperti itu, pengamatan dicetak pada baris terpisah dengan
huruf R di sebelah residu standar, seperti yang ditunjukkan pada Gambar 14.18. Dengan kesalahan
terdistribusi normal, residu standar harus berada di luar batas ini sekitar 5% dari waktu.

Mendeteksi Pengamatan Berpengaruh Kadang-kadang satu atau lebih pengamatan memberikan


pengaruh yang kuat pada hasil yang diperoleh. Gambar 14.20 menunjukkan contoh pengamatan yang
berpengaruh dalam regresi linier sederhana. Estimasi garis regresi memiliki kemiringan negatif. Namun,
jika pengamatan yang berpengaruh dikeluarkan dari kumpulan data, kemiringan garis regresi yang
diperkirakan akan berubah dari negatif menjadi positif dan perpotongan y akan menjadi lebih kecil.
Jelas, pengamatan yang satu ini jauh lebih berpengaruh dalam menentukan perkiraan garis regresi
daripada yang lain; menghilangkan salah satu pengamatan lain dari kumpulan data akan berdampak
kecil pada perkiraan persamaan regresi.
Pengamatan yang berpengaruh dapat diidentifikasi dari diagram pencar ketika hanya ada satu variabel
independen. Pengamatan yang berpengaruh mungkin merupakan outlier (pengamatan dengan nilai y
yang menyimpang secara substansial dari tren), mungkin sesuai dengan nilai x yang jauh dari rata-rata
(misalnya, lihat Gambar 14.20), atau mungkin disebabkan oleh kombinasi dari keduanya (nilai y yang
agak di luar tren dan nilai x yang agak ekstrim).

Pengamatan dengan nilai ekstrem untuk variabel independen disebut titik tuas usia tinggi. Pengamatan
berpengaruh pada Gambar 14.20 adalah titik dengan daya ungkit yang tinggi. Leverage suatu
pengamatan ditentukan oleh seberapa jauh nilai variabel bebas dari nilai rata-ratanya. Untuk kasus
variabel bebas tunggal, leverage pengamatan ke-i, dilambangkan hi , dapat dihitung dengan
menggunakan persamaan (14.33).

Pengamatan berpengaruh yang disebabkan oleh interaksi residual yang besar dan daya ungkit yang
tinggi bisa jadi sulit dideteksi. Tersedia prosedur diagnostik yang mempertimbangkan keduanya dalam
menentukan kapan pengamatan berpengaruh.

Anda mungkin juga menyukai