DIAGNOSTIK REGRESI
Dosen Pengampu : Prof. Dr. dr. M. Tahir Abdullah, M.Sc., MSPH
Kelompok 4 Kelas G :
Gilbert Calvisius Siamba (K012202007)
Yuniarty Ikram Nahumarury (K012202008)
Nurjanna (K012202024)
Pratinjau
Statistik Deskriptif
• Analisis Residual
• Transformasi Data
• Kolinearitas
• Penskalaan
OUTLINE
Pengetahuan ini kemudian dapat digabungkan dengan statistik deskriptif yang dihitung untuk satu
set data untuk mendeteksi kesalahan (error) dalam data dan menunjukkan potensi pelanggaran
asumsi analisis yang direncanakan
20XX 4
Mendeteksi Basis Data
Langkah 1
• Membuat daftar lima nilai terbesar dan lima terkecil untuk setiap variabel
• Kelebihannya adalah kita dapat segera mendeteksi banyak kesalahan perekaman data,
kesalahan format dalam input komputer, dan beberapa outlier
• Kekurangannya adalah sulit untuk mendeteksi masalah titik data individu jika jumlah
pengamatan meningkat melebihi 50
Langkah 2
• Menghitung Statistik Deskriptif
• Cara ini sangat membantu untuk menghitung beberapa bentuk statistik deskriptif tersebut
secara terpisah untuk kelompok-kelompok penting dalam sampel
• Lebih lanjut pendekatan deskriptif dalam analisis regresi dapat digunakan untuk menilai
korelasi antara pasangan variabel dan plot respons sebagai fungsi dari masing-masing
prediktor
Nilai Ekstrim
• Satu pengamatan (yang dilingkari) tampak
terisolasi di tepi atas plot (huruf A yang
dilingkari)
• Fakta bahwa suatu pengamatan tampak
tidak biasa bila dibandingkan dengan data
lainnya tidak secara otomatis berarti bahwa
pengamatan tersebut harus
dihilangkan/dibuang
• Prosedur diagnostik regresi memungkinkan
deteksi lebih mudah dari pengamatan
tersebut dan menunjukkan pengaruhnya
pada analisis regresi
Analisis Residual
Rumusnya adalah
Rumusnya adalah
Rumusnya adalah
Rumusnya adalah
• Jika asumsi regresi standar terpenuhi dan jumlah pengamatan yang hampir sama dilakukan pada semua nilai
prediktor, maka pola dalam residual terstandarisasi, residual studentized, dan residual jackknife akan terlihat
sangat mirip.
• Namun, ketika masalah potensial muncul, residual residual studentized dan terutama residual jackknife akan
membuat nilai yang mencurigakan menjadi lebih jelas bagi analis data.
• Contohnya, jika pengamatan ke-i terletak jauh dari data lainnya, S(-i) akan cenderung jauh lebih kecil daripada
S, yang pada gilirannya akan membuat r(-i) lebih besar dibandingkan dengan ri. Dengan demikian r(-i) akan
cenderung menonjol lebih dari ri, sehingga lebih menonjolkan outlier. Juga, nilai hi yang besar untuk observasi
leverage yang tinggi mengarah pada nilai r(-i) yang lebih besar daripada nilai ri
Analisis Residual
Contoh lain (Skewness dan Kurtosis) :
Sebuah model telah dilengkapi dengan BERAT sebagai respons dan TINGGI, (TINGGI) 2, UMUR dan (UMUR)2 sebagai prediktor.
Kemudian dilakukan analisis residual dari 127 sampel anak laki-laki. Diperoleh 5 residual terkecil dan terbesar sebagai berikut :
• Residual tidak terstandarisasi {e}, adalah (-11.5, -10.8, -8.3, -8.1, -7.8) dan (13.0, 14.8, 15.6, 18.4, 45.2)
• Residual studentized {ri}, adalah (-1.74, -1.60, -1.22, -1.20, -1.19) dan (1.92 2.30, 2.33, 2.70, 7.21)
• Residual jackknife {r(-i)} adalah (-1.76, -1.61, -1.22, -1.21,-1.19) dan (1.94, 2.34, 2.38, 2.78, 9.48)
Dengan ukuran BERAT dalam kilogram, residual memiliki varians 45,6, skewness 2,81, dan kurtosis 15,33.
• Nilai skewness 2,81 menunjukkan bahwa asumsi normalitas dipertanyakan, karena skewness adalah 0 untuk setiap distribusi
simetris (seperti distribusi normal). Selain itu, nilai positif (+2,81) menunjukkan bahwa nilai yang relatif lebih banyak berada di
atas rata-rata daripada di bawahnya, sehingga nilai sampel dikatakan "miring positif". Nilai skewness yang negatif
menunjukkan bahwa nilai yang relatif lebih banyak berada di bawah rata-rata daripada di atasnya.
• Kurtosis menunjukkan berat ekor relatif terhadap tengah distribusi. kurtosis standar untuk distribusi normal standar adalah
3.0
Berarti data tidak berdistribusi normal
Grafik Analisis Residual Data Distribusi Normal
Uji Signifikansi
• Untuk menilai validitas asumsi normalitas tentu saja dapat didasarkan pada penggunaan prosedur
pengujian statistik standar misalnya, uji chi-kuadrat dan Kolmogorov- Smirnov. Kselain itu adalah uji
Shapiro-Wilks (1965) untuk normalitas, yang sesuai untuk ukuran sampel kecil, katakanlah, yang kurang
dari 50.
• Analisis residual sehubungan dengan penyimpangan dari normalitas umumnya sulit karena distribusi
sekumpulan residual dipengaruhi oleh beberapa faktor. Misalnya, residu mungkin menunjukkan pola
yang tidak normal karena model regresi yang tidak tepat, varians yang tidak homogen, atau bahkan
residu yang terlalu sedikit
• Walaupun terkadang subyektif, pendekatan grafis yang cermat yang melibatkan evaluasi simultan dari
beberapa jenis plot residual yang berbeda sering mengungkapkan anomali apa pun yang ada dalam data.
Untuk itu ada kalanya diinginkan untuk menggunakan prosedur pengujian statistik untuk menjawab
pertanyaan spesifik.
• Metode tambahan untuk menilai validitas asumsi independensi adalah menggunakan statistik Durbin-
Watson, yang menguji hipotesis nol independensi (tidak ada autokorelasi) dari waktu ke waktu
Mengatasi Outlier (Pencilan)
• Outlier pada satu set data residual terjadi jika terdapat nilai yang jauh lebih besar daripada nilai lainnya
(nalai ekstrim). Bisa jadi terdapat sebanyak tiga atau lebih standar deviasi dari rata-rata residual.
• Kehadiran nilai ekstrim seperti itu dapat secara signifikan mempengaruhi penyesuaian kuadrat terkecil
dari sebuah model, dan oleh karena itu penting untuk menentukan apakah analisis harus dimodifikasi
dalam beberapa cara (seperti dengan menghapus pengamatan yang bersangkutan).
• Outlier/Pencilan dalam data dapat menunjukkan keadaan khusus yang memerlukan penyelidikan lebih
lanjut (misalnya, seperti adanya efek interaksi yang tidak terduga).
• Tidak direkomendasikan untuk segera membuang pengamatan kecuali ada bukti kuat bahwa pengamatan
tersebut diakibatkan oleh kesalahan (misalnya, kesalahan dalam perekaman data atau penyebab lain yang
tidak bergantung pada proses yang diteliti, seperti kerusakan instrumen yang jelas}.
• Evaluasi terhadap kemungkinan terjadinya nilai ekstrim dapat dilihat berdasarkan (1) kewajaran yang
diberikan oleh variabel, (2) ekstremitas respons, dan (3) ekstremitas prediktor
Statistik Regresi Diagnostik Untuk Analisis Outlier (Pencilan)
1. Residual Jackknife
• Rumus dari Residual Jackknife adalah :
• Dimana :
ei adalah Residual tidak terstandarisasi, dengan rumus