Anda di halaman 1dari 20

Mata Kuliah : Biostatistik Lanjut

DIAGNOSTIK REGRESI
Dosen Pengampu : Prof. Dr. dr. M. Tahir Abdullah, M.Sc., MSPH

Kelompok 4 Kelas G :
 Gilbert Calvisius Siamba (K012202007)
 Yuniarty Ikram Nahumarury (K012202008)
 Nurjanna (K012202024)

Pratinjau
Statistik Deskriptif
• Analisis Residual

• Analisis Outlier (Pencilan)

• Transformasi Data
• Kolinearitas
• Penskalaan
OUTLINE

20XX Pitch deck title 2


Pratinjau

Teknik diagnostik regresi digunakan untuk memeriksa asumsi dan untuk


menilai keakuratan perhitungan untuk analisis regresi berganda

20XX Pitch deck title 3


Pratinjau
Untuk menghindari banyak kesalahan dalam menganalisis data perlu diperhatikan hal-hal sebagai
berikut :
1. jenis subjek atau unit percobaan (misalnya, jarum pohon pinus kecil, manusia laki-laki tua),
2. tata cara pengumpulan data,
3. unit pengukuran untuk setiap variabel (misalnya, kilogram, meter, inci persegi, sentimeter
kubik), dan
4. rentang nilai yang masuk akal dan nilai tipikal untuk setiap variabel.

Pengetahuan ini kemudian dapat digabungkan dengan statistik deskriptif yang dihitung untuk satu
set data untuk mendeteksi kesalahan (error) dalam data dan menunjukkan potensi pelanggaran
asumsi analisis yang direncanakan

20XX 4
Mendeteksi Basis Data
Langkah 1
• Membuat daftar lima nilai terbesar dan lima terkecil untuk setiap variabel
• Kelebihannya adalah kita dapat segera mendeteksi banyak kesalahan perekaman data,
kesalahan format dalam input komputer, dan beberapa outlier
• Kekurangannya adalah sulit untuk mendeteksi masalah titik data individu jika jumlah
pengamatan meningkat melebihi 50

Langkah 2
• Menghitung Statistik Deskriptif
• Cara ini sangat membantu untuk menghitung beberapa bentuk statistik deskriptif tersebut
secara terpisah untuk kelompok-kelompok penting dalam sampel
• Lebih lanjut pendekatan deskriptif dalam analisis regresi dapat digunakan untuk menilai
korelasi antara pasangan variabel dan plot respons sebagai fungsi dari masing-masing
prediktor
Nilai Ekstrim
• Satu pengamatan (yang dilingkari) tampak
terisolasi di tepi atas plot (huruf A yang
dilingkari)
• Fakta bahwa suatu pengamatan tampak
tidak biasa bila dibandingkan dengan data
lainnya tidak secara otomatis berarti bahwa
pengamatan tersebut harus
dihilangkan/dibuang
• Prosedur diagnostik regresi memungkinkan
deteksi lebih mudah dari pengamatan
tersebut dan menunjukkan pengaruhnya
pada analisis regresi
Analisis Residual

Residual Tidak Terstandarisasi (ei)


Jumlah perbedaan antara nilai yang diamati dan nilai prediksi

Rumusnya adalah

Setiap ei, mewakili perkiraan error Ei, dimana Ei memenuhi


asumsi yaitu, independent, memiliki rata-rata nol, memiliki
varians yang sama σ2, dan mengikuti distribusi normal (asumsi
normalitas diperlukan untuk melakukan uji parametrik
signifikansi)
Analisis Residual

Residual Terstandarisasi (zi)


 Dalam analisis residual, Zi lebih sering diperiksa
daripada ei

 Rumusnya adalah

 Demikian halnya dengan ei, Zi juga berjumlah ke


nol dan karenanya tidak independen
Analisis Residual
Residual Studentized (ri)
 Dinamakan demikian karena kira-kira mengikuti
Distribusi t Student dengan n-k-1 derajat kebebasan
jika data mengikuti asumsi HEIL GAUSS

 Rumusnya adalah

 hi, leverage, merupakan ukuran pentingnya pengamatan


ke-i dalam menentukan model fit. Nilai leverage
sedemikian rupa sehingga 0 ≤ hi ≤1

Residu studentized memiliki rata-rata mendekati 0 (tetapi


tidak persis 0), dan varians sedikit lebih besar dari 1
Analisis Residual

Residual Jackknife (r(-i))

 Rumusnya adalah

 Kuantitas S2(-i) adalah varians residual yang


dihitung dengan pengamatan ke-i dihapus

 Residual Jackknife memiliki rata-rata (mean)


mendekati 0 dan varians sedikit lebih besar dari 1.
Analisis Residual

• Jika asumsi regresi standar terpenuhi dan jumlah pengamatan yang hampir sama dilakukan pada semua nilai
prediktor, maka pola dalam residual terstandarisasi, residual studentized, dan residual jackknife akan terlihat
sangat mirip.

• Namun, ketika masalah potensial muncul, residual residual studentized dan terutama residual jackknife akan
membuat nilai yang mencurigakan menjadi lebih jelas bagi analis data.

• Contohnya, jika pengamatan ke-i terletak jauh dari data lainnya, S(-i) akan cenderung jauh lebih kecil daripada
S, yang pada gilirannya akan membuat r(-i) lebih besar dibandingkan dengan ri. Dengan demikian r(-i) akan
cenderung menonjol lebih dari ri, sehingga lebih menonjolkan outlier. Juga, nilai hi yang besar untuk observasi
leverage yang tinggi mengarah pada nilai r(-i) yang lebih besar daripada nilai ri
Analisis Residual
Contoh lain (Skewness dan Kurtosis) :
Sebuah model telah dilengkapi dengan BERAT sebagai respons dan TINGGI, (TINGGI) 2, UMUR dan (UMUR)2 sebagai prediktor.
Kemudian dilakukan analisis residual dari 127 sampel anak laki-laki. Diperoleh 5 residual terkecil dan terbesar sebagai berikut :
• Residual tidak terstandarisasi {e}, adalah (-11.5, -10.8, -8.3, -8.1, -7.8) dan (13.0, 14.8, 15.6, 18.4, 45.2)
• Residual studentized {ri}, adalah (-1.74, -1.60, -1.22, -1.20, -1.19) dan (1.92 2.30, 2.33, 2.70, 7.21)
• Residual jackknife {r(-i)} adalah (-1.76, -1.61, -1.22, -1.21,-1.19) dan (1.94, 2.34, 2.38, 2.78, 9.48)
Dengan ukuran BERAT dalam kilogram, residual memiliki varians 45,6, skewness 2,81, dan kurtosis 15,33.
• Nilai skewness 2,81 menunjukkan bahwa asumsi normalitas dipertanyakan, karena skewness adalah 0 untuk setiap distribusi
simetris (seperti distribusi normal). Selain itu, nilai positif (+2,81) menunjukkan bahwa nilai yang relatif lebih banyak berada di
atas rata-rata daripada di bawahnya, sehingga nilai sampel dikatakan "miring positif". Nilai skewness yang negatif
menunjukkan bahwa nilai yang relatif lebih banyak berada di bawah rata-rata daripada di atasnya.
• Kurtosis menunjukkan berat ekor relatif terhadap tengah distribusi. kurtosis standar untuk distribusi normal standar adalah
3.0
Berarti data tidak berdistribusi normal
Grafik Analisis Residual Data Distribusi Normal
Uji Signifikansi

• Untuk menilai validitas asumsi normalitas tentu saja dapat didasarkan pada penggunaan prosedur
pengujian statistik standar misalnya, uji chi-kuadrat dan Kolmogorov- Smirnov. Kselain itu adalah uji
Shapiro-Wilks (1965) untuk normalitas, yang sesuai untuk ukuran sampel kecil, katakanlah, yang kurang
dari 50.

• Analisis residual sehubungan dengan penyimpangan dari normalitas umumnya sulit karena distribusi
sekumpulan residual dipengaruhi oleh beberapa faktor. Misalnya, residu mungkin menunjukkan pola
yang tidak normal karena model regresi yang tidak tepat, varians yang tidak homogen, atau bahkan
residu yang terlalu sedikit

• Walaupun terkadang subyektif, pendekatan grafis yang cermat yang melibatkan evaluasi simultan dari
beberapa jenis plot residual yang berbeda sering mengungkapkan anomali apa pun yang ada dalam data.
Untuk itu ada kalanya diinginkan untuk menggunakan prosedur pengujian statistik untuk menjawab
pertanyaan spesifik.

• Metode tambahan untuk menilai validitas asumsi independensi adalah menggunakan statistik Durbin-
Watson, yang menguji hipotesis nol independensi (tidak ada autokorelasi) dari waktu ke waktu
Mengatasi Outlier (Pencilan)

• Outlier pada satu set data residual terjadi jika terdapat nilai yang jauh lebih besar daripada nilai lainnya
(nalai ekstrim). Bisa jadi terdapat sebanyak tiga atau lebih standar deviasi dari rata-rata residual.

• Kehadiran nilai ekstrim seperti itu dapat secara signifikan mempengaruhi penyesuaian kuadrat terkecil
dari sebuah model, dan oleh karena itu penting untuk menentukan apakah analisis harus dimodifikasi
dalam beberapa cara (seperti dengan menghapus pengamatan yang bersangkutan).

• Outlier/Pencilan dalam data dapat menunjukkan keadaan khusus yang memerlukan penyelidikan lebih
lanjut (misalnya, seperti adanya efek interaksi yang tidak terduga).

• Tidak direkomendasikan untuk segera membuang pengamatan kecuali ada bukti kuat bahwa pengamatan
tersebut diakibatkan oleh kesalahan (misalnya, kesalahan dalam perekaman data atau penyebab lain yang
tidak bergantung pada proses yang diteliti, seperti kerusakan instrumen yang jelas}.

• Evaluasi terhadap kemungkinan terjadinya nilai ekstrim dapat dilihat berdasarkan (1) kewajaran yang
diberikan oleh variabel, (2) ekstremitas respons, dan (3) ekstremitas prediktor
Statistik Regresi Diagnostik Untuk Analisis Outlier (Pencilan)
1. Residual Jackknife
• Rumus dari Residual Jackknife adalah :

• Dimana :
ei adalah Residual tidak terstandarisasi, dengan rumus

S2 adalah Varians dari Residual, dengan rumus

hi adalah nilai leverage, dengan rumus


Statistik Regresi Diagnostik Untuk Analisis Outlier (Pencilan)
3. Jarak Cook
• Merupakan ukuran pengaruh suatu pengamatan
• Jarak Cook mengukur seberapa besar koefisien regresi diubah dengan menghapus pengamatan tertentu yang bersangkutan
Transformasi Data

Tiga alasan utama untuk menggunakan transformasi data adalah


(1) untuk menstabilkan varians variabel dependen jika asumsi
homoskedastisitas dilanggar,
(2) untuk menormalisasi (yaitu, untuk mengubah ke distribusi normal)
variabel dependen jika asumsi normalitas adalah nyata dilanggar,
(3) untuk melinierkan model regresi jika data asli menunjukkan model
yang nonlinier baik dalam koefisien regresi dan/atau variabel asli
(tergantung atau independen).
Transformasi Data
 
Beberapa transformasi yang lebih umum digunakan:
1. Transformasi log (Y' = log Y). Digunakan (asalkan Y hanya mengambil nilai positif) untuk menstabilkan varians Y jika
meningkat tajam dengan meningkatnya Y, untuk menormalkan variabel dependen jika distribusi residual untuk Y condong
positif, dan untuk melinierisasi model regresi jika hubungan dari Y ke beberapa variabel independen menunjukkan model
dengan kemiringan yang meningkat secara konsisten.
2. Transformasi akar kuadrat ( Y' = ). Digunakan untuk menstabilkan varians jika sebanding dengan rata-rata Y. Ini sangat
tepat jika variabel dependen memiliki distribusi Poisson.
3. Transformasi resiprokal ( Y' = 1 / Y). Digunakan untuk menstabilkan varians jika sebanding dengan pangkat empat rata-rata
Y, yang menunjukkan bahwa ada peningkatan besar dalam varians di atas beberapa nilai ambang Y. Transformasi ini
meminimalkan efek nilai besar Y, karena untuk ini nilai-nilai Y’ yang ditransformasikan akan mendekati 0, dan peningkatan
besar dalam Y’ hanya akan menyebabkan penurunan yang sepele dalam Y’.
4. Transformasi kuadrat ( Y' = Y2). Digunakan untuk menstabilkan varians jika menurun dengan rata-rata Y, untuk
menormalkan variabel dependen jika distribusi residual untuk Y condong negatif, dan untuk linierisasi model jika hubungan
asli dengan beberapa variabel independen melengkung ke bawah (yaitu, kemiringan secara konsisten menurun dengan
meningkatnya variabel independen).
5. Transformasi arcsin (Y' = arcsin = ). Digunakan untuk menstabilkan varians jika Y adalah proporsi atau laju.
Transformasi Data
Gambar Histogram yang perlu dilakukan Transformasi Data

Anda mungkin juga menyukai