2.iwa Ipvol18-2-2009
2.iwa Ipvol18-2-2009
2.iwa Ipvol18-2-2009
ABSTRACT
This paper discusses the study of outlier and residual detection in
the linear regression, conducted by study of the requirements and the
necessary assumption that the residual regression model is reliable and
can be used. Assumption of normality is one of necessary condition that
the residuals, so if there are outlier residual will have not consequences
in normal distribution. So to do detection of outlier from the data
observations. Besides that need to normality tested of the residuals or
directly to the variable of responses (observations). Presence or
absence of observation as outlier can be characterized by the
distribution of residuals and the correlation coefficient. Outlier detection
can be followed by determining of each observation residuals is
followed by determining ist the median, and the statistic T is used to test
the existence of outlier. Quartile deviation (dQ) is simple alternative to a
detecting of outlier. The results of the study show that to normality test,
can be done on the residual or on the response variables (the
dependent variables). Study of the residual can be done by plotting the
residuals of the independent variables and the dependent variables.
Efforts to overcome the outlier can be done with the data
transpormation so the data as outlier need not disposed.
Keywords : correlation, median, normality, outlier, regression analysis,
residuals.
95
PENDAHULUAN
Dalam suatu kegiatan penelitian kadang kala kita dihadapkan untuk
menentukan dan memahami bentuk dan keeratan/kekuatan hubungan
antara dua atau lebih peubah yang akan digunakan dalam penelitian,
sehingga diperlukan suatu analisis khusus untuk membahas hal
tersebut. Dalam Statistika, analisis yang bermaksud untuk memahami
bentuk hubungan fungsional serta prediksinya adalah teknik analisis
regresi, sedangkan analisis yang bermaksud untuk memahami/
mengetahui besarnya kekuatan/keeratan serta arah hubungan antar
peubah adalah teknik analisis korelasi. Kedua teknik analisis ini pada
dasarnya saling berhubungan, sehingga dalam penerapannya sering
digunakan secara bersamaan dalam melakukan analisis hubungan
antar peubah, dan penggunaan keduanya sering disebut sebagai
analisis korelasional.
Analisis regresi digunakan untuk menggambarkan garis yang
menunjukan arah hubungan antar peubah, serta dipergunakan untuk
melakukan prediksi, selain istilah tersebut, di kalangan ahli statistik ada
juga yang menggunakan istilah estimating line atau garis dugaan
sebagai padanan istilah regresi. Dalam penggunaan garis regresi
sebagai prediktor terdapat beberapa persyaratan yang harus dipenuhi
yang diantaranya adalah asumsi residual ei (selisih antara nilai amatan
dan nilai prediktor) menyebar normal dengan rata-rata nol dan
ragamnya e2 , jadi dalam melakukan kajian dengan menggunakan
analisis regresi diperlukan untuk mencek apakah persyaratannya sudah
dipenuhi atau tidak.
Dalam penulisan ini dilakukan penditeksian atau penelaahan data
pencilan (outlier) dan residual dalam suatu model regresi linier termasuk
uji normalitas, serta upaya untuk menanggulanginya. Uji normalitas
dilakukan karena disamping anggapan normalitas untuk residual, juga
pada saat melakukan pengujian keberartiaan baik koefisien regresi atau
koefisien korelasi digunakan sebaran t dan sebaran f (untuk uji secara
simultan), sedangkan kedua sebaran tersebut diturunkan dari sebaran
normal.
Tujuan dari penulisan ini adalah untuk memberi gambaran tentang
perlunya penelaahan terhadap outlier dan uji normalitas pada saat
analisis regresi & korelasi digunakan dalam suatu penelitian serta
penelaahan residual yang merupakan bagian penentu layak tidaknya
model regresi digunakan. Diharapkan dengan adanya informasi ini
bermanfaat bagi para pengguna statistika dan dapat memperjelas
96
e = Y Y = Y ( +
X ) . Diasumsikan e menyebar
ditulis
i
normal dengan rata-rata nol dan ragamnya e2 , jadi dalam melakukan
kajian dengan menggunakan analisis regresi diperlukan untuk mencek
apakah persyaratannya sudah dipenuhi yang diantaranya syarat
menyebar normal. Bentuk yang digunakan untuk mempredisi
i
X iY i ( X iY i ) 2
i=1
i=1
2
i
( X i)2
dan
_
^
1
1
97
t hit
^
1
98
hit
= r ij
n 2
1 r ij 2
n
r
xy
i = 1
[{ n
i = 1
2
i
i = 1
}{ { n
i = 1
) (
i = 1
i = 1
2
i
)
n
i = 1
}]
Untuk taraf nyata dan derajat bebas (n-2), maka kriteria pengujiannya
adalah tolak Ho : = 0 jika |thit| t0.5 (n-2) dan terima Ho jika |thit | < t0.5 (n-2).
Jika hipotesis di atas hanya memperhatikan nilai > 0 atau uji arah
kanan, maka bentuk kriteria ujinya adalah tolak Ho : = 0 jika thit t (n-2)
dan terima Ho jika thit <t (n-2).
Asumsi Normalitas Dalam Analisis Regresi
Dalam analisis regresi dan korelasi yang diasumsikan menyebar
normal adalah residual ei sehinga ada suatu pemikiran yang perlu di uji
kenormalannya adalah residual, tetapi banyak juga yang melakukannya
langsung terhadap data pengamatan, tepatnya terhadap peubah respon
(peubah tak bebas Y). Keduanya sama saja karena berdasarkan sifat
dari peubah acak yang menyebar normal, jika peubah tersebut
menyebar normal maka kombinasi liniernya juga akan menyebar
normal. Jadi jika residual menyebar normal maka Y juga menyebar
normal karena Y adalah kombinasi linier dari residual ei atau Yi = a +
b Xi + ei.
Di samping itu, dalam melakukan uji koefisien regresi atau koefisien
korelasi biasa digunakan sebaran t atau untuk pengujian secara
simultan
digunakan
sebaran
f.
Kedua
sebaran
tersebut
diturunkan/berasal dari sebaran normal. Atau untuk lebih jelasnya
sebaran t dibangkitkan dari rasio dua peubah acak yang menyebar
normal baku dan sebaran khi-kuadrat, sedangkan sebaran f
dibangkitkan dari rasio dua peubah acak yang masing-masing
menyebar khi-kuadrat. Sebaran khi-kuadrat sendiri berasal dari sebaran
normal baku (sebaran normal baku jelas berasal dari sebaran normal).
Berdasarkan informasi di atas, jika kita menghendaki hasil kajian
yang syahih dan terandalkan maka uji normalitas jelas perlu dilakukan
sebelum analisis data dilakukan dan dapat dilakukan terhadap residual
atau langsung pada peubah respon.
KAJIAN DATA PENCILAN
Pengaruh Pencilan (Outlier) Terhadap Regresi dan Korelasi
Apabila dalam pengamatan terdapat pencilan atau outlier, dengan
sendirinya akan menurunkan nilai koefisien regresi atau korelasinya.
Hal ini diakibatkan karena ragam yang mengukur bervariasinya data
Informatika Pertanian Volume 18 No. 2, 2009
99
hitung
101
Residual
(ei)
11.6
-7.9
-6.9
-6.4
14.6
-4.9
0 = 0 dan
H1 0 = 0
1 = 0
dan
1 0
= Y2 = 46.296
JK ( 0 ) = ( Y)2/n = 42.336
JK ( 1 ) =
^ |
i =1
( X i X )( Y i Y )
= 3.711,6
Db
JK
RJK
Fh
Ft0.05
Ft0.01
Regresi 0
Regresi 1
Residual
1
1
4
42.336
3.711,6
248.4
42.336
3.711,6
62.1
681,74
59.77
7.71
7.71
21.20
21.20
Total
46.296
103
t hitung
= r
t hitung = 0 . 93
n 2
1 r2
6 2
1 ( 0 . 93 ) 2
= 5 . 06
Nilai thit = 5.06 > t 0,025 (4) = 3.747 maka Ho ditolak, artinya koefisien
korelasi tidak sama dengan nol, dan menunjukkan adanya
ketergantungan antara motivasi dan kinerja.
KajianResidual:
Dengan menggunakan persamaan Y = 29,4 + 0,95 X dapat
ditentukan nilai-nilai residual sebagai berikut : e1 = 11,6; e2 = -7,9; e3
= -6,9; e4 = -6,4; e5 = 14,6 dan e6 = -4,9.
Dari nilai mutlak residual ditentukan kuartil atas (Q3= 12.35) dan
kuartil bawah (Q1= 6.025) dan deviasinya adalah dQ = Q3 - Q1 = (12.35
- 6.025) = 6.325. Untuk mendeteksi data pencilan ditentukan batas
bawah pencilan = Q1- 1.5 dQ = 6.025 - 1.5 * 6.325 = -3.4625 dan batas
atas pencilan = Q3 + 1.5 dQ = 12.35 + 1.5 * 6.325 = 21.8375. Ternyata
semua nilai residual tidak ada yang diluar batas pencilan (tidak ada
yang lebih kecil dari batas bawah dan juga yang lebih besar dari batas
atas), jadi untuk pengamatan di atas tidak ada data yang dianggap
pencilan.
KESIMPULAN
Berdasarkan uraian dari penulisan ini, dapat disampaikan beberapa
kesimpulan dan saran sebagai berikut :
Dalam analisis regresi residual merupakan bagian yang menentukan
layak tidaknya model tersebut digunakan, karena jika jumlah
residunya jauh dari nol dan juga jumlah kuadrat residunya besar
104
sekali ini menunjukkan bahwa model regresi itu lemah dan kurang
layak bila digunakan untuk memprediksi.
Jika terdapat data pencilan (outlier) nilai residu akan makin besar
dapat memperkecil/menurunkan nilai koefisien regresi dan juga nilai
korelasi sehingga jika data itu mau digunakan maka perlu upaya
untuk mengatasinya yang diantaranya dilakukan dengan
menggunakan peubah yang sudah ditranspormasi.
Cara
transpormasi ini digunakan selain untuk menanggulangi data
pencilan juga untuk mengupayakan agar terpenuhinya asumsi
normalitas, karena jika terdapat pencilan maka data hasil
pengamatannya tidak menyebar normal. Dalam melakukan
transpormasi harus disesuaikan dengan fenomena analisis dan
secara hati-hati karena transformasi tertentu membawa konsekuensi
yang bisa berlawanan dengan fenomena yang dianalisis.
Untuk mengamati nilai residu ini dapat dilakukan dengan memplot
(menggambar) residu tersebut dalam suatu diagram (grafik). Di
samping itu dapat juga dilihat nilai ragamnya, jika nilai ragamnya
kecil maka variasi residu tidak besar, tetapi jika sebaliknya maka
variasi residu membesar.
Selain asumsi normalitas untuk residual, dalam melakukan uji
koefisien regresi atau koefisien korelasi biasa digunakan sebaran t
atau untuk pengujian secara simultan digunakan sebaran f. Kedua
sebaran tersebut diturunkan/berasal dari sebaran normal. Jika
menghendaki hasil kajian yang syahih dan terandalkan maka uji
normalitas jelas perlu dilakukan sebelum analisis data dilakukan dan
dapat dilakukan terhadap residual atau langsung pada peubah
respon.
Cara lain untuk mengatasi outlier adalah dengan tidak menggunakan
data dalam analisis, namun outlier tersebut dibahas khusus kenapa
atau apa yang bisa dipelajari dari outlier tersebut.
DAFTAR PUSTAKA
Hogg, R.V. and A.T. Craig. (1995). Introduction to Mathematical
Statistics. Prentice Hall. Singapore
Sudjana, 2002, Metode Statistika; Tarsito; Bandung
Rudiansyah (Hines William W. and Montgomery D); 1990. Probabilita
dan Statistik dalam Ilmu Rekayasa dan Manajemen. Universitas
Indonesia; Jakarta
--------------, Analisis Hubungan, Lembaga Penelitian STKIP Kuningan,
2002
http://www.math.itb.ac.id/~ma291/sas_rls.htm
http://statisticsanalyst.wordpress.com/2008/11/21/asumsi-regresi-ujinormalitas/
Informatika Pertanian Volume 18 No. 2, 2009
105