Anda di halaman 1dari 11

PENDITEKSIAN PENCILAN (OUTLIER)

DAN RESIDUAL PADA REGRESI LINIER


Outlier and Residual Detection in the Linear Regression
Iwa Sungkawa
Jurusan Statistika Fakultas Sains dan Teknologi, Universitas Bina Nusantara Jakarta

ABSTRACT
This paper discusses the study of outlier and residual detection in
the linear regression, conducted by study of the requirements and the
necessary assumption that the residual regression model is reliable and
can be used. Assumption of normality is one of necessary condition that
the residuals, so if there are outlier residual will have not consequences
in normal distribution. So to do detection of outlier from the data
observations. Besides that need to normality tested of the residuals or
directly to the variable of responses (observations). Presence or
absence of observation as outlier can be characterized by the
distribution of residuals and the correlation coefficient. Outlier detection
can be followed by determining of each observation residuals is
followed by determining ist the median, and the statistic T is used to test
the existence of outlier. Quartile deviation (dQ) is simple alternative to a
detecting of outlier. The results of the study show that to normality test,
can be done on the residual or on the response variables (the
dependent variables). Study of the residual can be done by plotting the
residuals of the independent variables and the dependent variables.
Efforts to overcome the outlier can be done with the data
transpormation so the data as outlier need not disposed.
Keywords : correlation, median, normality, outlier, regression analysis,
residuals.

Informatika Pertanian Volume 18 No. 2, 2009 95


PENDAHULUAN
Dalam suatu kegiatan penelitian kadang kala kita dihadapkan untuk
menentukan dan memahami bentuk dan keeratan/kekuatan hubungan
antara dua atau lebih peubah yang akan digunakan dalam penelitian,
sehingga diperlukan suatu analisis khusus untuk membahas hal
tersebut. Dalam Statistika, analisis yang bermaksud untuk memahami
bentuk hubungan fungsional serta prediksinya adalah teknik analisis
regresi, sedangkan analisis yang bermaksud untuk memahami/
mengetahui besarnya kekuatan/keeratan serta arah hubungan antar
peubah adalah teknik analisis korelasi. Kedua teknik analisis ini pada
dasarnya saling berhubungan, sehingga dalam penerapannya sering
digunakan secara bersamaan dalam melakukan analisis hubungan
antar peubah, dan penggunaan keduanya sering disebut sebagai
analisis korelasional.

Analisis regresi digunakan untuk menggambarkan garis yang


menunjukan arah hubungan antar peubah, serta dipergunakan untuk
melakukan prediksi, selain istilah tersebut, di kalangan ahli statistik ada
juga yang menggunakan istilah estimating line atau garis dugaan
sebagai padanan istilah regresi. Dalam penggunaan garis regresi
sebagai prediktor terdapat beberapa persyaratan yang harus dipenuhi
yang diantaranya adalah asumsi residual ei (selisih antara nilai amatan
dan nilai prediktor) menyebar normal dengan rata-rata nol dan
ragamnya σe2 , jadi dalam melakukan kajian dengan menggunakan
analisis regresi diperlukan untuk mencek apakah persyaratannya sudah
dipenuhi atau tidak.

Dalam penulisan ini dilakukan penditeksian atau penelaahan data


pencilan (outlier) dan residual dalam suatu model regresi linier termasuk
uji normalitas, serta upaya untuk menanggulanginya. Uji normalitas
dilakukan karena disamping anggapan normalitas untuk residual, juga
pada saat melakukan pengujian keberartiaan baik koefisien regresi atau
koefisien korelasi digunakan sebaran t dan sebaran f (untuk uji secara
simultan), sedangkan kedua sebaran tersebut diturunkan dari sebaran
normal.

Tujuan dari penulisan ini adalah untuk memberi gambaran tentang


perlunya penelaahan terhadap outlier dan uji normalitas pada saat
analisis regresi & korelasi digunakan dalam suatu penelitian serta
penelaahan residual yang merupakan bagian penentu layak tidaknya
model regresi digunakan. Diharapkan dengan adanya informasi ini
bermanfaat bagi para pengguna statistika dan dapat memperjelas

96 Penditeksian Pencilan (OutLier)


 
dalam proses penggunaan analisis regresi dan korelasi yang sesuai
dengan prosedur/ketentuan.

PENDUGAAN KOEFISIEN REGRESI LINIER


Untuk mempelajari bentuk hubungan fungsional antara dua peubah
atau dua faktor biasa digunakan analisis regresi. Dalam analisis regresi,
dikenal ada dua jenis peubah, yaitu : peubah respon atau disebut juga
peubah tak bebas (dependent) yaitu peubah yang keberadaannya
dipengaruhi oleh peubah lainnya dan biasa dinotasikan dengan Y.
Peubah prediktor dan disebut juga peubah bebas (independent) yaitu
peubah yang tidak dipengaruhi oleh peubah lainnya dan biasa
dinotasikan dengan X. Secara matematik hal tersebut dapat dinyatakan
dalam bentuk fungsi atau Y = f(X). Untuk regresi linier sederhana
bentuk persamaannya dapat digambarkan melalui persamaan
Y = α + β X + ∈ dengan ∈ merupakan residual (sisaan) yang
diasumsikan menyebar normal. Dalam prakteknya bentuk persamaan
^ ^

regresi di atas diduga oleh Y = β + β X + e dimana a dan b 0 1

merupakan koefisien regresi yang diperoleh dengan metode kuadrat


terkecil, sedangkan ei merupakan residual atau sisaan dan dapat
^ ^ ^

ditulis e = Y − Y = Y − (β + β X ) . Diasumsikan e menyebar


i i i i
i
0 1 i

normal dengan rata-rata nol dan ragamnya σe2 , jadi dalam melakukan
kajian dengan menggunakan analisis regresi diperlukan untuk mencek
apakah persyaratannya sudah dipenuhi yang diantaranya syarat
menyebar normal. Bentuk yang digunakan untuk mempredisi
^ ^ ^ ^ ^

dinyatakan dengan persamaan Y = β + β X . β dan β diperoleh i 0 1 i 0 1

dengan metode kuadrat terkecil dan dapat dihitung dengan rumus :


n n

^
n ∑ X iY i − ( ∑ X iY i ) 2
β 1 = i=1 i=1

n ∑ X i
2
− (∑ X i)2

dan
_
^ ^ _
β 0 = Y − β 1 X

Uji Keberartian Model Regresi


Untuk menelaah apakah model regresi Y atas X dapat digunakan
atau tidak perlu dilakukan uji hipotesis dengan rumusan sebagai
berikut:
H o β 1 = 0
H 1 β 1 ≠ 0

Informatika Pertanian Volume 18 No. 2, 2009 97


Bentuk statistik yang digunakan untuk uji di atas adalah :
^
β
t hit = 1
S ^
β 1

dengan derajat bebas (n-2), dimana n = banyaknya pengamatan


(ukuran sampel). Untuk taraf nyata α dan derajat bebas (n-2), maka
kriteria pengujiannya adalah tolak Ho jika |thit | ≥ t0.5α (n-2) dan terima
Ho jika |thit | < t0.5α (n-2).
Sebaran t diperoleh melalui transpormasi dari rasio dua peubah acak
yang menyebar normal baku dan menyebar khi-kuadrat. Misalkan dua
peubah acak kontinu W dan V bebas stokhastik dan diketahui W
menyebar normal dengan rata-rata 0 dan ragamnya sama dengan satu
atau dapat ditulis W ~ N(0,1), peubah acak kontinu V menyebar khi-
kuadrat dengan derajat bebas r atau dapat ditulis V ~ χ2(r)
Bentuk hipotesis diatas digunakan hanya untuk uji koefisien regresi,
tetapi jika pengujian dilakukan secara simultan dengan konstanta β0
maka dapat digunakan tabel analisis ragam/variansi (ANOVA) dengan
sebaran f sebagai statistik ujinya. Untuk keperluan ini perlu ditentukan
jumlah kuandrat setiap sumber keragaman, yaitu : jumlah kuadrat
regresi/β0; jumlah kuadrat regresi/β1; jumlah kuadrat residual dan
jumlah kuadrat total. Selanjutnya ditentukan pula kuadrat tengah (KT)
setiap sumber keragaman dengan membagi jumlah kuadrat dengan
derajat bebas.
Nilai Fhit = (KTregresi/KTresidual). Kriteria pengujian : Tolak Ho jika |Fhit |
≥ Ftabel dan terima Ho jika |Fhit | < Ftabell untuk taraf nyata yang dipilih.
Sebaran F diperoleh melalui transpormasi dari rasio dua peubah acak
yang keduanya menyebar khi-kuadrat. Misalkan dua peubah acak
kontinu U dan V bebas stokhastik dan diketahui peubah acak U dan V
masing-masing menyebar khi-kuadrat dengan derajat bebas r1 dan r2
atau dapat ditulis U ~ χ2(r1) dan V ~ χ2(r2)

Uji Keeratan Hubungan Dengan Koefisien Korelasi


Untuk menelaah adanya ketergantungan diantara dua peubah X dan Y
atau diantara dua peubah/faktor, perlu ditentukan suatu ukuran
ketergantungan, yaitu koefisien korelasi rxy dan secara statistik perlu
dilakukan uji hipotesis dengan rumusan sebagai berikut
Ho : ρ = 0
H1 : ρ ≠ 0
Bentuk statistik yang digunakan untuk uji di atas adalah
n − 2
t = r ij
1 − r ij 2
hit

98 Penditeksian Pencilan (OutLier)


 
dimana n = banyaknya pengamatan (ukuran sampel)
thit di atas menyebar secara t dengan derajat bebas (n-2).
rxy = koefisien korelasi sampel antara peubah acak X dan Y yang dihitung
dengan rumus
n n n
n ∑ X i Y i − ( ∑ X i ) ( ∑ Y i )
r xy = i = 1 i = 1 i = 1
n n n n
[{ n ∑
i = 1
X i
2
− ( ∑
i = 1
X i ) 2
}{ { n ∑
i = 1
Y i
2
− ( ∑ i = 1
Y i ) 2
}]

Untuk taraf nyata α dan derajat bebas (n-2), maka kriteria pengujiannya
adalah tolak Ho : ρ = 0 jika |thit| ≥ t0.5α (n-2) dan terima Ho jika |thit | < t0.5α (n-2).
Jika hipotesis di atas hanya memperhatikan nilai ρ > 0 atau uji arah
kanan, maka bentuk kriteria ujinya adalah tolak Ho : ρ = 0 jika thit ≥ tα (n-2)
dan terima Ho jika thit <tα (n-2).

Asumsi Normalitas Dalam Analisis Regresi


Dalam analisis regresi dan korelasi yang diasumsikan menyebar
normal adalah residual ei sehinga ada suatu pemikiran yang perlu di uji
kenormalannya adalah residual, tetapi banyak juga yang melakukannya
langsung terhadap data pengamatan, tepatnya terhadap peubah respon
(peubah tak bebas Y). Keduanya sama saja karena berdasarkan sifat
dari peubah acak yang menyebar normal, jika peubah tersebut
menyebar normal maka kombinasi liniernya juga akan menyebar
normal. Jadi jika residual menyebar normal maka Y juga menyebar
normal karena Y adalah kombinasi linier dari residual ei atau Yi = a +
b Xi + ei.
Di samping itu, dalam melakukan uji koefisien regresi atau koefisien
korelasi biasa digunakan sebaran t atau untuk pengujian secara
simultan digunakan sebaran f. Kedua sebaran tersebut
diturunkan/berasal dari sebaran normal. Atau untuk lebih jelasnya
sebaran t dibangkitkan dari rasio dua peubah acak yang menyebar
normal baku dan sebaran khi-kuadrat, sedangkan sebaran f
dibangkitkan dari rasio dua peubah acak yang masing-masing
menyebar khi-kuadrat. Sebaran khi-kuadrat sendiri berasal dari sebaran
normal baku (sebaran normal baku jelas berasal dari sebaran normal).
Berdasarkan informasi di atas, jika kita menghendaki hasil kajian
yang syahih dan terandalkan maka uji normalitas jelas perlu dilakukan
sebelum analisis data dilakukan dan dapat dilakukan terhadap residual
atau langsung pada peubah respon.

KAJIAN DATA PENCILAN


Pengaruh Pencilan (Outlier) Terhadap Regresi dan Korelasi
Apabila dalam pengamatan terdapat pencilan atau outlier, dengan
sendirinya akan menurunkan nilai koefisien regresi atau korelasinya.
Hal ini diakibatkan karena ragam yang mengukur bervariasinya data
Informatika Pertanian Volume 18 No. 2, 2009 99
akan membesar atau kisaran data menjadi lebih lebar. Dengan
rendahnya nilai koefisien regresi dan korelasi dengan sendirinya dapat
menurunkan kualitas dari garis regresi yang dihasilkan, sehingga perlu
dicari model lain yang lebih cocok dengan kondisi yang diamati atau
melakukan transpormasi terhadap data tersebut.

Deteksi Keberadaan Gejala Pencilan


Kehadiran data pencilan dapat membuat kualtas garis regresi
menjadi rendah. Oleh karena itu kehadirannya perlu dideteksi
diantaranya dengan cara sebagai berikut.
ƒ Hitunglah residu untuk setiap i = 1, 2,…,n
maka akan kita peroleh harga-harga residu e1, e2,…,en.
ƒ Ambil harga mutlak |ei|; i = 1,2,…,n, kemudian urutkanlah dari yang
terbesar hingga terkecil, emaks menyatakan harga mutlak residu yang
terbesar.
ƒ Tentukan median M dari e1,e2,…,en.

ƒ Hitung
ƒ Hitung
ƒ Hitung T = Qsisa/Q
ƒ Bandingkan harga statistik penguji T dengan titik kritis untuk k=1 dan
tingkat keberartian 0,01 atau 0,05 atau 0,10.
ƒ Jika harga T melebihi titik kritis, maka data yang memberikan emaks
adalah bukan data pencilan.
Cara lain untuk mendeteksi adanya gejala pencilan dapat dilakukan
dengan satu metode yang lebih sederhana, yaitu dengan menggunakan
sebaran tengah dQ (deviasi kuartil) sebagai berikut :
ƒ Tentukan nilai kuartil atas (QA) kuartil bawah (QB) dan hitung
besarnya dQ = QA-QB
ƒ Tentukan batas bawah pencilan BBP = QB-(1,5)dQ.
ƒ Tentukan batas atas pencilan BAP = QA+(1,5)dQ.
ƒ Untuk mendeteksi pencilan dilakukan dengan membandingkan nilai
data : (jika data pengamatan lebih kecil dari BBP atau lebih besar dari
BAP maka pengamatan tersebut adalah pencilan)
ƒ Jadi BAP-BBP = 4dQ. Mengapa diambil 4 dQ? Hal ini dapat dijelaskan
melalui bentuk sebaran ideal, yakni normal. Dalam keadaan ideal ini,
pengambilan 4 dQ berarti bahwa tingkat keyakinan (probability)
terjadinya outliers adalah sebesar 0,007 atau 0,7% atau kira-kira 1%.
ƒ Jika cara kedua data pengamatan diganti dengan residual maka
setelah mendapatkan residual dari semua pengamatan selanjutnya
tentukan nilai kuartil atas QA dan kuartil bawah QB dari nilai mutlak
residual atau |ei| serta tentukan penyimpangannya dQ = QA-QB.
100 Penditeksian Pencilan (OutLier)
 
Seperti di atas tentukan BBP dan BAP dan untuk mendeteksi
pencilan gunakan residu (bukan data pengamatan). Ketentuannya
adalah : (jika nilai residu lebih kecil dari BBP atau lebih besar dari
BAP maka data pengamatan yang bersangkutan adalah pencilan)

Kajian Residual Dalam Analisis Regresi


Residual atau sisaan dalam regresi linier sederhana merupakan
selisih dari nilai prediksi dan nilai sebenarnya (actual) atau
ei =Yi - (a + b Xi ). Jika nilai pengamatan terletak dalam garis regresi
maka nilai residunya sama dengan nol. Jadi jika total jarak atau nilai
mutlak dari residu atau Σ|ei| = 0 berarti semua nilai pengamatan terletak
pada garis regresi. Makin besar total jarak maka makin jauh regresi itu
dari nilai actual, atau nilai residunya makin besar dan garis regresi
kurang tepat digunakan untuk memprediksi baik secara interpolasi
ataupun ekstrapolasi. Yang diharapkan adalah sebaliknya yaitu total
residu semakin kecil sehingga garis regresi cukup handal untuk
digunakan.
Nilai residu akan makin besar jika terdapat data pencilan dan dapat
menurunkan nilai koefisien regresi atau koefisien korelasi. Di samping
itu dapat juga dilihat nilai ragamnya, jika nilai ragamnya kecil maka
variasi residu tidak besar, tetapi jika sebaliknya maka variasi residu
membesar.
Untuk menunjukan model regresi itu layak atau tidak digunakan
maka perlu dicek persyaratan yang diperlukan apakah sudah semuanya
dipenuhi atau belum. Diantaranya adalah anggapan tentang residu
yang menyebar normal. Jika ini dipenuhi maka jelas total residunya
sama dengan nol atau Σei = 0. Jadi apabila nilainya jauh dari nol kita
harus curiga dan perlu dicek (uji normalitas dan deteksi data pencilan
serta upaya lainnya). Untuk menelaah bentuk sebaran dari residu,
selanjutnya nilai residu diplot dalam suatu diagram titik dengan peubah
bebas (X) dan peubah tak bebas (Y) sebagai sumbu datar.
Dalam pendugaan koefisien regresi digunakan metode kuadrat
terkecil yang ditempuh dengan meminimalkan jumlah kuadrat dari
residual atau meminimalkan Σei2. Hal ini dilakukan agar untuk
mendapatkan bentuk model regresi yang baik dan handal haruslah
berasal dari pengamatan-pengamatan dengan residu terkecil. Jadi
jelas bahwa residual merupakan bagian yang menentukan dalam
memilih model regresi yang akan digunakan.

Uji Normalitas Dalam Analisis Regresi


Untuk mencek apakah hasil pengamatan menyebar normal atau
tidak dapat dilakukan dengan berbagai cara seperti : dengan uji
histogram, uji normal P Plot, uji Khi Square, Skewness dan Kurtosis
atau uji Kolmogorov Smirnov. Tidak ada metode yang paling baik atau
paling tepat. Tipsnya adalah bahwa pengujian dengan metode grafik
sering menimbulkan perbedaan persepsi di antara beberapa pengamat,
sehingga penggunaan uji normalitas dengan uji statistik bebas dari
Informatika Pertanian Volume 18 No. 2, 2009 101
keragu-raguan, meskipun tidak ada jaminan bahwa pengujian dengan
uji statistik lebih baik dari pada pengujian dengan metode grafik.
Jika residual tidak normal tetapi dekat dengan nilai kritis (misalnya
signifikansi Kolmogorov Smirnov sebesar 0,049) maka dapat dicoba
dengan metode lain yang mungkin memberikan justifikasi normal.
Tetapi jika jauh dari nilai normal, maka dapat dilakukan beberapa
langkah yaitu: melakukan transformasi data, melakukan membuang
data outliers atau menambah data pengamatan/observasi.
Transformasi dapat dilakukan ke dalam bentuk Logaritma natural, akar
kuadrat, inverse, atau bentuk yang lain tergantung dari bentuk kurva
normalnya, apakah condong ke kiri, ke kanan, mengumpul di tengah
atau menyebar ke samping kanan dan kiri.

Upaya Mengatasi Outlier Dengan Transpormasi Data


Jika pencilan (outlier) ternyata ada dalam hasil pengamatan dan
pencilan itu akan digunakan dalam analisis data maka perlu dicari cara
untuk mengatasinya agar pencilan itu tidak mengganggu dan kita
mendapat hasil yang lebih baik. Salah satu cara untuk mengatasi
pencilan ditempuh dengan melalui tranformasi terhadap data hasil
pengamatan sebagai berikut.
Dalam hal demikan, peubah tak bebas Y dan atau peubah bebas X
mungkin perlu ditransformasikan. Caranya adalah dengan :
ƒ Mengamati stem-leaf (dahan-daun) sari numeric, dan box plot dari
data X dan data Y
ƒ Pilihlah transformasi yang sesuai untuk Y dan atau untuk X. Misalkan
hasil transformasi dari Y dan dari X berturut-turut adalah Z dan W
ƒ Tentukan regresi linear dari Z terhadap W
ƒ Bila regresi dari Z terhadap W memberikan harga R2 yang sudah
memuaskan, maka proses pemodelan selesai. Bila belum, maka
ulangi langkah 2 dan 3.
Seperti yang telah diuraikan di atas bentuk transformasi yang dapat
dilakukan diantaranya adalah : bentuk logaritma natural, akar kuadrat,
inverse, atau bentuk yang lain tergantung dari bentuk kurva normalnya.

TELADAN DAN PENERAPAN


Untuk memberikan gambaran yang lebih jelas berikut diberikan
contoh penggunaan analisis regresi dan korelasi. Untuk keperluan ini
diambil contoh dengan menggunakan data hasil Penelitian Kuantitatif
yang bersumber dari Lembaga Penelitian STIKIP Kuningan Jakarta.
Peubah yang akan dipergunakan dalam perhitungan adalah peubah
motivasi (X) sebagai peubah bebas, dan peubah kinerja (Y) sebagai

102 Penditeksian Pencilan (OutLier)


 
peubah tidak bebas, data (skor) hasil pengamatan (termasuk nilai
prediksi Y' dan nilai residual ei) dapat disajikan dalam tabel berikut :
X Y Residual
Y'
(Motivasi) (Kinerja) (ei)
20 60 48.4 11.6
30 50 57.9 -7.9
50 70 76.9 -6.9
60 80 86.4 -6.4
80 120 105.4 14.6
90 110 114.9 -4.9
Dengan  menggunakan  rumus  koefisien  regresi    di  atas  diperoleh 
persamaan regresi linier sederhana sebagai berikut :  
Ŷ  =  29,4 + 0.95 X 
dan koefisien korelasi   rxy  =  0.93 
Setelah diperoleh persamaan garis regresi, langkah berikutnya
adalah melakukan pengujian apakah persamaan tersebut layak
digunakan atau tidak. Dalam kesempatan ini, hipotesis yang diuji
adalah :
H o β 0 = 0 dan β1 = 0
 
H1 β0 = 0 dan β1 ≠ 0
Pengujian hipotesis di atas digunakan analisis ragam dan perlu
dicari Jumlah kuadrat untuk masing-masing sumber keragaman
sebagai berikut :
JKTotal = Σ Y2 = 46.296
JK ( β0 ) = (Σ Y)2/n = 42.336
^ | n _ _

JK ( β1 ) = β 0 ∑
i =1
( X i − X )( Y i − Y ) = 3.711,6
JKresidu = JKtotal - JK ( β1 ) - JK( β 0 ) = 248.4

Hasil perhitungan di atas dapat disajikan dalam tabel ANOVA sebagai


berikut :

Sumber
Db JK RJK Fh Ft0.05 Ft0.01
Keragaman
Regresi β 0 1 42.336 42.336 681,74 7.71 21.20
Regresi β 1 1 3.711,6 3.711,6 59.77 7.71 21.20
Residual 4 248.4 62.1
Total 6 46.296

Informatika Pertanian Volume 18 No. 2, 2009 103


Kesimpulan : untuk taraf nyata 5% dan 1% nilai koefisien regresi
dianggap cukup berarti sehingga persamaan regresi dapat digunakan
untuk memprediksi.
Untuk menguji keberartian dari koefisien korelasi di atas (r = 0.93)
perlu diuji hipotesis :
Ho :  ρ   =  0  melawan  H1 : ρ ≠ 0 
Digunakan statistik  t   sebagai berikut :

n − 2
t hitung = r
1 − r2

6− 2
t hitung = 0 . 93
1 − ( 0 . 93 ) 2
= 5 . 06

Nilai thit = 5.06 > t 0,025 (4) = 3.747 maka Ho ditolak, artinya koefisien
korelasi ρ tidak sama dengan nol, dan menunjukkan adanya
ketergantungan antara motivasi dan kinerja.

Kajian Residual : 
Dengan menggunakan persamaan Y = 29,4 + 0,95 X dapat
ditentukan nilai-nilai residual sebagai berikut : e1 = 11,6; e2 = -7,9; e3
= -6,9; e4 = -6,4; e5 = 14,6 dan e6 = -4,9.
Dari nilai mutlak residual ditentukan kuartil atas (Q3= 12.35) dan
kuartil bawah (Q1= 6.025) dan deviasinya adalah dQ = Q3 - Q1 = (12.35
- 6.025) = 6.325. Untuk mendeteksi data pencilan ditentukan batas
bawah pencilan = Q1- 1.5 dQ = 6.025 - 1.5 * 6.325 = -3.4625 dan batas
atas pencilan = Q3 + 1.5 dQ = 12.35 + 1.5 * 6.325 = 21.8375. Ternyata
semua nilai residual tidak ada yang diluar batas pencilan (tidak ada
yang lebih kecil dari batas bawah dan juga yang lebih besar dari batas
atas), jadi untuk pengamatan di atas tidak ada data yang dianggap
pencilan.

KESIMPULAN
Berdasarkan uraian dari penulisan ini, dapat disampaikan beberapa
kesimpulan dan saran sebagai berikut :
• Dalam analisis regresi residual merupakan bagian yang menentukan
layak tidaknya model tersebut digunakan, karena jika jumlah
residunya jauh dari nol dan juga jumlah kuadrat residunya besar

104 Penditeksian Pencilan (OutLier)


 
sekali ini menunjukkan bahwa model regresi itu lemah dan kurang
layak bila digunakan untuk memprediksi.
• Jika terdapat data pencilan (outlier) nilai residu akan makin besar
dapat memperkecil/menurunkan nilai koefisien regresi dan juga nilai
korelasi sehingga jika data itu mau digunakan maka perlu upaya
untuk mengatasinya yang diantaranya dilakukan dengan
menggunakan peubah yang sudah ditranspormasi. Cara
transpormasi ini digunakan selain untuk menanggulangi data
pencilan juga untuk mengupayakan agar terpenuhinya asumsi
normalitas, karena jika terdapat pencilan maka data hasil
pengamatannya tidak menyebar normal. Dalam melakukan
transpormasi harus disesuaikan dengan fenomena analisis dan
secara hati-hati karena transformasi tertentu membawa konsekuensi
yang bisa berlawanan dengan fenomena yang dianalisis.
• Untuk mengamati nilai residu ini dapat dilakukan dengan memplot
(menggambar) residu tersebut dalam suatu diagram (grafik). Di
samping itu dapat juga dilihat nilai ragamnya, jika nilai ragamnya
kecil maka variasi residu tidak besar, tetapi jika sebaliknya maka
variasi residu membesar.
• Selain asumsi normalitas untuk residual, dalam melakukan uji
koefisien regresi atau koefisien korelasi biasa digunakan sebaran t
atau untuk pengujian secara simultan digunakan sebaran f. Kedua
sebaran tersebut diturunkan/berasal dari sebaran normal. Jika
menghendaki hasil kajian yang syahih dan terandalkan maka uji
normalitas jelas perlu dilakukan sebelum analisis data dilakukan dan
dapat dilakukan terhadap residual atau langsung pada peubah
respon.
• Cara lain untuk mengatasi outlier adalah dengan tidak menggunakan
data dalam analisis, namun outlier tersebut dibahas khusus kenapa
atau apa yang bisa dipelajari dari outlier tersebut.
 

DAFTAR PUSTAKA
Hogg, R.V. and A.T. Craig. (1995). Introduction to Mathematical
Statistics. Prentice Hall. Singapore
Sudjana, 2002, Metode Statistika; Tarsito; Bandung
Rudiansyah (Hines William W. and Montgomery D); 1990. Probabilita
dan Statistik dalam Ilmu Rekayasa dan Manajemen. Universitas
Indonesia; Jakarta
--------------, Analisis Hubungan, Lembaga Penelitian STKIP Kuningan,
2002
http://www.math.itb.ac.id/~ma291/sas_rls.htm
http://statisticsanalyst.wordpress.com/2008/11/21/asumsi-regresi-uji-
normalitas/
Informatika Pertanian Volume 18 No. 2, 2009 105

Anda mungkin juga menyukai