Deteklsi Outlier DG Metodee Theil Penduga M

BAB I PENDAHULUAN
Suatu nilai pengamatan yang terpisah jauh dari data yang lainnya disebut dengan pencilan. Pencilan bisa memberikan pengaruh terhadap hasil analisa dan bisa juga tidak (Bowerman dan OConnell, 1991). Keberadaan pencilan sering menunjukkan kesalahan pengukuran atau bahwa populasi pengamatan memang memiliki sebaran yang condong. Oleh karena itu, tidak sembarang pencilan dapat langsung dibuang begitu saja, tetapi harus diketahui dulu penyebabnya, misalnya apakah terjadi situasi yang tidak biasa, terjadi kesalahan pengukuran atau pengamatan, atau hal lainnya. Dalam beberapa tulisan karya ilmiah baik berupa makalah, jurnal, skripsi, tesis, dan sebagainya yang menggunakan analisa statistika inferensia dijumpai bahwa analisa dilakukan tanpa memeriksa apakah galatnya mengandung pencilan atau tidak. Tanpa pemeriksaan terhadap pencilan dikhawatirkan hasil analisa yang diperoleh kurang sahih. Makalah ini membahas hal-hal yang perlu diketahui mengenai data pencilan, mengapa dan bagaimana data pencilan itu muncul, bagaimana mendeteksinya, dan bagaimana menanganinya. Sehingga jika suatu saat dijumpai data yang mengandung nilai pencilan di dalamnya, dapat disikapi dengan bijaksana agar analisa statistik yang dilakukan menghasilkan kesimpulan yang sahih.
BAB II DEFINISI PENCILAN
Terdapat beberapa definisi terhadap pencilan, yaitu sebagaimana yang diungkapkan oleh sumber-sumber di bawah ini. Dalam statistika, pencilan adalah suatu nilai pengamatan yang jaraknya jauh secara numerik dengan data yang lainnya. Dalam analisa regresi, salah satu asumsi yang harus dipenuhi adalah galat menyebar normal dengan rata-rata nol dan ragam tertentu (Berry dan Feldman, 1985). Draper dan Smith (1992) menambahkan bahwa galat yang merupakan pencilan adalah yang nilai mutlaknya jauh lebih besar daripada galat-galat lainnya dan bisa jadi terletak tiga atau empat simpangan baku atau lebih jauh lagi dari ratarata galatnya. Selain itu, pencilan juga dapat didefinisikan sebagai nilai data yang lain daripada yang lain atau menyendiri karena letaknya yang tidak seperti data lainnya. Suatu pencilan bisa tampak sebagai nilai ekstrim atau kombinasi nilai-nilai yang ganjil/aneh dalam data multivariat (Cheng, 2000). Osborne dan Overbay (2004) mengatakan bahwa pencilan adalah suatu pengamatan yang menyimpang jauh dari pengamatan-pengamatan yang lain yang dicurigai nilai tersebut diperoleh dari mekanisme yang berbeda. Dalam kaitannya dengan analisa regresi, pencilan adalah pengamatan yang jauh dari pusat data yang mungkin berpengaruh besar terhadap koefesien regresi (Soemartini, 2007).
BAB III PENYEBAB TERJADINYA PENCILAN
Osborne dan Overbay (2004) menyebutkan pencilan dapat muncul dari beberapa mekanisme atau penyebab. Terdapat dua katogeri utama terhadap pencilan, yaitu: 1) Yang disebabkan kesalahan dalam data, yaitu: a) Kesalahan dalam pelaporan data. b) Kesalahan dalam pengambilan contoh. c) Kesalahan dalam metode penelitian. d) Kesalahan dalam asumsi sebaran data. 2) Yang disebabkan oleh sifat keragaman data, yaitu pencilan dari data sampel yang diperoleh secara acak. Dari populasi yang menyebar normal, terdapat kemungkinan diperoleh nilai pencilan.
Tidak semua pencilan adalah nilai yang tidak sah dan tidak semua nilai yang tidak sah muncul sebagai pencilan. Oleh karena itu penting dipertimbangkan penyebab terjadinya pencilan. Soemartini (2007) juga menyebutkan bahwa pada data yang diperoleh bukan dari angket, tidak jarang ditemukan satu atau beberapa data yang jauh dari pola kumpulan data keseluruhan yang lazim didefinisikan sebagai data pencilan (outlier). Karena dalam suatu pengamatan terhadap suatu keadaan tidak menutup kemungkinan diperoleh suatu nilai pengamatan yang berbeda dengan nilai pengamatan lainnya. Hal ini mungkin disebabkan oleh kesalahan pada saat persiapan data atau terdapat peristiwa yang ekstrim yang mempengaruhi data. Penyebab lain yang bisa memuncukan pencilan dalam data adalah sebagaimana yang diungkapkan Chandola, Banerjee dan Kumar (2009), yaitu: 1) Tindakan penipuan, seperti informasi palsu untuk pengajuan kartu kredit, asuransi, dan sebagainya. 2) Kerusakan peralatan, seperti mesin yang cacat dan sebagainya. 3) Perubahan lingkungan, seperti perubahan cuaca, pola baru pembelian oleh konsumen, gen yang bermutasi, dan sebagainya.
4) Kesalahan manusia, seperti kesalahan pencatatan, kesalahan pelaporan, dan sebagainya. Cheng (2000) menambahkan bahwa pencilan dapat muncul karena alasanalasan tertentu, seperti kesalahan dalam pembacaan, perekaman, atau penghitungan data. Jika pendapat-pendapat beberapa sumber di atas diringkas, maka penyebab pencilan di antaranya adalah: 1) Kesalahan manusia dalam penanganan data, termasuk kesalahan asumsi sebaran data. 2) Tingginya sifat keragaman data. 3) Alat bantu dalam menghasilkan data tidak bekerja dengan baik. 4) Perubahan peristiwa atau keadaan. 5) Pemalsuan data.
BAB IV MANFAAT DAN DAMPAK PENCILAN
Keberadaan pencilan memang dapat membuat hasil analisa menjadi kurang sahih terutama untuk analisa statistik inferensia yang mengasumsikan kenormalan sebaran data atau galat. Dengan adanya pencilan, maka sebaran menjadi condong. Akan tetapi, selain dianggap mengganggu, pencilan memiliki beberapa manfaat, di antaranya: 1) Pencilan dapat dijadikan sebagai inspirasi penyelidikan, misalnya di Afrika, para wanita yang terinfeksi virus HIV hidup dengan baik dan sehat selama bertahuntahun tanpa perawatan. Kasus ini merupakan pencilan dibandingkan dengan kebanyakan wanita terinfeksi yang hidup tanpa perawatan (Osborne dan Overbay, 2004). 2) Pencilan dapat memberikan informasi tambahan yang terkadang sangat penting, misalnya pola yang aneh dalam lalu lintas jaringan komputer yang dapat berarti komputer yang diretas sedang mengirimkan data kepada pihak yang tidak seharusnya menerima data tersebut. Dalam bidang kesehatan, pencilan digunakan untuk mengetahui gejala penyakit baru melalui pola yang tidak biasa pada rekaman medik pasien. Juga dalam bidang perbankan, transaksi kartu kredit yang tidak biasa dapat mengindikasikan bahwa kartu kredit telah dicuri atau disalahgunakan (Chandola, Banerjee, Kumar, 2009). Selain memiliki beberapa manfaat seperti di atas, nilai pencilan memberikan dampak dalam analisa statistik termasuk analisa regresi. Sungkawa (2009) menyebutkan bahwa nilai residu akan semakin besar jika ada pencilan dan dapat menurunkan nilai koefisien regresi atau koefisien korelasi. Soemartini (2007) menambahkan keberadaan pencilan menyebabkan ragam menjadi lebih besar dan membuat taksiran interval memiliki rentang yang lebar.
BAB V IDENTIFIKASI PENCILAN
Deteksi data pencilan merupakan persoalan penting dan mempunyai banyak manfaat diantaranya adalah identifikasi adanya pengacauan dan sumbatan dalam jaringan komputer, aktivitas kriminal dalam e-commerce, deteksi pemalsuan kartu kredit dan aktivitas-aktivitas yang mencurigakan. Chandola, Banerjee, dan Kumar (2009) mengatakan pendeteksian pencilan mengacu pada masalah menemukan pola dalam data yang tidak sesuai (ganjil) dengan perilaku normal yang diharapkan. Pola yang ganjil tersebut sering disebut sebagai pencilan, kelainan, pengamatan yang bertentangan, pengecualian, kesalahan, cacat, penyimpangan, gangguan, kerusakan, kejutan, sesuatu yang baru, keganjilan, atau pengamatan yang dihasilkan dari penerapan yang berbeda. Khusus terkait dengan analisa regresi, Sungkawa (2009) menyebutkan kehadiran data pencilan dapat membuat kualitas garis regresi menjadi rendah.
5.1
Identifikasi dengan Grafik Identifikasi pencilan dapat dengan menggunakan Diagram Pencar, di mana
titik yang berada di luar range titik-titik yang lain atau titik yang menyendiri merupakan pencilan (Cheng, 2000). Dalam analisa regresi, jika sudah didapatkan model regresi, maka dapat dilakukan dengan cara memplot antara residual (e) dengan nilai prediksi Y ( ). Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya pencilan (Soemartini, 2007).
Gambar 5.1 Deteksi pencilan dengan diagram pencar

6
Selain dengan Diagram Pencar, pencilan juga dapat dilihat Histogram dan Box Plot.
Gambar 5.2 Deteksi pencilan dengan histogram
Kelemahan dari Diagram Pencar dan Histogram adalah keputusan bahwa suatu data merupakan pencilan sangat bergantung pada penilaian peneliti, karena hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan berpengalaman dalam menginterpretasikan plot tersebut. Sedangkan Box Plot menampilkan kuartil bawah (Q1) dan kuartil atas (Q3), dan median yang menunjukkan 50 persentil data. Kuartil bawah memuat 25 persentil data dan kuartil atas memuat 75 persentil data. Pagar atas dan bawah biasanya memiliki jarak yang pasti berdasarkan jarak inter-kuartil (Q3 Q1). Gambar 5.1.3 menunjukkan bahwa pagar atas dan bawah adalah 1,5 kali jarak inter-kuartil. Setiap pengamatan yang berada di luar pagar atas dan bawah kemungkinan adalah pencilan.
Gambar 5.3 Deteksi pencilan dengan Box Plot

7
5.2.
Identifikasi dengan Statistik Uji Beberapa cara dapat digunakan untuk mendeteksi adanya pencilan dengan
statistik uji, yaitu: 1) Simpangan Baku; 2) Leverage Values, DfFITS, Cooks Distance, dan DfBETA; 3) uji-T dan Deviasi Kuartil; dan 4) Internal Studentization (Residu yang Distudentkan).
5.2.1. Standar Deviasi/Simpangan Baku Seperti yang telah disebutkan sebelumnya, Draper dan Smith (1992) mengatakan bahwa pemeriksaan pencilan dapat dilakukan dengan memeriksa jarak antara nilai mutlak galat dan rata-rata nilai mutlak galat. Jika jaraknya adalah 3 simpangan baku atau lebih, maka galat tersebut bisa dikatakan sebagai pencilan. 5.2.2. Leverage Values, DfFITS, Cooks Distance, dan DfBETA Tabel berikut adalah daftar statistik dan kriterianya jika terdapat pencilan (Soemartini, 2007). Tabel 5.1 Daftar statistik untuk menentukan pencilan Statistik Leverage Values DFITS Cooks Distance DfBETA(s) > F(0.5;p,n-p) Ada pencilan, jika:
n = jumlah pengamatan; p = jumlah parameter
5.2.3. Uji-T dan Deviasi Kuartil Selain menggunakan statistik di atas, dapat juga digunakan uji-T seperti yang dikemukakan Sungkawa (2009), yaitu: 1. Hitunglah residu untuk setiap i = 1, 2,,n, maka akan kita peroleh harga-harga residu e1, e2,,en. 2. Ambil harga mutlak | ei |; i = 1,2,,n, kemudian urutkanlah dari yang terbesar hingga terkecil, emaks menyatakan harga mutlak residu yang terbesar.
3. 4.
Tentukan median M dari e1,e2,,en. Hitung: | |
5.
Hitung: | |
6. 7.
Hitung:
Bandingkan harga statistik penguji T dengan titik kritis untuk k=1 dan tingkat keberartian 0,01 atau 0,05 atau 0,10.
8.
Jika harga T melebihi titik kritis, maka data yang memberikan emaks adalah bukan data pencilan.
Cara lain untuk mendeteksi adanya gejala pencilan dapat dilakukan dengan satu metode yang lebih sederhana, yaitu dengan menggunakan sebaran tengah dQ (deviasi kuartil) sebagai berikut : 1. Tentukan nilai kuartil atas (QA) kuartil bawah (QB) dan hitung besarnya dQ = QA-QB 2. 3. 4. Tentukan batas bawah pencilan BBP = QB-(1,5)dQ. Tentukan batas atas pencilan BAP = QA+(1,5)dQ. Untuk mendeteksi pencilan dilakukan dengan membandingkan nilai data (jika data pengamatan lebih kecil dari BBP atau lebih besar dari BAP maka pengamatan tersebut adalah pencilan). 5. Jadi BAP-BBP = 4dQ. Mengapa diambil 4 dQ? Hal ini dapat dijelaskan melalui bentuk sebaran ideal, yakni normal. Dalam keadaan ideal ini, pengambilan 4 dQ berarti bahwa tingkat keyakinan (probability) terjadinya pencilan adalah sebesar 0,007 atau 0,7% atau kira-kira 1%.
Atau, seperti cara di atas, data pengamatan diganti dengan residual. 1. Setelah mendapatkan residual dari semua pengamatan, selanjutnya tentukan nilai kuartil atas QA dan kuartil bawah QB dari nilai mutlak residual atau | ei | serta tentukan penyimpangannya dQ = QA - QB.
2.
Kemudian tentukan BBP dan BAP untuk mendeteksi pencilan dengan menggunakan residu (bukan data pengamatan). Ketentuannya adalah: (jika nilai residu lebih kecil dari BBP atau lebih besar dari BAP maka data pengamatan yang bersangkutan adalah pencilan). Cara yang terakhir sama dengan identifikasi menggunakan Box Plot, hanya
saja tidak menggunakan grafik melainkan hanya angka.
5.2.4. Internal Studentization (Residu yang Distudentkan) Soemartini (2007) mengungkapkan umumnya pencilan memiliki nilai y yang ekstrim. Untuk mendeteksi apakah terdapat pencilan atau tidak, metode ini dapat digunakan. Hipotesa: H0 : i = 0 (tidak terdapat pencilan) H1 : i 0 (terdapat pencilan) = taraf nyata. Statistik Uji: Di mana: p + 1 = banyaknya parameter p pii = banyaknya variabel bebas (prediktor) = diagonal utama matriks prediksi
Kriteria Uji: H0 ditolak jika ri > t/2;n-p-1 H0 diterima jika ri < t/2;n-p-1
5.2.5. Uji Dixon-Type Beyer (1991) menyebutkan Uji Dixon-Type didasarkan pada rasio jarak yang dapat digunakan pada banyak pengamatan dan menghasilkan penilaian yang baik untuk sampel berukuran kecil karena menggunakan peringkat dan tidak diperlukan asumsi kenormalan data. Bergantung pada jumlah pengamatan yang dicurigai sebagai pecilan, rasio-rasio yang berbeda digunakan untuk mengidentifikasi
10
pencilan. Rasio pertama adalah r10 yang digunakan jika kemungkinan pencilan adalah nilai pengamatan terbesar dan terkecil. Rasio kedua adalah r11 yang digunakan jika kemungkinan pencilan adalah nilai terbesar kedua dan terkecil kedua. Keadaan ini disebabkan oleh masking. Masking terjadi ketika beberapa nilai pengamatan saling berdekatan, tetapi letak kelompok pengamatan masih terpencil dari data yang lainnya. Masking adalah peristiwa yang biasa terjadi terutama untuk data dari dua sebaran. Berikut adalah persamaan untuk rasio r10 dan r11. a) Menguji nilai pengamatan terbesar sebagai pencilan:
b) Menguji nilai pengamatan terkecil sebagai pencilan:
c)
Menguji nilai pengamatan terbesar sebagai pencilan tanpa melibatkan nilai pengamatan terkecil:
d) Menguji nilai pengamatan terkecil sebagai pencilan tanpa melibatkan nilai pengambatan terbesar:
Nilai pengamatan disebut pencilan jika nilai r10 dan r11 lebih besar dari nilai kritis pada tabel untuk uji Dixon.
11
BAB VI PENANGANAN PENCILAN
Seperti yang telah disebutkan sebelumnya bahwa keberadaan pencilan harus disikapi dengan bijaksana, dengan maksud bahwa data pencilan yang terjadi harus diteliti lebih dahulu penyebabnya. Berikut adalah beberapa metode dalam menangani pencilan yang terjadi.
6.1.
Membuang Data Pencilan Cara ini ditempuh jika pencilan terjadi karena kesalahan manusia dalam
pelaporan data akibat kesalahan pengamatan, kesalahan perekaman, kerusakan alat, dan sebagainya. Sebagaimana yang diungkapkan Soemartini (2007), jika data pencilan tidak dibuang, maka akan memberikan pengaruh setelah dilakukan pengujian, karena keberadaan pencilan mengganggu proses analisis. Membuang pencilan adalah tindakan yang kurang bijaksana jika data tersebut memang data yang diperoleh tanpa ada faktor kesalahan manusia.
6.2.
Menambah atau Memperbaiki Data Pengamatan Sungkawa (2009) menyebutkan bahwa jika terjadi pencilan, selain
membuang data pencilan, cara lain adalah dengan menambah data pengamatan untuk meyakinkan bahwa kemungkinan data pencilan tersebut sebenarnya bukanlah pencilan. Atau jika memang memungkinkan, penelitian atau pengamatan dapat diulang dengan perlakuan yang sama untuk memastikan bahwa nilai tersebut bukanlah pencilan.
6.3.
Membiarkan Data Pencilan Jika memang dipastikan tidak ada kesalahan data dan ada penjelasan yang
masuk akal bahwa kemungkinan data pencilan tersebut adalah data sebenarnya dari hasil penelitian atau pengamatan, maka data tersebut tidak dibuang dan tetap berada di dalam hasil penelitian atau pengamatan.
12
Seperti yang diungkapkan Osborne dan Overbay (2004) bahwa tidak semua nilai pencilan memiliki nilai pengamatan yang tidak sah dan tidak semua nilai pengamatan yang tidak sah adalah pencilan.
6.4.
Transformasi Data Jika tidak dimungkinkan untuk menambah data pengamatan, cara ini dapat
digunakan untuk tetap menjaga nilai pencilan dalam analisa. Dengan transformasi, nilai ekstrim dapat dipertahankan dengan peringkat data yang relatif sama, tetapi membuat kecondongan dan ragam galat dalam peubah berkurang (Osborne dan Overbay, 2004). Cousineau dan Chartier (2010) mengatakan bahwa jika terdapat pencilan, maka langkah pertama yang dilakukan adalah membuat data yang simetris dengan menggunakan transformasi non-linier. Dari tiga macam transformasi yang umum digunakan yaitu trasformasi logaritma, transformasi akar kuadrat, dan transformasi arcsin, didapatkan modifikasi transormasi akar kuadrat yang lebih cocok untuk menempatkan pencilan di tiap-tiap sisi sebaran terhadap respon berupa data waktu, yaitu: Di mana X(1) adalah nilai terkecil dari sampel X dan X(n) adalah nilai yang terbesar. Membagi dengan range (nilai terbesar dikurangi nilai terkecil) membuat data menjadi normal yang terletak dari 0 sampai dengan 1.
6.5.
Pemodelan Regresi Menggunakan Metode Least Trimmed Square Untuk analisa regresi, Soemartini (2007) menyebutkan Metode Least
Trimmed Squares sebagai salah satu metode penaksiran parameter model regresi yang robust terhadap kehadiran nilai pencilan. Adapun tujuan yang ingin dicapai adalah mendapatkan nilai parameter model regresi yang robust terhadap kehadiran nilai pencilan. Metode ini tidak membuang bagian dari data melainkan menemukan model fit dari mayoritas data. Misalkan model regresi linier berganda adalah:
13
Model taksirannya adalah:
dan nilai residualnya adalah:
Prinsip dari metode ini adalah meminimumkan
dari sebanyak ( )
kombinasi data. Kemudian model dengan jumlah kuadrat residu yang terkecil dijadikan sebagai model fit. Di mana: h = coverage; n = banyaknya pengamatan; r = residu Nilai h berada antara [ ] [ ], tapi biasanya untuk [ ]
mendapatkan nilai maksimum breadkdown yaitu mencapai 50% maka dengan p = banyaknya parameter.
Nilai breakdown adalah proporsi minimal dari banyaknya pencilan dibandingkan seluruh data pengamatan.
14
BAB VII CONTOH KASUS
Kasus : Pilot Plant Data Set Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Sumber: Daniel and Wood (1971) Extraction Titration X Y 123 76 109 70 62 55 104 71 57 55 37 48 44 50 100 66 16 41 28 43 138 82 105 68 159 88 75 58 88 164 169 167 149 167 64 88 89 88 84 88
1. Deteksi pencilan pada X dan pada Y 2. Deteksi adakah pengamatan berpengaruh 3. Dugalah beta menggunakan Metode Theil dan Penduga M ** Perhitungan dilakukan di Excell ** Dipresentasikan Minggu depan
15
PENYELESAIAN: Menduga parameter analisis regresi
Matrik X 1 123 1 109 1 62 1 104 1 57 1 37 1 44 1 100 1 16 1 28 1 138 1 105 1 159 1 75 1 88 1 164 1 169 1 167 1 149 1 167
Matrik Y 76 70 55 71 55 48 50 66 41 43 82 68 88 58 64 88 89 88 84 88
Matrik X' 1 1 1 1 1 123 109 62 104 57
1 37
1 1 1 44 100 16
1 1 1 1 1 28 138 105 159 75
1 1 1 1 1 1 88 164 169 167 149 167
Matrik Y' 76 70 55
71
55
48
50
66
41
43
82
68
88
58
64
88
89
88
84
88
16
Matrik X'X 20 2061 2061 261419 Matrik X'Y 1372 157154 Matriks (X'X)-1 0.266574824 -0.0021 -0.00210165 2E-05 Matriks (X'X)-1 (X'Y) = 35.458272 0.3216082 Matriks ' 35.45827 0.32161 Matriks 'X'Y 99190.76874
y = X 75.016084 70.513569 55.397982 68.905528 53.789941 47.357777 49.609034 67.619095 40.604004 44.463303 79.840207 69.227136 86.59398 59.578889 63.759796 88.202021 89.810062 89.166846 83.377898 89.166846
e = Y - X 0.983915918 -0.513568937 -0.397982377 2.094472187 1.210058746 0.64222324 0.390965667 -1.619094915 0.395995958 -1.463302738 2.159792548 -1.227136038 1.40601983 -1.578889298 0.240203781 -0.202021294 -0.810062417 -1.166845968 0.622102076 -1.166845968
Y - Ybar 7.4 1.4 -13.6 2.4 -13.6 -20.6 -18.6 -2.6 -27.6 -25.6 13.4 -0.6 19.4 -10.6 -4.6 19.4 20.4 19.4 15.4 19.4
Matrik e 0.983915918 -0.51356894 -0.39798238 2.094472187 1.210058746 0.64222324 0.390965667 -1.61909491 0.395995958 -1.46330274 2.159792548 -1.22713604 1.40601983 -1.5788893 0.240203781 -0.20202129 -0.81006242 -1.16684597 0.622102076 -1.16684597
Matrik e' 0.9839 -0.514 -0.398 2.0945 1.2101 0.6422 0.391 -1.619 0.396 -1.463 2.1598 -1.227 1.406 -1.579 0.2402 -0.202 -0.81 -1.167 0.6221 -1.167
e'e = RSS 27.23126184 2 = RSS/(n-p) 1.433224307 Var () = 2(X'X)-1 0.382061517 -0.003012133 -0.003012133 2.92298E-05 t 57.3655187 59.4859053
Matriks (Y - Ybar)' 7.4 1.4 -13.6
2.4
-13.6 -20.6 -18.6 -2.6 -27.6 -25.6 13.4
-0.6
19.4 -10.6 -4.6
19.4
20.4
19.4
15.4
19.4
17
Matriks Y'1 1372 TSS = (Y - Ybar)'(Y - Ybar) 5098.8 ESS = 'X'y - 1/n(1Y)'(1Y) 5071.568738
Model Regression Error Total
Tabel ANOVA SS df MS 5071.568738 1 5071.5687 27.23126184 18 1.5128479 5098.8 19
F 3352.33
Sig. 6.57233E-22
Variabel Bebas Constant X
Koefisien Beta 35.458 0.322
R-Square 0.995
t-hitung 57.366 59.486
Sig. 0.000 0.000
Keterangan Signifikan Signifikan
Berdasarkan proses pendugaan diatas, diperoleh matrik residual sebagai berikut:

Matrik e 0.983915918 -0.51356894 -0.39798238 2.094472187 1.210058746 0.64222324 0.390965667 -1.61909491 0.395995958 -1.46330274 2.159792548 -1.22713604 1.40601983 -1.5788893 0.240203781 -0.20202129 -0.81006242 -1.16684597 0.622102076 -1.16684597
Mendeteksi outlier pada X, dengan menghitung matrik :
18
Dari matrik diatas, maka diperoleh matrik diagonal utama yaitu matrik Hii seperti berikut ini:
Matrik Hii H0 : ada outlier pada variabel X

19
Vs H1 : tidak ada outlier pada variabel X Dengan : p : banyaknya peubah X (1,X1) yaitu 2 n : banyaknya obyek pengamatan yaitu 20 Sehingga: 2p/n = 2(2)/20 = 0.2
Nilai Hii pada tabel diatas dibandingkan dengan nilai 2p/n =0.2. Dari proses tersebut diketahui bahwa terdapat nilai Hii yang lebih dari 2p/n=0.2, ini berarti pada variabel X terdapat outlier, yaitu amatan ke-9. Mendeteksi outlier pada Y, dengan menghitung matrik TRESSi:
Deleted t residual atau Matrik TRESS
20
H0 : ada outlier pada variabel Y Vs H1 : tidak ada outlier pada variabel Y Dengan n = 20 Dengan = 0.05 dan Nilai |
= 2.45
| pada tabel diatas dibandingkan dengan nilai
. Dari
proses tersebut diketahui bahwa tidak terdapat nilai | dari
| yang lebih
hal ini berarti tidak terdapat outlier pada variabel Y.
Setelah diketahui bahwa terdapat outlier pada variabel X pada onservasi ke-9, perlu diketahui apakah outlier tersebut berpengaruh terhadap koefisien regresi atau nilai duga ( ) untuk kemudian dilakukan penanganan terhadap outlier tersebut. Hasil pengujiannya sebagai berikut:
ei 0.9839159 -0.513569 -0.397982 2.0944722 1.2100587 0.6422232 0.3909657 -1.619095 0.395996 -1.463303 2.1597925 -1.227136 1.4060198 -1.578889 0.2402038 -0.202021 -0.810062 -1.166846 0.6221021 -1.166846 Di 0.0209604 0.0049066 0.0052678 0.0803569 0.0548849 0.0255531 0.007921 0.0482015 0.0167536 0.1672951 0.1349532 0.0276202 0.09472 0.0623845 0.0011654 0.0022196 0.0405503 0.079936 0.0144713 0.079936 F Outlier Berpengaruh Koefisien (hi/(1-hi)^2) 0.065510305 0.056287204 0.100630152 0.055424204 0.113413669 0.187454717 0.156793034 0.055634096 0.323259593 0.236395948 0.087535542 0.05549665 0.144972021 0.075717903 0.061112985 0.164549382 0.186974659 0.177639915 0.113138638 0.177639915
0.72053765
Cooks Distance H0 : Pengamatan ke-i tidak berpengaruh vs
21
H1 : Pengamatan ke-i berpengaruh Kriteria yang digunakan untuk menguji hipotesis tersebut adalah sebagai berikut:
= 0.72
Nilai Di pada tabel diatas dibandingkan dengan tersebut diketahui bahwa tidak terdapat nilai Di <
, dari proses , maka dapat
disimpulkan bahwa tidak terdapat outlier yang berpengaruh terhadap koefisien regresi.
DFIT 0.2028421 -0.096766 -0.10007 0.4275286 0.3319741 0.2216555 0.1227111 -0.318302 0.1785397 -0.590633 0.5593216 -0.235364 0.441453 -0.361446 0.0469704 -0.064805 -0.280713 -0.400294 0.1666431 -0.400294 2*sqrt(p/n) Outlier Berpengaruh pada Nilai Duga -
6.32455532
Dfits H0 : Pengamatan ke-i tidak berpengaruh vs
22
H1 : Pengamatan ke-i berpengaruh Kriteria yang digunakan untuk menguji hipotesis tersebut adalah sebagai berikut:
dengan : 2 = 2
= 6.32
Nilai DFIT pada tabel diatas dibandingkan dengan nilai 2 . Dari proses tersebut diketahui bahwa tidak terdapat nilai DFIT1 > 2 , maka dapat disimpulkan bahwa tidak terdapat outlier yang berpengaruh terhadap nilai duga ( ). Berdasarkan proses pendeteksian outlier diatas, dapat disimpulkan bahwa tidak terdapat pada variabel X dan variable Y serta pengamatan berpengaruh. Berdasarkan hasil proses tersebut, maka proses pendugaan tidak dapat melalui proses MKT, maka dalam kasus ini dilakukan penangan dengan Metode Theil dan Penduga-M untuk memperolreh slope (1) seperti berikut ini:
A.
Metode Theil
23
bij b12 b13 b14 b15 b16 b17 b18 b19 b110 b111 b112 b113 b114 b115 b116 b117 b118 b119 b120 bij b78 b79 b710 b711 b712 b713 b714 b715 b716 b717 b718 b719 b720 bij b1314 b1315 b1316 b1317 b1318 b1319 b1320
Koefisien 0.42857143 0.3442623 0.26315789 0.31818182 0.3255814 0.32911392 0.43478261 0.3271028 0.34736842 0.4 0.44444444 0.33333333 0.375 0.34285714 0.29268293 0.2826087 0.27272727 0.30769231 0.27272727 Koefisien 0.28571429 0.32142857 0.4375 0.34042553 0.29508197 0.33043478 0.25806452 0.31818182 0.31666667 0.312 0.30894309 0.32380952 0.30894309 Koefisien 0.35714286 0.33802817 0 0.1 0 0.4 0
bij b23 b24 b25 b26 b27 b28 b29 b210 b211 b212 b213 b214 b215 b216 b217 b218 b219 b220 bij b89 b810 b811 b812 b813 b814 b815 b816 b817 b818 b819 b820 bij b1415 b1416 b1417 b1418 b1419 b1420
Koefisien 0.31914894 -0.2 0.28846154 0.30555556 0.30769231 0.44444444 0.31182796 0.33333333 0.4137931 0.5 0.36 0.35294118 0.28571429 0.32727273 0.31666667 0.31034483 0.35 0.31034483 Koefisien 0.29761905 0.31944444 0.42105263 0.4 0.37288136 0.32 0.16666667 0.34375 0.33333333 0.32835821 0.36734694 0.32835821 Koefisien 0.46153846 0.33707865 0.32978723 0.32608696 0.35135135 0.32608696
bij b34 b35 b36 b37 b38 b39 b310 b311 b312 b313 b314 b315 b316 b317 b318 b319 b320
Matrik bij Koefisien bij 0.38095238 b45 0 b46 0.28 b47 0.27777778 b48 0.28947368 b49 0.30434783 b410 0.35294118 b411 0.35526316 b412 0.30232558 b413 0.34020619 b414 0.23076923 b415 0.34615385 b416 0.32352941 b417 0.31775701 b418 0.31428571 b419 0.33333333 b420 0.31428571
Koefisien 0.34042553 0.34328358 0.35 1.25 0.34090909 0.36842105 0.32352941 -3 0.30909091 0.44827586 0.4375 0.28333333 0.27692308 0.26984127 0.28888889 0.26984127
bij b56 b57 b58 b59 b510 b511 b512 b513 b514 b515 b516 b517 b518 b519 b520
Koefisien 0.35 0.38461538 0.25581395 0.34146341 0.4137931 0.33333333 0.27083333 0.32352941 0.16666667 0.29032258 0.30841121 0.30357143 0.3 0.31521739 0.3
bij b67 b68 b69 b610 b611 b612 b613 b614 b615 b616 b617 b618 b619 b620
Koefisien 0.28571429 0.28571429 0.33333333 0.55555556 0.33663366 0.29411765 0.32786885 0.26315789 0.31372549 0.31496063 0.31060606 0.30769231 0.32142857 0.30769231
bij b910 b911 b912 b913 b914 b915 b916 b917 b918 b919 b920
Koefisien 0.16666667 0.33606557 0.30337079 0.32867133 0.28813559 0.31944444 0.31756757 0.31372549 0.31125828 0.32330827 0.31125828
bij b1011 b1012 b1013 b1014 b1015 b1016 b1017 b1018 b1019 b1020
Koefisien 0.35454545 0.32467532 0.34351145 0.31914894 0.35 0.33088235 0.32624113 0.32374101 0.33884298 0.32374101
bij b1112 b1113 b1114 b1115 b1116 b1117 b1118 b1119 b1120
Koefisien 0.42424242 0.28571429 0.38095238 0.36 0.23076923 0.22580645 0.20689655 0.18181818 0.20689655
bij b1213 b1214 b1215 b1216 b1217 b1218 b1219 b1220
Koefisien 0.37037037 0.33333333 0.23529412 0.33898305 0.328125 0.32258065 0.36363636 0.32258065
bij b1516 b1517 b1518 b1519 b1520
Koefisien 0.31578947 0.30864198 0.30379747 0.32786885 0.30379747
bij Koefisien bij Koefisien bij b1617 0.2 b1718 0.5 b1819 b1618 0 b1719 0.25 b1820 b1619 0.26666667 b1720 0.5 b1620 0 bij b1920
Koefisien 0.22222222 0
Koefisien 0.22222222
Median (bij) 0.319722222
Dari tabel diatas diperoleh nilai slope (1) sebesar 0.3197, dan dapat dihitung nilai dari intersep (0) seperti berikut ini:
24
Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Rata-rata:
Extraction Titration X Y 123 76 109 70 62 55 104 71 57 55 37 48 44 50 100 66 16 41 28 43 138 82 105 68 159 88 75 58 88 64 164 88 169 89 167 88 149 84 167 88 103.05 68.6
intersep (0) = - (1) intersep (0) = 68.6 (0.3197 * 103.05) intersep (0) = 35.65 Berdasarkan proses diatas, maka dapat diperoleh model regresi yaitu:
Y = 35.65 + 0.3197 X
Dari persamaan diatas dapat disimpulkan bahwa dengan kenaikan nilai X sebesar 1
dengan metode unit dapat meningkatkan nilai Y sebesar 0.3197.

B. Metode Penduga M
Theil diperoleh persamaan : Y=35.65263 + 0.319722X
25
ei 1.032031974 -0.524777649 -0.608352811 2.062076057 0.978500895 0.325915719 0.104320531 -1.668440978 -0.009298715 -1.81774761 2.271470856 -1.255294684 1.606685291 -1.734172447 0.140007917 0.019831584 -0.567022122 -0.932280639 0.780392703 -0.932280639
Short ei Median ei ei-med(ei) -1.817748 -0.00526643 1.03729841 -1.734172 -0.5247776 -1.668441 -0.6083528 -1.255295 2.06207606 -0.932281 0.97850089 -0.932281 0.32591572 -0.608353 0.10432053 -0.567022 -1.668441 -0.524778 -0.0092987 -0.009299 -1.8177476 0.0198316 2.27147086 0.1043205 -1.2552947 0.1400079 1.60668529 0.3259157 -1.7341724 0.7803927 0.14000792 0.9785009 0.01983158 1.032032 -0.5670221 1.6066853 -0.9322806 2.0620761 0.7803927 2.2714709 -0.9322806
Median (ei-med(ei) 0.005266435 S = Med(ei-Med(ei))/0.6745 0.007807909
26
Matik Wi 0.0102 0 0 0 0 0 0 0 0 0.02 0 0 0 0 0 0 0 0 0.0173 0 0 0 0 0 0 0 0 0.0051 0 0 0 0 0 0 0 0 0.0107 0 0 0 0 0 0 0 0 0.0322 0 0 0 0 0 0 0 0 0.1007 0 0 0 0 0 0 0 0 0.0063 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0058 0 0 0 0 0 0.0046 0 0 0 0 0 0.0084 0 0 0 0 0 0.0065 0 0 0 0 0 0.0061 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.075 0 0 0 0 0 0 0.5295 0 0 0 0 0 0 0.0185 0 0 0 0 0 0 0.0113 0 0 0 0 0 0 0.0135 0 0 0 0 0 0 0.0113
27
Mengulangi proses pendugaan dengan metode di atas hingga diperoleh:

residu iterasi 1 1.047478 -0.48884 -0.5036 2.105338 1.090569 0.467263 0.23542 -1.61932 0.162792 -1.66322 2.264958 -1.2135 1.569429 -1.64846 0.206693 -0.02474 -0.61892 -0.98125 0.757776 -0.98125 2 1.085439 -0.47033 -0.55042 2.116893 1.036805 0.385704 0.163589 -1.61333 0.052047 -1.75729 2.323765 -1.20055 1.657421 -1.6772 0.196012 0.070197 -0.51703 -0.88214 0.831871 -0.88214 3 1.10462 -0.45972 -0.56858 2.124441 1.015579 0.352234 0.134405 -1.60823 0.005721 -1.79627 2.352129 -1.19239 1.698642 -1.68741 0.193765 0.114478 -0.46969 -0.83602 0.866969 -0.83602 4 1.116511 -0.45165 -0.57333 2.13115 1.009466 0.340665 0.124746 -1.60261 -0.01158 -1.8103 2.368112 -1.18541 1.720353 -1.68861 0.196108 0.137553 -0.44525 -0.81213 0.885952 -0.81213 5 1.120731 -0.44913 -0.5765 2.133067 1.005689 0.334464 0.119393 -1.60118 -0.02032 -1.81759 2.37415 -1.18337 1.728936 -1.69021 0.196087 0.146742 -0.43545 -0.80257 0.893323 -0.80257 6 1.115366 -0.4548 -0.58323 2.127278 0.998849 0.327177 0.112262 -1.60706 -0.02808 -1.82508 2.36912 -1.18914 1.724375 -1.69665 0.18994 0.142293 -0.43979 -0.80696 0.888539 -0.80696
iterasi 1 2 3 4 5 6 7
b0 35.45827 35.73585 35.86883 35.92496 35.94662 35.9573 35.96542
b1 keterangan 0.321608 data awal 0.318835 0.317445 0.316833 0.31656 0.316439 0.316416
Pada iterasi ke enam diperoleh nilai estimasi yang stabil, dengan demikian, diperoleh penduga regresi seperti berikut ini:
Y = 35.96542 + 0.316416 X
28
BAB VIII PENUTUP
8.1 Kesimpulan Terdapat berbagai macam definisi terhadap pencilan yang semuanya memiliki arti yang tidak jauh berbeda, yaitu pencilan adalah nilai-nilai pengamatan yang berada jauh atau menyendiri dari kumpulan nilai pengamatan lainnya. Berbagai macam penyebab dapat membuat nilai pencilan muncul dalam hasil pengamatan, yaitu kesalahan manusia dalam mengumpulkan, merekam, dan melaporkan data, termasuk kesalahan dalam asumsi sebaran data; tingginya tingkat keragaman data; kerusakan alat bantu penelitian atau pengamatan; terjadinya suatu peristiwa yang tidak biasa; dan tindakan pemalsuan data. Keberadaan pencilan memiliki manfaat tersendiri di antaranya untuk dijadikan bahan inspirasi penelitian mengapa nilai pencilan tersebut muncul dan untuk mendeteksi kejadian-kejadian yang tidak biasa untuk meningkatkan tingkat kewaspadaan terhadap suatu tindakan kriminal, walaupun begitu, keberadaannya memungkinkan hasil analisa menjadi kurang sahih. Terdapat beberapa cara pendeteksian terhadap pencilan yang dapat dilakukan, di antaranya adalah dengan menggunakan visualisasi grafik dan dengan statistik uji seperti Leverage, Cooks Distance, Deviasi Kuartil, dan lain-lain. Bahwa tidak semua nilai pencilan merupakan nilai pengamatan yang tidak sah dan tidak semua nilai pengamatan yang tidak sah merupakan nilai pencilan.
8.2
Saran Pendeteksian pencilan dapat dilakukan dengan berbagai macam cara yang
mana setiap cara memungkinkan untuk memberikan keputusan yang berbeda-beda. Misalnya dalam suatu kasus, cara (A) tidak mendeteksi adanya pencilan, sedangkan cara (B) mendeteksi adanya pencilan. Dengan memprioritaskan sikap kehati-hatian, sebaiknya dalam kasus tersebut dipilih cara (B) untuk ditelaah penyebab munculnya nilai pencilan agar dapat ditentukan penanganan data yang tepat untuk mendapatkan hasil analisa yang lebih sahih.
29
DAFTAR PUSTAKA
Berry, William O., dan Feldman, Stanley. 1985. Multiple Regression in Practice. University of Kentucky. Beyer, William H. 1991. CRC Standard Probability and Statistics: Tables and Formulae. CRC Press. Boca Raton. Florida. Bowerman, Bruce L., dan OConnell, Richard T. 1991. Linear Statistical Models: An Applied Approach. 2nd Edition. PWS Kent Publishing Company. Boston. Chandola, Varun., Banerjee, Arindam., dan Kumar, Vipin. 2009. Outlier Detection: A Survey. University of Minnesota. ACM Computing Surveys, 41(3), July 2009. Cheng, J. Gongxian. 2000. Outlier Management in Intelligent Data Analysis. University of London. Cousineau, Denis., dan Chartier, Sylvain. 2010. Outliers Detection and Treatment: A Review. International Journal of Psychological Research 2010 Vol.3 No. 1. Draper, N.R. dan Smith H. 1992. Analisis Regresi Terapan. Edisi Kedua. PT. Gramedia Pustaka Utama. Jakarta. Osborne, Jason W. dan Overbay, Amy. 2004. The Power of Outliers (and Why Researchers Should Always Check for Them). North Carolina State University. Soemartini. 2007. Pencilan (Outlier). Universitas Padjadjaran. Jatinangor. Sungkawa, Iwa. 2009. Penditeksian Pencilan (Outlier) dan Residual pada Regresi Linier. Informatika Pertanian Vol. 18 No.2.
30

Deteklsi Outlier DG Metodee Theil Penduga M

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Deteklsi Outlier DG Metodee Theil Penduga M

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB I PENDAHULUAN

BAB II DEFINISI PENCILAN

BAB III PENYEBAB TERJADINYA PENCILAN

BAB IV MANFAAT DAN DAMPAK PENCILAN

BAB V IDENTIFIKASI PENCILAN

Gambar 5.1 Deteksi pencilan dengan diagram pencar

Gambar 5.2 Deteksi pencilan dengan histogram

Gambar 5.3 Deteksi pencilan dengan Box Plot

n = jumlah pengamatan; p = jumlah parameter

Tentukan median M dari e1,e2,,en. Hitung: | |

saja tidak menggunakan grafik melainkan hanya angka.

b) Menguji nilai pengamatan terkecil sebagai pencilan:

BAB VI PENANGANAN PENCILAN

Model taksirannya adalah:

dan nilai residualnya adalah:

Prinsip dari metode ini adalah meminimumkan

BAB VII CONTOH KASUS

PENYELESAIAN: Menduga parameter analisis regresi

Matrik X' 1 1 1 1 1 123 109 62 104 57

1 1 1 1 1 28 138 105 159 75

1 1 1 1 1 1 88 164 169 167 149 167

Matriks (Y - Ybar)' 7.4 1.4 -13.6

-13.6 -20.6 -18.6 -2.6 -27.6 -25.6 13.4

19.4 -10.6 -4.6

Model Regression Error Total

Tabel ANOVA SS df MS 5071.568738 1 5071.5687 27.23126184 18 1.5128479 5098.8 19

Variabel Bebas Constant X

Koefisien Beta 35.458 0.322

t-hitung 57.366 59.486

Sig. 0.000 0.000

Keterangan Signifikan Signifikan

Berdasarkan proses pendugaan diatas, diperoleh matrik residual sebagai berikut:

Mendeteksi outlier pada X, dengan menghitung matrik :

Matrik Hii H0 : ada outlier pada variabel X

Deleted t residual atau Matrik TRESS

| pada tabel diatas dibandingkan dengan nilai

proses tersebut diketahui bahwa tidak terdapat nilai | dari

hal ini berarti tidak terdapat outlier pada variabel Y.

Cooks Distance H0 : Pengamatan ke-i tidak berpengaruh vs

, dari proses , maka dapat

Dfits H0 : Pengamatan ke-i tidak berpengaruh vs

bij b1213 b1214 b1215 b1216 b1217 b1218 b1219 b1220

Koefisien 0.37037037 0.33333333 0.23529412 0.33898305 0.328125 0.32258065 0.36363636 0.32258065

bij b1516 b1517 b1518 b1519 b1520

Koefisien 0.31578947 0.30864198 0.30379747 0.32786885 0.30379747

Median (bij) 0.319722222

dengan metode unit dapat meningkatkan nilai Y sebesar 0.3197.

Theil diperoleh persamaan : Y=35.65263 + 0.319722X

Median (ei-med(ei) 0.005266435 S = Med(ei-Med(ei))/0.6745 0.007807909

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0058 0 0 0 0 0 0.0046 0 0 0 0 0 0.0084 0 0 0 0 0 0.0065 0 0 0 0 0 0.0061 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.075 0 0 0 0 0 0 0.5295 0 0 0 0 0 0 0.0185 0 0 0 0 0 0 0.0113 0 0 0 0 0 0 0.0135 0 0 0 0 0 0 0.0113

Mengulangi proses pendugaan dengan metode di atas hingga diperoleh:

b0 35.45827 35.73585 35.86883 35.92496 35.94662 35.9573 35.96542

BAB VIII PENUTUP

Anda mungkin juga menyukai