Anda di halaman 1dari 9

2.

Pengertian data outlier Data outlier yaitu data dengan kombinasi unik dari karakteristik yang dapat

diidentifikasi sebagai sesuatu yang berbeda dari observasi yang lainnya. Yang dimaksud dengan karakteristik yang unik yaitu nilai yang terlalu rendah atau tinggi dari suatu variabel atau sekumpulan variabel yang membuat observasi berbeda dari yang lainnya. Untuk menaksir akibat dari adanya data outlier maka harus mempertimbangkan beberapa pertimbangan yang praktis dan substansif. 2.1 Pengaruh adanya data outlier Data outlier memiliki beberapa dampak sebagai berikut : Dari sudut pandang peneliti, data outlier memiliki efek tetap tertentu untuk segala analisis empiris. Sebagai contoh, yaitu misalkan kita mengambil sampel sebanyak 20 individu untuk menentukan pendapatan rata-rata rumah tangga. Pada sampel yang dimiliki, kita memperoleh respon dengan kisaran pendapatan antara $20.000 dan $100.000, sehingga rata-rata pendapatan menjadi $45.000. Tetapi bayangkan bila orang ke-21 memiliki pendapatan $1 juta. Jika kita memasukkan nilai ini ke dalam analisis, rata-rata pendapatan meningkat menjadi lebih dari $90.000. Pada permasalahan ini terdapat data outlier, tetapi mana yang lebih baik untuk mengestimasi rata-rata pendapatan rumah tangga: $45.000 atau $90.000 ? Peneliti harus mengerti apakah nilai outlier harus dipertahankan atau harus dihilangkan berdasarkan hasilnya. Secara substantif, data outlier harus dilihat seberapa representatif data tersebut terhadap populasi. Dengan menggunakan contoh pengeluaran rumah tangga sebelumnya, seberapa representatif segmen untuk orang-orang kaya adalah milyuner. Jika peneliti merasa bahwa nilai representatif masih terlalu kecil, tetapi segmen di dalam populasi tersebut masih dapat diseimbangkan maka nilai ini patut untuk dipertahankan. Tetapi, jika milyuner ini hanya sebanyak satu orang di keseluruhan populasi dan nilainya merupakan nilai yang terlalu ekstrim maka boleh untuk dibuang.

Data outlier tidak dapat dikategorikan menjadi data yang bermasalah, tetapi harus dilihat secara kontekstual dalam analisis dan harus dievaluasi jenis informasi apa saja yang tersedia. Ketika diuntungkan, data outlier, walaupun berbeda dari mayoritas sampel, mungkin menjadi indikasi karakteristik populasi tersebut tidak dapat dianalisis secara normal. Kebalikannya, masalah outlier tidak representatif terhadap populasi, dan menjadi perhitungan yang tidak obyektif, dan dapat mengacaukan uji statistika dengan serius. Peneliti harus memeriksa adanya data outlier dan menyelidiki pengaruh mereka. Data outlier harus dapat ditempatkan untuk menaksir pengaruh dari observasi individu dan menentukan apakah pengaruh ini membantu atau tidak. Mengapa data outlier dapat terjadi ? Data outlier dapat dikategorikan menjadi empat kelas berdasarkan sumber keunikannya yaitu : Kelas pertama terjadi dari procedural error, seperti entri data yang error atau kesalahan dalam pengkodingan. Data outlier ini harus diidentifikasi pada saat proses pembersihan data, tetapi jika terabaikan mereka harus dieliminasi atau diidentifikasi sebagai missing values. Kelas yang kedua terdiri dari observasi yang terjadi pada hasil extraordinary event yang terdapat keunikan dalam observasi. Sebagai contoh, asumsikan kita mencatat rata-rata curah hujan harian pada saat badai datang beberapa hari dan merekam level rata-rata curah hujan yang tinggi. Level rata-rata curah hujan tersebut tidak dapat dibandingkan dengan rata-rata curah hujan pada saat cuaca normal. Jika dimasukkan, mereka akan mengubah pola dari hasil. Peneliti harus memutuskan apakah kejadian tidak biasa tersebut merupakan tujuan peneliti. Jika iya, maka layak untuk dipertahankan tetapi jika tidak seharusnya dibuang. Kelas ketiga dari data outlier dengan extraordinary observations adalah peneliti tidak memiliki penjelasan. Kejadian unik dan tepat bergabung menjadi satu. Walaupun data outlier ini dapat dihilangkan, mereka dapat dipertahankan jika peneliti merasa kehadiran mereka valid terhadap populasi. Kemungkinan mereka merepresentasikan gabungan elemen, atau elemen yang belum digunakan sebelumnya

tidak teridentifikasi. Di sini, peneliti harus menentukan untuk mempertahankan atau menghapus data. 2.2 Langkah-langkah mendeteksi data outlier Untuk mendeteksi adanya data outlier atau tidak dapat diidentifikasi dari perspektif univariat, bivariat atau multivariate berdasarkan pertimbangan banyak variable atau karakteristik. Peneliti sebaiknya menggunakan perspektif tersebut untuk mencari pola yang konsisten untuk mengidentifikasi data outlier. Univariate Detection Identifikasi univariat untuk mengidentifikasi distribusi dari masingmasing variable pada analisis dan memilih data outlier yang memiliki range tinggi atau rendah dari distribusi tersebut. Masalah utama yaitu membuat ambang batas untuk data outlier tersebut. Pendekatan pertama mengkonversikan data ke nilai yang standar, dengan nilai rata-rata 0 dan deviasi standar 1. Karena nilai ini dibuat dalam format standar, perbandingan dari variable dapat dibuat dengan mudah. Pada beberapa kasus, peneliti harus mengenali banyak observasi secara pasti yang dapat terjadi secara normal di luar nilai ambang batas tersebut. Bivariate Detection Pada bivariate detection, pasangan dari variable dapat dijadikan satu pada diagram pencar. Kasus yang terjadi di luar range dari observasi akan diletakkan pada poin yang terisolasi dari diagram pencar. Untuk menentukan range yang diharapkan dari penelitian ini adalah gambaran dua dimensi, sebuah elips yang mempresentasikan tingkat kepercayaan distribusi bivariat normal (biasanya level 90% atau 95%) terdapat di atas pada diagram pencar. Elips menyediakan gambaran yang grafikal pada batas kepercayaan dan memfasilitasi identifikasi data outlier. Varian dari diagram pencar menunjukkan pengaruh dari plot, dengan masing-masing poin bervariasi pada ukuran. Masing-masing metode menyediakan keunikan tersendiri untuk masing-masing observasi dalam hubungan dengan observasi lainnya berdasarkan spesifikasi dari pasangan variabel. Kekurangan pada

metode bivariat yaitu banyak diagram pencar disebabkan oleh banyak variabel yang meningkat. Untuk tiga variabel, hanya tiga grafik untuk seluruh perbandingan pasangan. Tetapi untuk lima variabel, membutuhkan 10 grafik, dan untuk 10 variabel membutuhkan 45 diagram pencar. Akibatnya, peneliti harus membatasi penggunaan metode bivariat untuk menspesifikasikan hubungan antara variabel, seperti hubungan antara variabel dependen dan independen pada analisis regresi. Peneliti kemudian meneliti diagram pencar tersebut untuk mengidentifikasi pola untuk satu atau lebih observasi yang akan menghasilkan desain data yang outlier. Multivariate Detection Karena analisis multivariate melibatkan lebih dari dua variabel, metode bivariat menjadi tidak cocok karena beberapa alas an. Pertama, mereka membutuhkan banyak grafik, seperti yang telah dijelaskan sebelumnya, ketika banyak variabel mencapai ukuran yang cukup. Kedua, mereka dibatasi pada dua dimensi (variabel). Walaupun demikian, ketika lebih dari dua variabel dipertimbangkan, peneliti membutuhkan rata-rata untuk mengukur posisi

multidimensional untuk masing-masing observasi yang relative terhadap beberapa poin. Kejadian ini disebut dengan ukuran D2 Mahalanobis, taksiran multivariate untuk masing-masing observasi pada setiap data set variabel. Metode ini untuk mengukur jarak dari masing-masing observasi pada ruang multidimensional dari tengah rata-rata untuk semua observasi, menyediakan nilai sendiri untuk masing-masing observasi tidak peduli berapa banyak variabel yang dipertimbangkan. Semakin tinggi nilai D2 mempresentasikan

observasi yang semakin jauh dibuang dari distribusi general dari observasi pada ruang multidimensional. Metode ini juga memiliki kekurangan yaitu hanya menyediakan taksiran secara keseluruhan. Outlier Designation Dengan menggunakan metode univariat, bilvariat, multivariate, peneliti memiliki perspektif yang komplit untuk meneliti status

observasi apakah outlier atau bukan. Masing-masing dari metode dapat menyediakan perspektif yang unik pada observasi dan digunakan untuk mengidentifikasi outlier. Ketika observasi dapat diidentifikasi dengan metode univariat, bivariat, dan multivariate sebagai data outlier yang mungkin, peneliti harus memilih observasi yang mendemonstrasikan keunikan yang nyata pada perbandingan dengan menyisakan populasi berlawanan dengan perspektif. Peneliti harus mengulang dari mendesain terlalu banyak observasi sebagai outlierdan tidak bias untuk mengeliminasi kasus tersebut karena mereka berbeda. Outlier description and profiling Ketika data outlier yang potensial teridentifikasi, peneliti sebaiknya membangkitkan profil dari masing masing observasi yang outlier dan mengidentifikasi tanggung jawab variabel mengapa menjadi outlier. Peneliti harus menggunakan tekhnik multivariate seperti analisis diskriminan perbedaan atau antara regresi data berganda outlier dan untuk mengidentifikasikan lainnya. Jika

observasi

memungkinkan peneliti sebaiknya menyertakan data outlier pada satu kelas hingga empat kelas yang tekah dijelaskan sebelumnya untuk membantu pada keputusan penyimpanan atau pembuangan data yang akan diambil. Peneliti sebaiknya melanjutkan analisis hingga terbentuk aspek yang membedakan outlier dari beberapa observasi. Retention or deletion of the outlier Setelah data outlier peneliti diidentifikasi, harus dikarakteristikkan, apakah data dan tetap

dikategorikan,

menentukan

dipertahankan ataukan dibuang. Beberapa filosofer diantara peneliti menyediakan petunjun untuk memperlakukan data outlier. Data ini harus dipertahankan ada bukti yang menyatakan data tersebut benarbenar tidak representatif terhadap populasi. Ketika data outlier dibuang, peneliti harus memperhitungkan resiko dengan analisis multivariate tetapi membatasi secara umum. 2.3 Cara mengatasi data outlier

Setelah data outlier diidentifikasi, dikarakteristikkan, dan dikategorikan, peneliti harus menentukan apakah data tetap dipertahankan ataukan dibuang. Beberapa filosofer diantara peneliti menyediakan petunjun untuk memperlakukan data outlier. Data ini harus dipertahankan ada bukti yang menyatakan data tersebut benar-benar tidak representatif terhadap populasi. Ketika data outlier dibuang, peneliti harus memperhitungkan resiko dengan analisis multivariate tetapi membatasi secara umum. 2.4 Contoh soal Sebagai contoh pengamatan dari basis data HBAT akan diperiksa adanya kasus outlier atau tidak. Variabel yang dipertimbangkan dalam analisis adalah matriks X6 melalui X19 dengan konteks pemeriksaan ini, menggunakan analisis regresi di mana XI9 adalah variabel dependen dan X6 melalui XI8 adalah variabel independen. Analisis outlier termasuk analisis univariat, bivariat, dan diagnosa multivariat. Ketika data yang menunjukan outlier ditemukan, maka data tersebut diperiksa, dan keputusan tentang penyimpanan atau penghapusan dibuat. Outlier Detection Langkah pertama adalah pemeriksaan semua variabel dari perspektif univariat. Metode bivariat kemudian akan digunakan untuk menguji hubungan antara variabel dependen (XI9) dan masing-masing variabel independen. Dari masing-masing diagram pencar, pengamatan di luar distribusi dapat diidentifikasi dan dampaknya terhadap hubungan itu dipastikan sebagai data outlier. Akhirnya, penilaian multivariat akan dilakukan pada semua variabel independen secara kolektif. Perbandingan dari pengamatan di tiga metode diharapkan akan memberikan dasar bagi keputusan penghapusan / penyimpanan. Univariate Detection Langkah pertama adalah memeriksa pengamatan pada masing-masing variabel individual. Tabel 10 berisi pengamatan dengan nilai-nilai variabel standar melebihi 2,5 pada masing-masing variabel (X6 ke XI9). Dari perspektif univariat ini, hanya pengamatan 7, 22, dan 90 melebihi ambang batas pada lebih dari satu variabel. Selain itu, tak satu pun dari pengamatan ini memiliki nilai sangat ekstrim untuk mempengaruhi tindakan

keseluruhan variabel, seperti penyimpangan. Harus dicatat bahwa variabel dependen memiliki satu pengamatan terpencil (22), yang dapat mempengaruhi diagram pencar bivariat karena variabel dependen muncul di setiap sebaran. Tiga pengamatan akan dicatat untuk melihat apakah mereka muncul dalam berikutnya bivariat dan penilaian multivariat. Tabel 2.1 Hasil Deteksi Outliers

Bivariat Detection. Untuk perspektif bivariat, 13 diagram pencar dibentuk untuk masingmasing variabel independen ( X6 melalui X18 ) dengan variabel dependen ( X19 ). Elips merepresentasikan tingkat kepercayaan 95 % dari distribusi normal bivariat kemudian ditampilkan pada diagram pencar. Gambar 2.1 berisi contoh-contoh dari dua diagram pencar tersebut yang melibatkan X6 dan X7. Seperti yang bisa dilihat pada sebaran untuk X6 dengan X19 , dua data outlier jatuh di luar elips dan tidak memiliki nilai-nilai ekstrim di kedua variabel . Hasil ini berbeda dengan sebaran dari X7 dengan X19 , di mana pengamatan 22 berbeda dari pengamatan lain dan menunjukkan nilai-nilai tertinggi baik di X7 dan X19. Yang kedua dari Tabel 2.1 yang berisi kompilasi data yang masih jatuh diluar elips ini untuk setiap variabel. Karena menggunakan tingkat kepercayaan 95 %, yang diharapkan beberapa pengamatan biasanya jatuh di luar elips. Hanya

empat pengamatan ( 2 , 22 , 24 , dan 90 ) berada di luar elips lebih dari dua kali. Pengamatan 22 berada di luar 12 dari 13 diagram pencar, karena data ini adalah data outlier pada variabel dependen. Hanya pengamatan 90 yang tercatat dalam deteksi univariat. Multivariate Detection. Metode diagnostik terakhir adalah untuk menilai data outlier dari metode multivariat dengan menggunakan pengukuran D2 Mahalanobis (lihat Tabel 10). Analisis ini mengevaluasi posisi dari masing-masing observasi dibandingkan dengan pusat dari setiap pengamatan pada satu set variabel yang ada. Dalam hal ini, semua varibel independen digunakan. Perhitungan dari D2/df nilai (df = 13) memungkinkan identifikasi dari outlier melalui pendekatan uji statistik. Karena sampelnya hanya terdiri 100 pengamatan, nilai ambang 2,5 akan lebih baik digunakan daripada nilai 3,5 atau 4,0. dengan ini nilai ambang sebesar 2,5 maka dua pengamatan (98 dan 36) diidentifikasi sebagai pengamatan yang berbeda secara signifikan. Hasil ini menunjukkan bahwa dua pengamatan tersebut tidak unik pada setiap variabel tunggal tetapi unik secara kombinasi.

Gambar 2.1 Diagram Pencar Detection Outliers Retention or Deletion of The Outliers Sebagai hasil dari pengujian diagnostik, tidak ada pengamatan yang meunjukkan bahwa karateristik dari data outliers harus dihapuskan. Setiap variabel memiliki beberapa pengamatan yang bernilai ekstrim, dan dari pengamatan tersebut data outliers harus dipertimbangkan untuk tetap digunakan dalam sebuah analisis. Tidak ada pengamatan

yang bernilai ekstrim bila jumlah variabel yang dipertimbangkan cukup memadai dan dapat mewakili populasinya. Peneliti harus selalu memeriksa hasil dari setiap pengujian multivariat untuk

mengidentifikasi observasi yang mungkin bisa menjadi data outlier dalam aplikasi tertentu.