Hamid Ghorbani
1. Pendahuluan
583
584 H. H.
Ghorbani
dan menyebabkan estimasi bias yang mungkin menarik secara substantif [22].
Oleh karena itu, proses deteksi outlier merupakan aspek yang menarik dan
penting dalam analisis data, lihat [3] dan [5]. Tergantung pada aplikasi sinonim
yang sering digunakan untuk proses deteksi pencilan, di antaranya, seseorang
dapat menyebutkan deteksi anomali, deteksi penyimpangan, penambangan
pengecualian, deteksi kesalahan dalam sistem kritis keamanan, deteksi penipuan
untuk kartu kredit, deteksi intrusi dalam keamanan siber (akses yang tidak sah
dalam jaringan komputer), deteksi penyalahgunaan, deteksi kebisingan dan
deteksi kebaruan, lihat [1], [9], [23] dan [32].
Semua teknik berbasis kedekatan untuk identifikasi outlier seperti algoritma
k-Nearest Neighbor (k-NN) menghitung tetangga terdekat dari sebuah record
menggunakan metrik perhitungan jarak yang sesuai seperti jarak Euclidean,
jarak Mahalanobis, atau ukuran ketidaksamaan lainnya. Untuk kumpulan data
yang besar, penggunaan jarak Mahalanobis secara komputasi lebih mahal
daripada jarak Euclidean karena harus melewati semua variabel dalam kumpulan
data untuk menghitung struktur inter-korelasi yang mendasarinya. Sebuah
metode iteratif jenis jarak Mahalanobis untuk mendeteksi outlier pada data
multivariat telah diusulkan oleh [10]. Karena adanya efek masking, di mana satu
outlier menutupi outlier kedua, jika outlier kedua dapat dianggap sebagai outlier
hanya dengan sendirinya, tetapi tidak dengan adanya outlier pertama, maka
pendeteksian multivariate outlier akan lebih lengkap dibandingkan dengan kasus
di mana data hanya terdiri dari satu outlier saja, karena efek masking dapat
mengurangi jarak Mahalanobis dari sebuah outlier. Hal ini dapat terjadi karena
sekelompok kecil pencilan menarik mean dan meningkatkan varians ke arahnya
[4]. Dalam kasus seperti itu, menggunakan estimasi yang kuat dari rata-rata dan
varians sampel, sering kali dapat meningkatkan kinerja prosedur deteksi, lihat
[24] dan [30].
Dalam makalah ini, masalah deteksi pencilan univariat dan multivariat telah
dibahas. Untuk deteksi pencilan univariat, hasil penerapan metode visual klasik
berdasarkan box-plot dan metode Ven der Loo [36] pada set data riil telah
dibandingkan. Untuk deteksi outlier multivariat, jarak Mahalanobis biasa dan
robust telah digunakan untuk menemukan outlier dari set data nyata
menggunakan lingkungan perangkat lunak R untuk komputasi statistik.
Dari aturan identifikasi outlier standar, karena tidak bergantung pada ukuran
sampel, probabilitas untuk menyatakan outlier ketika tidak ada yang ada berubah
seiring dengan jumlah observasi [29]. Selain itu, untuk data yang berasal dari
sampel normal acak dengan ukuran 75, probabilitas untuk melabeli setidaknya
satu pencilan adalah 0,5 [13]. Banyak uji statistik lain yang telah digunakan untuk
mendeteksi outlier, seperti yang dibahas dalam [3].
general.pmhaynsiacgiaenrs
ara osteopati.ahli
tulang.ahli tulang
dokter hewan
0
0.00004
0.00000
pendapatan
Van der Loo [36] mengembangkan dua metode untuk mendeteksi pencilan
dalam data ekonomi, ketika perkiraan distribusi data diketahui. Berikut ini,
metode pertamanya diterapkan untuk mendeteksi pencilan dari variabel
"pendapatan" (pendapatan rata-rata petahana, dolar, pada tahun 1971) dari
kumpulan data Prestige of Canadian Occupations dalam paket "mobil" di
lingkungan perangkat lunak R [8]. Kumpulan data Prestige memiliki 102 baris dan 6
kolom. Data ini terdiri dari beberapa pengukuran yang berhubungan dengan
pekerjaan yang berbeda.
586 H. H.
Ghorbani
Menurut uji kecocokan Kolmogrov-Smirnov, distribusi log-normal cocok
dengan data pendapatan (p-value = 0,47), lihat panel kiri pada Gambar 2.2.
Oleh karena itu, metode Var der Loo diterapkan untuk mendeteksi kemungkinan
adanya pencilan pada data ini dengan menggunakan fasilitas plotting yang
dikembangkan dalam paket "extremevalues" di lingkungan perangkat lunak R
[37].
Kepadatan empiris dengan kecocokan lognormal
0.00012
Coco
kkan
Data
0.00008
Kepadatan
0.00004
0.00000
pendapatan
1000 2000
Diprediksi
GBR. 2.2: Deteksi pencilan univariat berbasis model untuk pendapatan pekerjaan
dalam set data Prestige
Seperti yang ditunjukkan pada panel kanan Gambar 2.2, metode ini
mendeteksi enam pencilan yang terletak di dua sisi data. Outlier di bagian kiri
bawah Gambar adalah nomor kasus 53, 63, 68, dan sisanya adalah 2, 17, 24,
sedangkan di bagian atas
Mendeteksi Pencilan Multivariat 587
pencilan pada boxplot adalah kasus nomor 2, 17, 24, 25, 26.
Studi tentang outlier dalam situasi terstruktur seperti model regresi
didasarkan pada residual dan telah dipelajari oleh beberapa penulis, lihat [29]
dan referensi di dalamnya. Lima statistik uji yang banyak digunakan untuk
mendeteksi outlier telah dibandingkan dengan menggunakan metode Monte
Carlo oleh Balasooriya dan Tse [2].
1.0
x2
x2
0.0
-0. 6-0.2 0.2 0.6 -0. 6-0.2 0.2 0.6
x1 x1
-0.6 -0.2 0 . 2 0 . 6
x1 x2
GBR. 2.3: (atas) Scatter plot dari DUA sampel simulasi dari DISTRIBUSI normal bivariat, yang
menunjukkan outlier yang jelas dari 0,75 dan 0,95 cutoff yang sesuai DENGAN kuantil dari
distribusi χ2 (2), (bawah) plot kotak margin dari data yang sama TANPA titik yang berada di luar
kumis
Saat ini semakin banyak data yang diamati bersifat multi-dimensi, yang
meningkatkan kemungkinan terjadinya pengamatan yang tidak biasa.
Masalahnya adalah beberapa outlier selalu cukup untuk mendistorsi hasil data
(dengan mengubah kinerja rata-rata, dengan meningkatkan variabilitas, dll.).
Oleh karena itu, mendeteksi outlier menjadi perhatian yang berkembang di
banyak bidang keilmuan, termasuk tetapi tidak terbatas pada Psikologi [18],
Pasar keuangan [6] dan Chemometrics [26].
Dalam bidang statistik multivariat, jarak Mahalanobis memiliki aplikasi utama
untuk mendeteksi pencilan [20]. Jarak Mahalanobis didefinisikan di bagian
selanjutnya. Jarak Mahalanobis mengukur jumlah standar deviasi dari sebuah
observasi dari rata-rata distribusi. Karena outlier tidak berperilaku
588 H. H.
Ghorbani
normal seperti biasanya pengamatan setidaknya dalam satu dimensi, ukuran ini
dapat digunakan untuk mendeteksi pencilan. Lihat [14] untuk perbandingan jarak
Mahalanobis dengan teknik pendeteksian pencilan berbasis kedekatan lainnya.
Dari sudut pandang geometris, jarak Euclidean antara dua titik adalah jarak
terpendek di antara keduanya. Satu masalah dengan ukuran jarak Euclidean
adalah bahwa ukuran ini tidak memperhitungkan korelasi antara variabel yang
berkorelasi tinggi. Dalam situasi ini, jarak Euclidean memberikan bobot yang
sama pada variabel-variabel tersebut, dan karena variabel-variabel ini pada
dasarnya mengukur karakteristik yang sama, oleh karena itu karakteristik tunggal
ini mendapat bobot tambahan. Akibatnya, variabel yang berkorelasi mendapat
bobot lebih dari jarak Euclidean, lihat [16] dan [21].
Pendekatan alternatif adalah dengan menskalakan kontribusi variabel
individu terhadap nilai jarak sesuai dengan variabilitas masing-masing
variabel. Pendekatan ini dipertimbangkan oleh jarak Mahalanobis, yang telah
dikembangkan sebagai ukuran statistik oleh PC Mahalanobis, seorang ahli
statistik India [19]. Jarak Mahalanobis memiliki aplikasi yang luas dalam bidang
statistik multivariat. Ini berbeda dengan jarak Euclidean karena
memperhitungkan korelasi antar variabel. Ini adalah metrik yang tidak
bergantung pada skala dan memberikan ukuran jarak antara titik x ∈ Rp yang
dihasilkan dari distribusi p-variat (probabilitas) yang diberikan fX (.) dan rata-
rata µ = E(X) dari distribusi tersebut. Asumsikan fX (.) memiliki momen orde
dua yang terbatas dan nyatakan Σ = E(X-µ) sebagai matriks kovarian. Maka jarak
Mahalanobis didefinisikan oleh
q
(3.1) D(X, µ) = (X - µ)T Σ-1(X - µ).
Terlepas dari aplikasi biasa dari jarak Mahalanobis dalam teknik analisis
multivariat seperti klasifikasi dan pengelompokan, analisis diskriminan dan analisis
pola, analisis komponen utama, ada aplikasi modern, di antaranya aplikasi
keuangan [33], pemrosesan gambar [39], Neurocomputing [11], dan Fisika [31]
dapat disebutkan.
Mendeteksi Pencilan Multivariat 589
10
midwtf2$Fraxinus
5
0
-5
-10 0 10 20 30 40 50
midwtf2$Betula
GBR. 3.1: Skema perbandingan jarak Mahalanobis (elips) dan Euclidean (lingkaran) yang
dihitung untuk satu set data. DUA garis, lingkaran dan elips, sesuai DENGAN jarak Euclidean dan
jarak MAHALANOBIS, dengan jarak satu dan DUA unit dari pusat data
• Semua nilai x yang sedemikian rupa sehingga (x-µ)′ Σ−1 (x-µ) = c untuk
setiap nilai konstanta c yang ditentukan memiliki nilai kerapatan f(x) yang
sama dan dengan demikian memiliki kemungkinan yang sama. Jalur dari
nilai-nilai x ini menghasilkan ketinggian konstan untuk densitasnya adalah
elipsoid. Artinya, kerapatan normal multivariat adalah konstan pada
permukaan di mana kuadrat dari jarak (x - µ)′ Σ−1 (x - µ) adalah konstan.
Jalur-jalur ini disebut kontur, yang dapat dibangun dari nilai eigen dan vektor
eigen dari matriks kovarian, yang berarti bahwa arah sumbu elips searah
dengan nilai eigen dan panjang sumbu elips sebanding dengan konstanta
kali vektor eigen [15].
• Ketika nilai (x- µ)′ Σ−1 (x- µ) meningkat, nilai fungsi densitas menurun.
• Nilai (x - µ)′ Σ−1 (x - µ) meningkat seiring dengan bertambahnya jarak antara x dan
µ
meningkat.
590 H. H.
Ghorbani
0.00 0 . 05 0 . 10 0 . 15 0 . 20 0 . 25 0 . 30
Kepadatan
0 5 10 15
0 . 06 0 . 07
0 10 20 30 40
Estimator determinan kovarians ibu (MCD) didefinisikan dalam [25] yang juga
merupakan algoritma komputasi cepat [27].
Pada bagian berikutnya, data sampel telah menjadi sasaran untuk
menemukan outlier multivariatnya dengan menghitung versi kuat dari jarak
Mahalanobis menggunakan R sebagai perangkat lunak statistik modern untuk
komputasi berat yang terlibat.
Berikut ini, vektor dari tiga variabel dari kumpulan data Prestise dianggap
sebagai pengamatan multivariat. Variabel-variabel tersebut adalah "pendidikan"
(pendidikan rata-rata petahana), "pendapatan" (pendapatan rata-rata petahana),
dan "prestise" (skor prestise Pineo-Porter untuk pekerjaan). Tujuannya adalah
untuk mendeteksi pencilan multivariat dalam set data ini menggunakan versi kuat
dari jarak Mahalanobis, estimator (MCD), yang telah diimplementasikan dalam
paket "rrcov" di R [34]. Pertama, vektor rata-rata dan matriks kovarians biasa
(klasik) dari observasi dan versi robustnya dihitung. Hasilnya adalah:
Perkiraan Kovarians:
pendidika pendapatan gengsi
n
pendidikan 7.444e+00 6.691e+03 3.991e+01
pendapatan 6.691e+03 1.803e+07 5.222e+04
gengsi 3.991e+01 5.222e+04 2.960e+02
2 2
8
8
8
24 24
6
6
6
2
1726 24 2617
4
4
4
220259 229250
2
2
2
0
0
0 20 60 100 0 20 60 100 1 2 3 4 5
GAMBAR 4.1: Deteksi pencilan multivariat menggunakan jarak Mahalanobis yang kuat
5. Kesimpulan
estimasi robust yang berbeda, tetapi metode berbasis jarak, seperti MCD
didasarkan pada estimasi robust dari mean dan matriks kovarians sehingga jarak
Mahalanobis yang robust dapat dihitung untuk setiap titik. Dalam makalah ini,
metode-metode yang disebutkan di atas telah diterapkan untuk mendeteksi
pencilan multivariat dalam set data nyata, menggunakan lingkungan perangkat
lunak R untuk komputasi statistik.
REFERENCES
34. V. TODOROV dan P. FILZMOSER: Kerangka kerja berorientasi objek untuk analisis
multivariat yang kuat. Jurnal Perangkat Lunak Statistik 32(3) (2009), 1-47.
35. J. W. TUKEY: Analisis Data Eksplorasi. Addison-Wesley, New York, Amerika
Serikat, 1977.
36. M. P. J. VAN DER LOO: Deteksi pencilan berdasarkan distribusi untuk data
univariat. Makalah diskusi 10003 Statistics Netherlands (2010), 3-14.
37. M. P. J. VAN DER LOO: Extremevalues, sebuah paket R untuk deteksi pencilan
dalam data univariat. Paket R versi 2.3 (2010), url =
http://www.github.com/markvanderloo/extremevalues.
38. G. M. VENTURINI: Jarak Statistik dan Metrik Probabilitas untuk Data Multivariat.
Tesis PhD, Universitas Charles III Madrid, 2015.
39. Y. ZHANG, B. DU, L. ZHANG dan S. WANG: Metode jarak Mahalanobis
berbasis dekomposisi matriks peringkat rendah dan jarang untuk deteksi anomali
hiperspektral. IEEE Transactions on Geoscience and Remote Sensing 220
(2016), 1376 - 1389.
Hamid Ghorbani
Fakultas Ilmu Matematika
Departemen Statistika
Universitas Kashan
Kashan 87317-53153, Republik Islam Iran
hamidghorbani@kashanu.ac.ir