Mahalanobis Distance Based On Minimum Id
Mahalanobis Distance Based On Minimum Id
Hasan Bulut
Untuk mengutip artikel ini: Hasan Bulut (2020): Jarak Mahalanobis berdasarkan penaksir penentu
kovariansi teregulasi minimum untuk data dimensi tinggi, Komunikasi dalam Statistika - Teori dan
Metode, DOI: 10.1080/03610926.2020.1719420
Tampilan artikel: 7
1. Pendahuluan
Deteksi pencilan sangat penting dalam pemodelan statistik dan proses peramalan.
Penggunaan jarak Mahalanobis merupakan salah satu pendekatan yang populer untuk
mendeteksi pencilan multivariat. Jarak Mahalanobis kuadrat, yang didasarkan pada vektor
rata-rata sampel klasik dan matriks kovarians, dihitung seperti pada Persamaan (1):
di mana (.)T adalah transposisi dari sebuah matriks, Xi adalah baris ke-ith dari matriks data
Xn×p , l adalah vektor rata-rata sampel dan R adalah matriks kovariansi sampel. Telah
diketahui bahwa vektor rata-rata dan matriks kovarian klasik, yang digunakan dalam
Persamaan (1), sangat sensitif terhadap pencilan dalam data. Dengan demikian, ketika
seseorang mendeteksi pencilan dengan menggunakan uji Mahalanobis
yang diperoleh dari Persamaan (1), ia mungkin mengalami masalah masking dan tidak
mendeteksi beberapa pencilan. Untuk mengatasi masalah ini, pendekatan yang paling
sering digunakan
i
adalah dengan menghitung dis- tances d2 (l, R) berdasarkan vektor
lokasi yang kuat dan matriks sebaran. Secara umum, metode
Estimator Minimum Covariance Determinants (MCD) digunakan untuk tujuan ini (Leys et
al.
KONTAK Hasan Bulut hasan.bulut@omu.edu.tr Fakultas Sains dan Sastra, Departemen Statistika, Universitas Ondokuz
Mayıs, Samsun, Turki.
© 2020 Taylor & Francis Group, LLC
2 H. BULUT
2018). Namun, pendekatan ini tidak dapat digunakan pada dataset berdimensi tinggi
karena estimator MCD tidak dapat dihitung untuk dataset ini.
Holgersson dan Karlsson (2012) mengusulkan tiga estimator tipe ridge untuk
mendapatkan jarak Mahalanobis yang kuat untuk data berdimensi tinggi. Namun,
estimator-estimator ini tidak dapat digunakan pada data berdimensi tinggi karena
didasarkan pada minimasi fungsi tujuan, yang menggunakan invers dari matriks
kovarians.
Boudt dkk. (2019) mengusulkan estimator Minimum Regularized Covariance
Determinant (MRCD), yang dapat melakukan sifat-sifat estimator MCD dalam dataset
berdimensi tinggi. Selain itu, mereka menyebutkan bahwa jarak Mahalanobis berdasarkan
estimator ini dapat digunakan untuk deteksi pencilan pada data berdimensi tinggi. Namun,
mereka tidak dapat menyarankan nilai cutoff untuk jarak-jarak ini, dan mereka
mengatakan bahwa distribusi asimtotik dari jarak Mahalanobis berdasarkan penaksir
MRCD berbeda.
ent dari v2 dan distribusi F ketika p → ∞. Karena alasan ini, kami tidak secara langsung
menggunakan jarak Mahalanobis berdasarkan estimator MRCD untuk mendeteksi
pencilan.
Ro dkk. (2015) menggunakan estimator Minimum Diagonal Product (MDP) untuk
mendapatkan jarak Mahalanobis yang kuat untuk dataset berdimensi tinggi dan
mentransformasi deteksi outlier ke proses uji hipotesis. Mereka menyarankan nilai cutoff
berdasarkan distribusi normal standar dengan transformasi yang mereka usulkan. Metode
ini membersihkan data menggunakan nilai cutoff yang moderat dan kemudian mendeteksi
outlier menggunakan data yang bersih dan pendekatan MDP.
Dalam penelitian ini, kami mengusulkan jarak Mahalanobis, yang dapat digunakan
untuk mendeteksi pencilan dalam dataset berdimensi tinggi, dengan menggabungkan
pendekatan yang disarankan oleh Ro dkk. (2015) dan Boudt dkk. (2019). Dalam algoritma
yang kami sarankan, jarak Mahalanobis diperoleh berdasarkan estimator MRCD dan
kemudian pencilan dideteksi dengan menggunakan nilai cutoff, yang didasarkan pada
distribusi normal standar. Keberhasilan deteksi outlier dari algoritma yang diusulkan
diselidiki dengan menggunakan tiga studi simulasi dan dua dataset nyata.
Sisa dari makalah ini disusun sebagai berikut. Pada Bagian 2, estimator MRCD,
estimator MDP, dan algoritma yang disarankan oleh Ro dkk. (2015) diperkenalkan. Pada
Bagian 3, kami memperkenalkan algoritma yang disarankan, yang mendeteksi pencilan
pada data berdimensi tinggi. Pada Bagian 4, kami memperkenalkan kriteria yang
digunakan untuk membandingkan algoritma. Pada Bagian 5, kami memberikan hasil
perbandingan algoritma dengan mendasarkan pada studi simulasi dan dataset nyata. Pada
Bagian 6, kami memberikan kesimpulan.
2. Metode
Pada bagian ini, estimator yang digunakan dalam penelitian ini dan algoritma
pendeteksian pencilan yang diusulkan oleh Ro dkk. (2015) diperkenalkan.
MCD Penduga MCD untuk parameter lokasi dan sebaran didefinisikan sebagai vektor rata-
rata dan matriks kovariansi dari subset HMCD , masing-masing. Sifat ketahanan dari
penaksir MCD telah disebutkan sebelumnya (Croux dan Haesbroeck 1999;
Lopuha€a dan Rousseeuw 1991). Namun, penduga MCD hanya dihitung ketika
h > p, jika tidak, matriks kovarians MCD akan menjadi tunggal.
Untuk mengatasi masalah ini, Boudt dkk. (2019) mengusulkan Minimum Regularized
Covariance
Determinant (MRCD) untuk mengestimasi parameter lokasi dan sebaran secara robust
pada data berdimensi tinggi. Estimator MRCD memiliki sifat breakdown point yang baik
seperti estimator MCD dan dapat digunakan untuk menghitung jarak Mahalanobis.
Pertama, untuk mendapatkan estimator MRCD, data distandarisasi dengan
menggunakan estimasi lokasi dan sebaran univariat. Untuk tujuan ini, median dan Qn
(Rousseeuw dan Croux 1993) digunakan. Dengan cara ini, data distandarisasi seperti di
bawah ini:
zi = D—
X (Xi - V ) X
1 (2)
di mana VX adalah vektor yang terdiri dari median variabel p, dan DX adalah matriks
diagonal yang elemen diagonalnya adalah nilai Qn .
Kemudian, matriks target T, yang simetris dan definit positif, digunakan. Matriks reguler-
Matriks kovariansi ternormalisasi dari setiap subset H, yang diperoleh dari data Z, dihitung
sebagai berikut:
di mana H adalah himpunan, yang terdiri dari semua himpunan bagian dengan ukuran h
dalam data. Akhirnya, lokasi MRCD dan estimator sebaran didefinisikan sebagai berikut.
(i) Pilih, m = 100 kali, himpunan bagian dengan ukuran h = [n/2] + 1 dari data
mentah. Hitung hasil kali elemen diagonal matriks kovarians untuk semua
himpunan bagian dan
tentukan himpunan bagian yang memiliki nilai hasil kali minimum. Tentukan
subhimpunan ini sebagai HMDP .
(ii) Vektor rata-rata dari HMDP dilambangkan sebagai l^ dan matriks kovariansi dari
HMDP adalah
dilambangkan sebagai matriks diagonal dihitung dengan mendasarkan pada R^
R^ (HMDP ).D^ (HMDP ) sebagai
berikut ini.
D^ = c × diag R^ (H )MDP (10)
di mana c adalah faktor
skala.
(iii) Hitung jarak Mahalanobis awal seperti yang diberikan dalam Persamaan (11) dengan
menggunakan l^
dan estimasi.
D^ T D^ (X
-1
d2 l ^ , D^ = - l ^ ) - l^) (11)
(Xi i i
(iv) Tentukan bobot sebagai berikut untuk semua pengamatan. Untuk observasi ke-
ith (i =
q2ffiffiffi^cffipffi,ffinffiffitffirffiffiffiffiRffiffiffiffi2ffiffiffiffiffiffiffi ffiffiffiffi
1, 2, ..., n), jika d2 l ^i , D^ > p + z d 2 MDP maka wi = 0, jika tidak, maka wi = 1.
/p3/2,
Di sini, d = a/2, ^c p, n = 1 + tr R^
RAW
6 H. BULUT
R^ RAW a
d
a
l
a
h
p
e
r
h
it
u
n
g
a
n
m
a
t
r
i
k
s
k
o
r
e
l
a
s
i.
2 -,
= tr R^
2
yang berasal dariMDP ), dan tr R2 p .
R^ (H MDP RAW h
(v) Anggaplah vektor rata-rata pengamatan, yang memiliki wi = 1, adalah l ~ , dan
matriks diagonal, yang terdiri dari elemen diagonal dari kovariansnya
matriks, ~ 0. Hitung jarak yang diberikan dalam Persamaan (12) untuk setiap
D
adalah Xi (i =
1, 2, ..., n) pengamatan.
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE 7
(vi) Transformasikan jarak-jarak ini seperti yang diberikan dalam Persamaan (13).
d2l D~≈ d2 l0~ , } (13)
~, D~
i
i
1 + /(Z ) 2 tr R2 1/2/ p(1 - d)
d W
di mana tr W ~ - p2 /nw , nw = Pn
R2 = tr R
2
R~ adalah matriks korelasi
i=1 wi , dan
diperoleh dari matriks kovariansi observasi, yang memiliki wi = 1.
(vii) Tentukan observasi Xi (i = 1, 2, ..., n) sebagai pencilan ketika
ffiffi,ffinffiffitffirffiffiffiffiRffiffiffiffi2ffiffiffiffiffi
d2 il ~ , D
~ > p+ zaq2ffiffiffiffiffi~cffiffip W (14)
4. Pengukuran evaluasi
Kami menggunakan tiga pengukuran yang berbeda untuk membandingkan keberhasilan
deteksi outlier dari berbagai metode. Untuk tujuan ini, ada dua pendekatan. Pada
pendekatan pertama, proses deteksi outlier mempertimbangkan proses klasifikasi dan kami
menggunakan nilai Area Under the ROC Curve (AUC), yang digunakan untuk
mengevaluasi kesuksesan klasifikasi, untuk membandingkan kesuksesan deteksi outlier
dari berbagai metode. Telah diketahui bahwa metode yang memiliki nilai AUC yang lebih
tinggi lebih berhasil. Untuk mengevaluasi keberhasilan deteksi outlier, nilai AUC telah
digunakan dalam literatur (Liu et al. 2018; Xu et al. 2018).
Pada pendekatan kedua, proses deteksi outlier mengambil pertimbangan sebagai uji
hipotesis seperti pada Ro dkk. (2015). Dalam pendekatan ini, keberhasilan proses
pengujian dapat diselidiki melalui kesalahan tipe-1 dan kesalahan tipe-2. Kesalahan tipe-1
adalah proporsi pengamatan reguler, yang didefinisikan secara tidak tepat sebagai pencilan.
Kesalahan tipe-2 adalah proporsi dari outlier, yang didefinisikan secara tidak tepat sebagai
pengamatan reguler. Metode yang memiliki kesalahan Tipe-1 dan Tipe-2 yang lebih
rendah akan lebih berhasil.
5. Hasil
5.1. Studi simulasi
Kami melakukan tiga studi simulasi untuk mengevaluasi kinerja deteksi outlier dari
algoritma yang disarankan dibandingkan dengan metode yang diusulkan oleh Ro dkk.
(2015). Hubert, Rousseeuw, dan Vanden Branden (2005) menggunakan dua studi simulasi
yang pertama. Studi simulasi ketiga digunakan oleh Ro dkk. (2015). Semua simulasi
dijalankan sebanyak 100 kali. Simulasi-simulasi ini memeriksa apakah outlier terdeteksi
berkaitan dengan kesalahan Tipe-1, kesalahan Tipe-2, Area di bawah Kurva ROC (AUC).
dimana p = 100, e = 10% atau e = 20%, R = diag(17, 13,5, 8, 3, 1, 0,095, ..., 0,002,
0.001), R~ =f1 R, l~ = [0 0 ... f1 ], f1 = 5, 10, 15, 20, dan f2 = 1 atau f2 = 15. Selain itu,
2
dimana p = 100, e = 10% atau e = 20%, R = diag(17, 13,5, 8, 3, 1, 0,095, ..., 0,002,
0.001), R~ =f1 R, l~ = [0 0 ... f1 ], f1 = 5, 10, 15, 20, dan f2 = 1 atau f2 = 15. Selain itu,
2
vektor yang memiliki norma L2 dan terdiri dari p variabel acak independen dari Unif (0, 1).
Selain itu, R adalah matriks korelasi, yang terdiri dari korelasi autoregresif qjk = 0.5|j—k| .
Tingkat signifikansi nilai cutoff juga diambil sebagai a = 0,10, a = 0,05 dan a = 0,01.
Akhirnya, jumlah variabel berubah menjadi 150, 200, 250 dan 400.
Hasil yang diperoleh dari studi simulasi-3 diberikan pada Tabel 3. Berdasarkan Tabel 3,
algoritma yang kami sarankan memiliki keberhasilan 100% dalam semua kasus. Meskipun
algoritma yang disarankan oleh Ro dkk. (2015) memiliki keberhasilan 100% dalam hal
kesalahan Tipe-2, algoritma ini memiliki sedikit kegagalan dalam hal kesalahan Tipe-1.
Ketika Tabel 3 diselidiki, terlihat bahwa algoritma yang kami usulkan lebih berhasil
daripada algoritma yang diusulkan oleh Ro dkk. (2015) dalam semua kasus yang berkaitan
dengan deteksi pencilan.
6. Kesimpulan
Jarak Mahalanobis adalah pendekatan yang populer untuk mendeteksi pencilan dalam data
multivariat. Namun, estimator yang digunakan dalam jarak Mahalanobis tradisional sangat
sensitif terhadap pencilan. Untuk alasan ini, pendekatan yang umum dilakukan adalah
dengan menggunakan estimator robust dan bukannya estimator klasik untuk
mendapatkan manfaat dari jarak Mahalanobis untuk mendeteksi pencilan.
tion. Untuk tujuan ini, estimator MCD sering digunakan. Kita membutuhkan pendekatan
yang berbeda pada data berdimensi tinggi karena estimator MCD tidak dapat digunakan
ketika p > n. Untuk mendapatkan estimasi yang robust pada data berdimensi tinggi, Boudt
dkk. (2019) mendefinisikan
versi estimator MCD dan mereka menyebut estimator ini sebagai Minimum Regularized
Covariance Determinant (MRCD). Selain itu, mereka menyebutkan bahwa metode
10 H. BULUT
Gambar 1. Kurva ROC dan nilai AUC untuk dataset Real (a) Data otak (b) Data NCI60.
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE 11
Jarak Mahalanobis, yang didasarkan pada estimator MRCD, dapat digunakan untuk
mendeteksi outlier; namun, mereka belum menentukan nilai cutoff untuk jarak ini. Ro
dkk. (2015) mendefinisikan jarak Mahalanobis, yang didasarkan pada estimator MDP dan
memiliki distribusi normal standar asimtotik, dan menyebutkan bahwa jarak ini dapat
digunakan untuk mendeteksi pencilan.
Dalam penelitian ini, untuk mendapatkan jarak Mahalanobis yang kuat pada dataset
berdimensi tinggi, kami mengusulkan sebuah algoritma sederhana, yang didasarkan pada
estimator MRCD dan menggunakan distribusi asimtotik yang disarankan oleh Ro dkk.
(2015). Hal ini menunjukkan bahwa algoritma yang diusulkan lebih berhasil daripada
algoritma yang disarankan Ro dkk. (2015) dengan menggunakan tiga studi simulasi yang
berbeda dan dua dataset nyata. Dengan cara ini, kami telah menunjukkan bahwa akan
lebih mudah menggunakan algoritma yang diusulkan untuk mendeteksi pencilan dalam
dataset berdimensi tinggi.
Referensi
Boudt, K., P. J. Rousseeuw, S. Vanduffel, T. Verdonck. 2019. Penaksir penentu kovarians teregulasi
minimum. ance determinant. Statistika dan Komputasi. doi:10.1007/s11222-019-09869-x.
Croux, C., dan G. Haesbroeck. 1999. Fungsi pengaruh dan efisiensi penduga matriks sebaran
determinan kovarians minimum. Jurnal Analisis Multivariat 71 (2):161-90.
Guo, Y., T. Hastie, dan R. Tibshirani. 2018. rda: Shrunken Centroids Regularized Discriminant
Analysis. Paket R versi 1.0.2-2.1. https://CRAN.R-project.org/package = rda
Holgersson, H. E. T., dan P. S. Karlsson. 2012. Tiga penaksir jarak Mahalanobis pada data dimensi
tinggi . Journal of Applied Statistics 39 (12):2713-20.
Hubert, M., P. J. Rousseeuw, dan K. Vanden Branden. 2005. ROBPCA: Sebuah pendekatan baru
untuk analisis komponen utama yang kuat. Technometrics 47 (1):64-79.
James, G., D. Witten, T. Hastie, dan R. Tibshirani. 2017. ISLR: Data untuk Pengantar Pembelajaran
Statistika dengan Aplikasi dalam R. Paket R versi 1.2. https://CRAN.R-project.org/ package=ISLR
Leys, C., O. Klein, Y. Dominicy, dan C. Ley. 2018. Mendeteksi pencilan multivariat: Gunakan varian
yang kuat dari jarak Mahalanobis. Jurnal Psikologi Sosial Eksperimental 74:150-6.
Liu, H., X. Li, J. Li, dan S. Zhang. 2018. Deteksi pencilan yang efisien untuk data berdimensi tinggi.
Transaksi IEEE tentang Sistem, Manusia, dan Sibernetika: Sistem 48 (12):2451-61.
Lopuha€a, H. P., dan P. J. Rousseeuw. 1991. Titik-titik kerusakan dari penaksir affine equivariant
dari matriks lokasi dan kovarians multivariat. The Annals of Statistics 19 (1):229-48.
Papadakis, M., M. Tsagris, M. Dimitriadis, S. Fafalios, I. Tsamardinos, M. Fasiolo, G. Borboudakis, J.
Burkardt, C. Zou, K. Lakiotaki, dkk. 2019. Rfast: Kumpulan Fungsi R yang Efisien dan Sangat
Cepat. Paket R versi 1.9.5. https://CRAN.R-project.org/package= Rfast
Ro, K., C. Zou, Z. Wang, dan G. Yin. 2015. Deteksi pencilan untuk data berdimensi tinggi.
Biometrika 102 (3):589-99.
Rousseeuw, P. J. 1985. Pendugaan multivariat dengan titik putus yang tinggi. Mathematical Statistika
dan Aplikasi 8 (283-297):37.
Rousseeuw, P. J., dan C. Croux. 1993. Alternatif-alternatif untuk simpangan absolut median. Jurnal
the American Statistical Association 88 (424):1273-83.
Rousseeuw, P. J., dan K. V. Driessen. 1999. Algoritma cepat untuk penaksir kovarians minimum.
minant estimator. Technometrics 41 (3):212-23.
Todorov, V., dan P. Filzmoser. 2009. Kerangka kerja berorientasi objek untuk analisis multivariat
yang kuat. lisis. Journal of Statistical Software 32 (3):1-47. URL http://www.jstatsoft.org/v32/i03/.
Xu, X., H. Liu, L. Li, dan M. Yao. 2018. Perbandingan teknik deteksi pencilan untuk data berdimensi
tinggi. Jurnal Internasional Sistem Kecerdasan Komputasi 11 (1):652-62.