Anda di halaman 1dari 18

Subscribe to DeepL Pro to translate larger documents.

Visit www.DeepL.com/pro for more information.

Komunikasi dalam Statistik - Teori dan Metode

ISSN: 0361-0926 (Cetak) 1532-415X (Online) Laman jurnal: https://www.tandfonline.com/loi/lsta20

Jarak Mahalanobis berdasarkan estimator penentu


kovariansi teregulasi minimum untuk data
berdimensi tinggi

Hasan Bulut

Untuk mengutip artikel ini: Hasan Bulut (2020): Jarak Mahalanobis berdasarkan penaksir penentu
kovariansi teregulasi minimum untuk data dimensi tinggi, Komunikasi dalam Statistika - Teori dan
Metode, DOI: 10.1080/03610926.2020.1719420

Untuk menautkan ke artikel ini: https://doi.org/10.1080/03610926.2020.1719420

Diterbitkan secara online: 29 Jan 2020.

Kirimkan artikel Anda ke jurnal ini

Tampilan artikel: 7

Lihat artikel terkait

Lihat data Crossmark


Syarat & Ketentuan lengkap untuk akses dan penggunaan dapat ditemukan di
https://www.tandfonline.com/action/journalInformation?journalCode=lsta20
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE
https://doi.org/10.1080/03610926.2020.1719420

Jarak Mahalanobis berdasarkan estimator penentu


kovariansi teregulasi minimum untuk data berdimensi
tinggi
Hasan Bulut
Fakultas Sains dan Sastra, Departemen Statistika, Universitas Ondokuz Mayıs, Samsun, Turki

ABSTRAK RIWAYAT ARTIKEL


Deteksi outlier adalah masalah yang dipelajari secara ekstensif dalam Diterima 24 Agustus 2019
literatur yang kuat. Pendekatan yang paling populer dan tradisional Diterima 10 Januari 2020
yang digunakan untuk mendeteksi pencilan adalah dengan
KATA KUNCI
menghitung jarak Mahalanobis. Namun, jarak Mahalanobis
Jarak Mahalanobis; jarak
konvensional mungkin gagal mendeteksi outlier karena didasarkan robust; penaksir kovarians
pada vektor rata-rata sampel klasik dan matriks kovarians, yang sensitif teregulasi minimum;
terhadap outlier. Untuk mengatasi masalah ini, estimator Minimum penaksir produk diagonal
Covariance Determinant (MCD) digunakan sebagai pengganti minimum; data berdimensi
estimator klasik. Namun, estimator MCD tidak dapat dihitung pada set tinggi
data berdimensi tinggi, dimana jumlah variabel p lebih tinggi dari
ukuran sampel n. Untuk mendeteksi pencilan pada data berdimensi
tinggi, kami mengusulkan jarak Mahalanobis berdasarkan estimator
Minimum Regularized Covariance Determinants (MRCD) yang dapat
dihitung pada set data berdimensi tinggi. Kami telah menunjukkan
bahwa jarak ini berhasil untuk mendeteksi outlier pada set data
berdimensi tinggi dengan studi simulasi dan set data nyata.

1. Pendahuluan
Deteksi pencilan sangat penting dalam pemodelan statistik dan proses peramalan.
Penggunaan jarak Mahalanobis merupakan salah satu pendekatan yang populer untuk
mendeteksi pencilan multivariat. Jarak Mahalanobis kuadrat, yang didasarkan pada vektor
rata-rata sampel klasik dan matriks kovarians, dihitung seperti pada Persamaan (1):

di2 (l, R) = (Xi - l) RT—1 (Xi - l) (1)

di mana (.)T adalah transposisi dari sebuah matriks, Xi adalah baris ke-ith dari matriks data
Xn×p , l adalah vektor rata-rata sampel dan R adalah matriks kovariansi sampel. Telah
diketahui bahwa vektor rata-rata dan matriks kovarian klasik, yang digunakan dalam
Persamaan (1), sangat sensitif terhadap pencilan dalam data. Dengan demikian, ketika
seseorang mendeteksi pencilan dengan menggunakan uji Mahalanobis
yang diperoleh dari Persamaan (1), ia mungkin mengalami masalah masking dan tidak
mendeteksi beberapa pencilan. Untuk mengatasi masalah ini, pendekatan yang paling
sering digunakan
i
adalah dengan menghitung dis- tances d2 (l, R) berdasarkan vektor
lokasi yang kuat dan matriks sebaran. Secara umum, metode
Estimator Minimum Covariance Determinants (MCD) digunakan untuk tujuan ini (Leys et
al.

KONTAK Hasan Bulut hasan.bulut@omu.edu.tr Fakultas Sains dan Sastra, Departemen Statistika, Universitas Ondokuz
Mayıs, Samsun, Turki.
© 2020 Taylor & Francis Group, LLC
2 H. BULUT

2018). Namun, pendekatan ini tidak dapat digunakan pada dataset berdimensi tinggi
karena estimator MCD tidak dapat dihitung untuk dataset ini.
Holgersson dan Karlsson (2012) mengusulkan tiga estimator tipe ridge untuk
mendapatkan jarak Mahalanobis yang kuat untuk data berdimensi tinggi. Namun,
estimator-estimator ini tidak dapat digunakan pada data berdimensi tinggi karena
didasarkan pada minimasi fungsi tujuan, yang menggunakan invers dari matriks
kovarians.
Boudt dkk. (2019) mengusulkan estimator Minimum Regularized Covariance
Determinant (MRCD), yang dapat melakukan sifat-sifat estimator MCD dalam dataset
berdimensi tinggi. Selain itu, mereka menyebutkan bahwa jarak Mahalanobis berdasarkan
estimator ini dapat digunakan untuk deteksi pencilan pada data berdimensi tinggi. Namun,
mereka tidak dapat menyarankan nilai cutoff untuk jarak-jarak ini, dan mereka
mengatakan bahwa distribusi asimtotik dari jarak Mahalanobis berdasarkan penaksir
MRCD berbeda.
ent dari v2 dan distribusi F ketika p → ∞. Karena alasan ini, kami tidak secara langsung
menggunakan jarak Mahalanobis berdasarkan estimator MRCD untuk mendeteksi
pencilan.
Ro dkk. (2015) menggunakan estimator Minimum Diagonal Product (MDP) untuk
mendapatkan jarak Mahalanobis yang kuat untuk dataset berdimensi tinggi dan
mentransformasi deteksi outlier ke proses uji hipotesis. Mereka menyarankan nilai cutoff
berdasarkan distribusi normal standar dengan transformasi yang mereka usulkan. Metode
ini membersihkan data menggunakan nilai cutoff yang moderat dan kemudian mendeteksi
outlier menggunakan data yang bersih dan pendekatan MDP.
Dalam penelitian ini, kami mengusulkan jarak Mahalanobis, yang dapat digunakan
untuk mendeteksi pencilan dalam dataset berdimensi tinggi, dengan menggabungkan
pendekatan yang disarankan oleh Ro dkk. (2015) dan Boudt dkk. (2019). Dalam algoritma
yang kami sarankan, jarak Mahalanobis diperoleh berdasarkan estimator MRCD dan
kemudian pencilan dideteksi dengan menggunakan nilai cutoff, yang didasarkan pada
distribusi normal standar. Keberhasilan deteksi outlier dari algoritma yang diusulkan
diselidiki dengan menggunakan tiga studi simulasi dan dua dataset nyata.
Sisa dari makalah ini disusun sebagai berikut. Pada Bagian 2, estimator MRCD,
estimator MDP, dan algoritma yang disarankan oleh Ro dkk. (2015) diperkenalkan. Pada
Bagian 3, kami memperkenalkan algoritma yang disarankan, yang mendeteksi pencilan
pada data berdimensi tinggi. Pada Bagian 4, kami memperkenalkan kriteria yang
digunakan untuk membandingkan algoritma. Pada Bagian 5, kami memberikan hasil
perbandingan algoritma dengan mendasarkan pada studi simulasi dan dataset nyata. Pada
Bagian 6, kami memberikan kesimpulan.

2. Metode
Pada bagian ini, estimator yang digunakan dalam penelitian ini dan algoritma
pendeteksian pencilan yang diusulkan oleh Ro dkk. (2015) diperkenalkan.

2.1. Estimator Penentu Kovariansi Teratur Minimum (MRCD)


Estimator MRCD merupakan versi modifikasi dari estimator MCD untuk data berdimensi
tinggi. Algoritma MCD mengestimasi lokasi multivariat dan parameter sebaran secara
kuat. Algoritma MCD memilih subset yang memiliki determinan kovariansi minimum
matriks di antara semua himpunan bagian dengan ukuran h (n/2 < h < n) (Rousseeuw
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE 3

1985). Himpunan bagian ini adalah


4 H. BULUT

MCD Penduga MCD untuk parameter lokasi dan sebaran didefinisikan sebagai vektor rata-
rata dan matriks kovariansi dari subset HMCD , masing-masing. Sifat ketahanan dari
penaksir MCD telah disebutkan sebelumnya (Croux dan Haesbroeck 1999;
Lopuha€a dan Rousseeuw 1991). Namun, penduga MCD hanya dihitung ketika
h > p, jika tidak, matriks kovarians MCD akan menjadi tunggal.
Untuk mengatasi masalah ini, Boudt dkk. (2019) mengusulkan Minimum Regularized
Covariance
Determinant (MRCD) untuk mengestimasi parameter lokasi dan sebaran secara robust
pada data berdimensi tinggi. Estimator MRCD memiliki sifat breakdown point yang baik
seperti estimator MCD dan dapat digunakan untuk menghitung jarak Mahalanobis.
Pertama, untuk mendapatkan estimator MRCD, data distandarisasi dengan
menggunakan estimasi lokasi dan sebaran univariat. Untuk tujuan ini, median dan Qn
(Rousseeuw dan Croux 1993) digunakan. Dengan cara ini, data distandarisasi seperti di
bawah ini:

zi = D—
X (Xi - V ) X
1 (2)
di mana VX adalah vektor yang terdiri dari median variabel p, dan DX adalah matriks
diagonal yang elemen diagonalnya adalah nilai Qn .
Kemudian, matriks target T, yang simetris dan definit positif, digunakan. Matriks reguler-
Matriks kovariansi ternormalisasi dari setiap subset H, yang diperoleh dari data Z, dihitung
sebagai berikut:

K(H) = qT + (1 - q)c SaZ (H) (3)


di mana q adalah parameter regularisasi, ca adalah faktor konsistensi yang didefinisikan oleh
Croux dan Haesbroeck (1999), dan
1 1
S (H) = Z - l (H) ZH - l (H) , l (H) = ZT 1h
T
(4)
Z H Z Z H
h-1 Z h
Estimasi MRCD diperoleh dari subset HMRCD . Subset ini diperoleh dengan
menyelesaikan masalah minimalisasi yang diberikan di bawah ini.
1/pi
HMRCD = argmin hdet K H( ( )) (5)
H∈H

di mana H adalah himpunan, yang terdiri dari semua himpunan bagian dengan ukuran h
dalam data. Akhirnya, lokasi MRCD dan estimator sebaran didefinisikan sebagai berikut.

l^MRCD = VX + DX lZ (H )MRCD (6)

R^ MRCD = DX QK1/2 qI + (1 - q)c Saw (HMRCD ) K Q D1/2'X (7)


di mana K dan Q masing-masing adalah nilai eigen dan matriks vektor eigen dari T. Juga,
Sw (HMRCD ) dihitung seperti di bawah ini.

Sw (HMRCD) = K-1/2Q'SZ (HMRCD) QK-1/2 (8)


Informasi rinci tentang estimator MRCD tersedia di Boudt dkk. (2019). Dalam
penelitian ini, kami menggunakan paket "rrcov" dalam perangkat lunak R untuk
menghitung estimator MRCD (Todorov dan Filzmoser (2009)).
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE 5

2.2. Estimator Produk Diagonal Minimum (MDP)


Ro dkk. (2015) mendefinisikan estimator Minimum Diagonal Product (MDP) dengan
mendasarkan pada algoritma Determinan Kovariansi Minimum yang cepat (Rousseeuw
dan Driessen 1999). Seperti yang telah disebutkan sebelumnya, pendekatan MCD
bertujuan untuk memilih subset yang memiliki determinan minimum dari matriks
kovariansnya, dan estimator MCD tidak dapat digunakan pada dataset berdimensi tinggi.
Pendekatan MDP bertujuan untuk memilih subset, yang memiliki hasil kali minimal dari
diagonal-diagonal matriks kovarians. Untuk setiap H ∈ H, misalkan vektor rata-rata dan
matriks kovariansi
l ^ (H ) dan R^(H), masing-masing. Berdasarkan hal ini, penaksir MDP didefinisikan sebagai
berikut.
i
R^ }
l^MDP = l^(H MDP ), HMDP = argmin dethdiag (H) (9)
H∈H
}
di mana diag R^ (H) adalah matriks diagonal, yang terdiri dari elemen-elemen diagonal
R^ (H) (Ro et al. 2015).

2.3. Jarak Mahalanobis berdasarkan estimator Minimum Diagonal Product


(MDP) (Mah )MDP
Ro dkk. (2015) mengusulkan algoritme, yang diberikan seperti yang dijelaskan di bawah
ini, untuk mendeteksi outlier untuk data berdimensi tinggi.
Algoritma 1: Deteksi Pencilan dengan MahMDP

(i) Pilih, m = 100 kali, himpunan bagian dengan ukuran h = [n/2] + 1 dari data
mentah. Hitung hasil kali elemen diagonal matriks kovarians untuk semua
himpunan bagian dan
tentukan himpunan bagian yang memiliki nilai hasil kali minimum. Tentukan
subhimpunan ini sebagai HMDP .
(ii) Vektor rata-rata dari HMDP dilambangkan sebagai l^ dan matriks kovariansi dari
HMDP adalah
dilambangkan sebagai matriks diagonal dihitung dengan mendasarkan pada R^
R^ (HMDP ).D^ (HMDP ) sebagai
berikut ini.
D^ = c × diag R^ (H )MDP (10)
di mana c adalah faktor
skala.
(iii) Hitung jarak Mahalanobis awal seperti yang diberikan dalam Persamaan (11) dengan
menggunakan l^
dan estimasi.
D^ T D^ (X
-1
d2 l ^ , D^ = - l ^ ) - l^) (11)
(Xi i i

(iv) Tentukan bobot sebagai berikut untuk semua pengamatan. Untuk observasi ke-
ith (i =
q2ffiffiffi^cffipffi,ffinffiffitffirffiffiffiffiRffiffiffiffi2ffiffiffiffiffiffiffi ffiffiffiffi
1, 2, ..., n), jika d2 l ^i , D^ > p + z d 2 MDP maka wi = 0, jika tidak, maka wi = 1.
/p3/2,
Di sini, d = a/2, ^c p, n = 1 + tr R^
RAW
6 H. BULUT
R^ RAW a
d
a
l
a
h
p
e
r
h
it
u
n
g
a
n
m
a
t
r
i
k
s
k
o
r
e
l
a
s
i.
2 -,
= tr R^
2
yang berasal dariMDP ), dan tr R2 p .
R^ (H MDP RAW h
(v) Anggaplah vektor rata-rata pengamatan, yang memiliki wi = 1, adalah l ~ , dan
matriks diagonal, yang terdiri dari elemen diagonal dari kovariansnya
matriks, ~ 0. Hitung jarak yang diberikan dalam Persamaan (12) untuk setiap
D
adalah Xi (i =
1, 2, ..., n) pengamatan.
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE 7

d2i l ~ , D~ 0 = (Xi - l ~ ) T D0 ~ (Xi - l ~ )


-1
(12)

(vi) Transformasikan jarak-jarak ini seperti yang diberikan dalam Persamaan (13).
d2l D~≈ d2 l0~ , } (13)
~, D~
i
i
1 + /(Z ) 2 tr R2 1/2/ p(1 - d)
d W

di mana tr W ~ - p2 /nw , nw = Pn
R2 = tr R
2
R~ adalah matriks korelasi
i=1 wi , dan
diperoleh dari matriks kovariansi observasi, yang memiliki wi = 1.
(vii) Tentukan observasi Xi (i = 1, 2, ..., n) sebagai pencilan ketika
ffiffi,ffinffiffitffirffiffiffiffiRffiffiffiffi2ffiffiffiffiffi
d2 il ~ , D
~ > p+ zaq2ffiffiffiffiffi~cffiffip W (14)

~ 2 /p3/2 (Ro et al. 2015).


di mana ~ c p , n = 1 + tr R
Dalam penelitian ini, kami telah menggunakan paket "Rfast" dalam perangkat lunak R
dengan perhitungan
berkaitan dengan algoritma ini (Papadakis et al. 2019).

3. Algoritma yang disarankan (Mah )MRCD


Dalam algoritma yang diusulkan oleh Ro dkk. (2015), perhitungan vektor rata-rata dan
matriks diagonal yang terkait dengan matriks kovarians sangat melelahkan. Algoritme ini
dimulai dengan pemilihan subset secara acak dan kemudian mendapatkan estimasi awal.
Algoritma ini membobotkan pengamatan sebagai biner berdasarkan jarak Mahalanobis
awal dengan menggunakan tingkat signifikansi yang moderat. Setelah itu, jarak
Mahalanobis akhir dihitung untuk semua pengamatan dengan menggunakan
estimasi yang dihitung dari observasi yang wi = 1 dan outlier terdeteksi.
Keberhasilan algoritma ini bergantung pada pemilihan subset awal. Karena pembobotan
dilakukan berdasarkan estimasi awal, yang dihitung dari subset acak awal. Dan, subset
yang buruk dapat memberikan hasil yang salah.
Di sisi lain, Boudt dkk. (2019) mengusulkan algoritme pendeteksian pencilan berdasarkan
pada jarak robust, yang menggunakan estimasi MRCD. Namun, mereka tidak dapat
menentukan nilai cutoff dan mereka menggunakan jarak robust untuk mendeteksi outlier
dengan hanya mendasarkan pada pendekatan grafis.
Dalam penelitian ini, kami menyarankan sebuah algoritma baru dan sederhana dengan
menggabungkan kedua pendekatan tersebut. Algoritma yang diusulkan menggunakan
estimasi MRCD berdasarkan data mentah. Karena estimasi MRCD dihitung dari semua
pengamatan, maka tidak bergantung pada estimasi awal atau runutan, tidak seperti
algoritma yang diusulkan oleh Ro dkk. (2015). Dengan cara ini, algoritma yang diusulkan
menggunakan Jarak Mahalanobis tanpa memerlukan estimasi awal. Di sisi lain, algoritma
yang diusulkan menggunakan transformasi ke distribusi normal dan dengan demikian
memiliki nilai cutoff, tidak seperti algoritma yang diusulkan oleh Boudt dkk. (2019).
Dengan cara ini, algoritma yang diusulkan menghilangkan kekurangan nilai cutoff di mana
pendekatan yang diusulkan oleh Boudt dkk. (2019). Algoritma yang diusulkan dapat
diringkas sebagai berikut.
Algoritma 2: Deteksi Pencilan dengan MahMRCD
(i) Dengan menggunakan data lengkap, hitung lokasi MRCD ( l ^ M R C D ) dan sebarkan
estimasi R^ MRCD. Dapatkan matriks diagonal DMRCD , yang terdiri dari elemen-
8
elemen diagonal matriks R^ MRCD.
H. BULUT
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE 9

(ii) Hitung jarak yang diberikan dalam Persamaan (15).


d2 (0)
l D(0) = (Xi - l^ ]—1 (Xi - l^
MRCD ) [DMRCD
,
MRCD )
T
i MRCD MRCD (15)
(iii) Transformasikan jarak-jarak ini seperti yang diberikan dalam Persamaan (16).
(0)
d2 (l , DMRCD) ≈ d2
i l MRCD , D(0)
MRCD (16)
i MRCD }
1 + /(Za)(2 tr(R2 ))1/2/ p(1 - a)
di mana tr (R2 ) = tr MRCD
R2 - p2 /n, R2 MRCD adalah matriks korelasi yang dihitung
dari
RMRCD matriks.
(iv) Tentukan observasi Xi (i = 1, 2, ..., n) sebagai pencilan ketika
) > p + zaq2ffiffiffiffifficffiffipffi,
i (lMRCD, DMRCD
d2
ffinffiffiffiRffiffiffi2ffiffi)
tffirffi( ffiffiffiffiffi (17)

di mana c p,n = 1 + MRCD


/p3/2
.
tr R2

4. Pengukuran evaluasi
Kami menggunakan tiga pengukuran yang berbeda untuk membandingkan keberhasilan
deteksi outlier dari berbagai metode. Untuk tujuan ini, ada dua pendekatan. Pada
pendekatan pertama, proses deteksi outlier mempertimbangkan proses klasifikasi dan kami
menggunakan nilai Area Under the ROC Curve (AUC), yang digunakan untuk
mengevaluasi kesuksesan klasifikasi, untuk membandingkan kesuksesan deteksi outlier
dari berbagai metode. Telah diketahui bahwa metode yang memiliki nilai AUC yang lebih
tinggi lebih berhasil. Untuk mengevaluasi keberhasilan deteksi outlier, nilai AUC telah
digunakan dalam literatur (Liu et al. 2018; Xu et al. 2018).
Pada pendekatan kedua, proses deteksi outlier mengambil pertimbangan sebagai uji
hipotesis seperti pada Ro dkk. (2015). Dalam pendekatan ini, keberhasilan proses
pengujian dapat diselidiki melalui kesalahan tipe-1 dan kesalahan tipe-2. Kesalahan tipe-1
adalah proporsi pengamatan reguler, yang didefinisikan secara tidak tepat sebagai pencilan.
Kesalahan tipe-2 adalah proporsi dari outlier, yang didefinisikan secara tidak tepat sebagai
pengamatan reguler. Metode yang memiliki kesalahan Tipe-1 dan Tipe-2 yang lebih
rendah akan lebih berhasil.

5. Hasil
5.1. Studi simulasi
Kami melakukan tiga studi simulasi untuk mengevaluasi kinerja deteksi outlier dari
algoritma yang disarankan dibandingkan dengan metode yang diusulkan oleh Ro dkk.
(2015). Hubert, Rousseeuw, dan Vanden Branden (2005) menggunakan dua studi simulasi
yang pertama. Studi simulasi ketiga digunakan oleh Ro dkk. (2015). Semua simulasi
dijalankan sebanyak 100 kali. Simulasi-simulasi ini memeriksa apakah outlier terdeteksi
berkaitan dengan kesalahan Tipe-1, kesalahan Tipe-2, Area di bawah Kurva ROC (AUC).

5.1.1. Studi simulasi-1


Dalam studi simulasi-1, kami menghasilkan 100 sampel dengan ukuran n = 50 dari model
yang terkontaminasi
10 H. BULUT

Tabel 1. Hasil studi simulasi-1.


MahMRCD MahMDP
e f1 f2 AUC Type1 Type2 AUC Type1 Type2
10% 5 1 0.996 0.007 0 0.935 0.130 0
15 0.996 0.009 0 0.432 0.136 1
10 1 0.996 0.008 0 0.934 0.132 0
15 0.997 0.006 0 0.429 0.142 1
15 1 0.996 0.009 0 0.935 0.130 0
15 0.995 0.010 0 0.426 0.147 1
20 1 0.996 0.009 0 0.935 0.130 0
15 0.995 0.010 0 0.427 0.146 1
20% 5 1 0.999 0.003 0 0.950 0.100 0
15 0.996 0.009 0 0.365 0.271 1
10 1 0.998 0.005 0 0.948 0.105 0
15 0.998 0.005 0 0.376 0.267 1
15 1 0.998 0.005 0 0.948 0.103 0
15 0.998 0.005 0 0.372 0.257 1
20 1 0.998 0.005 0 0.948 0.104 0
15 0.998 0.005 0 0.371 0.258 1

(1 - e)Np (0, R) + eNp l ~ ,


R~

dimana p = 100, e = 10% atau e = 20%, R = diag(17, 13,5, 8, 3, 1, 0,095, ..., 0,002,
0.001), R~ =f1 R, l~ = [0 0 ... f1 ], f1 = 5, 10, 15, 20, dan f2 = 1 atau f2 = 15. Selain itu,
2

kami menetapkan a = 0,05.


Hasil yang diperoleh dari studi simulasi-1 diberikan pada Tabel 1. Menurut
Pada Tabel 1, algoritma yang kami usulkan lebih berhasil daripada algoritma yang
diusulkan oleh Ro dkk. (2015) dalam hal keberhasilan deteksi pencilan pada semua kasus.
Ketika f2 = 15, algoritma yang disarankan oleh Ro dkk. (2015) sangat tidak berhasil. Di sisi
lain, algoritma kami
Algoritma yang disarankan hampir berhasil mencapai 100%.

5.1.2. Studi simulasi-2


Dalam studi simulasi-2, kami menghasilkan 100 sampel dengan ukuran n = 50 dari model
yang terkontaminasi

(1 - e)t5 (0, R) + et5 l ~ ,


R~

dimana p = 100, e = 10% atau e = 20%, R = diag(17, 13,5, 8, 3, 1, 0,095, ..., 0,002,
0.001), R~ =f1 R, l~ = [0 0 ... f1 ], f1 = 5, 10, 15, 20, dan f2 = 1 atau f2 = 15. Selain itu,
2

kami menetapkan a = 0,05.


Hasil yang diperoleh dari studi simulasi-2 diberikan pada Tabel 2. Menurut
Pada Tabel 2, algoritma yang kami sarankan lebih berhasil daripada algoritma yang
diusulkan oleh Ro dkk. (2015) dalam hal keberhasilan deteksi pencilan pada semua kasus.
Serupa dengan Tabel 1, ketika f2 = 15, algoritma yang diusulkan oleh Ro dkk. (2015) sangat
tidak berhasil.

5.1.3. Studi simulasi-3


Studi simulasi ini digunakan oleh Ro dkk. (2015). Dalam studi simulasi-3, n = 100
ditetapkan. Rasio outlier diambil sebesar e = 10% dan e = 20%. Pengamatan reguler
dihasilkan dari Np (0, R) dan pencilan dihasilkan p (10 × bi , R), di mana bi adalah
KOMUNIKASI DALAM
dari NSTATISTIK-TEORI DAN METODE 11
12 H. BULUT

Tabel 2. Tabel 2. Hasil studi simulasi-2.


MahMRCD MahMDP
e f1 f2 AUC Type1 Type2 AUC Type1 Type2
10% 5 1 0.919 0.162 0 0.715 0.467 0.198
15 0.910 0.174 0.01 0.743 0.566 0.992
10 1 0.919 0.163 0 0.751 0.454 0.096
15 0.914 0.171 0 0.759 0.561 0.996
15 1 0.919 0.163 0 0.761 0.451 0.070
15 0.914 0.171 0 0.759 0.561 0.996
20 1 0.916 0.169 0 0.761 0.451 0.046
15 0.909 0.181 0 0.776 0.572 0.998
20% 5 1 0.921 0.158 0 0.607 0.468 0.427
15 0.906 0.188 0 0.837 0.679 0.994
10 1 0.918 0.165 0 0.611 0.471 0.422
15 0.904 0.192 0 0.837 0.681 0.994
15 1 0.918 0.165 0 0.627 0.466 0.393
15 0.904 0.192 0 0.837 0.681 0.994
20 1 0.919 0.162 0 0.634 0.469 0.366
15 0.907 0.187 0 0.837 0.682 0.993

vektor yang memiliki norma L2 dan terdiri dari p variabel acak independen dari Unif (0, 1).
Selain itu, R adalah matriks korelasi, yang terdiri dari korelasi autoregresif qjk = 0.5|j—k| .
Tingkat signifikansi nilai cutoff juga diambil sebagai a = 0,10, a = 0,05 dan a = 0,01.
Akhirnya, jumlah variabel berubah menjadi 150, 200, 250 dan 400.
Hasil yang diperoleh dari studi simulasi-3 diberikan pada Tabel 3. Berdasarkan Tabel 3,
algoritma yang kami sarankan memiliki keberhasilan 100% dalam semua kasus. Meskipun
algoritma yang disarankan oleh Ro dkk. (2015) memiliki keberhasilan 100% dalam hal
kesalahan Tipe-2, algoritma ini memiliki sedikit kegagalan dalam hal kesalahan Tipe-1.
Ketika Tabel 3 diselidiki, terlihat bahwa algoritma yang kami usulkan lebih berhasil
daripada algoritma yang diusulkan oleh Ro dkk. (2015) dalam semua kasus yang berkaitan
dengan deteksi pencilan.

5.2. Penerapan dataset nyata


Untuk membandingkan algoritma yang kami usulkan dengan algoritma yang diusulkan
oleh Ro dkk. (2015), kami menggunakan dua dataset nyata. Karena dataset ini memiliki
dimensi yang sangat tinggi, kami menggunakan p* = 5 × n variabel pertama dari dataset ini
untuk menghemat waktu. Informasi
tentang dataset ini diberikan pada Tabel 4. Dalam penelitian ini, kami menggunakan paket
"ISLR"
(James et al. 2017) dalam perangkat lunak R untuk mendapatkan data NCI60 dan paket
"rda" (Guo et al., 2018) dalam perangkat lunak R untuk mendapatkan data otak.
Untuk menambahkan pencilan ke set data, kami mengalikan 10 dengan n* = n × e (e =
5%, 10%, dan 20%) observasi data terakhir. Dengan cara ini, kami menjamin bahwa data
tersebut memiliki pencilan. Hasil yang diperoleh diberikan pada Tabel 5.
Menurut Tabel 5, algoritma yang kami sarankan telah mendeteksi outlier, yang
ditambahkan ke data, dengan keberhasilan 100%. Algoritma yang disarankan oleh Ro dkk.
(2015) memiliki keberhasilan sebesar 100% sehubungan dengan kesalahan Tipe-2, namun
kurang berhasil dibandingkan dengan algoritma yang kami sarankan sehubungan dengan
kesalahan Tipe-1. Ketika nilai AUC diselidiki, juga terlihat bahwa algoritma yang kami
sarankan lebih berhasil daripada algoritma yang diusulkan oleh Ro dkk. (2015). Grafik
ROC dan nilai AUC juga diberikan pada Gambar 1.
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE 13

Tabel 3. Tabel 3. Hasil studi simulasi-3.


MahMRCD MahMDP
e a p AUC Type1 Type2 AUC Type1 Type2
10% 0.10 150 1 0 0 0.942 0.116 0
200 1 0 0 0.944 0.112 0
250 1 0 0 0.943 0.114 0
400 1 0 0 0.943 0.114 0
0.05 150 1 0 0 0.973 0.054 0
200 1 0 0 0.967 0.067 0
250 1 0 0 0.966 0.067 0
400 1 0 0 0.970 0.061 0
0.01 150 1 0 0 0.989 0.021 0
200 1 0 0 0.992 0.016 0
250 1 0 0 0.991 0.018 0
400 1 0 0 0.991 0.018 0
20% 0.10 150 1 0 0 0.953 0.095 0
200 1 0 0 0.955 0.090 0
250 1 0 0 0.957 0.086 0
400 1 0 0 0.953 0.094 0
0.05 150 1 0 0 0.976 0.048 0
200 1 0 0 0.976 0.048 0
250 1 0 0 0.973 0.054 0
400 1 0 0 0.979 0.041 0
0.01 150 1 0 0 0.993 0.014 0
200 1 0 0 0.992 0.017 0
250 1 0 0 0.994 0.011 0
400 1 0 0 0.994 0.013 0

Tabel 4. Informasi tentang dataset yang digunakan.


Data p p* n Paket R
NCI60* 6830 320 64 ISLR
otak * 5597 210 42 rda

Tabel 5. Hasil studi data nyata.


MahMRCD MahMDP
Data e AUC Type1 Type2 AUC Type1 Type2
Otak * 5% 1 0 0 0.787 0.425 0
10% 1 0 0 0.855 0.289 0
25% 1 0 0 0.906 0.188 0
NCI60* 5% 1 0 0 0.918 0.165 0
10% 1 0 0 0.905 0.164 0
25% 1 0 0 0.938 0.126 0

6. Kesimpulan
Jarak Mahalanobis adalah pendekatan yang populer untuk mendeteksi pencilan dalam data
multivariat. Namun, estimator yang digunakan dalam jarak Mahalanobis tradisional sangat
sensitif terhadap pencilan. Untuk alasan ini, pendekatan yang umum dilakukan adalah
dengan menggunakan estimator robust dan bukannya estimator klasik untuk
mendapatkan manfaat dari jarak Mahalanobis untuk mendeteksi pencilan.
tion. Untuk tujuan ini, estimator MCD sering digunakan. Kita membutuhkan pendekatan
yang berbeda pada data berdimensi tinggi karena estimator MCD tidak dapat digunakan
ketika p > n. Untuk mendapatkan estimasi yang robust pada data berdimensi tinggi, Boudt
dkk. (2019) mendefinisikan
versi estimator MCD dan mereka menyebut estimator ini sebagai Minimum Regularized
Covariance Determinant (MRCD). Selain itu, mereka menyebutkan bahwa metode
10 H. BULUT

Gambar 1. Kurva ROC dan nilai AUC untuk dataset Real (a) Data otak (b) Data NCI60.
KOMUNIKASI DALAM STATISTIK-TEORI DAN METODE 11

Jarak Mahalanobis, yang didasarkan pada estimator MRCD, dapat digunakan untuk
mendeteksi outlier; namun, mereka belum menentukan nilai cutoff untuk jarak ini. Ro
dkk. (2015) mendefinisikan jarak Mahalanobis, yang didasarkan pada estimator MDP dan
memiliki distribusi normal standar asimtotik, dan menyebutkan bahwa jarak ini dapat
digunakan untuk mendeteksi pencilan.
Dalam penelitian ini, untuk mendapatkan jarak Mahalanobis yang kuat pada dataset
berdimensi tinggi, kami mengusulkan sebuah algoritma sederhana, yang didasarkan pada
estimator MRCD dan menggunakan distribusi asimtotik yang disarankan oleh Ro dkk.
(2015). Hal ini menunjukkan bahwa algoritma yang diusulkan lebih berhasil daripada
algoritma yang disarankan Ro dkk. (2015) dengan menggunakan tiga studi simulasi yang
berbeda dan dua dataset nyata. Dengan cara ini, kami telah menunjukkan bahwa akan
lebih mudah menggunakan algoritma yang diusulkan untuk mendeteksi pencilan dalam
dataset berdimensi tinggi.

Referensi
Boudt, K., P. J. Rousseeuw, S. Vanduffel, T. Verdonck. 2019. Penaksir penentu kovarians teregulasi
minimum. ance determinant. Statistika dan Komputasi. doi:10.1007/s11222-019-09869-x.
Croux, C., dan G. Haesbroeck. 1999. Fungsi pengaruh dan efisiensi penduga matriks sebaran
determinan kovarians minimum. Jurnal Analisis Multivariat 71 (2):161-90.
Guo, Y., T. Hastie, dan R. Tibshirani. 2018. rda: Shrunken Centroids Regularized Discriminant
Analysis. Paket R versi 1.0.2-2.1. https://CRAN.R-project.org/package = rda
Holgersson, H. E. T., dan P. S. Karlsson. 2012. Tiga penaksir jarak Mahalanobis pada data dimensi
tinggi . Journal of Applied Statistics 39 (12):2713-20.
Hubert, M., P. J. Rousseeuw, dan K. Vanden Branden. 2005. ROBPCA: Sebuah pendekatan baru
untuk analisis komponen utama yang kuat. Technometrics 47 (1):64-79.
James, G., D. Witten, T. Hastie, dan R. Tibshirani. 2017. ISLR: Data untuk Pengantar Pembelajaran
Statistika dengan Aplikasi dalam R. Paket R versi 1.2. https://CRAN.R-project.org/ package=ISLR
Leys, C., O. Klein, Y. Dominicy, dan C. Ley. 2018. Mendeteksi pencilan multivariat: Gunakan varian
yang kuat dari jarak Mahalanobis. Jurnal Psikologi Sosial Eksperimental 74:150-6.
Liu, H., X. Li, J. Li, dan S. Zhang. 2018. Deteksi pencilan yang efisien untuk data berdimensi tinggi.
Transaksi IEEE tentang Sistem, Manusia, dan Sibernetika: Sistem 48 (12):2451-61.
Lopuha€a, H. P., dan P. J. Rousseeuw. 1991. Titik-titik kerusakan dari penaksir affine equivariant
dari matriks lokasi dan kovarians multivariat. The Annals of Statistics 19 (1):229-48.
Papadakis, M., M. Tsagris, M. Dimitriadis, S. Fafalios, I. Tsamardinos, M. Fasiolo, G. Borboudakis, J.
Burkardt, C. Zou, K. Lakiotaki, dkk. 2019. Rfast: Kumpulan Fungsi R yang Efisien dan Sangat
Cepat. Paket R versi 1.9.5. https://CRAN.R-project.org/package= Rfast
Ro, K., C. Zou, Z. Wang, dan G. Yin. 2015. Deteksi pencilan untuk data berdimensi tinggi.
Biometrika 102 (3):589-99.
Rousseeuw, P. J. 1985. Pendugaan multivariat dengan titik putus yang tinggi. Mathematical Statistika
dan Aplikasi 8 (283-297):37.
Rousseeuw, P. J., dan C. Croux. 1993. Alternatif-alternatif untuk simpangan absolut median. Jurnal
the American Statistical Association 88 (424):1273-83.
Rousseeuw, P. J., dan K. V. Driessen. 1999. Algoritma cepat untuk penaksir kovarians minimum.
minant estimator. Technometrics 41 (3):212-23.
Todorov, V., dan P. Filzmoser. 2009. Kerangka kerja berorientasi objek untuk analisis multivariat
yang kuat. lisis. Journal of Statistical Software 32 (3):1-47. URL http://www.jstatsoft.org/v32/i03/.
Xu, X., H. Liu, L. Li, dan M. Yao. 2018. Perbandingan teknik deteksi pencilan untuk data berdimensi
tinggi. Jurnal Internasional Sistem Kecerdasan Komputasi 11 (1):652-62.

Anda mungkin juga menyukai