MAHALANOBIS DISTANCE AND ITS APPLICATION FOR Id

Subscribe to DeepL Pro to translate larger documents.
Visit www.DeepL.com/pro for more information.
FACTA UNIVERSITATIS (NISˇ)

SER. MATEMATIKA. INFORM. Vol. 34, NO 3 (2019), 583-595
https://doi.org/10.22190/FUMI1903583G
JARAK MAHALANOBIS DAN APLIKASINYA UNTUK

MENDETEKSI PENCILAN MULTIVARIAT
Hamid Ghorbani
⃝c 2019 oleh University of Ni's, Serbia | Lisensi Creative Commons: CC BY-NC-ND

Abstrak. Meskipun metode pendeteksian outlier sering diimplementasikan oleh
para ahli statistik ketika menganalisis data univariat, mengidentifikasi outlier pada
data multivariat memiliki tantangan yang tidak dimiliki oleh data univariat. Dalam
makalah ini, setelah mengulas secara singkat beberapa alat untuk mendeteksi
pencilan univariat, jarak Mahalanobis, sebagai jarak statistik multivariat yang
terkenal, dan kemampuannya untuk mendeteksi pencilan multivariat akan dibahas.
Sebagai aplikasi, pencilan univariat dan multivariat dari kumpulan data nyata telah
dideteksi menggunakan lingkungan perangkat lunak R untuk komputasi statistik.
Kata kunci: Jarak Mahalanobis, distribusi normal multivariat, pencilan multivariat,
deteksi pencilan.
1. Pendahuluan
Peran jarak statistik ketika berhadapan dengan masalah seperti pengujian

hipotesis, uji kecocokan, teknik klasifikasi, analisis pengelompokan, deteksi
pencilan, dan metode estimasi densitas sangat penting. Dengan menggunakan
ukuran jarak (atau kemiripan), kita dapat mengukur kedekatan antara dua objek
statistik. Objek-objek ini dapat berupa dua variabel acak, dua distribusi
probabilitas, fungsi pembangkit momen, sebuah titik sampel individu dan
distribusi probabilitas atau dua sampel individu. Ada banyak ukuran jarak statistik
[38], di antaranya jarak Mahalanobis yang memiliki keunggulan dalam hal
kemampuannya untuk mendeteksi pencilan multivariat.
Pencilan adalah data yang menyimpang dari perilaku global mayoritas data.
Outlier atau pengamatan yang menyimpang memiliki definisi yang berbeda
dalam teks, misalnya "outlier menyimpang begitu banyak dari pengamatan lain
sehingga menimbulkan kecurigaan bahwa hal itu dihasilkan oleh mekanisme yang
berbeda", lihat [12]. Pencilan memiliki pengaruh besar pada kesimpulan statistik.
Mereka meningkatkan varians kesalahan dan mengurangi kekuatan statistik.
Diterima 14 Maret 2019; diterima 26 Juni 2019
Klasifikasi Mata Pelajaran Matematika 2010. Primer 62H99; Sekunder 62F35, 62G35
583
584 H. H.
Ghorbani
dan menyebabkan estimasi bias yang mungkin menarik secara substantif [22].
Oleh karena itu, proses deteksi outlier merupakan aspek yang menarik dan
penting dalam analisis data, lihat [3] dan [5]. Tergantung pada aplikasi sinonim
yang sering digunakan untuk proses deteksi pencilan, di antaranya, seseorang
dapat menyebutkan deteksi anomali, deteksi penyimpangan, penambangan
pengecualian, deteksi kesalahan dalam sistem kritis keamanan, deteksi penipuan
untuk kartu kredit, deteksi intrusi dalam keamanan siber (akses yang tidak sah
dalam jaringan komputer), deteksi penyalahgunaan, deteksi kebisingan dan
deteksi kebaruan, lihat [1], [9], [23] dan [32].
Semua teknik berbasis kedekatan untuk identifikasi outlier seperti algoritma
k-Nearest Neighbor (k-NN) menghitung tetangga terdekat dari sebuah record
menggunakan metrik perhitungan jarak yang sesuai seperti jarak Euclidean,
jarak Mahalanobis, atau ukuran ketidaksamaan lainnya. Untuk kumpulan data
yang besar, penggunaan jarak Mahalanobis secara komputasi lebih mahal
daripada jarak Euclidean karena harus melewati semua variabel dalam kumpulan
data untuk menghitung struktur inter-korelasi yang mendasarinya. Sebuah
metode iteratif jenis jarak Mahalanobis untuk mendeteksi outlier pada data
multivariat telah diusulkan oleh [10]. Karena adanya efek masking, di mana satu
outlier menutupi outlier kedua, jika outlier kedua dapat dianggap sebagai outlier
hanya dengan sendirinya, tetapi tidak dengan adanya outlier pertama, maka
pendeteksian multivariate outlier akan lebih lengkap dibandingkan dengan kasus
di mana data hanya terdiri dari satu outlier saja, karena efek masking dapat
mengurangi jarak Mahalanobis dari sebuah outlier. Hal ini dapat terjadi karena
sekelompok kecil pencilan menarik mean dan meningkatkan varians ke arahnya
[4]. Dalam kasus seperti itu, menggunakan estimasi yang kuat dari rata-rata dan
varians sampel, sering kali dapat meningkatkan kinerja prosedur deteksi, lihat
[24] dan [30].
Dalam makalah ini, masalah deteksi pencilan univariat dan multivariat telah
dibahas. Untuk deteksi pencilan univariat, hasil penerapan metode visual klasik
berdasarkan box-plot dan metode Ven der Loo [36] pada set data riil telah
dibandingkan. Untuk deteksi outlier multivariat, jarak Mahalanobis biasa dan
robust telah digunakan untuk menemukan outlier dari set data nyata
menggunakan lingkungan perangkat lunak R untuk komputasi statistik.
2. Deteksi Pencilan Univariat
Alat visualisasi sederhana, seperti scatter plot, box-and-whisker (boxplot), plot

batang-dan-daun, QQ-plot, dan lain-lain, dapat digunakan untuk menemukan
pencilan. Plot kotak, pertama kali diperkenalkan oleh [35], adalah cara standar
untuk menampilkan distribusi data berdasarkan ringkasan lima angka
("minimum", kuartil pertama (Q1 ), median, kuartil ketiga (Q3 ), dan "maksimum").
Secara umum, kotak pada box plot menunjukkan median dan kuartil. Aturan box
plot menyatakan observasi sebagai pencilan jika berada di luar interval
Q1 - k(Q1 - Q3 ), Q3 + k(Q3 - Q ),1
pilihan umum untuk k adalah 1,5 untuk menandai (dijuluki) outlier dan 3,0 untuk
menandai outlier, lihat Gambar 2.1, di mana kumis ditunjukkan untuk k = 1,5.
Aturan ini berbeda
Mendeteksi Pencilan Multivariat 585
Dari aturan identifikasi outlier standar, karena tidak bergantung pada ukuran
sampel, probabilitas untuk menyatakan outlier ketika tidak ada yang ada berubah
seiring dengan jumlah observasi [29]. Selain itu, untuk data yang berasal dari
sampel normal acak dengan ukuran 75, probabilitas untuk melabeli setidaknya
satu pencilan adalah 0,5 [13]. Banyak uji statistik lain yang telah digunakan untuk
mendeteksi outlier, seperti yang dibahas dalam [3].
general.pmhaynsiacgiaenrs
5000 10000 15000 20000 25000

pengac
pendapatan
ara osteopati.ahli
tulang.ahli tulang
dokter hewan
0
(a) Boxplot pendapatan pekerjaan dan 5

pekerjaan di atas kumis atas yang ditandai
sebagai pencilan
0.00012
0.00008
Kepadatan
0.00004
0.00000
0 5000 10000 15000 20000 25000 30000
pendapatan
(b) Kepadatan empiris dan kumis plot kotak yang

sesuai. Pada sumbu x, lima PENCILAN ditampilkan
yang melebihi ambang batas kumis atas
GBR. 2.1: Deteksi pencilan univariat menggunakan boxplot untuk pendapatan

pekerjaan dalam set data Prestige
Van der Loo [36] mengembangkan dua metode untuk mendeteksi pencilan
dalam data ekonomi, ketika perkiraan distribusi data diketahui. Berikut ini,
metode pertamanya diterapkan untuk mendeteksi pencilan dari variabel
"pendapatan" (pendapatan rata-rata petahana, dolar, pada tahun 1971) dari
kumpulan data Prestige of Canadian Occupations dalam paket "mobil" di
lingkungan perangkat lunak R [8]. Kumpulan data Prestige memiliki 102 baris dan 6
kolom. Data ini terdiri dari beberapa pengukuran yang berhubungan dengan
pekerjaan yang berbeda.
586 H. H.
Ghorbani
Menurut uji kecocokan Kolmogrov-Smirnov, distribusi log-normal cocok
dengan data pendapatan (p-value = 0,47), lihat panel kiri pada Gambar 2.2.
Oleh karena itu, metode Var der Loo diterapkan untuk mendeteksi kemungkinan
adanya pencilan pada data ini dengan menggunakan fasilitas plotting yang
dikembangkan dalam paket "extremevalues" di lingkungan perangkat lunak R
[37].
Kepadatan empiris dengan kecocokan lognormal
0.00012
Coco
kkan
Data
0.00008
Kepadatan
0.00004
0.00000
05000 10000 15000 20000 25000 30000
pendapatan
(a) Distribusi empiris PENDAPATAN pekerjaan dan

distribusi LOG-NORMAL YANG SESUAI
Plot QQ dengan pencilan, distribusi

lognormal Metode I, R2 = 0,9872
5000 10000 20000
Diamati
1000 2000
2000 5000 10000 20000
Diprediksi
(b) Pencilan yang terdeteksi menggunakan

metode Van der LOO pertama, yang
ditunjukkan dengan tanda ∗
GBR. 2.2: Deteksi pencilan univariat berbasis model untuk pendapatan pekerjaan
dalam set data Prestige
Seperti yang ditunjukkan pada panel kanan Gambar 2.2, metode ini
mendeteksi enam pencilan yang terletak di dua sisi data. Outlier di bagian kiri
bawah Gambar adalah nomor kasus 53, 63, 68, dan sisanya adalah 2, 17, 24,
sedangkan di bagian atas
pencilan pada boxplot adalah kasus nomor 2, 17, 24, 25, 26.
Studi tentang outlier dalam situasi terstruktur seperti model regresi
didasarkan pada residual dan telah dipelajari oleh beberapa penulis, lihat [29]
dan referensi di dalamnya. Lima statistik uji yang banyak digunakan untuk
mendeteksi outlier telah dibandingkan dengan menggunakan metode Monte
Carlo oleh Balasooriya dan Tse [2].
0,75 kuantil 0,95 kuantil

0.0 0.5 1.0 1.5
1.0
x2
x2
0.0
-0. 6-0.2 0.2 0.6 -0. 6-0.2 0.2 0.6
x1 x1
-0.6 -0.2 0 . 2 0 . 6
0.0 0.5 1.0 1.5
x1 x2
GBR. 2.3: (atas) Scatter plot dari DUA sampel simulasi dari DISTRIBUSI normal bivariat, yang
menunjukkan outlier yang jelas dari 0,75 dan 0,95 cutoff yang sesuai DENGAN kuantil dari
distribusi χ2 (2), (bawah) plot kotak margin dari data yang sama TANPA titik yang berada di luar
kumis
3. Deteksi Pencilan Multivariat
Saat ini semakin banyak data yang diamati bersifat multi-dimensi, yang
meningkatkan kemungkinan terjadinya pengamatan yang tidak biasa.
Masalahnya adalah beberapa outlier selalu cukup untuk mendistorsi hasil data
(dengan mengubah kinerja rata-rata, dengan meningkatkan variabilitas, dll.).
Oleh karena itu, mendeteksi outlier menjadi perhatian yang berkembang di
banyak bidang keilmuan, termasuk tetapi tidak terbatas pada Psikologi [18],
Pasar keuangan [6] dan Chemometrics [26].
Dalam bidang statistik multivariat, jarak Mahalanobis memiliki aplikasi utama
untuk mendeteksi pencilan [20]. Jarak Mahalanobis didefinisikan di bagian
selanjutnya. Jarak Mahalanobis mengukur jumlah standar deviasi dari sebuah
observasi dari rata-rata distribusi. Karena outlier tidak berperilaku
588 H. H.
Ghorbani
normal seperti biasanya pengamatan setidaknya dalam satu dimensi, ukuran ini
dapat digunakan untuk mendeteksi pencilan. Lihat [14] untuk perbandingan jarak
Mahalanobis dengan teknik pendeteksian pencilan berbasis kedekatan lainnya.
3.1. Jarak Mahalanobis
Dari sudut pandang geometris, jarak Euclidean antara dua titik adalah jarak
terpendek di antara keduanya. Satu masalah dengan ukuran jarak Euclidean
adalah bahwa ukuran ini tidak memperhitungkan korelasi antara variabel yang
berkorelasi tinggi. Dalam situasi ini, jarak Euclidean memberikan bobot yang
sama pada variabel-variabel tersebut, dan karena variabel-variabel ini pada
dasarnya mengukur karakteristik yang sama, oleh karena itu karakteristik tunggal
ini mendapat bobot tambahan. Akibatnya, variabel yang berkorelasi mendapat
bobot lebih dari jarak Euclidean, lihat [16] dan [21].
Pendekatan alternatif adalah dengan menskalakan kontribusi variabel
individu terhadap nilai jarak sesuai dengan variabilitas masing-masing
variabel. Pendekatan ini dipertimbangkan oleh jarak Mahalanobis, yang telah
dikembangkan sebagai ukuran statistik oleh PC Mahalanobis, seorang ahli
statistik India [19]. Jarak Mahalanobis memiliki aplikasi yang luas dalam bidang
statistik multivariat. Ini berbeda dengan jarak Euclidean karena
memperhitungkan korelasi antar variabel. Ini adalah metrik yang tidak
bergantung pada skala dan memberikan ukuran jarak antara titik x ∈ Rp yang
dihasilkan dari distribusi p-variat (probabilitas) yang diberikan fX (.) dan rata-
rata µ = E(X) dari distribusi tersebut. Asumsikan fX (.) memiliki momen orde
dua yang terbatas dan nyatakan Σ = E(X-µ) sebagai matriks kovarian. Maka jarak
Mahalanobis didefinisikan oleh
q
(3.1) D(X, µ) = (X - µ)T Σ-1(X - µ).
Jika matriks kovariansi adalah matriks identitas, jarak Mahalanobis berkurang

menjadi jarak Euclidean. Untuk perbandingan kedua jarak ini lihat Gambar 3.1, di
mana jarak Euclidean dan Mahalanobis dari titik-titik yang terletak di lingkaran
dan elips adalah 1 dan 2 unit jauhnya dari pusat data. Komputasi telah dilakukan
pada satu set data, yang dapat ditemukan di
geog.uoregon.edu/GeogR/data/csv/ midwtf2.csv. Perbedaan yang diamati
berasal dari fakta bahwa jarak Mahalanobis juga memperhitungkan struktur
kovarians (atau korelasi) data.
Terlepas dari aplikasi biasa dari jarak Mahalanobis dalam teknik analisis
multivariat seperti klasifikasi dan pengelompokan, analisis diskriminan dan analisis
pola, analisis komponen utama, ada aplikasi modern, di antaranya aplikasi
keuangan [33], pemrosesan gambar [39], Neurocomputing [11], dan Fisika [31]
dapat disebutkan.
10
midwtf2$Fraxinus
5
0
-5
-10 0 10 20 30 40 50
midwtf2$Betula
GBR. 3.1: Skema perbandingan jarak Mahalanobis (elips) dan Euclidean (lingkaran) yang
dihitung untuk satu set data. DUA garis, lingkaran dan elips, sesuai DENGAN jarak Euclidean dan
jarak MAHALANOBIS, dengan jarak satu dan DUA unit dari pusat data
3.2. Distribusi normal multivariat
Ingatlah fungsi kepadatan normal multivariat di bawah ini, di mana parameternya

µ dan Σ, masing-masing adalah rata-rata dan matriks kovarian dari distribusi.
1 p/2 1
φ(x) = |Σ| -1/2 exp{- (x - µ)′ Σ−1 (x - µ)},
2π 2
perhatikan bahwa fungsi kepadatan ini, φ(x), hanya bergantung pada x melalui
jarak Mahalanobis kuadrat berikut dalam eksponen:
(x - µ)′ Σ−1 (x - µ).
Ada beberapa fakta penting mengenai eksponen ini:
• Semua nilai x yang sedemikian rupa sehingga (x-µ)′ Σ−1 (x-µ) = c untuk
setiap nilai konstanta c yang ditentukan memiliki nilai kerapatan f(x) yang
sama dan dengan demikian memiliki kemungkinan yang sama. Jalur dari
nilai-nilai x ini menghasilkan ketinggian konstan untuk densitasnya adalah
elipsoid. Artinya, kerapatan normal multivariat adalah konstan pada
permukaan di mana kuadrat dari jarak (x - µ)′ Σ−1 (x - µ) adalah konstan.
Jalur-jalur ini disebut kontur, yang dapat dibangun dari nilai eigen dan vektor
eigen dari matriks kovarian, yang berarti bahwa arah sumbu elips searah
dengan nilai eigen dan panjang sumbu elips sebanding dengan konstanta
kali vektor eigen [15].
• Ketika nilai (x- µ)′ Σ−1 (x- µ) meningkat, nilai fungsi densitas menurun.
• Nilai (x - µ)′ Σ−1 (x - µ) meningkat seiring dengan bertambahnya jarak antara x dan
µ
meningkat.
590 H. H.
Ghorbani
0.00 0 . 05 0 . 10 0 . 15 0 . 20 0 . 25 0 . 30
Kepadatan
0 5 10 15
(a) Jarak Mahalanobis.

0.00 0 . 01 0 . 02 0 . 03 0 . 04 0 . 05
Kepadatan
0 . 06 0 . 07
0 10 20 30 40
(b) Jarak Eucleadn
GBR. 3.2: Kepadatan emperis
• Jarak Mahalanobis d2 = (x - µ)′ Σ−1 (x - µ) memiliki distribusi chi-square

dengan p derajat kebebasan, lihat Gambar 3.1.
Misalkan X, adalah vektor berdimensi p yang memiliki distribusi normal
multivariat, X ∼ Np (µ, Σ), jarak Mahalanobis kuadrat D2 (X, µ) kemudian
didistribusikan sebagai variabel acak χ2 dengan p derajat kebebasan. Pendekatan
klasik deteksi outlier menggunakan estimasi jarak Mahalanobis, dengan
memasukkan multivariate
makan rata-rata dan matriks kovarians S mengestimasi rata-rata µ yang tidak
sampel X¯ diketahui dan
matriks kovarians Σ, dan menandai sebagai outlier setiap observasi yang memiliki
Mahalanobis
jarak kuadrat d2 (X, X¯ ) yang terletak di atas kuantil yang telah ditentukan dari
distribusi χ2 dengan p derajat kebebasan [7].
Metode ini bermasalah, karena semua bergantung pada asumsi normalitas
dan estimasi parameternya sangat sensitif terhadap pencilan. Oleh karena itu,
sangat penting untuk mempertimbangkan alternatif-alternatif yang lebih kuat dari
estimator-estimator tersebut untuk menghitung jarak Mahalanobis yang lebih
kuat. Estimator yang paling banyak digunakan untuk jenis ini adalah estimator
mini
Estimator determinan kovarians ibu (MCD) didefinisikan dalam [25] yang juga
merupakan algoritma komputasi cepat [27].
Pada bagian berikutnya, data sampel telah menjadi sasaran untuk
menemukan outlier multivariatnya dengan menghitung versi kuat dari jarak
Mahalanobis menggunakan R sebagai perangkat lunak statistik modern untuk
komputasi berat yang terlibat.
4. Menganalisis Data Sampel
Berikut ini, vektor dari tiga variabel dari kumpulan data Prestise dianggap
sebagai pengamatan multivariat. Variabel-variabel tersebut adalah "pendidikan"
(pendidikan rata-rata petahana), "pendapatan" (pendapatan rata-rata petahana),
dan "prestise" (skor prestise Pineo-Porter untuk pekerjaan). Tujuannya adalah
untuk mendeteksi pencilan multivariat dalam set data ini menggunakan versi kuat
dari jarak Mahalanobis, estimator (MCD), yang telah diimplementasikan dalam
paket "rrcov" di R [34]. Pertama, vektor rata-rata dan matriks kovarians biasa
(klasik) dari observasi dan versi robustnya dihitung. Hasilnya adalah:
-> Metode: Penaksir Klasik.

Estimasi Lokasi:
pendidikan pendapatan prestise
10.74 6797.90 46.83
Perkiraan Kovarians:
pendidika pendapatan gengsi
n
pendidikan 7.444e+00 6.691e+03 3.991e+01
pendapatan 6.691e+03 1.803e+07 5.222e+04
gengsi 3.991e+01 5.222e+04 2.960e+02
-> Metode: Penduga Kuat. Estimasi

Kuat Lokasi:
pendidika pendapata gengsi
n n
9.97 5833.96 41.64
Estimasi Kovarians yang Kuat:

pendidika pendapatan gengsi
n
pendidikan 7.156e+00 4.355e+03 3.192e+01
pendapatan 4.355e+03 9.695e+06 3.923e+04
gengsi 3.192e+01 3.923e+04 2.559e+02
Membandingkan estimator klasik dan robust untuk vektor rata-rata µ dan

matriks kovarians Σ, menunjukkan perbedaan yang jelas. Estimator robust ini
relatif tidak sensitif terhadap perubahan kecil pada sebagian besar pengamatan
(inliers) atau perubahan besar pada sejumlah kecil pengamatan (outliers).
Pada dua panel kiri Gambar 4.1, jarak Mahalanobis robust dan klasik
ditampilkan secara paralel. Pada panel paling kanan dari gambar ini, plot jarak-
jarak
592 H. H.
Ghorbani
yang didefinisikan oleh [28] ditampilkan, yang memplotkan Mahalanobis klasik
versus distribusi robust dan memungkinkan kita untuk mengklasifikasikan observasi
dan mengidentifikasi potensi outlier.
Garis putus-putus mewakili titik-titik yang merupakan jarak kuat dan klasik
adalah sama. Garis horizontal dan vertikal digambar pada nilai x = y = qχ2 .
Titik-titik di luar garis-garis ini dapat dianggap sebagai outlier dan diidentifikasi oleh
(3,0.975)
label. Pada semua panel, outlier memiliki jarak yang kuat dan diidentifikasi oleh
label mereka, untuk lebih jelasnya lihat [34].
Melihat jarak Mahalanobis non-robust pada panel kanan Gambar 4.1
menandai observasi nomor 2 dan 24 sebagai outlier, sedangkan Mahalanobis
robust pada panel yang sama menandai observasi nomor 2, 7, 24, 25, 26, dan
29 sebagai outlier. Dengan kata lain, penerapan metode robust memungkinkan
kami untuk mendeteksi pencilan tersembunyi yang telah tersamarkan satu sama
lain.
Plot Jarak Plot Jarak Plot Jarak-Jarak
2 2
8
8
8
24 24
6
6
6
Jarak yang kuat

Jarak Mahalanobis
Jarak yang kuat
2
1726 24 2617
4
4
4
220259 229250
2
2
2
0
0
0 20 60 100 0 20 60 100 1 2 3 4 5
Indeks Indeks Jarak Mahalanobis
(a) Plot jarak ( b) Plot Q-Q kuadrat.
GAMBAR 4.1: Deteksi pencilan multivariat menggunakan jarak Mahalanobis yang kuat
5. Kesimpulan
Dalam makalah ini, jarak Mahalanobis sebagai jarak multivariat dan

keunggulannya dibandingkan dengan jarak Euclidean ditinjau. Dijelaskan bahwa
ketika berhadapan dengan data multivariat yang berkorelasi, jarak Mahalanobis
lebih cocok daripada jarak Euclidean karena memperhitungkan korelasi. Selain
itu, ditunjukkan bagaimana jarak Mahalanobis dapat digunakan sebagai alat
untuk mengidentifikasi pencilan multivariat. Ketika menghitung jarak
Mahalanobis, seseorang perlu mengestimasi vektor rata-rata teoritis dan matriks
kovarian. Mengestimasi parameter-parameter ini dengan menggunakan metode
empiris biasa, terutama ketika data mengandung outlier, akan memberikan hasil
yang menyesatkan, karena estimator ini sangat terpengaruh oleh outlier. Salah
satu solusi yang masuk akal adalah dengan menggunakan teknik statistik yang
kuat. Ada
estimasi robust yang berbeda, tetapi metode berbasis jarak, seperti MCD
didasarkan pada estimasi robust dari mean dan matriks kovarians sehingga jarak
Mahalanobis yang robust dapat dihitung untuk setiap titik. Dalam makalah ini,
metode-metode yang disebutkan di atas telah diterapkan untuk mendeteksi
pencilan multivariat dalam set data nyata, menggunakan lingkungan perangkat
lunak R untuk komputasi statistik.
REFERENCES
1. C. C. AGGARWAL: Analisis Pencilan, Edisi ke-2. Springer, New York, 2017.

2. U. BALASOORIYA dan Y. K. TSE: Deteksi pencilan dalam model linier: Sebuah
studi komparatif dalam regresi linier sederhana. Komunikasi dalam Statistik: Teori
dan Metode 15(12) 1986, 3589-3598.
3. V. BARNETT dan T. LEWIS: Pencilan dalam Data Statistik. John Wiley and Sons,
Chichester, Inggris, 1994.
4. C. BECKER dan U. GATHER: Titik kerusakan masking dari aturan identifikasi
outlier multivariat. Journal of the American Statistical Association 94(447)
(1999), 947-955.
5. V. CHANDOLA, A. BANERJEE dan V. KUMAR: Deteksi anomali: sebuah survei.
ACM Comput. Surv. 41(3) (2009), 1-58.
6. W. W. DAI dan M. G. GENTON: Visualisasi data fungsional multivariat dan
deteksi outlier. Jurnal Statistik Komputasi dan Grafis 27(4) (2018), 923-934.
7. C. FAUCONNIER dan G. HAESBROECK: Deteksi pencilan dengan penaksir penentu
varians bersama minimum dalam praktik. Statistical Methodology 6(4) (2009),
363-379.
8. J. Fox dan S. WEISBERG: R Pendamping untuk Regresi Terapan, Edisi ke-3.
Publikasi SAGE, Los Angeles, 2019.
9. M. GOLDSTEIN dan S. UCHIDA: Evaluasi komparatif algoritma pendeteksian
anomali tak terawasi untuk data multivariat. PLoS ONE 11(4) (2016), 1-31.
10. A. S. HADI: Mengidentifikasi pencilan dalam data multivariat. Journal of the
Royal Statistical Society, Seri B, 54 (1992), 761-771.
11. N. HALDAR K. FARRUKH A. AFTAB dan H. ABBAS: Klasifikasi aritmia
menggunakan pengelompokan fuzzy C-Means berbasis jarak Mahalanobis yang
ditingkatkan untuk sistem pemantauan kesehatan seluler. Neurocomputing, 220
(2016), 221-235.
12. D. M. HAWKINS: Identifikasi Outlier. Chapman and Hall, London, 1980.
13. D. C. HOAGLIN, B. Iglewicz dan JW TUKEY: Kinerja dari beberapa
aturan yang tahan banting untuk pelabelan pencilan. Journal of the American
Statistical Association 81 (1986), 991-999.
14. V. J. HODGE dan J. AUSTIN: Sebuah survei tentang metodologi pendeteksian
pencilan. Artif. Intell. Rev. 22 (2004), 85126.
15. R. A. JOHNSON dan D. WICHERN: Analisis Statistik Multivariat Terapan.
Prentice Hall, 2007.
16. I. T. JOLLIFFE: Analisis Komponen Utama. Springer-Verlag (1986).
594 H. H.
Ghorbani
17. W. J. KRZANOWSKI: Prinsip-prinsip Analisis Multivariat: Sebuah Perspektif
Pengguna, Oxford Science Publications, 1988.
18. C. LEYS, O. KLEIN, Y. DOMINICY dan C. LEY: Mendeteksi pencilan multivariat:
Gunakan varian kuat dari jarak Mahalanobis. Jurnal Psikologi Sosial
Eksperimental 74 (2018), 150-156.
19. P. C. MAHALANOBIS: Pada jarak umum dalam statistik. Prosiding Institut Ilmu
Pengetahuan Nasional (Calcutta), 1936, 2, hlm. 49-55.
20. J. MAJEWSKA: Identifikasi masalah pencilan multivariat dan tantangan metode
visualisasi. Informatyka i Ekonometria 4 (2015), 69-83.
21. GM MIMMACK, S. MASON dan J. GALPIN: Pilihan matriks jarak dalam analisis
klaster: mendefinisikan wilayah. Jurnal Iklim 14 (2001), 2790-2797.
22. J. J. W. OSBORNE dan A. OVERBAY: Kekuatan outlier (dan mengapa peneliti
harus selalu memeriksanya). Mempraktikkan. Menilai. Res. Eval. 9(6) (2004),
1-9.
23. M. AF PIMENTEL, DA CLIFTON, L. CLIFTON dan L. TARASSENKO:
Sebuah tinjauan tentang deteksi kebaruan. Pemrosesan Sinyal 99 (2014), 215-249.
24. D. M. ROCKE dan D. L. WOODRUFF: Identifikasi pencilan dalam data
multivariat. Journal of the American Statistical Association 91(435) (1996), 1047-
1061.
25. P. J. ROUSSEEUW: Estimasi multivariat dengan titik putus yang tinggi. Dalam:
Statistika Matematika dan Aplikasinya (W. Grossmann, G. Pflug, I.
Vincze, W. Wertz, eds.), Reidel, Dordrecht, B, 1985, hal. 283-297.
26. P. ROUSSEEUW, M. DEBRUYNE, S. ENGELEN dan M. HUBERT: Kekokohan
dan deteksi pencilan dalam Kemometrik. Tinjauan Kritis dalam Kimia Analitik
36(3), (2006), 221-242.
27. P. J. ROUSSEEUW dan K. VAN DRIESSEN: Algoritma cepat untuk penaksir
penentu kovarians minimum. Technometrics, 41 (1999), 212-223.
28. P. P. ROUSSEEUW dan B. C. VAN ZOMEREN: Jarak yang kuat: simulasi dan
nilai batas. Dalam: Petunjuk dalam Statistik dan Diagnostik Robust,
Bagian II. (W. Stahel, S. Weisberg, eds.), Springer-Verlag, New York, 1991.
29. T. A. SAJESH dan M. R. SRINIVASAN: Tinjauan umum tentang beberapa pencilan
dalam data multidimensi. Sri Lankan Journal of Applied Statistics 14 (2013),
86- 120.
30. C. J. SANTOS-PEREIRA dan A. M. PIRES: Deteksi pencilan pada data
multivariat: metode berdasarkan pengelompokan dan estimator robust. Dalam:
Compstat (W. Hrdle, B. Rnz, eds.), Physica, Heidelberg, 2002, pp 291-296.
31. N. G. SHARMA, M. SILARSKI, T. BEDNARSKI, P. BIAAS, E. CZERWISKI, A.
GAJOS, M. GORGOL, B. JASISKA, D. KAMISKA,. KAPON, G. KORCYL, P.
KOWALSKI, T. KOZIK, W. KRZEMIE, E. KUBICZ, S. NIEDWIECKI, M. PAKA, L.
RACZYSKI, Z. RUDY, O. RUNDEL, A. SOMSKI, A. STRZELECKI, A. WIECZOREK,
W. WILICKI, M. ZIELISKI, B. ZGARDZISKA dan P. MOSKAL: Rekonstruksi waktu
tumbukan dan posisi tumbukan kuanta pemusnahan pada detektor J-PET
menggunakan jarak Mahalanobis. Nukleonika 4 (2015), 765-769.
32. K. SINGH dan D. S. UPADHYAYA: Deteksi pencilan: Aplikasi dan teknik. Jurnal
Internasional Aplikasi Komputer 89(6) (2014) 307-323.
33. S. STCKL dan M. HANKE: Aplikasi keuangan dari jarak Mahalanobis, Jurnal
Elektronik SSRN 1(2) (2014), 78-84.
34. V. TODOROV dan P. FILZMOSER: Kerangka kerja berorientasi objek untuk analisis
multivariat yang kuat. Jurnal Perangkat Lunak Statistik 32(3) (2009), 1-47.
35. J. W. TUKEY: Analisis Data Eksplorasi. Addison-Wesley, New York, Amerika
Serikat, 1977.
36. M. P. J. VAN DER LOO: Deteksi pencilan berdasarkan distribusi untuk data
univariat. Makalah diskusi 10003 Statistics Netherlands (2010), 3-14.
37. M. P. J. VAN DER LOO: Extremevalues, sebuah paket R untuk deteksi pencilan
dalam data univariat. Paket R versi 2.3 (2010), url =
http://www.github.com/markvanderloo/extremevalues.
38. G. M. VENTURINI: Jarak Statistik dan Metrik Probabilitas untuk Data Multivariat.
Tesis PhD, Universitas Charles III Madrid, 2015.
39. Y. ZHANG, B. DU, L. ZHANG dan S. WANG: Metode jarak Mahalanobis
berbasis dekomposisi matriks peringkat rendah dan jarang untuk deteksi anomali
hiperspektral. IEEE Transactions on Geoscience and Remote Sensing 220
(2016), 1376 - 1389.
Hamid Ghorbani
Fakultas Ilmu Matematika
Departemen Statistika
Universitas Kashan
Kashan 87317-53153, Republik Islam Iran
hamidghorbani@kashanu.ac.ir

MAHALANOBIS DISTANCE AND ITS APPLICATION FOR Id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

MAHALANOBIS DISTANCE AND ITS APPLICATION FOR Id

Diunggah oleh

Hak Cipta:

Format Tersedia

Subscribe to DeepL Pro to translate larger documents.

Visit www.DeepL.com/pro for more information.

FACTA UNIVERSITATIS (NISˇ)

JARAK MAHALANOBIS DAN APLIKASINYA UNTUK

⃝c 2019 oleh University of Ni's, Serbia | Lisensi Creative Commons: CC BY-NC-ND

Peran jarak statistik ketika berhadapan dengan masalah seperti pengujian

2. Deteksi Pencilan Univariat

Alat visualisasi sederhana, seperti scatter plot, box-and-whisker (boxplot), plot

5000 10000 15000 20000 25000

(a) Boxplot pendapatan pekerjaan dan 5

0 5000 10000 15000 20000 25000 30000

(b) Kepadatan empiris dan kumis plot kotak yang

GBR. 2.1: Deteksi pencilan univariat menggunakan boxplot untuk pendapatan

05000 10000 15000 20000 25000 30000

(a) Distribusi empiris PENDAPATAN pekerjaan dan

Plot QQ dengan pencilan, distribusi

2000 5000 10000 20000

(b) Pencilan yang terdeteksi menggunakan

0,75 kuantil 0,95 kuantil

0.0 0.5 1.0 1.5

3. Deteksi Pencilan Multivariat

3.1. Jarak Mahalanobis

Jika matriks kovariansi adalah matriks identitas, jarak Mahalanobis berkurang

3.2. Distribusi normal multivariat

Ingatlah fungsi kepadatan normal multivariat di bawah ini, di mana parameternya

(x - µ)′ Σ−1 (x - µ).

Ada beberapa fakta penting mengenai eksponen ini:

(a) Jarak Mahalanobis.

(b) Jarak Eucleadn

GBR. 3.2: Kepadatan emperis

• Jarak Mahalanobis d2 = (x - µ)′ Σ−1 (x - µ) memiliki distribusi chi-square

4. Menganalisis Data Sampel

-> Metode: Penaksir Klasik.

-> Metode: Penduga Kuat. Estimasi

Estimasi Kovarians yang Kuat:

Membandingkan estimator klasik dan robust untuk vektor rata-rata µ dan

Plot Jarak Plot Jarak Plot Jarak-Jarak

Jarak yang kuat

Indeks Indeks Jarak Mahalanobis

(a) Plot jarak ( b) Plot Q-Q kuadrat.

Dalam makalah ini, jarak Mahalanobis sebagai jarak multivariat dan

1. C. C. AGGARWAL: Analisis Pencilan, Edisi ke-2. Springer, New York, 2017.

Anda mungkin juga menyukai