Data Mining

FAST OUTLIER DETECTION USING GRID-
Judul
BASED ALOGARITHM
Jurnal Jurnal Internasional
Volume dan Halaman VOL 6 : 711
Tahun 2017
Penulis
Jihwan Lee dan Nam-Wook Cho
Reviewer Arie Ansyah, ST
Tanggal 15 Mei 2019
Jurnal ini mengilustrasikan aplikasi pengenalan karakter objek
(OCR) menggunakan pencocokan template dan teknik mesin
pembaca untuk memecahkan masalah pengenalan karakter
tulisan tangan.
Dalam jurnal ini penulis melakukan pengenalan tulisan tangan
dengan mencocokan template, dukungan vektor mesin (SVM),
Abstrak dan jaringan neural. Pencocokan template adalah teknik
pemrosesan gambar untuk memecah gambar ke bagian yang
lebih kecil dan kemudian dicocokkan dengan template gambar.
Selain itu menggunakan klasifikasi multi class SVM dan
jaringan neural untuk mengklasifikasi gambar, digunakan juga
data set untuk mengklasifikasi ektraksi fitur dan menerapkan
klasifikasi untuk pengenalan digit
Pendeteksian outlier merupakan salah satu tahap dalam data
mining yang bertujuan untuk mengetahui observasi yang menyimpang
dari observasi-observasi lainnya. Saat ini terdapat beberapa metode
untuk mendeteksi outlier salah satunya Local Outlier Factor (LOF).
Algoritma LOF adalah algoritma yang berbasis kepadatan untuk
mendeteksi outlier dari kumpulan observasi di dataset dengan
Pendahuluan menetapkan derajat pencilannya yang disebut Local Outlier Factor
(LOF) untuk setiap observasi. Untuk metode LOF, suatu observasi
dikatakan outlier jika mempunyai kepadatan yang lebih rendah
daripada observasi di sekitarnya.
Metode LOF dapat mendeteksi outlier meskipun suatu dataset

mempunyai distribusi normal. Hal ini sudah diterapkan di berbagai
dataset seperti pendeteksian gangguan jaringan dan proses monitoring.
Namun karena kekompleksitasan dari algoritma LOF, saat
diaplikasikan untuk dataset yang berukuran besar dengan dimensi yang
banyak memakan waktu lama untuk proses penghitungannya. Hal ini
tentunya menjadi masalah yang sangat krusial jika diterapkan untuk
sistem yang mengaplikasikan real-time.
Kompleksitas LOF ini dapat dilihat dari dua perspektif. Yang

pertama adalah banyaknya waktu penghitungan untuk proses LOF
bertambah secara eksponensial dengan jumlah dimensi dari dataset
yang bisa disebut “Curse of Dimensionality” atau kutukan dimensi.
Untuk data yang mempunyai dimensi banyak (n) kompleksitas dari
algoritma menjadi O (n2). Oleh karena itu diperlukan usaha untuk
mengurangi komplesitas algoritma dengan mengurangi dimensi data.
Singular Value Decomposition (SVD), Karhunen-Loeve (KL), Genetic
Algorrithm, dan FastMap merupakan beberapa metode yang sudah
pernah diusulkan untuk mengurangi besarnya dimensi di suatu data set.
Yang kedua berkaitan dengan penghitungan k-nearest neighbors.

Algoritma LOF menghitung jarak menggunakan jarak Euclidean untuk
setiap observasi terhadap centroid kemudian mengurutkan berdasarkan
jaraknya. Hal ini menyebabkan proses penghitungan memakan waktu
lama.
Oleh karena itu jurnal ini mengembangkan metode untuk

mengurangi waktu proses penghitungan yang berkaitan dengan k-
nearest neighbour. Algoritma ini membagi data menjadi bagian-bagian
wilayah yang kecil yang disebut “grid”. Untuk membuktikan
keefektifan waktu, maka beberapa eksperimen juga dilakukan. Data
yang digunakan adalah data traksaksi Korea Atomic Energy Research
Institute (KAERI) yang diperoleh dari UCI machine-learning
repository.
Pada bagian ini akan dijelaskan bagaimana prosedur
pendektesian outlier dengan alogaritma grid-LOF. Sebelumnya
dijelaskan bagaimana penghitungan LOF pada suatu
titik.Penghitungan LOF secara singkat adalah :
1. Menghitung k-distance dari setiap titik / data (p) utnuk

dapat menentukan tetangga dari p.
2. Menghitung jumlah tetangga terdekat (k-distance
neighborhood dari setiap p) dengan jarak yang tidak lebih
besar dari k-distance p,
3. Menghitung reachbility distance dari objek p, dengan
tujuan untuk memastikan bahwa semua objek berada di
lingkungan yang homogen.
4. Menghitung kepadatan lokal dari setiap objek.
∑ 𝑟𝑒𝑎𝑐ℎ−𝑑𝑖𝑠𝑡 (𝑝,𝑜)
LrdMinPts(p)=1/ |𝑁𝑚𝑖𝑛𝑃𝑡𝑠 (𝑝)|
Metodologi LrdMinPts(p) : kepadatan local dari objek p
ReachdistMinPts(p,o) : Reachbility Distance dari objek p ke
o
NMinpts (p) : Jumlah tetangga p dalam suatu minPts
5. Menghitung LOF untuk setiap objek data.
𝑙𝑟𝑑 𝑀𝑖𝑛𝑃𝑡𝑠 (𝑜)
∑
𝑙𝑟𝑑𝑀𝑖𝑛𝑝𝑡𝑠 (𝑝)
LOFMinPts (p)= |𝑁𝑚𝑖𝑛𝑝𝑡𝑠 (𝑝)|
LOFMinPts (p) : derajat outlier dari objek p

LrdMinPts(p) : kepadatan local dari objek p
LrdMinPts(o) : kepadatan local dari objek o
NMinpts (p) : Jumlah tetangga p dalam suatu minPts
Setelah mengetahui penghitungan LOF, maka kita akan

melanjutkan penghitungan LOF pada alogaritma LOF grid. Anggap
data set S ∈ Rd terdiri dari n titik data pada suatu ruang nyata d dimensi.
Anggap jumlah grid per dimensi sudah ditentukan sebanyak k. Maka
alogaritma untuk menghitung nilai LOF grid dari titik data adalah
sebagai berikut :
1. Membagi ruang data masing-masing dalam S menjadi k-

interval yang sama. Lalu hitung total kd di dalam data set
tersebut.
2. Mengaitkan setiap titik data xi ∈ S menjadi satu indeks grid,
j={1,....,. kd}. Jika tidak ada data yang termasuk dalam grid
maka grid tidak diperhitungkan.
3. Untuk setiap j grid hitung centroid gridnya Cj.
4. Untuk setiap centroid di grid Cj, hitung nilai LOFnya LOF(Cj).
5. Menentukan nilai LOF grid untuk tiap titik data. Jika xi masuk
dalam grid j maka LOFG(xi) = LOF(Cj)
Proses klasifikasi dilakukan melalui pencocokan template,

SVM dan Pendekatan Jaringan syaraf Tiruan.
Pencocokan Template adalah teknik pembacaan pada computer

yang digunakan untuk mengenali elemen dalam gambar
dengan mencocokkannya dengan template yang telah
ditentukan
Korelasi Gambar : Tujuan utama teknik ini adalah menemukan
kesamaan antara gambar dengan dimensi yang sama. Itu teknik
yang digunakan untuk melakukan tugas ini adalah Cross-
Correlation, dan ini didefinisikan sebagai jumlah dari perkalian
Pembahasan berpasangan dari nilai piksel yang sesuai. Kerugian utama dari
ini Teknik adalah bahwa Kecerahan gambar akan meningkatkan
korelasi silang dengan gambar lain meskipun nilai piksel dari
gambar kedua tidak sama
Support Vector Machine (SVM) adalah salah satu klasifikasi

algoritma yang paling populer yang digunakan dalam bidang
pembelajaran mesin. SVM awalnya dibangun untuk melakukan
biner klasifikasi kelas, yaitu satu terhadap semua kelas lain yang
membangun satu SVM per kelas. Di sini teknik yang digunakan
adalah satu persatu yang membangun satu SVM untuk setiap
pasangan kelas. Metode ini membangun n (n-1) / 2
pengklasifikasi di mana masing-masing dilatih tentang data
dari dua kelas.
Pendekatan yang dibahas di sini dikenal sebagai Artifical

Neural Network (ANN). ANN adalah model dalam mesin
pembaca yang terdiri dari sejumlah besar neuron buatan yang
terhubung
satu sama lain. Struktur jaringan saraf menyerupai aksondi otak
manusia. Motivasi di balik memilih ini jenis arsitektur adalah
dengan membangun model yang cerdas yang fungsiny mirip
dengan otak manusia. Struktur dari jaringan saraf terdiri dari
Input, Tersembunyi, dan Lapisan output.
Multilayer Perceptron (MLP): MLP adalah umpan maju ANN
yang memetakan data input ke output yang sesuai. Ini terdiri
dari beberapa lapisan node, dengan setiap lapisannya
terhubung ke lapisan berikutnya yang diarahkanujung-
ujungnya. Setiap neuron dalam jaringan ditugaskan
mengaktivasi fungsi yang memetakan input tertimbang ke
output. Jaringan MLP dilatih menggunakan Backpropagation
algoritma.
Dalam jurnal ini penulis menggunakan metode pencocokan

template guna mendukung mesin vektor dan jaringan syaraf
tiruan. Dari ketiga metode ini Model jaringan syaraf (Neural
Network) menghasilkan hasil yang lebih baik diikuti metode
Kesimpulan SVM dan Pencocokan template
Menurut pendapat saya :

 Teori dan analisis yang tepat
Keunggulan  * Bahasa yang digunakan oleh penulis adalah sederhana
dan dapat dimengerti oleh pembaca . sehingga mudah
dipahami .
Menurut pendapat saya :
Saran
 perlu pengembangan aplikasi dalam pembacaan karakter
dengan tulisan melalui pengenalan wajah atau tulisan

Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

FAST OUTLIER DETECTION USING GRID-

Metode LOF dapat mendeteksi outlier meskipun suatu dataset

Kompleksitas LOF ini dapat dilihat dari dua perspektif. Yang

Yang kedua berkaitan dengan penghitungan k-nearest neighbors.

Oleh karena itu jurnal ini mengembangkan metode untuk

1. Menghitung k-distance dari setiap titik / data (p) utnuk

LOFMinPts (p) : derajat outlier dari objek p

Setelah mengetahui penghitungan LOF, maka kita akan

1. Membagi ruang data masing-masing dalam S menjadi k-

Proses klasifikasi dilakukan melalui pencocokan template,

Pencocokan Template adalah teknik pembacaan pada computer

Support Vector Machine (SVM) adalah salah satu klasifikasi

Pendekatan yang dibahas di sini dikenal sebagai Artifical

Dalam jurnal ini penulis menggunakan metode pencocokan

Menurut pendapat saya :

Anda mungkin juga menyukai