Week ke - 5
OUTLINE MATERI :
• What is Cluster Analysis?
• Partitioning Methods
• Hierarchical Methods
• Density-Based Methods
• Evaluation of Clustering
• Outlier and Outlier Analysis
• Outlier Detection Methods
• Statistical Approaches
• Clustering-Base Approaches
• Classification Approaches
2. Contextual Outliers
Outlier kontekstual juga dikenal sebagai outlier bersyarat karena mereka
tergantung pada konteks yang dipilih. Secara umum, dalam deteksi outlier
kontekstual, atribut dari objek data yang dimaksud dibagi menjadi dua kelompok:
2. Unsupervised Methods
Metode Unsupervised outlier detection yang tidak diawasi membuat asumsi
implisit: Normal objek agak "terkelompok." Dengan kata lain, deteksi outlier
yang tidak diawasi Metode mengharapkan bahwa benda normal mengikuti pola
jauh lebih sering daripada outlier.
Cluster
Cluster adalah kumpulan objek data yang mirip satu sama lain dalam yang sama klaster dan
berbeda dengan objek dalam kelompok lain. Proses pengelompokan sebuagh Kumpulan
objek fisik atau abstrak ke dalam kelas objek serupa disebut pengelompokan. Analisis Cluster
memiliki aplikasi yang luas, termasuk intelijen bisnis, gambar pengenalan pola, pencarian
Web, biologi, dan keamanan. Analisis cluster dapat digunakan sebagai alat penambangan
data mandiri untuk mendapatkan wawasan tentang distribusi data, atau sebagai langkah
preprocessing untuk algoritma penambangan data lainnya yang beroperasi pada cluster yang
terdeteksi.
OUTLIER
Asumsikan bahwa proses statistik yang diberikan digunakan untuk menghasilkan sekumpulan
objek data. Sebuah outlier adalah objek data yang menyimpang secara signifikan dari sisa
objek, seolah-olah itu dihasilkan oleh mekanisme yang berbeda. Jenis outlier termasuk global
outliers, outlier kontekstual, dan outlier kolektif. Objek mungkin lebih dari satu jenis Outlier.
Global outliers adalah bentuk paling sederhana dari outlier dan yang paling mudah dideteksi.
Outlier kontekstual menyimpang secara signifikan sehubungan dengan konteks spesifik objek
(misalnya, nilai suhu Toronto 28◦C adalah Outlier jika terjadi dalam konteks musim dingin).
Tantangan dalam deteksi outlier termasuk menemukan model data yang sesuai,
ketergantungan sistem pendeteksi Outlier pada aplikasi yang terlibat, menemukan cara untuk
membedakan Outlier dari kebisingan, dan memberikan justifikasi untuk mengidentifikasi
Outlier.
Metode Statistical outlier detection (atau metode berbasis model) mengasumsikan bahwa
objek data normal mengikuti model statistik, di mana data tidak mengikuti model dianggap
outlier.
Metode Clustering-based outlier detection mengasumsikan bahwa objek data normal milik
cluster besar dan padat, sedangkan outlier milik cluster kecil atau jarang, atau bukan milik
kluster manapun.
Metode Classification-based outlier detection sering menggunakan model satu kelas. Itu
adalah, classifier dibangun untuk menggambarkan hanya kelas normal. Setiap sampel yang
bukan milik ke kelas normal dianggap sebagai outlier.
Metode Outlier detection methods for high-dimensional data dapat dibagi menjadi tiga
pendekatan utama. Ini termasuk extending conventional outlier detection, finding outliers in
subspaces, and modeling high-dimensional outliers.
Han, J., Kamber, M., & Pei, Y. (2012). Data Mining: Concepts and Techniques. 03.
Morgan Kaufmann Publishers. San Fracisco. ISBN: 978-0123814791.