Lecture Notes: Data and Text Mining

LECTURE NOTES
Data and Text Mining
Week ke - 5
Cluster Analysis: Basic Concepts and

Methods and Outlier Detection
ISYS6333 – Data and Text Mining

LEARNING OUTCOMES
LO 1: Describe data dan text mining concept, techniques, and method

LO 2: Using data mining Method to solve problems from data
OUTLINE MATERI :
• What is Cluster Analysis?
• Partitioning Methods
• Hierarchical Methods
• Density-Based Methods
• Evaluation of Clustering
• Outlier and Outlier Analysis
• Outlier Detection Methods
• Statistical Approaches
• Clustering-Base Approaches
• Classification Approaches

ISI MATERI
1. What is Cluster Analysis

Analisis cluster atau hanya clustering adalah proses mempartisi sekumpulan objek
data (atau pengamatan) ke dalam himpunan bagian. Setiap subkumpulan adalah
gugus, seperti objek dalam kluster mirip satu sama lain, namun berbeda dengan objek
dalam kelompok lain.
2. Partitioning Methods
Ada berbagai macam kriteria lain untuk menilai kualitas partisi. Metode partisi
tradisional dapat diperpanjang untuk pengelompokan subruang, daripada mencari
ruang data lengkap. Ini berguna ketika ada banyak atribut dan datanya jarang.
3. Hierarchical Methods
Sebuah metode hirarkis menciptakan dekomposisi hirarkis dari himpunan objek data
yang diberikan. Metode hierarkis dapat diklasifikasikan sebagai aglomeratif atau
memecah belah, berdasarkan bagaimana dekomposisi hierarkis terbentuk.
4. Density-Based Methods
Metode berbasis densitas dapat membagi sekumpulan objek menjadi beberapa
kelompok eksklusif, atau hierarki kelompok. Biasanya, metode berbasis kepadatan
hanya mempertimbangkan kelompok eksklusif, dan tidak mempertimbangkan gugus
fuzzy. Selain itu, metode berbasis kepadatan dapat diperpanjang dari ruang penuh ke
pengelompokan subkotak.
5. Evaluation of Clustering
Tugas utama evaluasi pengelompokan mencakup hal-hal berikut:
Assessing clustering tendency.
Analisis pengelompokan pada satu set data hanya bermakna bila ada struktur
nonrandom dalam data.

Determining the number of clusters in a data set.
Beberapa algoritme, seperti k-means, membutuhkan jumlah kelompok dalam
kumpulan data sebagai parameter. Diharapkan untuk mengestimasi angka ini bahkan
sebelum algoritma pengelompokan digunakan untuk memperoleh kluster rinci.
Measuring clustering quality.

Beberapa metode mengukur seberapa baik kelompok tersebut sesuai dengan
kumpulan data, sementara yang lain mengukur seberapa baik kelompok itu cocok
dengan kebenaran dasar, jika kebenaran semacam itu tersedia.
The K-Means Clustering Method

Outlier and Outlier Analysis
Deteksi outlier (juga dikenal sebagai deteksi anomali) adalah proses mencari data
benda-benda dengan perilaku yang sangat berbeda dari harapan. Benda-benda
semacam itu disebut outlier atau anomali.
Types of Outliers
Secara umum, outlier dapat diklasifikasikan ke dalam tiga kategori, yaitu outlier
global, outlier kontekstual (atau conditional), dan outlier kolektif. kategori outlier
sebagai berikut
1. Global outliers
Untuk mendeteksi outliers global, masalah penting adalah menemukan
pengukuran yang tepat penyimpangan sehubungan dengan aplikasi yang
dimaksud. Berbagai pengukuran diusulkan, dan, berdasarkan ini, metode deteksi
outlier dipartisi menjadi berbeda kategori.
2. Contextual Outliers
Outlier kontekstual juga dikenal sebagai outlier bersyarat karena mereka
tergantung pada konteks yang dipilih. Secara umum, dalam deteksi outlier
kontekstual, atribut dari objek data yang dimaksud dibagi menjadi dua kelompok:

a. Contextual attributes: Atribut kontekstual dari objek data yang
mendefinisikan objek konteks. Dalam contoh suhu, atribut kontekstual
mungkin tanggal dan lokasi.
b. Behavioral attributes: Ini menentukan karakteristik objek, dan digunakan
untuk mengevaluasi apakah objek tersebut merupakan outlier dalam
konteks tempatnya. Dalam contoh suhu, atribut perilaku mungkin suhu,
kelembaban, dan tekanan.
Challenges of Outlier Detection

Deteksi outlier berguna dalam banyak aplikasi namun menghadapi banyak tantangan
seperti berikut: Memodelkan objek normal dan outlier secara efektif. Kualitas deteksi
outlier sangat tinggi tergantung pada pemodelan objek dan outlier normal (non-
eksternal).
Outlier Detection Methods

Metode pendeteksian outlier sesuai dengan apakah sampel data untuk analisis
diberikan dengan label yang disediakan pakar domain yang dapat digunakan untuk
membangun model deteksi outlier. Metode yang digunakan dapat dibagi menjadi
metode yang diawasi, metode semi supervisi, dan metode tanpa pengawasan.
1. Supervised Methods
Metode yang diawasi memodelkan normalitas dan abnormalitas data. Pakar
domain memeriksa dan memberi label sampel dari data yang mendasarinya.
Deteksi outlier kemudian dapat dimodelkan sebagai masalah klasifikasi.
2. Unsupervised Methods
Metode Unsupervised outlier detection yang tidak diawasi membuat asumsi
implisit: Normal objek agak "terkelompok." Dengan kata lain, deteksi outlier
yang tidak diawasi Metode mengharapkan bahwa benda normal mengikuti pola
jauh lebih sering daripada outlier.

3. Semi-Supervised Methods
Metode deteksi pendeteksi semi-supervised dapat dianggap sebagai aplikasi
metode pembelajaran semisupervised. Misalnya, ketika beberapa labelnya normal
objek tersedia, bisa menggunakannya, bersama dengan benda-benda tak berlabel
yang dekat, untuk melatih model untuk objek normal. Model objek normal
kemudian dapat digunakan untuk mendeteksi outlier — benda-benda yang tidak
pas dengan model benda normal diklasifikasikan sebagai outlier.
Example Outlier Detection

Using a real-world dataset – The Big Mart Sales Challenge
Example Outlier Detection

SIMPULAN
Cluster
Cluster adalah kumpulan objek data yang mirip satu sama lain dalam yang sama klaster dan
berbeda dengan objek dalam kelompok lain. Proses pengelompokan sebuagh Kumpulan
objek fisik atau abstrak ke dalam kelas objek serupa disebut pengelompokan. Analisis Cluster
memiliki aplikasi yang luas, termasuk intelijen bisnis, gambar pengenalan pola, pencarian
Web, biologi, dan keamanan. Analisis cluster dapat digunakan sebagai alat penambangan
data mandiri untuk mendapatkan wawasan tentang distribusi data, atau sebagai langkah
preprocessing untuk algoritma penambangan data lainnya yang beroperasi pada cluster yang
terdeteksi.
OUTLIER
Asumsikan bahwa proses statistik yang diberikan digunakan untuk menghasilkan sekumpulan
objek data. Sebuah outlier adalah objek data yang menyimpang secara signifikan dari sisa
objek, seolah-olah itu dihasilkan oleh mekanisme yang berbeda. Jenis outlier termasuk global
outliers, outlier kontekstual, dan outlier kolektif. Objek mungkin lebih dari satu jenis Outlier.
Global outliers adalah bentuk paling sederhana dari outlier dan yang paling mudah dideteksi.
Outlier kontekstual menyimpang secara signifikan sehubungan dengan konteks spesifik objek
(misalnya, nilai suhu Toronto 28◦C adalah Outlier jika terjadi dalam konteks musim dingin).
Tantangan dalam deteksi outlier termasuk menemukan model data yang sesuai,
ketergantungan sistem pendeteksi Outlier pada aplikasi yang terlibat, menemukan cara untuk
membedakan Outlier dari kebisingan, dan memberikan justifikasi untuk mengidentifikasi
Outlier.
Metode Statistical outlier detection (atau metode berbasis model) mengasumsikan bahwa
objek data normal mengikuti model statistik, di mana data tidak mengikuti model dianggap
outlier.

Metode Proximity-based outlier detection mengasumsikan bahwa objek adalah Outlier jika
jarak objek ke tetangga terdekatnya secara signifikan menyimpang dari kedekatan sebagian
besar objek lain dengan tetangganya dalam kumpulan data yang sama. Metode pendeteksian
jarak jauh berbasis pendeteksian berkonsultasi dengan lingkungan suatu objek, yang
ditentukan oleh radius tertentu.
Metode Clustering-based outlier detection mengasumsikan bahwa objek data normal milik
cluster besar dan padat, sedangkan outlier milik cluster kecil atau jarang, atau bukan milik
kluster manapun.
Metode Classification-based outlier detection sering menggunakan model satu kelas. Itu
adalah, classifier dibangun untuk menggambarkan hanya kelas normal. Setiap sampel yang
bukan milik ke kelas normal dianggap sebagai outlier.
Contextual outlier detection dan collective outlier detection mengeksplorasi struktur di

data. Dalam deteksi outlier kontekstual, struktur didefinisikan sebagai konteks menggunakan
atribut kontekstual. Dalam deteksi outlier kolektif, struktur tersirat dan dieksplorasi sebagai
bagian dari proses penambangan. Untuk mendeteksi outlier tersebut, satu pendekatan
mengubah masalah menjadi salah satu deteksi outlier konvensional. Lain pendekatan
memodelkan struktur secara langsung.
Metode Outlier detection methods for high-dimensional data dapat dibagi menjadi tiga
pendekatan utama. Ini termasuk extending conventional outlier detection, finding outliers in
subspaces, and modeling high-dimensional outliers.

DAFTAR PUSTAKA
Han, J., Kamber, M., & Pei, Y. (2012). Data Mining: Concepts and Techniques. 03.
Morgan Kaufmann Publishers. San Fracisco. ISBN: 978-0123814791.

Lecture Notes: Data and Text Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Lecture Notes: Data and Text Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

LECTURE NOTES

Data and Text Mining

Cluster Analysis: Basic Concepts and

ISYS6333 – Data and Text Mining

LO 1: Describe data dan text mining concept, techniques, and method

ISYS6333 – Data and Text Mining

1. What is Cluster Analysis

ISYS6333 – Data and Text Mining

Measuring clustering quality.

The K-Means Clustering Method

ISYS6333 – Data and Text Mining

ISYS6333 – Data and Text Mining

Challenges of Outlier Detection

Outlier Detection Methods

ISYS6333 – Data and Text Mining

Example Outlier Detection

Example Outlier Detection

ISYS6333 – Data and Text Mining

ISYS6333 – Data and Text Mining

Contextual outlier detection dan collective outlier detection mengeksplorasi struktur di

ISYS6333 – Data and Text Mining

ISYS6333 – Data and Text Mining

Anda mungkin juga menyukai