Anda di halaman 1dari 12

Pertemuan 8 Algoritma Apriori

Definisi Algoritma Apriori


Algoritma apriori merupakan suatu metode untuk mencari pola hubungan antar satu atau
lebih item dalam suatu dataset. Algoritma apriori biasa digunakan untuk mencari biasa
market basket analysis. Market basket analysis adalah Teknik pemodelan dalam data mining
dimana jika membeli suatu item, akan nada kemungkinan untuk membeli item yang lain.
Sebagai contoh jika seorang konsumen membeli item A dan B maka akan ada kemungkinan
50% bahwa dia juga akan membeli item C.
Konsep Apriori:
Itemset adalah himpunan item dalam sebuah keranjang (Support). K-itemset adalah itemset
yang berisi K item, misalnya beras, telur, minyak adalah 3-itemset (Dinotasikan sebagai K-
itemset). Frequent support adalah K-itemset yang memiliki nilai minimum support sama
dengan atau melebihi nilai minimum support (dinotasikan sebagai Fi). Candidat itemset
merupakan frequent itemset yang dikombinasikan dari K-itemset (dinotasikan sebagai Ci).
Cara kerja apriori:
 Tentukan nilai minimum support.
 Iterasi 1: hitung nilai support dari transaksi yang telah disiapkan dengan cara men-
scan database untuk mencari 1-itemset, setelah 1-itemset didapatkan, dilakukan
seleksi untuk setiap item tersebut, jika memiliki nilai minimum support yang telah
ditentukan, 1-itemset tersebut akan menjadi pola frequent tertinggi.
 Iterasi 2: untuk mendapatkan 2-itemset, dilakukan kombinasi dari K-itemset
sebelumnya lalu dilakukan scan database untuk menghitung item-item yang
memenuhi nilai minimum support. Jika nilainya lebih tinggi maka akan menjadi pola
frequent tertinggi.
 Lakukan proses iterasi selanjutnya hingga tidak ada lagi K-itemset yang memenuhi
nilai minimum support.
Association rule mining merupakan teknik data mining untuk menemukan aturan asosiasi
antara suatu kombinasi item. Association rule biasa disebut dengan market basket analysis.
Association Rule juga dikenal sebagai salah satu teknik data mining yang menjadi dasar dari
berbagai Teknik data mining lainnya. Salah satu tahap analisis asosiasi yang menarik banyak
peneliti untk menghasilkan algoritma yang efisien adalah analisis pola frekuensi tinggi
(frequent pattern mining). Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua
parameter:
Support (nilai penunjang) = persentase kombinasi item dalam suatu database.
Confidence (nilai kepastian) = kuatnya hubungan antar item dalam aturan asosiasi.
Contoh:
{roti, mentega} => {susu} {support = 40%, confidence = 50%}
Aturan tersebut bisa dikatakan bahwa 50% dari transaksi database memuat item roti dan
mentega juga membeli susu. 40% dari seluruh transaksi yang ada dari database memuat
ketiga item tersebut. Sehingga dapat disimpulkan bahwa pelanggan yang membeli roti dan
mentega mempunyai kemungkinan 50% untuk membeli susu. Aturan tersebut cukup
signifikan karena mewakili 40% dari catatan transaksi selama ini.
Definisi CRISP-DM
CRISP-DM atau Cross Industry Standard Process for Data Mining merupakan standarisasi
data mining yang disusun oleh tiga penggagas mining market yaitu Daimler Chrysler
(Daimler-Benz), SPSS (ISL), NCR (Larose, 2005). Pada metodologi ini dilakukan pembagian
siklus untuk proses data mining menjadi 6 tahap yaitu:
1. Fase Pemahaman Bisnis (Business Understanding Phase)
2. Fase Pemahaman Data (Data Undestanding Phase)
3. Fase Pengolahan Data (Data Preparation Phase)
4. Fase Pemodelan (Modeling Phase)
5. Fase Evaluasi (Evaluation Phase)
6. Fase Penyebaran (Deployment Phase)
KDD merupakan singkatan dari Knowladge Discovery in Database. KDD mulai
dikembangkan pada era awal 1990-an. KDD mempunyai 7 tahapan yaitu: (1) Data Cleaning
(2) Data Integration (3) Data Selection (4) Data Transformation (5) Data Mining (6) Pattern
Evaluation (7) Knowladge Presentation.
Algoritma FP-Growth merupakan algoritma association rules alternatif yang dikembangkan
dari algoritma apriori. Algortima FP-Growth merupakan solusi dari algortima apriori yang
memakan waktu lama dalam penggunanya, karena algoritma FP-Growth hanya melakukan
scan database sebanyak 2 kali untuk membangun struktur tree.
Penerapan Algoritma Fp-Growth:
a. Tahap Pembangkitan Conditional Pattern Base
Conditional Pattern Base merupakan sub-database yang berisi prefix path (lintasan
prefix) dan suffix pattern (pola akhiran). Pembangkitan conditional pattern base
didapatkan melalui FP-tree yang telah dibangun sebelumnya.
b. Tahap Pembangkitan Conditional FP-tree
Pada tahap ini, support count dari setiap item pada setiap conditional pattern base
dijumlahkan, lalu setiap item yang memiliki jumlah support count lebih besar sama
dengan minimum support count akan dibangkitkan dengan conditional FP-tree.
c. Tahap Pencarian frequent itemset
Apabila Conditional FP-tree merupakan lintasan tunggal (single path), maka
didapatkan frequent itemset dengan melakukan kombinasi item untuk setiap
conditional FP-tree. Jika bukan lintasan tunggal, maka dilakukan pembangkitan FP-
growth secara rekursif.
Association Rule dapat diukur dengan parameter berikut:
1. Support
2. Coverage
3. Confidence
4. Added Value
5. Colleration
Pertanyaan dan Jawaban Pertemuan 8
1. Untuk apakah algoritma apriori biasa digunakan?
Algoritma apriori biasa digunakan untuk mencari market basket analysis. Market
basket analysis merupakan Teknik untuk mencari kemungkinan terjadinya pembelian
dua atau lebih item secara bersamaan. Sebagai contoh jika pembeli membeli item A
maka ada kemungkinan 70% bahwa dia juga akan membeli item B.

2. Sebutkan 6 siklus proses data mining?


 Fase Pemahaman Bisnis (Business Understanding Phase)
 Fase Pemahaman Data (Data Undestanding Phase)
 Fase Pengolahan Data (Data Preparation Phase)
 Fase Pemodelan (Modeling Phase)
 Fase Evaluasi (Evaluation Phase)
 Fase Penyebaran (Deployment Phase)

3. Apa kelebihan dari algoritma FP-Growth dibanding algoritma apriori?


Algoritma FP-Growth mempunyai kelebihan dibanding algoritma apriori yang
memakan waktu lama dalam penggunanya, karena algoritma FP-Growth hanya
melakukan scan database sebanyak 2 kali untuk membangun struktur tree.
Pertemuan 9 Metode Klasifikasi
Definisi Metode Klasifikasi
Metode klasifikasi adalah teknik untuk mengelompokan data secara sistematis yang terdiri
dari beberapa karakteristik tertentu. Ada beberapa algoritma yang termasuk dalam metode
klasifikasi yaitu:
a. Naïve bayes
Algoritma naïve bayes merupakan suatu algoritma klasifikasi dengan menggunakan
metode probabilitas dan statistic yang digunakan untuk memprediksi peluang di masa
depan dengan pengalaman di masa lalu.
Tahapan dari algoritma naïve bayes:
1. Menghitung jumlah kelas / label
2. Menghitung jumlah kasus per kelas
3. Kalikan semua variable kelas
4. Bandingkan hasil per kelas

Formula untuk algoritma naïve bayes:

P ( x|x ) P ( c )
P ( C| X )=
P(x)

Keterangan:
x = data dengan class yang belum diketahui
c = hipotesis darta merpakan suatu class spesifik
P(c|x) : Probabilitas hipotesis berdasar kondisi (posteriori probability)
P(c) : Probabilitas hipotesis (prior probability)
P(x|c) : Probabilitas berdasarkan kondisi pada hipotesis
P(x) : Probabilitas dari c

b. SVM
SVM atau Support Vector Machine merupakan algoritma yang menggunakan
statistika untuk menghitung peluang suatu hipotesis dari suatu kelas dari masing-
masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.
Algoritma SVM merupakan penyederhanaan dari algoritma naïve bayes dengan
mengkombinasikan prior probability dan probabilitas bersyarat untuk menghitung
probabilitas tiap klasifikasi yang mungkin terjadi. Algortima SVM mempunyai
kelebihan yaitu jumlah dataset yang diperlukan tidak terlalu tinggi, proses komputasi
juga cepat dikarenakan penentuan jarak yang menggunakan support vector.
Formula dari algortima SVM

P ( x| y )=P ( y|x ) P ( x )

c. K-NN
K-NN atau K-Nearest Neighbors merupakan algoritma yang digunakan untuk
mencari kasus dengan menghitung kedekatan antara problem baru dengan problem
lama berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada. K didalam K-
NN merupakan jumlah tetangga yang diambil untuk menentukan keputusan.
Tahapan dari algoritma K-NN:
1. Tentukan k bilangan bulat positif berdasarkan ketersediaan data pembelajaran
yang sudah dilabeli.
2. Pilih tetangga terdekat dari data baru sebanyak k.
3. Tentukan klasifikasi paling umum pada langkah ke 2, dengan menggunakan
frekuensi terbanyak.
4. Keluaran klasifikasi dari data sampel baru.
5. Dengan menggunakan kategori nearest neighbor yang paling mayoritas maka
dapat dipredisikan kategori objek

Formula algortima K-NN:


 Euclidean Distance, formula untuk mencari jarak antara 2 titik dalam ruang
dimensi.

d= √( x −x ) 2+ ( y 2− y 1 ) 2
2 1

Keterangan:
x1 = Nilai dari AP ke-1 pada lokasi yang sudah diketahui
x2 = Nilai dari AP ke-2 pada lokasi yang sudah diketahui
y1 = Nilai dari AP ke-1 pada lokasi yang tidak diketahui
y2 = Nilai dari AP ke-2 pada lokasi yang tidak diketahui

 Hamming Distance, cara mencari jarak antar 2 titik yang dihitung dengan
panjang vektor biner yang dibentuk oleh dua titik tersebut dalam block kode
biner.
 Manhattan Distance, suatu cara yang digunakan untuk mencari jarak d antar 2
vektor p,q pada ruang dimensi n.
 Minkowski Distance, suatu cara untuk melakukan pengukuran antar 2 titik
pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi
euclidean distance dan mahattan distance.
 Banyaknya k Tetangga Terdekat, Untuk menggunakan algoritma k nearest
neighbors, perlu ditentukan banyaknya k tetangga terdekat yang digunakan
untuk melakukan klasifikasi data baru. Banyaknya k, sebaiknya merupakan
angka ganjil, misalnya k = 1, 2, 3, dan seterusnya. Penentuan nilai k
dipertimbangkan berdasarkan banyaknya data yang ada dan ukuran dimensi
yang dibentuk oleh data. Semakin banyak data yang ada, angka k yang dipilih
sebaiknya semakin rendah. Namun, semakin besar ukuran dimensi data, angka
k yang dipilih sebaiknya semakin tinggi.
Pertanyaan dan Jawaban Pertemuan 9
1. Sebutkan dan jelaskan secara ringkas algoritma yang digunakan untuk melakukan
klasifikasi?
a. Naïve Bayes
Algoritma naïve bayes merupakan suatu algoritma klasifikasi dengan
menggunakan metode probabilitas dan statistic yang digunakan untuk
memprediksi peluang di masa depan dengan pengalaman di masa lalu.

b. SVM
SVM atau Support Vector Machine merupakan algoritma yang menggunakan
statistika untuk menghitung peluang suatu hipotesis dari suatu kelas dari
masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang
paling optimal.

c. K-NN
K-NN atau K-Nearest Neighbors merupakan algoritma yang digunakan untuk
mencari kasus dengan menghitung kedekatan antara problem baru dengan
problem lama berdasarkan pada pencocokan bobot dari sejumlah fitur yang
ada. K didalam K-NN merupakan jumlah tetangga yang diambil untuk
menentukan keputusan.

2. Jelaskan kelebihan algortima SVM?


Algortima SVM mempunyai kelebihan yaitu jumlah data set yang diperlukan tidak
terlalu tinggi, proses komputasi juga cepat dikarenakan penentuan jarak yang
menggunakan support vector.

3. Sebutkan dan jelaskan secara ringkas macam-macam cara perhitungan jarak yang
digunakan dalam algoritma K-NN?
Terdapat beberapa cara untuk melakukan perhitungan jarak pada algoritma K-NN
yaitu:
 Euclidean Distance, formula untuk mencari jarak antara 2 titik dalam ruang
dimensi.
 Hamming Distance, cara mencari jarak antar 2 titik yang dihitung dengan
panjang vektor biner yang dibentuk oleh dua titik tersebut dalam block kode
biner.
 Manhattan Distance, suatu cara yang digunakan untuk mencari jarak d antar 2
vektor p,q pada ruang dimensi n.
 Minkowski Distance, suatu cara untuk melakukan pengukuran antar 2 titik
pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi
euclidean distance dan mahattan distance.

Pertemuan 10 Decision Tree dan Studi Kasus
Decision Tree (Pohon Keputusan) adalah pohon dimana setiap cabangnya menunjukkan
pilihan diantara sejumlah alternatif pilihan yang ada, dan setiap daunnya menunjukkan
keputusan yang dipilih. Decision tree biasa digunakan untuk mendapatkan informasi untuk
tujuan pengambilan sebuah keputusan. Decision tree dimulai dengan sebuah root node (titik
awal) yang dipakai oleh user untuk mengambil tindakan, dari node root tersebut user
memecahnya sesuai degan algoritma decision tree.
Decision tree terdapat 3 jenis node yaitu:
a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak
mempunyai output atau mempunyai output lebih dari satu.
b. Internal Node , merupakan node percabangan, pada node ini hanya terdapat satu input
dan mempunyai output minimal dua.
c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat
satu input dan tidak mempunyai output.
Algoritma untuk induksi decision tree yaitu:
 Pohon dibangun dalam suatu metode rekursif topdown divide and conquer.
 Seluruh contoh pelatihan dimulai dari simpul root, lalu lakukan pengujiannya.
 Cabang ke jalur yang benar berdasarkan hasil pengujian.
 Simpul Leaf apakah ditemukan? Jika YES masukkan ke dalam contoh kelas
target jika NO kembali ke langkah 1.
 Atribut-atribut berada dalam suatu kategori.
 Atribut terpilih dipartisi secara rekursif.
 Atribut-atribut uji dipilih berdasarkan heuristic atau pengukuran statistik.
Contoh pemanfaaan decision tree:
 Diagnosa beberapa penyakit seperti kanker, hipertensi, stroke.
 Menentukan apakah dengan kondisi yang ada layak untuk bermaintenis atau tidak
 Menentukan apakah sebuah investasi bisnis layak dilakukan atau tidak
 Pemilihan pegawai teladan sesuai dengan kriteria tertentu
 Deteksi gangguan pada komputer atau jaringan komputer
 Pemilihan produk seperti rumah, kendaraan dan lain lain
Jika menggunakan decision tree atau pohon keputusan maka algoritma yang banyak
digunakan adalah algoritma C4.5. Algoritma C4.5 adalah pohon keputusan yang dapat
melakukan klasifikasi dan prediksi yang sangat kuat dan familiar. Metode keputusan dapat
digunakan untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah
calon variable input dengan sebuah variable target. Karena pohon keputusan memadukan
antara eksplorasi data dan pemodelan, dia sangat bagus sebagai langkah awal dalam proses
pemodelan.
Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam algoritma C4.5 :
1. Mempersiapkan data training. Data training biasanya diambil dari data histori yang
pernah terjadi sebelumnya atau disebut data masa lalu dan sudah dikelompokkan
dalam kelas-kelas tertentu.
2. Menghitung akar dari pohon. Akar akan diambil dari atribut yang akan terpilih,
dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling
tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut,
hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus :

n
Entropy ( S ) =∑ ❑t =1− pi log 2 pi
Keterangan:
S = himpuan kasus
N = jumlah partisi s
Pi = proporsi Si terhadap S
3. Kemudian hitung nilai gain menggunakan rumus:

n |S i|
Gain ( S , A )=entropy ( S )−∑ ❑t=1= ∗Entropy ( Si )
S

Keterangan:
S = Himpunan kasus
A = Fitur
N = jumlah partisi atribut A
|Si| = proporsi Si terhadap S
|S| = jumlah kasus dalam s

4. Ulangi langkah ke-2 dan langkah ke-3 hingga semua record terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat:
a. Semua record dalam simpul N mendapat kelas yang sama.
b. Tidak ada atribut didalam record yang dipartisi lagi.
c. Tidak ada record didalam cabang yang kosong.
Pertanyaan dan Jawaban Pertemuan 10
1. Sebutkan dan jelaskan node yang terdapat pada decision tree?
a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa
tidak mempunyai output atau mempunyai output lebih dari satu.
b. Internal Node , merupakan node percabangan, pada node ini hanya terdapat
satu input dan mempunyai output minimal dua.
c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya
terdapat satu input dan tidak mempunyai output.

2. Untuk tujuan apakah algoritma decision tree biasa digunakan?


Decision tree biasa digunakan untuk mendapatkan informasi untuk tujuan
pengambilan sebuah keputusan.

3. Sebutkan contoh penerapan dari decision tree?


Contoh pemanfaaan decision tree:
 Diagnosa beberapa penyakit seperti kanker, hipertensi, stroke.
 Menentukan apakah dengan kondisi yang ada layak untuk bermaintenis atau
tidak
 Menentukan apakah sebuah investasi bisnis layak dilakukan atau tidak
 Pemilihan pegawai teladan sesuai dengan kriteria tertentu
 Deteksi gangguan pada komputer atau jaringan komputer
 Pemilihan produk seperti rumah, kendaraan dan lain lain
Pertemuan 11 Metode Clustering
Clustering adalah metode data minig untuk menganalisis data yang digunakan untuk
mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan
data dengan karaktersitik yang berbeda ke ‘wilayah’ yang lainnya. Ada dua pendekatan yang
digunakan dalam pengembangan metode clustering yaitu pendekatan partisi dan clustering
dengan pendekatan hirarki. Clustering dengan pendakatan partisi (partition-based clustering)
adalah pengelompokkan data dengan menglusterkan data yang akan dinalisis ke dalam
cluster-cluster yang telah ada. Clustering dengan pendekatan hirarki (hierarchical clustering)
adalah pengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data
yang mirip akan ditempatka pada hirarki yang berdekatan dan yang tidak pada hirarki yang
berjauhan.
Algoritma K-Means merupakan salah satu metode clustering yang paling sederhana dan
umum. K-Means mempunyai kemampuan untuk mengelompokkan data dalam jumlah yang
cukup besar dengan waktu komputasi yang cepat dan efisien. K-Means merupakan salah satu
algoritma clustering dengan metode partisi (partitioning method) yang berbasis titik pusat
(centroid) selain algoritma K-Medoids yang berbasis objek. Algortima K-Means mempunyai
3 parameter yang seluruhnya ditentutkan pengguna yaitu jumlah cluster k, inisialisasi cluster,
dan jarak sistem. K-Means biasanya dijalankan secara independent dengan inisialisasi yang
berbeda menghasilkan cluster akhir yang berbeda karena algoritma ini secara prinsip hanya
mengelompokkan data menuju local minima. Salah satu cara untuk mengatasi local minima
adalah dengan mengimplementasikan algortima K-Means, untuk K yang diberikan, dengan
beberapa nilai initial partisi yang berbeda dan selanjutnya dipilih partisi dengan kesalahan
kuadrat terkecil.
Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur
sebagai berikut:
1. Tentukan jumlah cluster
2. Alokasikan data secara random ke cluster yang ada
3. Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
4. Alokasikan kembali semua data ke cluster terdekat
5. Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih
sudah di bawah treshold.
Algorimta Fuzzy C-Means mempunyai definisi mengalokasikan kembali data ke dalam
masing-masing cluster dengan memanfaatkan teori fuzzy. Teori ini mengeneralisasikan
metode pengalokasian yang bersifat hard seperti yang digunakan dalam metode Hard K-
Means. Fuzzy K-Means menggunakan variable membership function uik yang merujuk pada
seberapa besar kemungkinan suatu data bisa menjadi anggota ke dalam suatu cluster. Berikut
adalah rumus membership function:

( D ( xk , vi )
)
c 2
ua =∑ ❑ m−1
j=t D ( xk , v j )

Keterangan:
Uik : Membership function data ke-k ke cluster ke-i
vi: Nilai centroid cluster ke-i
m : Weighting Exponent Membership function
Clustering banyak digunakan dalam berbagai aplikasi seperti business intelligence,
pengenalan pola citra, pencarian situs, bidang ilmu biologi, dan untuk security. Di dalam
business intelligence, pengelompokkan bisa mengatur banyak customer ke dalam banyak
kelompok. Clustering juga dikenal sebagai data segmentasi karena clustering mempartisi
banyak data set ke dalam banyak grup berdasarkan kesamaannya. Selain itu clustering juga
bisa digunakan sebagai outlier detection. Manfaat dari metode clustering juga dapat
melakukan segmentasi pada data yang berguna dalam membuat prediksi dan analisis masalah
bisnis tertentu. Misalnya segmentasi pasar, marketing dan pemetaan zonasi wilayah.
Contohnya adalah mengelompokkan customer ke dalam beberapa cluster dengan kesamaan
karakteristik yang kuat.
Walaupun metode clustering dapat mengidentifikasi objek dalam berbagai bidang seperti
computer vision dan image processing, bukan berarti metode ini tidak memiliki tantangan
kedepannya. Terdapat beberapa tantangan dan syarat yang dihadapi oleh algoritma clustering
diantaranya harus mampu menangani skalabilitas yang besar, mampu menganalisis beragam
bentuk data, mampu menemukan kelompok (cluster) lain dalam bentuk tak terduga serta
harus sensitive dalam perubahan input (masukan). Beberapa kelebihan dari Mixture
Modelling dari K-Means adalah adanya pengembangan metode penentuan jumlah cluster
yang paling sesuai untuk suatu data tertentu yang secara teori sama dengan proses
pengalokasian data item ke masing-masing cluster. Kelebihan lainnya adalah Mixture
Modelling mempunyai kemampuan untuk mendeteksi keberadaan suatu cluster yang overlap
dengan cluster yang lain. Distribusi statistik yang diterapkan di dalam Mixture Modelling
mempunyai kelebihan dalam menangani masalah overlapping ini. Beberapa perlengkapan
juga memungkinkan untuk ditambahkan dalam mengakomodasi pendeteksian outliers
ataupun menangani bentuk-bentuk cluster yang tidak normal.
Pertanyaan dan Jawaban Pertemuan 11
1. Sebutkan dua jenis pendekatan dalam metode clustering?
Terdapat dua pendekatan yang digunakan dalam pengembangan metode clustering
yaitu pendekatan partisi dan clustering dengan pendekatan hirarki. Clustering dengan
pendakatan partisi (partition-based clustering) adalah pengelompokkan data dengan
mengklasterisasi data yang akan dinalisis ke dalam cluster-cluster yang telah ada.
Clustering dengan pendekatan hirarki (hierarchical clustering) adalah
pengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data
yang mirip akan ditempatka pada hirarki yang berdekatan dan yang tidak pada hirarki
yang berjauhan.

2. Sebutkan contoh penerapan dari metode clustering?


Clustering banyak digunakan dalam berbagai aplikasi seperti business intelligence,
pengenalan pola citra, pencarian situs, bidang ilmu biologi, dan untuk security. Di
dalam business intelligence, pengelompokkan bisa mengatur banyak customer ke
dalam banyak kelompok. Contoh penerapan metode clustering adalah mengelompokkan
customer ke dalam beberapa cluster dengan kesamaan karakteristik yang kuat.

3. Sebutkan dan jelaskan kelebihan dari Mixture Modelling K-Means?


Terdapat beberapa kelebihan dari Mixture Modelling K-Means:
 Adanya pengembangan metode penentuan jumlah cluster yang paling sesuai
untuk suatu data tertentu yang secara teori sama dengan proses pengalokasian
data item ke masing-masing cluster.
 Mixture Modelling dapat mendeteksi keberadaan suatu cluster yang overlap
dengan cluster yang lain.
 Dalam distribusi statistic, Mixture Modelling mempunyai kelebihan dalam
menangani masalah overlapping. Beberapa perlengkapan juga memungkinkan
untuk ditambahkan dalam mengakomodasi pendeteksian outliers ataupun
menangani bentuk-bentuk cluster yang tidak normal.

Anda mungkin juga menyukai