Clustering EM

MAKALAH
IMPLEMENTASI DAN ANALISIS ALGORITMA

CLUSTERING EXPECTATION–MAXIMIZATION (EM)
Disusun untuk memenuhi tugas mata kuliah Algoritma dan Pemrograman
Dosen Pengampu :
Dr.Muhammad Faisal,S.Kom,M.T
Disusun Oleh:
Siti Nur Maghfiroh
(220605110036)
PROGAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM
MALANG
2022
1
DAFTAR ISI
DAFTAR ISI.................................................................................................................................i
Abstrak........................................................................................................................................1
Pendahuluan................................................................................................................................2
Landasan Teori...........................................................................................................................5
Algoritma Expectation-maximization....................................................................................5
Metode.........................................................................................................................................9
Gambaran Umum Sistem.......................................................................................................9
Arsitektur Sistem..................................................................................................................10
Diagram Alir Sistem.............................................................................................................11
Implementasi.............................................................................................................................12
Analisis.......................................................................................................................................15
Kesimpulan dan Saran.............................................................................................................17
Kesimpulan............................................................................................................................17
Saran......................................................................................................................................18
Daftar Pustaka.............................................................................................................................ii
i
Algoritma Expectation
Implementasi dan Analisis Algoritma Clustering Expectation–

maximization (EM)
Siti Nur Maghfiroh
Universitas Islam Negeri Maulana Malik Ibrahim Malang
maghfirohnur92@gmail.com
Abstrak
Banyak alat pencarian yang pada umum nya menampilkan dokumen
banyak hasil pencarian sesuai dengan urutan dokumen (documen ranking)
tanpa mengelompok kan atau meng-kategorikan dokumen sesuai dengan
kemiripan dokumen. Dengan jumlah dokumen yang besar akan
memberikan banyak dampak negatif bagi pengguna, yaitu dibutuhkan
waktu yang relatif lama untuk memilih dokumen yang sesuai dengan
kebutuhan pengguna. Untuk mempermudah pengguna dalam mencari
informasi pada kumpulan dokumen yang cukup besar, salah satu solusinya
yaitu dengan cara mengelompokkan dokumen hasil pencarian sesuai dengan
keyword yang diinputkan oleh pengguna. Dengan adanya pengelompokan
dokumen hasil pencarian ini, maka pengguna tidak perlu membuka halaman
terlalu banyak karena dokumen hasil pencarian telah dikelompokkan
berdasarkan kemiripan dokumen-dokumen tersebut.
1
Salah satu algoritma particional yang dapat mengelompokkan
dokumen yang belum berlabel adalah Expectation-Maximization, yaitu
algoritma yang berfungsi untuk menemukan nilai Maximum Likelihood
dari parameter dalam sebuah model probabilistik. Ciri-ciri dari algoritma ini
adalah dapat mengelompokkan dokumen yang belum berlabel atau
unlabeled data dan juga hasil pengelompokannya akan selalu convergence.
Kesimpulan nya bahwa algoritma EM dapat mengelompokkan dokumen
hasil pencarian, hal ini dapat membantu pengguna untuk mencari dokumen
yang diharapkan. Akurasi tertinggi mencapai 70% dan terendah 32.58%.
Penambahan algoritma stemming Arifin Setiono mampu meningkatkan
performansi algoritma EM hingga 10%.
Kata Kunci: Clustering, Expectation-Maximization, Unsupervised,
Stemming
Pendahuluan
Banyak Alat pencarian yang ada saat ini umumnya memperlihatkan
dokumen hasil pencarian menurut peringkatnya (document ranking)
daripada mengelompokkan atau mengklasifikasikan dokumen menurut
2
kesamaan dokumen. Repositori adalah satu dari fitur pencarian dokumen
yang menampilkan banyak hasil pencarian dalam urutan dokumen.
Repositori ini berfungsi sebagai mesin pencari dokumen tugas akhir, jurnal,
makalah, artikel ilmiah, dan dokumen penelitian lainnya. Mencari dokumen
di repositori ini biasanya mengembalikan hasil pencarian dalam jumlah
besar. Jumlah dokumen yang banyak berdampak tidak baik bagi pengguna
karena membutuhkan waktu yang sangat lama untuk mengurutkan
dokument sesuai dengan kebutuhan para pengguna.
Salah satu solusi agar memudahkan pengguna menemukan informasi pada
kumpulan dokumen yang sangat banyak adalah mengelompokkan hasil
pencarian berdasarkan kata kunci yang dimasukkan oleh pengguna. Dengan
pengelompokan dokumen hasil pencarian ini, pengguna tidak perlu
membuka terlalu banyak halaman karena dokumen hasil pencarian
dikelompokkan berdasarkan kemiripannya. Salah satu cara
mengelompokkan
dokumen adalah dengan metode clustering. Pengelompokan dokumen atau
document clustering adalah suatu metode yang digunakan untuk
mengelompokkan dokumen ke dalam kelompok atau cluster berdasarkan
kemiripan dokumen sehingga dokumen-dokumen yang berhubungan
3
ditempatkan dalam satu cluster yang sama. Ada beberapa algoritma
pengelompokan yang terkenal. split (maksimalisasi ekspektasi, k-means)
dan hierarki (linkage pusat, linkage tunggal), overlap (fuzzy c-means), dan
hybrid. Karena hasil pencarian
dokumen tersebut merupakan dokumen yang tidak diberi tag dan berbeda-
beda sesuai dengan kata kunci yang dimasukkan oleh pengguna, maka hasil
pengelompokan dokumen tersebut juga berbeda-beda sesuai dengan
kemiripan dokumennya. Algoritma yang dapat menangani pengelompokan
arbitrer ini adalah algoritma pemisahan. Algoritme partisi memungkinkan
dokumen menjadi anggota grup atau kluster dalam satu proses, tetapi
memindahkan dokumen ke kluster lain dalam proses berikutnya.
Salah satu algoritma pemisahan yang dapat mengelompokkan dokumen
tanpa label adalah Maksimalisasi Ekspektasi. Ini adalah algoritma yang
digunakan untuk menemukan perkiraan kemungkinan maksimum parameter
dalam model probabilistik. Keunikan dari algoritma ini adalah dapat
mengelompokkan dokumen yang tidak diberi tanda atau data yang tidak
diberi tanda. Selain itu, hasil pengelompokan selalu konvergen. Algoritma
memiliki dua tahap, yaitu tahap ekspektasi dan tahap maksimalisasi. Fase
ekspektasi (langkah E) menggunakan algoritma Naive Bayes untuk
4
mengelompokkan data berdasarkan parameter model. Selama tahap
maksimalisasi (langkah M), pembaruan parameter model dilakukan. Tahap
E-step dan M-step berlanjut hingga probabilitas untuk setiap cluster
mencapai konvergensi.
Sebelum mengelompokkan dokumen, diperlukan beberapa proses
preprocessing seperti sanitization, tokenization, parsing, stopword removal,
dan stemming. Proses ini diperlukan untuk mengurangi jumlah kata yang
diproses selama pengelompokan. Untuk memberi tag pada kluster, temukan
tag aktual yang paling sering muncul di kluster dan gunakan tag tersebut
sebagai tag kluster.
Landasan Teori
Algoritma Expectation-maximization
Ekspektasi Maksimalisasi (EM) adalah algoritma partisi berbasis model
yang, seperti kebanyakan algoritma pengelompokan lainnya, menggunakan
probabilitas, bukan jarak. Jika parameter utama pada algoritma K-Means
adalah centroid, maka parameter utama EM adalah qmk dan αk untuk
mendapatkan nilai rnk yaitu H. probabilitas bahwa dokumen n berada
dalam k cluster, atau probabilitas bahwa terdapat n dokumen dalam cluster
5
k. Langkah-langkah algoritma EM adalah sebagai berikut:Guess Model
Parameter
Proses ini adalah melakukan penebakan nilai probabilitas data
terhadap sebuah klaster. Langkah guess pertama adalah Guess
probability data klaster sebagai model parameter. Inisialisasi nilai
probabilitas pada data kata dilakukan secara random/ acak [11].
Untuk probabilitas klaster, totalnya hasus selalu bernilai 1.
Table 2-1 Tabel Guess Model Parameter
Dimana pada tahap ini akan ditebak nilai parameter qmk dan αk
a. Expectation Step
Dimana:
- rnk adalah nilai probabilitas setiap dokumen nterhadap masing-
masing cluster atau nilai probabilitas cluster k terhadap sebuah
dokumen.
- adalah probabilitas total term
terhadap sebuah klaster
6
- adalahnilai total probabilitas
semua termterhadap semua klaster.
Setelah rnkdidapat, maka akan dihitung Frequency Counts
b. Maximization Step
Dimana:
- qmk adalah nilai probabilitas termm terhadap sebuah klaster dimana
term m tersebut merupakan anggota dari suatu dokumen n.
- adalah frequency Counts, probabilitas
klaster k terhadap semua dokumen yang mempunyai term m sebagai
anggotanya (nilai term m = 1).
- adalah Probabilitas sebuah cluster k terhadap
semua dokumen.
Kemudian dihitung probabilitas sebuah klaster k:
7
Dimana N adalah probabilitas total klaster Secara singkat, langkah
langkah pengelompokan dokumen dengan algoritma Unsupervised
EM adalah:
1. Guess Initial Model Parameter
2. Compute Expected Frequency Given
- Probabilitas total term terhadap sebuah klaster:
Frequency Counts
3. Find MLE given Expexted Frequency
- Nilai probabilitas term m terhadap sebuah klaster dimana term
m tersebut merupakan anggota dari suatu dokumen n:
- Probabilitas sebuah klaster k:
4. Ulangi langkah 2 dan 3 sampai Convergence. Nilai probabilitas
klaster data bersifat Convergence jika pengupdetan probabilitas
data terhadap klaster data tidak berubah-ubah lagi. Dengan kata
8
lain nilai probabilitas dokumen terhadap sebuah klaster sudah
bernilai 1.
Langkah 1: Tentukan nilai threshold. Semakin kecil nilai
threshold maka semakin dekat dengan convergence. Dalam hal
ini nilai threshold nya adalah nol.
Langkah 2: Hitung nilai Means Square Error dengan
menggunakan rumus:
Langkah 3: Bandingkan Nilai MSE dengan threshold
Jika maka konvergen dan iterasi berhenti.
9
Metode
Gambaran Umum Sistem
Sistem yang dibangun merupakan sistem yang dapat mengklasifikasikan
hasil pencarian pengguna. Dalam pengelompokan, sistem menggunakan
algoritma maksimalisasi ekspektasi Naive Bayes untuk mengumpulkan data
bebas model dari data pelatihan, pengelompokan ini didasarkan pada
parameter model yang diacak pada fase pra-e.
Sistem ini memproses dokumen yang terdiri dari judul, ringkasan dan kata
kunci. Dokumen-dokumen ini dikelompokkan berdasarkan ringkasan.
Dokumen-dokumen yang dimasukkan ke dalam database melalui proses
pre-processing, dimana hasilnya berupa kumpulan istilah atau kata.
Parameter input dari proses clustering adalah pertanyaan, dapat diturunkan
atau tidak, dan jumlah cluster (K). Ketika pengguna melakukan pencarian,
sistem menampilkan dokumen hitlist yang dikelompokkan menjadi
beberapa cluster sesuai dengan jumlah cluster yang dimasukkan, dan cluster
ini diberi nama, di mana pengenalnya adalah judul dokumen yang paling
sering muncul di cluster.
10
Arsitektur Sistem
Pertama, pengguna memasukkan permintaan pencarian (dengan atau tanpa
root) dan jumlah cluster. Sistem kemudian memproses parameter input dan
menyajikan hasil pencarian yang dikelompokkan dan diberi label.
11
Diagram Alir Sistem
12
A. Pretreatment
Tahap preprocessing adalah tahap dimana dokumen diubah menjadi
kondisi. Ada beberapa proses dalam langkah ini, yaitu pembersihan,
tokenisasi, parsing, penghentian penghapusan kata, dan deduplikasi.
b. kekelompokan
Fase cluster adalah fase pengelompokan dokumen berbasis abstrak. Ada
beberapa proses utama dalam langkah ini, yaitu Tebak Parameter Model, E-
Step dan M-Step.
c. tanda
Ketika proses clustering selesai, diperoleh sebuah cluster yang telah
memiliki satu atau lebih anggota. Masing-masing klaster ini kemudian
diberi nama, biasanya disebut sebagai label. Tujuan dari nama tag adalah
untuk mendeskripsikan isi dari semua dokumen di setiap cluster. Nama tag
ini ditentukan oleh jumlah tag sebenarnya di cluster.
Implementasi
Sistem pengelompokan dokumen memiliki empat proses
utama, yaitu preprocessing, retrieval, EM grouping, dan tagging.
13
Data input berupa teks yang merupakan abstrak data proyek
kelulusan S1 Universitas Telekom. Abstraksi melewati langkah-
langkah preprocessing yaitu cleaning, tokenization, parsing dan
stopword removal (penghapusan). Kemudian proses turunan
dijalankan saat pengguna memilih proses turunan
(IsStemming="True"), dan proses tersebut dilewati saat pengguna
tidak memilih proses turunan (IsStemming="False"). Kemudian
pengguna melakukan pencarian dengan mengetikkan pertanyaan,
IsStemming, dan jumlah cluster. Dokumen-dokumen yang
terdapat dalam hit list dikelompokkan menjadi beberapa cluster
sesuai input pengguna menggunakan algoritma EM. Cluster
tersebut kemudian diberi label dengan label yang paling sering
muncul di setiap cluster. Tabel berikut merupakan tabel dengan
fungsi utama dari sistem.
No Proses Fungsi Ket
1. Preprocessing function cleansing() Fungsi untuk menghilangkan

karakterkarakter selain huruf
seperti tanda baca, dan simbol
14
function tokenizing() Fungsi untuk mengubah semua
huruf dalam dokumen menjadi
huruf kecil. Huruf yang diterima
hanya huruf „a‟ sampai dengan
„z‟
function parsing() Fungsi untuk mengubah dokumen
menjadi kumpulan kata atau daftar
kata (term)
function stopword() Fungsi untuk membuang katakata

yang sering muncul dan tidak
memiliki arti deskriptif terhadap
isi dokumen. Katakata yang
termasuk dalam stopwords,
misalnya kata „yang‟, „di‟, „dari‟
dan sebagainya
function stemming() Fungsi untuk mencari root atau
kata dasar dari setiap kata hasil
stopwords removal
2. Searching Function search() Fungsi untuk mengidentifikasi
dokumendokumen yang
diinginkan oleh user sesuai dengan
Query yang diinputkan
3. Clustering EM function EM() Fungsi untuk melakukan
pengelompokan dokumen hasil
pencarian kedalam beberapa
klaster
15
4. Pelabelan Function Fungsi untuk memberikan label
terhadap setiap klaster yang
labelfromDB()
terbentuk
16
Analisis Algoritma Expectation-maximization
Mengelompokkan hasil pencarian menggunakan algoritma maksimalisasi
harapan dalam sistem ini membantu mengelompokkan dokumen yang tidak
berlabel dan tidak berlabel.
Hasil percobaan untuk dokumen yang mengelompokkan total 5 dokumen
dalam total 2 cluster menunjukkan nilai F akurasi 0,7 atau 70% untuk data
historis dan nilai F akurasi 0,6 atau 60% untuk dokumen tidak berstempel.
Namun untuk total 8 dokumen dengan 3 cluster dan 18 dokumen dengan 4
cluster, nilai F menurun menjadi 0,4894 dan 0,3408 untuk data dengan data
historis dan 0,4494 dan 0,3258 untuk data tanpa data historis.
Gambar 5-1 Bagan ukuran F
17
Pada gambar di atas, kita dapat melihat bahwa rata-rata nilai ukuran F untuk
data bertangkai adalah tinggi. Hal ini disebabkan oleh proses stemming
yang digunakan untuk menemukan kata dasar berafiks. Sebuah properti dari
algoritma EM, yang beroperasi tanpa pengawasan, adalah bahwa frekuensi
kata tidak mempengaruhi proses pengelompokan dokumen. Mengubah
tambahan ke istilah dasar dapat mengurangi jumlah kata atau istilah yang
akan diproses. Ini memungkinkan Anda untuk menyeimbangkan
kemungkinan kata-kata yang menjelaskan konten dokumen dengan kata-
kata yang tidak menjelaskan konten dokumen. Sebagai contoh, jika kata
“clustering” muncul 10 kali dalam dokumen, dan kata “try” dan “try”
masing-masing muncul 10 kali dalam dokumen, maka setelah melalui
proses stemming, kemungkinan kata dasar “try” " adalah Ini akan menjadi
sebagai berikut. " dan "Clustering" harus sama atau seimbang.
Dalam pengujian di atas, ada 5 percobaan per kueri. Hal ini disebabkan
istilah probabilitas awal (qmk) dan probabilitas cluster awal ( Hal ini karena
penggunaan nilai acak dalam parameter model Tebak dari αk) mengubah
nilai ukuran-F. Akurasi pengelompokan sangat bergantung pada estimasi
awal qmk dan αk.
18
Berdasarkan latar belakang penelitian bahwa hasil pencarian ditampilkan
dalam urutan dokumen atau peringkat dokumen, ketika menerapkan
pengelompokan hasil pencarian menggunakan algoritma maksimalisasi
harapan, hasil pencarian dikelompokkan berdasarkan kedekatan dokumen.
Ini memungkinkan pengguna untuk mengurutkan dokumen yang ingin
mereka cari.
Kesimpulan dan Saran
Kesimpulan
Kesimpulan dari hasil implementasi dan analisis algoritma clustering
expection-maximization pada data adalah:
1.Menggunakan Pemeringkatan Dokumen dengan Pengelompokan
Terapkan menampilkan dokumen dalam hasil pencarian menggunakan
algoritme pemaksimalan harapan, memungkinkan Anda mengelompokkan
hasil pencarian dokumen menurut kedekatan dokumen. Ini memungkinkan
pengguna untuk mengurutkan dokumen yang ingin mereka cari.
19
2. Akurasi rata-rata terbaik untuk algoritma Clustering Expectation
Mazimization adalah 70% pada pumped data dan 60% pada unpumped
data. Akurasi rata-rata terendah adalah 34,08% untuk data dengan data
historis dan 32,58% untuk data tanpa data historis. Akurasi rata-rata
ditentukan dari 5 percobaan untuk setiap kata kunci.
Saran
Untuk meningkatkan performa algoritma Clustering Expectation-
Maximization, kami merekomendasikan penambahan sinonim untuk proses
pemilihan fitur dan kata-kata untuk mengurangi term yang tidak
mencerminkan isi dokumen untuk hasil yang optimal.
20
Daftar Pustaka
ANGGRAINI, E. N. (2020). BIG DATA: CLUSTERING MENGGUNAKAN
ALGORITMA EXPECTATION-MAXIMIZATION DENGAN
GAUSSIANS MIXTURE MODELS UNTUK ANALISIS PRODUK
TREN DARI E-COMMERCE DI INDONESIA.
Sirait, R. E. D., Darwiyanto, E., & Suwawi, D. D. J. (2015). Implementasi Dan Analisis
Algoritma Clustering Expectationâ€“maximization (em) Pada Data Tugas
Akhir Universitas Telkom. eProceedings of Engineering, 2(2).
Susilawati, U. (2011). Penerapan metode penggerombolan berdasarkan gaussian mixture
models dengan menggunakan algoritma expectation maximization.
ii

Clustering EM

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Clustering EM

Diunggah oleh

Hak Cipta:

Format Tersedia

MAKALAH

IMPLEMENTASI DAN ANALISIS ALGORITMA

Disusun untuk memenuhi tugas mata kuliah Algoritma dan Pemrograman

PROGAM STUDI TEKNIK INFORMATIKA

Implementasi dan Analisis Algoritma Clustering Expectation–

banyak hasil pencarian sesuai dengan urutan dokumen (documen ranking)

tanpa mengelompok kan atau meng-kategorikan dokumen sesuai dengan

kemiripan dokumen. Dengan jumlah dokumen yang besar akan

memberikan banyak dampak negatif bagi pengguna, yaitu dibutuhkan

kebutuhan pengguna. Untuk mempermudah pengguna dalam mencari

yaitu dengan cara mengelompokkan dokumen hasil pencarian sesuai dengan

keyword yang diinputkan oleh pengguna. Dengan adanya pengelompokan

terlalu banyak karena dokumen hasil pencarian telah dikelompokkan

berdasarkan kemiripan dokumen-dokumen tersebut.

dokumen yang belum berlabel adalah Expectation-Maximization, yaitu

algoritma yang berfungsi untuk menemukan nilai Maximum Likelihood

adalah dapat mengelompokkan dokumen yang belum berlabel atau

unlabeled data dan juga hasil pengelompokannya akan selalu convergence.

Kesimpulan nya bahwa algoritma EM dapat mengelompokkan dokumen

yang diharapkan. Akurasi tertinggi mencapai 70% dan terendah 32.58%.

Penambahan algoritma stemming Arifin Setiono mampu meningkatkan

performansi algoritma EM hingga 10%.

Kata Kunci: Clustering, Expectation-Maximization, Unsupervised,

Banyak Alat pencarian yang ada saat ini umumnya memperlihatkan

dokumen hasil pencarian menurut peringkatnya (document ranking)

daripada mengelompokkan atau mengklasifikasikan dokumen menurut

yang menampilkan banyak hasil pencarian dalam urutan dokumen.

makalah, artikel ilmiah, dan dokumen penelitian lainnya. Mencari dokumen

di repositori ini biasanya mengembalikan hasil pencarian dalam jumlah

karena membutuhkan waktu yang sangat lama untuk mengurutkan

dokument sesuai dengan kebutuhan para pengguna.

Salah satu solusi agar memudahkan pengguna menemukan informasi pada

kumpulan dokumen yang sangat banyak adalah mengelompokkan hasil

pencarian berdasarkan kata kunci yang dimasukkan oleh pengguna. Dengan

pengelompokan dokumen hasil pencarian ini, pengguna tidak perlu

membuka terlalu banyak halaman karena dokumen hasil pencarian

dikelompokkan berdasarkan kemiripannya. Salah satu cara

dokumen adalah dengan metode clustering. Pengelompokan dokumen atau

document clustering adalah suatu metode yang digunakan untuk

mengelompokkan dokumen ke dalam kelompok atau cluster berdasarkan

kemiripan dokumen sehingga dokumen-dokumen yang berhubungan

pengelompokan yang terkenal. split (maksimalisasi ekspektasi, k-means)

hybrid. Karena hasil pencarian

pengelompokan dokumen tersebut juga berbeda-beda sesuai dengan

kemiripan dokumennya. Algoritma yang dapat menangani pengelompokan

arbitrer ini adalah algoritma pemisahan. Algoritme partisi memungkinkan

memindahkan dokumen ke kluster lain dalam proses berikutnya.

Salah satu algoritma pemisahan yang dapat mengelompokkan dokumen

tanpa label adalah Maksimalisasi Ekspektasi. Ini adalah algoritma yang

digunakan untuk menemukan perkiraan kemungkinan maksimum parameter

dalam model probabilistik. Keunikan dari algoritma ini adalah dapat

diberi tanda. Selain itu, hasil pengelompokan selalu konvergen. Algoritma

ekspektasi (langkah E) menggunakan algoritma Naive Bayes untuk

maksimalisasi (langkah M), pembaruan parameter model dilakukan. Tahap

E-step dan M-step berlanjut hingga probabilitas untuk setiap cluster

Sebelum mengelompokkan dokumen, diperlukan beberapa proses

preprocessing seperti sanitization, tokenization, parsing, stopword removal,

diproses selama pengelompokan. Untuk memberi tag pada kluster, temukan

sebagai tag kluster.

Ekspektasi Maksimalisasi (EM) adalah algoritma partisi berbasis model

yang, seperti kebanyakan algoritma pengelompokan lainnya, menggunakan

probabilitas, bukan jarak. Jika parameter utama pada algoritma K-Means

adalah centroid, maka parameter utama EM adalah qmk dan αk untuk