Anda di halaman 1dari 23

MAKALAH

IMPLEMENTASI DAN ANALISIS ALGORITMA


CLUSTERING EXPECTATION–MAXIMIZATION (EM)

Disusun untuk memenuhi tugas mata kuliah Algoritma dan Pemrograman

Dosen Pengampu :
Dr.Muhammad Faisal,S.Kom,M.T

Disusun Oleh:
Siti Nur Maghfiroh
(220605110036)

PROGAM STUDI TEKNIK INFORMATIKA


FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM
MALANG

2022

1
DAFTAR ISI

DAFTAR ISI.................................................................................................................................i
Abstrak........................................................................................................................................1
Pendahuluan................................................................................................................................2
Landasan Teori...........................................................................................................................5
Algoritma Expectation-maximization....................................................................................5
Metode.........................................................................................................................................9
Gambaran Umum Sistem.......................................................................................................9
Arsitektur Sistem..................................................................................................................10
Diagram Alir Sistem.............................................................................................................11
Implementasi.............................................................................................................................12
Analisis.......................................................................................................................................15
Kesimpulan dan Saran.............................................................................................................17
Kesimpulan............................................................................................................................17
Saran......................................................................................................................................18
Daftar Pustaka.............................................................................................................................ii

i
Algoritma Expectation

Implementasi dan Analisis Algoritma Clustering Expectation–


maximization (EM)
Siti Nur Maghfiroh
Universitas Islam Negeri Maulana Malik Ibrahim Malang
maghfirohnur92@gmail.com

Abstrak
Banyak alat pencarian yang pada umum nya menampilkan dokumen

banyak hasil pencarian sesuai dengan urutan dokumen (documen ranking)

tanpa mengelompok kan atau meng-kategorikan dokumen sesuai dengan

kemiripan dokumen. Dengan jumlah dokumen yang besar akan

memberikan banyak dampak negatif bagi pengguna, yaitu dibutuhkan

waktu yang relatif lama untuk memilih dokumen yang sesuai dengan

kebutuhan pengguna. Untuk mempermudah pengguna dalam mencari

informasi pada kumpulan dokumen yang cukup besar, salah satu solusinya

yaitu dengan cara mengelompokkan dokumen hasil pencarian sesuai dengan

keyword yang diinputkan oleh pengguna. Dengan adanya pengelompokan

dokumen hasil pencarian ini, maka pengguna tidak perlu membuka halaman

terlalu banyak karena dokumen hasil pencarian telah dikelompokkan

berdasarkan kemiripan dokumen-dokumen tersebut.

1
Salah satu algoritma particional yang dapat mengelompokkan

dokumen yang belum berlabel adalah Expectation-Maximization, yaitu

algoritma yang berfungsi untuk menemukan nilai Maximum Likelihood

dari parameter dalam sebuah model probabilistik. Ciri-ciri dari algoritma ini

adalah dapat mengelompokkan dokumen yang belum berlabel atau

unlabeled data dan juga hasil pengelompokannya akan selalu convergence.

Kesimpulan nya bahwa algoritma EM dapat mengelompokkan dokumen

hasil pencarian, hal ini dapat membantu pengguna untuk mencari dokumen

yang diharapkan. Akurasi tertinggi mencapai 70% dan terendah 32.58%.

Penambahan algoritma stemming Arifin Setiono mampu meningkatkan

performansi algoritma EM hingga 10%.

Kata Kunci: Clustering, Expectation-Maximization, Unsupervised,

Stemming

Pendahuluan

Banyak Alat pencarian yang ada saat ini umumnya memperlihatkan

dokumen hasil pencarian menurut peringkatnya (document ranking)

daripada mengelompokkan atau mengklasifikasikan dokumen menurut

2
kesamaan dokumen. Repositori adalah satu dari fitur pencarian dokumen

yang menampilkan banyak hasil pencarian dalam urutan dokumen.

Repositori ini berfungsi sebagai mesin pencari dokumen tugas akhir, jurnal,

makalah, artikel ilmiah, dan dokumen penelitian lainnya. Mencari dokumen

di repositori ini biasanya mengembalikan hasil pencarian dalam jumlah

besar. Jumlah dokumen yang banyak berdampak tidak baik bagi pengguna

karena membutuhkan waktu yang sangat lama untuk mengurutkan

dokument sesuai dengan kebutuhan para pengguna.

Salah satu solusi agar memudahkan pengguna menemukan informasi pada

kumpulan dokumen yang sangat banyak adalah mengelompokkan hasil

pencarian berdasarkan kata kunci yang dimasukkan oleh pengguna. Dengan

pengelompokan dokumen hasil pencarian ini, pengguna tidak perlu

membuka terlalu banyak halaman karena dokumen hasil pencarian

dikelompokkan berdasarkan kemiripannya. Salah satu cara

mengelompokkan

dokumen adalah dengan metode clustering. Pengelompokan dokumen atau

document clustering adalah suatu metode yang digunakan untuk

mengelompokkan dokumen ke dalam kelompok atau cluster berdasarkan

kemiripan dokumen sehingga dokumen-dokumen yang berhubungan

3
ditempatkan dalam satu cluster yang sama. Ada beberapa algoritma

pengelompokan yang terkenal. split (maksimalisasi ekspektasi, k-means)

dan hierarki (linkage pusat, linkage tunggal), overlap (fuzzy c-means), dan

hybrid. Karena hasil pencarian

dokumen tersebut merupakan dokumen yang tidak diberi tag dan berbeda-

beda sesuai dengan kata kunci yang dimasukkan oleh pengguna, maka hasil

pengelompokan dokumen tersebut juga berbeda-beda sesuai dengan

kemiripan dokumennya. Algoritma yang dapat menangani pengelompokan

arbitrer ini adalah algoritma pemisahan. Algoritme partisi memungkinkan

dokumen menjadi anggota grup atau kluster dalam satu proses, tetapi

memindahkan dokumen ke kluster lain dalam proses berikutnya.

Salah satu algoritma pemisahan yang dapat mengelompokkan dokumen

tanpa label adalah Maksimalisasi Ekspektasi. Ini adalah algoritma yang

digunakan untuk menemukan perkiraan kemungkinan maksimum parameter

dalam model probabilistik. Keunikan dari algoritma ini adalah dapat

mengelompokkan dokumen yang tidak diberi tanda atau data yang tidak

diberi tanda. Selain itu, hasil pengelompokan selalu konvergen. Algoritma

memiliki dua tahap, yaitu tahap ekspektasi dan tahap maksimalisasi. Fase

ekspektasi (langkah E) menggunakan algoritma Naive Bayes untuk

4
mengelompokkan data berdasarkan parameter model. Selama tahap

maksimalisasi (langkah M), pembaruan parameter model dilakukan. Tahap

E-step dan M-step berlanjut hingga probabilitas untuk setiap cluster

mencapai konvergensi.

Sebelum mengelompokkan dokumen, diperlukan beberapa proses

preprocessing seperti sanitization, tokenization, parsing, stopword removal,

dan stemming. Proses ini diperlukan untuk mengurangi jumlah kata yang

diproses selama pengelompokan. Untuk memberi tag pada kluster, temukan

tag aktual yang paling sering muncul di kluster dan gunakan tag tersebut

sebagai tag kluster.

Landasan Teori
Algoritma Expectation-maximization

Ekspektasi Maksimalisasi (EM) adalah algoritma partisi berbasis model

yang, seperti kebanyakan algoritma pengelompokan lainnya, menggunakan

probabilitas, bukan jarak. Jika parameter utama pada algoritma K-Means

adalah centroid, maka parameter utama EM adalah qmk dan αk untuk

mendapatkan nilai rnk yaitu H. probabilitas bahwa dokumen n berada

dalam k cluster, atau probabilitas bahwa terdapat n dokumen dalam cluster

5
k. Langkah-langkah algoritma EM adalah sebagai berikut:Guess Model

Parameter

Proses ini adalah melakukan penebakan nilai probabilitas data

terhadap sebuah klaster. Langkah guess pertama adalah Guess

probability data klaster sebagai model parameter. Inisialisasi nilai

probabilitas pada data kata dilakukan secara random/ acak [11].

Untuk probabilitas klaster, totalnya hasus selalu bernilai 1.

Table 2-1 Tabel Guess Model Parameter

Dimana pada tahap ini akan ditebak nilai parameter qmk dan αk
a. Expectation Step

Dimana:

- rnk adalah nilai probabilitas setiap dokumen nterhadap masing-

masing cluster atau nilai probabilitas cluster k terhadap sebuah

dokumen.

- adalah probabilitas total term

terhadap sebuah klaster

6
- adalahnilai total probabilitas

semua termterhadap semua klaster.

Setelah rnkdidapat, maka akan dihitung Frequency Counts

b. Maximization Step

Dimana:

- qmk adalah nilai probabilitas termm terhadap sebuah klaster dimana

term m tersebut merupakan anggota dari suatu dokumen n.

- adalah frequency Counts, probabilitas

klaster k terhadap semua dokumen yang mempunyai term m sebagai

anggotanya (nilai term m = 1).

- adalah Probabilitas sebuah cluster k terhadap

semua dokumen.

Kemudian dihitung probabilitas sebuah klaster k:

7
Dimana N adalah probabilitas total klaster Secara singkat, langkah

langkah pengelompokan dokumen dengan algoritma Unsupervised

EM adalah:

1. Guess Initial Model Parameter

2. Compute Expected Frequency Given

- Probabilitas total term terhadap sebuah klaster:

Frequency Counts

3. Find MLE given Expexted Frequency

- Nilai probabilitas term m terhadap sebuah klaster dimana term

m tersebut merupakan anggota dari suatu dokumen n:

- Probabilitas sebuah klaster k:

4. Ulangi langkah 2 dan 3 sampai Convergence. Nilai probabilitas

klaster data bersifat Convergence jika pengupdetan probabilitas

data terhadap klaster data tidak berubah-ubah lagi. Dengan kata

8
lain nilai probabilitas dokumen terhadap sebuah klaster sudah

bernilai 1.

Langkah 1: Tentukan nilai threshold. Semakin kecil nilai

threshold maka semakin dekat dengan convergence. Dalam hal

ini nilai threshold nya adalah nol.

Langkah 2: Hitung nilai Means Square Error dengan

menggunakan rumus:

Langkah 3: Bandingkan Nilai MSE dengan threshold

Jika maka konvergen dan iterasi berhenti.

9
Metode
Gambaran Umum Sistem

Sistem yang dibangun merupakan sistem yang dapat mengklasifikasikan

hasil pencarian pengguna. Dalam pengelompokan, sistem menggunakan

algoritma maksimalisasi ekspektasi Naive Bayes untuk mengumpulkan data

bebas model dari data pelatihan, pengelompokan ini didasarkan pada

parameter model yang diacak pada fase pra-e.

Sistem ini memproses dokumen yang terdiri dari judul, ringkasan dan kata

kunci. Dokumen-dokumen ini dikelompokkan berdasarkan ringkasan.

Dokumen-dokumen yang dimasukkan ke dalam database melalui proses

pre-processing, dimana hasilnya berupa kumpulan istilah atau kata.

Parameter input dari proses clustering adalah pertanyaan, dapat diturunkan

atau tidak, dan jumlah cluster (K). Ketika pengguna melakukan pencarian,

sistem menampilkan dokumen hitlist yang dikelompokkan menjadi

beberapa cluster sesuai dengan jumlah cluster yang dimasukkan, dan cluster

ini diberi nama, di mana pengenalnya adalah judul dokumen yang paling

sering muncul di cluster.

10
Arsitektur Sistem

Pertama, pengguna memasukkan permintaan pencarian (dengan atau tanpa

root) dan jumlah cluster. Sistem kemudian memproses parameter input dan

menyajikan hasil pencarian yang dikelompokkan dan diberi label.

11
Diagram Alir Sistem

12
A. Pretreatment

Tahap preprocessing adalah tahap dimana dokumen diubah menjadi

kondisi. Ada beberapa proses dalam langkah ini, yaitu pembersihan,

tokenisasi, parsing, penghentian penghapusan kata, dan deduplikasi.

b. kekelompokan

Fase cluster adalah fase pengelompokan dokumen berbasis abstrak. Ada

beberapa proses utama dalam langkah ini, yaitu Tebak Parameter Model, E-

Step dan M-Step.

c. tanda

Ketika proses clustering selesai, diperoleh sebuah cluster yang telah

memiliki satu atau lebih anggota. Masing-masing klaster ini kemudian

diberi nama, biasanya disebut sebagai label. Tujuan dari nama tag adalah

untuk mendeskripsikan isi dari semua dokumen di setiap cluster. Nama tag

ini ditentukan oleh jumlah tag sebenarnya di cluster.

Implementasi

Sistem pengelompokan dokumen memiliki empat proses

utama, yaitu preprocessing, retrieval, EM grouping, dan tagging.

13
Data input berupa teks yang merupakan abstrak data proyek

kelulusan S1 Universitas Telekom. Abstraksi melewati langkah-

langkah preprocessing yaitu cleaning, tokenization, parsing dan

stopword removal (penghapusan). Kemudian proses turunan

dijalankan saat pengguna memilih proses turunan

(IsStemming="True"), dan proses tersebut dilewati saat pengguna

tidak memilih proses turunan (IsStemming="False"). Kemudian

pengguna melakukan pencarian dengan mengetikkan pertanyaan,

IsStemming, dan jumlah cluster. Dokumen-dokumen yang

terdapat dalam hit list dikelompokkan menjadi beberapa cluster

sesuai input pengguna menggunakan algoritma EM. Cluster

tersebut kemudian diberi label dengan label yang paling sering

muncul di setiap cluster. Tabel berikut merupakan tabel dengan

fungsi utama dari sistem.

No Proses Fungsi Ket

1. Preprocessing function cleansing() Fungsi untuk menghilangkan


karakterkarakter selain huruf
seperti tanda baca, dan simbol

14
function tokenizing() Fungsi untuk mengubah semua
huruf dalam dokumen menjadi
huruf kecil. Huruf yang diterima
hanya huruf „a‟ sampai dengan
„z‟
function parsing() Fungsi untuk mengubah dokumen
menjadi kumpulan kata atau daftar
kata (term)

function stopword() Fungsi untuk membuang katakata


yang sering muncul dan tidak
memiliki arti deskriptif terhadap
isi dokumen. Katakata yang
termasuk dalam stopwords,
misalnya kata „yang‟, „di‟, „dari‟
dan sebagainya
function stemming() Fungsi untuk mencari root atau
kata dasar dari setiap kata hasil
stopwords removal
2. Searching Function search() Fungsi untuk mengidentifikasi
dokumendokumen yang
diinginkan oleh user sesuai dengan
Query yang diinputkan
3. Clustering EM function EM() Fungsi untuk melakukan
pengelompokan dokumen hasil
pencarian kedalam beberapa
klaster

15
4. Pelabelan Function Fungsi untuk memberikan label
terhadap setiap klaster yang
labelfromDB()
terbentuk

16
Analisis Algoritma Expectation-maximization

Mengelompokkan hasil pencarian menggunakan algoritma maksimalisasi

harapan dalam sistem ini membantu mengelompokkan dokumen yang tidak

berlabel dan tidak berlabel.

Hasil percobaan untuk dokumen yang mengelompokkan total 5 dokumen

dalam total 2 cluster menunjukkan nilai F akurasi 0,7 atau 70% untuk data

historis dan nilai F akurasi 0,6 atau 60% untuk dokumen tidak berstempel.

Namun untuk total 8 dokumen dengan 3 cluster dan 18 dokumen dengan 4

cluster, nilai F menurun menjadi 0,4894 dan 0,3408 untuk data dengan data

historis dan 0,4494 dan 0,3258 untuk data tanpa data historis.

Gambar 5-1 Bagan ukuran F

17
Pada gambar di atas, kita dapat melihat bahwa rata-rata nilai ukuran F untuk

data bertangkai adalah tinggi. Hal ini disebabkan oleh proses stemming

yang digunakan untuk menemukan kata dasar berafiks. Sebuah properti dari

algoritma EM, yang beroperasi tanpa pengawasan, adalah bahwa frekuensi

kata tidak mempengaruhi proses pengelompokan dokumen. Mengubah

tambahan ke istilah dasar dapat mengurangi jumlah kata atau istilah yang

akan diproses. Ini memungkinkan Anda untuk menyeimbangkan

kemungkinan kata-kata yang menjelaskan konten dokumen dengan kata-

kata yang tidak menjelaskan konten dokumen. Sebagai contoh, jika kata

“clustering” muncul 10 kali dalam dokumen, dan kata “try” dan “try”

masing-masing muncul 10 kali dalam dokumen, maka setelah melalui

proses stemming, kemungkinan kata dasar “try” " adalah Ini akan menjadi

sebagai berikut. " dan "Clustering" harus sama atau seimbang.

Dalam pengujian di atas, ada 5 percobaan per kueri. Hal ini disebabkan

istilah probabilitas awal (qmk) dan probabilitas cluster awal ( Hal ini karena

penggunaan nilai acak dalam parameter model Tebak dari αk) mengubah

nilai ukuran-F. Akurasi pengelompokan sangat bergantung pada estimasi

awal qmk dan αk.

18
Berdasarkan latar belakang penelitian bahwa hasil pencarian ditampilkan

dalam urutan dokumen atau peringkat dokumen, ketika menerapkan

pengelompokan hasil pencarian menggunakan algoritma maksimalisasi

harapan, hasil pencarian dikelompokkan berdasarkan kedekatan dokumen.

Ini memungkinkan pengguna untuk mengurutkan dokumen yang ingin

mereka cari.

Kesimpulan dan Saran

Kesimpulan

Kesimpulan dari hasil implementasi dan analisis algoritma clustering

expection-maximization pada data adalah:

1.Menggunakan Pemeringkatan Dokumen dengan Pengelompokan

Terapkan menampilkan dokumen dalam hasil pencarian menggunakan

algoritme pemaksimalan harapan, memungkinkan Anda mengelompokkan

hasil pencarian dokumen menurut kedekatan dokumen. Ini memungkinkan

pengguna untuk mengurutkan dokumen yang ingin mereka cari.

19
2. Akurasi rata-rata terbaik untuk algoritma Clustering Expectation

Mazimization adalah 70% pada pumped data dan 60% pada unpumped

data. Akurasi rata-rata terendah adalah 34,08% untuk data dengan data

historis dan 32,58% untuk data tanpa data historis. Akurasi rata-rata

ditentukan dari 5 percobaan untuk setiap kata kunci.

Saran
Untuk meningkatkan performa algoritma Clustering Expectation-

Maximization, kami merekomendasikan penambahan sinonim untuk proses

pemilihan fitur dan kata-kata untuk mengurangi term yang tidak

mencerminkan isi dokumen untuk hasil yang optimal.

20
Daftar Pustaka
ANGGRAINI, E. N. (2020). BIG DATA: CLUSTERING MENGGUNAKAN

ALGORITMA EXPECTATION-MAXIMIZATION DENGAN

GAUSSIANS MIXTURE MODELS UNTUK ANALISIS PRODUK

TREN DARI E-COMMERCE DI INDONESIA.

Sirait, R. E. D., Darwiyanto, E., & Suwawi, D. D. J. (2015). Implementasi Dan Analisis

Algoritma Clustering Expectation–maximization (em) Pada Data Tugas

Akhir Universitas Telkom. eProceedings of Engineering, 2(2).

Susilawati, U. (2011). Penerapan metode penggerombolan berdasarkan gaussian mixture

models dengan menggunakan algoritma expectation maximization.

ii

Anda mungkin juga menyukai