Dosen Pengampu :
Dr.Muhammad Faisal,S.Kom,M.T
Disusun Oleh:
Siti Nur Maghfiroh
(220605110036)
2022
1
DAFTAR ISI
DAFTAR ISI.................................................................................................................................i
Abstrak........................................................................................................................................1
Pendahuluan................................................................................................................................2
Landasan Teori...........................................................................................................................5
Algoritma Expectation-maximization....................................................................................5
Metode.........................................................................................................................................9
Gambaran Umum Sistem.......................................................................................................9
Arsitektur Sistem..................................................................................................................10
Diagram Alir Sistem.............................................................................................................11
Implementasi.............................................................................................................................12
Analisis.......................................................................................................................................15
Kesimpulan dan Saran.............................................................................................................17
Kesimpulan............................................................................................................................17
Saran......................................................................................................................................18
Daftar Pustaka.............................................................................................................................ii
i
Algoritma Expectation
Abstrak
Banyak alat pencarian yang pada umum nya menampilkan dokumen
waktu yang relatif lama untuk memilih dokumen yang sesuai dengan
informasi pada kumpulan dokumen yang cukup besar, salah satu solusinya
dokumen hasil pencarian ini, maka pengguna tidak perlu membuka halaman
1
Salah satu algoritma particional yang dapat mengelompokkan
dari parameter dalam sebuah model probabilistik. Ciri-ciri dari algoritma ini
hasil pencarian, hal ini dapat membantu pengguna untuk mencari dokumen
Stemming
Pendahuluan
2
kesamaan dokumen. Repositori adalah satu dari fitur pencarian dokumen
Repositori ini berfungsi sebagai mesin pencari dokumen tugas akhir, jurnal,
besar. Jumlah dokumen yang banyak berdampak tidak baik bagi pengguna
mengelompokkan
3
ditempatkan dalam satu cluster yang sama. Ada beberapa algoritma
dan hierarki (linkage pusat, linkage tunggal), overlap (fuzzy c-means), dan
dokumen tersebut merupakan dokumen yang tidak diberi tag dan berbeda-
beda sesuai dengan kata kunci yang dimasukkan oleh pengguna, maka hasil
dokumen menjadi anggota grup atau kluster dalam satu proses, tetapi
mengelompokkan dokumen yang tidak diberi tanda atau data yang tidak
memiliki dua tahap, yaitu tahap ekspektasi dan tahap maksimalisasi. Fase
4
mengelompokkan data berdasarkan parameter model. Selama tahap
mencapai konvergensi.
dan stemming. Proses ini diperlukan untuk mengurangi jumlah kata yang
tag aktual yang paling sering muncul di kluster dan gunakan tag tersebut
Landasan Teori
Algoritma Expectation-maximization
5
k. Langkah-langkah algoritma EM adalah sebagai berikut:Guess Model
Parameter
Dimana pada tahap ini akan ditebak nilai parameter qmk dan αk
a. Expectation Step
Dimana:
dokumen.
6
- adalahnilai total probabilitas
b. Maximization Step
Dimana:
semua dokumen.
7
Dimana N adalah probabilitas total klaster Secara singkat, langkah
EM adalah:
Frequency Counts
8
lain nilai probabilitas dokumen terhadap sebuah klaster sudah
bernilai 1.
menggunakan rumus:
9
Metode
Gambaran Umum Sistem
Sistem ini memproses dokumen yang terdiri dari judul, ringkasan dan kata
atau tidak, dan jumlah cluster (K). Ketika pengguna melakukan pencarian,
beberapa cluster sesuai dengan jumlah cluster yang dimasukkan, dan cluster
ini diberi nama, di mana pengenalnya adalah judul dokumen yang paling
10
Arsitektur Sistem
root) dan jumlah cluster. Sistem kemudian memproses parameter input dan
11
Diagram Alir Sistem
12
A. Pretreatment
b. kekelompokan
beberapa proses utama dalam langkah ini, yaitu Tebak Parameter Model, E-
c. tanda
diberi nama, biasanya disebut sebagai label. Tujuan dari nama tag adalah
untuk mendeskripsikan isi dari semua dokumen di setiap cluster. Nama tag
Implementasi
13
Data input berupa teks yang merupakan abstrak data proyek
14
function tokenizing() Fungsi untuk mengubah semua
huruf dalam dokumen menjadi
huruf kecil. Huruf yang diterima
hanya huruf „a‟ sampai dengan
„z‟
function parsing() Fungsi untuk mengubah dokumen
menjadi kumpulan kata atau daftar
kata (term)
15
4. Pelabelan Function Fungsi untuk memberikan label
terhadap setiap klaster yang
labelfromDB()
terbentuk
16
Analisis Algoritma Expectation-maximization
dalam total 2 cluster menunjukkan nilai F akurasi 0,7 atau 70% untuk data
historis dan nilai F akurasi 0,6 atau 60% untuk dokumen tidak berstempel.
cluster, nilai F menurun menjadi 0,4894 dan 0,3408 untuk data dengan data
historis dan 0,4494 dan 0,3258 untuk data tanpa data historis.
17
Pada gambar di atas, kita dapat melihat bahwa rata-rata nilai ukuran F untuk
data bertangkai adalah tinggi. Hal ini disebabkan oleh proses stemming
yang digunakan untuk menemukan kata dasar berafiks. Sebuah properti dari
tambahan ke istilah dasar dapat mengurangi jumlah kata atau istilah yang
kata yang tidak menjelaskan konten dokumen. Sebagai contoh, jika kata
“clustering” muncul 10 kali dalam dokumen, dan kata “try” dan “try”
proses stemming, kemungkinan kata dasar “try” " adalah Ini akan menjadi
Dalam pengujian di atas, ada 5 percobaan per kueri. Hal ini disebabkan
istilah probabilitas awal (qmk) dan probabilitas cluster awal ( Hal ini karena
penggunaan nilai acak dalam parameter model Tebak dari αk) mengubah
18
Berdasarkan latar belakang penelitian bahwa hasil pencarian ditampilkan
mereka cari.
Kesimpulan
19
2. Akurasi rata-rata terbaik untuk algoritma Clustering Expectation
Mazimization adalah 70% pada pumped data dan 60% pada unpumped
data. Akurasi rata-rata terendah adalah 34,08% untuk data dengan data
historis dan 32,58% untuk data tanpa data historis. Akurasi rata-rata
Saran
Untuk meningkatkan performa algoritma Clustering Expectation-
20
Daftar Pustaka
ANGGRAINI, E. N. (2020). BIG DATA: CLUSTERING MENGGUNAKAN
Sirait, R. E. D., Darwiyanto, E., & Suwawi, D. D. J. (2015). Implementasi Dan Analisis
ii