41 81 1 PB

6 Widhaprasa E.
Waliprana, Masayu Leylia Khodra

Update Summarization
Untuk Kumpulan Dokumen Berbahasa Indonesia
Widhaprasa E. Waliprana
Institut Teknologi Bandung
if18080@students.if.itb.ac.id

Masayu Leylia Khodra
Institut Teknologi Bandung
masayu@stei.itb.ac.id

ABSTRAK
Update summarization menghasilkan ringkasan dengan
mempertimbangkan informasi yang telah dibaca oleh pengguna
sebelumnya. Pada makalah ini dikaji teknik update
summarization pada kumpulan dokumen berbahasa Indonesia.
Sistem peringkasan ini memiliki dua subsistem peringkasan
yang berbeda untuk kumpulan dokumen yang diasumsikan
sudah dibaca oleh pengguna dan kumpulan dokumen yang
belum dibaca oleh pengguna. Untuk setiap subsistem, terdapat
komponen praproses, komponen penentuan topik dengan
frequent term-based clustering untuk menentukan topik umum
dari kumpulan dokumen, dan komponen pemilihan kalimat
dengan maximal marginal relevance dalam proses perankingan
kalimat dan juga proses update untuk menentukan kalimat yang
menjadi hasil ringkasan. Dari hasil pengujian setiap komponen,
didapatkan kesimpulan bahwa frequent term-based clustering
mampu menghasilkan topik dari kumpulan dokumen yang
menjadi masukan dan maximal marginal relevance mampu
melakukan perankingan kalimat untuk menentukan kalimat
yang menjadi hasil ringkasan tanpa mengandung informasi
yang sudah dibaca dan memiliki redundansi informasi yang
rendah.
Kata Kunci
Frequent term-based clustering, maximal marginal relevance,
redundansi, ringkasan, update summarization.
1. PENDAHULUAN
Pada masa ini, informasi sudah tersebar sangat banyak di
internet. Informasi tersebut tersebar dalam bentuk dokumen
seperti artikel, berita, dan makalah ilmiah. Jumlah dokumen
yang banyak ini menimbulkan masalah yaitu konten dokumen
sulit dimengerti yang disebabkan oleh terlalu banyaknya
informasi atau disebut juga information overload. Peringkasan
dokumen merupakan salah satu cara untuk mengatasi masalah
information overload.
Peringkasan teks otomatis mampu menghasilkan ringkasan
yang memiliki konten penting pada dokumen sumber (Jiaming,
2008). Salah satu jenis peringkasan teks otomatis adalah
peringkasan multidokumen yaitu peringkasan dengan banyak
dokumen sumber. Namun, hasil peringkasan multidokumen ini
masih sering memiliki informasi yang sudah diketahui dan
memiliki redundansi informasi.
Update summarization adalah bentuk peringkasan
multidokumen berdasarkan asumsi bahwa pengguna sudah
pernah membaca informasi sebelumnya (Aggarwal dkk., 2009).
Dengan kata lain, informasi pada ringkasan yang diterima
bersifat up-to-date atau baru. Jenis peringkasan ini menjadi
bahan kompetisi pada workshop tahunan untuk penelitian
mengenai teknologi pemrosesan bahasa alami yang dinamakan
Document Understanding Conference (DUC) pada tahun 2007
dan sudah berganti nama menjadi Text Analysis Conference
(TAC) sejak tahun 2008. Columbias Newsblaster
(http://newsblaster.cs.columbia.edu) merupakan sebuah aplikasi
penyaji berita online dengan berbagai fitur diantaranya
pengkategorian dan peringkasan. Newsblaster menyediakan
sebuah prototipe update summarizer yang berfungsi untuk
menghasilkan ringkasan berita yang baru.
Penelitian mengenai update summarization sudah banyak
dilakukan pada DUC/TAC dan juga pada penelitian lainnya,
namun semua penelitian hanya dilakukan pada kumpulan
dokumen berbahasa Inggris. Penelitian pada kumpulan
dokumen berbahasa Indonesia belum ada yang melakukannya
sehingga perlu dilakukan penelitian mengenai update
summarization pada kumpulan dokumen berbahasa Indonesia.
Pada makalah ini, dikaji teknik peringkasan yang dapat
diimplementasikan dalam melakukan update summarization
pada kumpulan dokumen berbahasa Indonesia.
Pada bagian selanjutnya, akan dibahas konsep-konsep yang
digunakan dalam penelitian update summarization ini. Bagian 3
akan membahas sistem peringkasan INUSUM yang
dikembangkan, sedangkan bagian 4 membahas pengujian
sistem peringkasan yang telah dilakukan terhadap setiap
komponen INUSUM. Pada bagian terakhir, dibahas kesimpulan
dan penelitian selanjutnya yang akan dilakukan.

2. UPDATE SUMMARI ZATI ON
Update summarization menghasilkan ringkasan yang tidak
memiliki informasi yang telah dibaca karena informasi tersebut
diabaikan dalam proses peringkasan. Peringkasan ini sangat
berkaitan dengan pengecekan kebaruan yang dapat
digambarkan sebagai masalah tambahan selain penentuan
informasi yang penting. Pengecekan kebaruan adalah proses
identifikasi informasi yang belum diketahui pembaca.
Berdasarkan TAC 2008 dalam update summarization task,
terdapat 2 proses peringkasan yang harus dilakukan yaitu
kumpulan dokumen A dan kumpulan dokumen B. Kumpulan
dokumen A menggunakan sistem peringkasan biasa, lalu
kumpulan dokumen B diringkas dengan asumsi bahwa
pengguna sudah membaca informasi di kumpulan dokumen A
sehingga ringkasan dokumen B tidak boleh berisikan informasi
yang terdapat pada kumpulan dokumen A.
Identifikasi topik utama pada kumpulan dokumen merupakan
hal penting dalam melakukan peringkasan multidokumen.
Identifikasi topik tersebut dilakukan dengan clustering, yaitu
membagi sekumpulan objek menjadi sekumpulan kelompok
(cluster) dengan tujuan agar kelompok objek yang memiliki
tingkat kesamaan yang tinggi berada dalam satu kelompok yang
sama. Untuk peringkasan berbasis clustering, topik utama dari
kumpulan dokumen direpresentasikan dalam suatu cluster.
Metode clustering yang digunakan dalam penelitian ini adalah
frequent term-based clustering (Beil dkk., 2009) yang dapat
dilihat pada Alg 1.
FTC(database D, float minsup)
SelectedTermSets:= {};
n:= |D|;
RemainingTermSets:= DetermineFrequentTermsets(D,
minsup);
while |cov(SelectedTermSets)| n do
Jurnal Cybermatika | Vol. 1 No. 2 | Desember 2013 | Artikel 2 7
for each set in RemainingTermSets do
Calculate overlap for set;
BestCandidate:= element of Remaining TermSets with
minimum overlap;
SelectedTermSets:=SelectedTermSets
{BestCandidate};
RemainingTermSets:=RemainingTermSets-
{BestCandidate};
Remove all documents in cov(BestCandidate) from D and
from the coverage of all of the RemainingTermSets;
return SelectedTermSets and the cover of the elements
of SelectedTermSets;
Alg. 1 Frequent term-based clustering (Beil dkk., 2009)

Frequent term-based clustering merupakan teknik clustering
dengan menggunakan sekumpulan term yang sering muncul
secara bersamaan dalam frekuensi tinggi pada kumpulan
dokumen sebagai cluster. Sekumpulan term tersebut dinamakan
frequent term set. Setiap frequent term set tersebut merupakan
topik yang telah diidentifikasi. Secara umum frequent term-
based clustering memilih pasangan kata yang sering muncul
secara bersamaan dalam kalimat tanpa memperhatikan urutan
kemunculan kata tersebut.
Maximal Marginal Relevance (MMR) digunakan dalam proses
update summarization sebagai metode pemilihan kalimat yang
hasilnya akan menjadi ringkasan (Carbonell & Goldstein,
1998). MMR dikembangkan untuk pemilihan kalimat dengan
memperhatikan apakah kalimat tersebut relevan dengan query
dan memperhatikan kebaruan informasi. Misalkan terdapat
sebuah query Q, kemudian terdapat kumpulan kalimat yang
sudah dipilih S. Untuk setiap kandidat kalimat s_i, nilai MMR
dapat dihitung dengan menggunakan rumus berikut:
= [
1
(
, ) (1 ) max
2
(
)] (1)

Keterangan:
: Parameter dengan interval nilai [0,1] untuk mengatur
tingkat kepentingan relatif antara relevansi dan
redundansi
1
: Pengukuran kesamaan antara kandidat kalimat dengan
query
2
: Pengukuran kesamaan antara kandidat kalimat dengan
kalimat yang sudah dipilih

Pada (1) terdapat pengukuran kesamaan . Dalam kasus ini
pengukuran kesamaan dilakukan dengan cosine similarity.
Penghitungan cosine similarity dilakukan dengan cara
menghitung kedekatan antara kedua vektor unit teks tersebut.
Salah satu cara untuk melakukan pengukuran kedekatan antara
kedua vektor yaitu dengan memperhatikan perbedaan arah dari
kedua vektor yang direpresentasikan dengan sudut yang
dibentuk. Sebagai contoh, misalkan terdapat dua vektor kalimat
1
dan
2
yang merupakan dua buah vektor dalam ruang
berdimensi dan merupakan sudut yang dibentuk oleh kedua
vektor. Persamaan dari perkalian dalam kedua vektor tersebut
tertera dalam persamaan (2) berikut:

1
.
2
= |
1
||
2
| cos (2)

Keterangan:
|| : Jarak Euclidean vektor s dengan titik nol

Perhitungan kesamaan antar kedua vektor yang diturunkan dari
persamaan (2) adalah rumus (3) berikut ini.
(
1
,
2
) = cos(
1
,
2
) =
1
.
2
|
1
||
2
|
(
3)

Keterangan:
: Pengukuran kesamaan antara 2 vektor

3. SISTEM PERINGKASAN INUSUM
Untuk mendapatkan hasil ringkasan yang tidak memiliki
informasi yang sudah diketahui dan redundansi informasi,
digunakan update summarization. Pada sistem update
summarization, diperlukan komponen yang berfungsi untuk
melakukan proses update. Pada komponen tersebut dilakukan
pengecekan apakah suatu informasi sudah pernah diketahui atau
belum. Jika informasi belum pernah diketahui, maka informasi
tersebut akan masuk ke dalam ringkasan yang dibentuk.
Sedangkan jika informasi sudah pernah diketahui, maka
informasi tersebut akan diabaikan.
Pada peringkasan kumpulan dokumen, perlu diidentifikasi topik
utama yang terdapat pada kumpulan dokumen tersebut. Topik
ini akan menjadi pembanding apakah suatu kandidat kalimat
relevan terhadap dokumen sumber. Topik juga berfungsi
sebagai parameter perankingan kandidat kalimat. Oleh karena
itu, sistem update summarization ini memerlukan suatu
komponen yang berfungsi untuk menentukan topik dari
kumpulan dokumen.
Tahap pemilihan kalimat merupakan tahap utama dari
peringkasan kalimat. Perankingan kalimat dilakukan pada tahap
pemilihan kalimat. Pada tahap ini juga, proses update perlu
dilakukan untuk memberikan ranking yang rendah pada kalimat
yang memiliki informasi yang sudah diketahui, sehingga
kalimat tersebut tidak masuk ringkasan. Oleh karena itu, sistem
ini memerlukan suatu komponen pemilihan kalimat yang
berfungsi untuk mengecek apakah kandidat kalimat relevan
terhadap dokumen sumber dan mengecek apakah kandidat
kalimat memiliki informasi yang sudah pernah diketahui.
Sistem peringkasan yang dibangun menerima masukan
kumpulan dokumen berbahasa Indonesia karena sistem update
summarization untuk kumpulan dokumen berbahasa Indonesia
belum pernah dilakukan sebelumnya. Oleh karena itu,
diperlukan tahap praproses untuk mengolah kalimat berbahasa
Indonesia sebelum melakukan proses peringkasan.
Sistem update summarization untuk kumpulan dokumen berita
berbahasa Indonesia ini diberi nama INUSUM (Indonesian
News Update Summarizer). INUSUM didesain berdasarkan
TAC 2008 untuk update summarization task. Arsitektur sistem
dapat dilihat pada Gambar 1. Sistem mampu menerima
masukan 2 kumpulan dokumen, sehingga INUSUM terbagi
menjadi 2 subsistem. Subsistem pertama adalah subsistem
peringkasan kumpulan dokumen A yaitu kumpulan dokumen
yang diasumsikan sudah dibaca oleh pengguna dan subsistem
kedua adalah subsistem peringkasan dokumen B yaitu
kumpulan dokumen yang belum dibaca pengguna. Pada
subsistem peringkasan kumpulan dokumen A dan B terdapat
tahap praproses, tahap penentuan topik dan tahap pemilihan
kalimat.
Keluaran dari sistem adalah 2 ringkasan dari masukan 2
kumpulan artikel berita. Ringkasan pertama adalah ringkasan
dari kumpulan dokumen A dan ringkasan kedua adalah
ringkasan dari kumpulan dokumen B yaitu ringkasan yang
sudah up-to-date.
8 Widhaprasa E. Waliprana, Masayu Leylia Khodra

Gambar 1. Diagram sistem INUSUM
3.1 Komponen Praproses
Pada komponen praproses, dilakukan pemrosesan data masukan
yang bertujuan agar teks menjadi siap untuk melalui proses
peringkasan. Masukan data dari komponen praproses ini adalah
kumpulan dokumen berita berbahasa Indonesia dan keluarannya
adalah data teks yang sudah siap untuk diolah ke tahap
selanjutnya. Beberapa tahapan praproses yang digunakan pada
sistem ini adalah:
1. Pemisahan Kalimat
Pemisahan kalimat ini merupakan proses pemisan teks pada
dokumen menjadi kumpulan kalimat. Teknik yang digunakan
dalam pemisahan kalimat adalah memisahkan kalimat dengan
tanda titik (.), tanda tanya (?), dan tanda seru (!) sebagai
delimiter. Namun jika terdapat kalimat yang hanya terdiri dari
satu atau dua kata, maka kalimat tersebut tidak masuk ke dalam
kandidat kalimat, sehingga kalimat tersebut dihilangkan.
2. Case Folding
Case folding adalah proses pemrosesan teks dimana semua teks
diubah ke dalam case yang sama dan pada kasus ini teks diubah
representasinya ke dalam huruf kecil semua.
3. Penghilangan stopword
Penghilangan stopword adalah proses menghilangkan kata-kata
yang sering muncul, namun tidak berarti. Stopword dikatakan
tidak berarti karena tidak memiliki keterkatitan dengan topik
tertentu. Untuk mendeteksi apakah suatu kata merupakan suatu
stopword atau bukan adalah menggunakan kamus stopword
yang sudah ditentukan sebelumnya. Contoh stopword pada
bahasa Indonesia adalah, di, ke, dari, pada, dan lain-lain.
4. Stemming
Stemming merupakan proses pencarian akar (root) kata dari
tiap kata yaitu dengan mengembalikan suatu kata berimbuhan
ke bentuk dasarnya (stem). Untuk pemrosesan pada bahasa
Indonesia, proses stemming dilakukan dengan menghilangkan
imbuhan yang mengawali dan mengakhiri kata sehingga
diperoleh bentuk dasar dari kata tersebut.
5. Pembobotan kata
Pada tahap ini dilakukan pengubahan dokumen menjadi
representasi yang dapat diproses dengan mudah yaitu dengan
menggunakan model ruang vektor. Ruang vektor merupakan
sebuah model aljabar untuk merepresentasikan dokumen teks
sebagai vektor pada ruang vektor. Representasi vektor yang
terbentuk untuk tiap dokumen yaitu sebagai berikut:

=
1
.
1
+
2
.
2
+ +
(
4)

Keterangan:
: Vektor dokumen ke-
: Bobot kata
: Kata ke-

Pembobotan kata tersebut menggunakan konsep term frequency
(tf), inverse document frequency (idf), dan normalization.
3.2 Komponen Penentuan Topik
Pada komponen penentuan topik ini dilakukan penentuan topik
umum dari kumpulan data yang telah melewati tahap praproses.
Penentuan topik umum ini dilakukan dengan menggunakan
frequent-term based clustering. Topik umum direpresentasikan
dalam cluster yang dihasilkan. Pada komponen ini dilakukan:
1. Pemisahan kalimat menjadi term
Pemisahan kalimat yang sudah melalui tahap praproses menjadi
kumpulan term sebagai kandidat topik.
2. Pemilihan term
Pemilihan term dilakukan dengan cara mengambil term yang
signifikan pada dokumen. Term yang signifikan yaitu term yang
jumlahnya banyak pada suatu dokumen. Term yang jumlahnya
sedikit tidak dimasukkan dalam pemilihan karena bukan
merupakan topik umum. Kemudian persebaran term pada
dokumen perlu dicatat untuk diidentifikasi frequent-term set-
nya.
3. Identifikasi frequent-term set
Pada tahap ini dilakukan identifikasi frequent-term set untuk
menjadi cluster-cluster berbeda. Identifikasi dilakukan dengan
cara menghitung kemunculan term pada dokumen. Jika suatu
term terdapat banyak di dokumen, maka term tersebut menjadi
sebuah cluster. Setelah mengecek semua term, kombinasikan
satu term dengan term lain dan hitung kemunculannya pada
dokumen. Jika jumlahnya banyak, maka kombinasi term
tersebut juga menjadi sebuah cluster. Ukuran banyak atau
tidaknya sebuah term, ditentukan di awal dengan menggunakan
nilai standar minimum, jika jumlah kemunculan term melebihi
nilai standar tersebut, maka jumlah kemunculan term dianggap
banyak.
4. Filtrasi frequent-term set
Pada tahap ini dilakukan filtrasi frequent-term set yang sudah
diidentifikasi sebelumnya. Filtrasi dilakukan dengan
menghitung entropy overlap dari tiap cluster yang sudah
diidentifikasi dengan menggunakan:
(
) =
1
ln (
1
)
(
5)

Keterangan:
: Cluster ke-i
: Dokumen ke-j yang mengandung
: Frekuensi cluster yang mengandung dokumen

Cluster yang dipilih adalah cluster yang memiliki nilai entropy
overlap paling rendah dan mengandung paling banyak
dokumen. Pemilihan cluster dilakukan hingga setiap cluster
yang dipilih mengandung setiap dokumen sumber
3.3 Komponen Pemilihan Kalimat
Pada komponen pemilihan kalimat ini dilakukan pemilihan
kalimat untuk menjadi ringkasan. Pemilihan kalimat dilakukan
dengan cara perankingan kalimat yang menggunakan metode
MMR. Pemilihan kalimat berdasarkan cluster yang sudah
ditentukan dari tahap sebelumnya. Fungsi dari cluster ini adalah
untuk mengecek apakah kandidat kalimat relevan terhadap
dokumen sumber atau tidak.
Pada komponen pemilihan kalimat ini, terdapat perbedaan
antara komponen untuk kumpulan dokumen A dengan
Jurnal Cybermatika | Vol. 1 No. 2 | Desember 2013 | Artikel 2 9
komponen untuk kumpulan dokumen B. Perbedaannya adalah
pada komponen untuk kumpulan dokumen A, skor perankingan
kalimat dihitung hanya berdasarkan kalimat yang sudah terpilih.
Sedangkan pada komponen untuk kumpulan dokumen B, skor
perankingan kalimat dihitung tidak hanya berdasarkan kalimat
yang sudah terpilih, tetapi berdasarkan hasil ringkasan
kumpulan dokumen A.
Pada proses pemilihan kalimat untuk kumpulan dokumen A
dilakukan perankingan dengan menggunakan metode MMR.
Perankingan dilakukan secara biasa berdasarkan rumus (1).
Kalimat yang memiliki nilai MMR tinggi setelah dicek
kerelevanan dengan sumber dan tingkat redundansinya, maka
kalimat tersebut dimasukkan ke dalam sedangkan jika nilai
MMR rendah, kalimat tersebut akan diabaikan. Kalimat yang
terdapat pada merupakan hasil ringkasan kumpulan dokumen
A yang akan dikirimkan ke komponen pemilihan kalimat
kumpulan dokumen B.
Tidak jauh berbeda dengan kumpulan dokumen A, pada proses
pemilihan kalimat untuk kumpulan dokumen B dilakukan
perankingan dengan menggunakan metode MMR. Berdasarkan
rumus (1) dijelaskan bahwa merupakan kalimat yang sudah
dipilih sebelumnya, namun untuk pemilihan kalimat untuk
kumpulan dokumen B, nilai diinisiasi awal dengan ringkasan
kumpulan dokumen A yang sudah dibentuk sebelumnya.
Pada bagian inilah proses update terjadi. Kandidat kalimat yang
memiliki informasi kurang lebih sama dengan kalimat yang
sudah pernah dibaca memiliki nilai MMR yang rendah, karena
nilai kesamaan antar kalimat tersebut tinggi, sehingga kalimat
tersebut tidak akan dimasukkan ke dalam . Kalimat yang tidak
memilki informasi yang sama dengan kalimat yang sudah
pernah dibaca memiliki nilai MMR yang tinggi, sehingga
kalimat ini akan dimasukkan ke dalam . Hasil ringkasan untuk
kumpulan dokumen B adalah kalimat yang terdapat dalam
dikurangi dengan hasil ringkasan A. Hasil ringkasan ini sudah
bersifat up-to-date.
4. PENGUJIAN
Tujuan pengujian adalah mengevaluasi keluaran dari sistem
yang dibangun apakah hasil ringkasan bisa diterima dan juga
bersifat up-to-date. Pengujian dilakukan dengan melakukan
validasi hasil ringkasan kepada 10 responden untuk menilai
apakah ringkasan bisa diterima dan bersifat up-to-date.
Pada pengujian ini terdapat 3 kasus uji dengan topik kumpulan
dokumen yang berbeda. Responden diberikan kumpulan
dokumen A dan kumpulan dokumen B untuk dibaca terlebih
dahulu. Setelah itu responden juga diberikan hasil ringkasan
kumpulan dokumen A dan ringkasan kumpulan dokumen B
oleh sistem INUSUM. Tugas responden adalah memberikan
nilai dari setiap hasil ringkasan yang dihasilkan yaitu apakah
hasil ringkasan kumpulan dokumen A dan hasil ringkasan
kumpulan dokumen B dapat diterima dan juga apakah hasil
ringkasan kumpulan dokumen B bersifat up-to-date.
Deskripsi penilaian yang digunakan:
a. Nilai 0 apabila tidak diterima.
b. Nilai 1 apabila kurang diterima.
c. Nilai 2 apabila cukup diterima
d. Nilai 3 apabila diterima.
e. Nilai 4 apabila sangat diterima.

Hasil dari pengujian ini adalah presentase tiap nilai yang
diberikan terhadap hasil ringkasan tersebut.
Sebelum pengujian, dilakukan penentuan nilai parameter
optimal perangkat lunak yaitu nilai parameter yang paling
optimal. Nilai parameter optimal ini perlu dicari karena nilai
ini merupakan nilai acuan apakah ringkasan yang dibentuk
lebih mendekati relevansi dengan dokumen sumber atau
menghilangkan redundansi dengan kalimat yang sudah pernah
dibaca. Penentuan parameter optimal perangkat lunak dilakukan
dengan cara menentukan hasil ringkasan menggunakan update
summarization secara manual untuk setiap kumpulan dokumen
A dan kumpulan dokumen B yang diberikan. Hasil ringkasan
ini diasumsikan ringkasan yang up-to-date. Kemudian sistem
INUSUM juga akan menghasilkan ringkasan untuk setiap nilai
parameter . Setiap hasil ringkasan dari sistem INUSUM
tersebut dibandingkan dengan ringkasan yang up-to-date. Nilai
parameter optimal adalah yang hasil ringkasannya paling
sesuai atau mendekati dengan ringkasan yang up-to-date. Nilai
parameter pada sistem INUSUM yang paling optimal adalah
0.4.

4.1 Hasil Pengujian
Rekapitulasi hasil dari kuesioner pengujian keluaran sistem
dapat dilihat pada Tabel 1, Tabel 2, dan Tabel 3 sesuai dengan
kasus ujinya, yaitu:
1. Rata-rata nilai keberterimaan ringkasan kumpulan
dokumen A adalah (3.5 + 3.4 + 2.9) / 3 = 3.26 atau berada
di range diterima.
2. Rata-rata nilai keberterimaan ringkasan kumpulan
dokumen B adalah (2.7 + 2.4 + 3.1) / 3 = 2.73 atau berada
di range diterima.
3. Rata-rata nilai keberterimaan ringkasan bersifat up-to-date
adalah (2.7 + 2.9 + 3.3) / 3 = 2.97 atau berada di range
diterima.
Kesimpulan yang dapat diambil dari hasil pengujian ini adalah
hasil ringkasan keluaran sistem INUSUM dapat diterima dan
hasil ringkasan bersifat up-to-date.
Tabel 1 Hasil rekapitulasi kuesioner pengujian 1
Responden
Pengujian 1
Nilai
keberterimaan
ringkasan
kumpulan
dokumen A
Nilai
keberterimaan
ringkasan
kumpulan
dokumen B
Nilai
keberterimaan
ringkasan
bersifat up-to-
date
1 4 2 3
2 3 3 2
3 4 2 2
4 3 2 2
5 4 4 4
6 3 2 2
7 3 3 2
8 4 3 3
9 3 3 4
10 4 3 3

Responden
Pengujian 2
Nilai
keberterimaan
ringkasan
kumpulan
dokumen A
Nilai
keberterimaan
ringkasan
kumpulan
dokumen B
Nilai
keberterimaan
ringkasan
bersifat up-to-
date
1 4 3 4
2 3 3 3
3 4 1 3
4 3 1 1
5 4 4 4
6 3 1 2
10 Widhaprasa E. Waliprana, Masayu Leylia Khodra
7 3 3 3
8 3 2 3
9 3 2 2
10 4 4 4

Responden
Pengujian 3
Nilai
keberterimaan
ringkasan
kumpulan
dokumen A
Nilai
keberterimaan
ringkasan
kumpulan
dokumen B
Nilai
keberterimaan
ringkasan
bersifat up-to-
date
1 3 4 3
2 2 3 3
3 2 2 3
4 2 3 2
5 4 4 4
6 3 3 3
7 3 2 3
8 2 3 4
9 4 4 4
10 4 3 4

Contoh hasil update summarization menggunakan INUSUM
dengan masukan kumpulan dokumen A berasal dari:
http://news.detik.com/read/2013/05/26/152027/2256114/10/tabr
akkan-diri-ke-kereta-api-di-bantul-yoga-tewas-seketika

dan kumpulan dokumen B berasal dari:
http://news.detik.com/read/2013/05/26/154617/2256122/10/aksi
-yoga-tabrakkan-diri-ke-kereta-jadi-perbincangan-di-media-
sosial?nd772204btr
http://www.solopos.com/2013/05/26/tertabrak-kereta-korban-
adalah-ketua-panitia-locstock-festival-410126

menghasilkan ringkasan:
Dalam forum internet dan diskusi di twitter, Yoga dikenal
dengan nama Bobby Yoga
Temanya kurang lebih sama, mengaitkan aksi bunuh diri Yoga
dan acara musik di Yogyakarta
Nah, spekulasi berhembus kalau Yoga bunuh diri karena
didorong oleh permasalahan yang muncul dari konser tersebut
Hingga kini belum jelas apa motif korban melakukan bunuh diri
Fee artist yang belum dibayar, plus berbagai hujatan dan
tuntutan yang disuarakan di Twitter membuat batin Bobby
tertekan

Topik yang dihasilkan dengan menggunakan frequent-term
basedclustering dengan masukan kumpulan dokumen A dan
kumpulan dokumen B dari sumber sebelumnya adalah:
Untuk kumpulan dokumen A:
[kereta, yoga]
Untuk kumpulan dokumen B:
[tabrak, twitter, bunuh, bobby, yoga]

5. PENUTUP
Pada makalah ini, telah dijelaskan bahwa untuk membuat
sistem update summarization, diperlukan proses update pada
komponen sistem yang berfungsi untuk mengecek apakah
informasi yang dihasilkan sudah pernah dibaca atau belum.
Kemudian proses update tersebut dapat dilakukan pada tahap
pemilihan kalimat yaitu dengan memberikan nilai rendah untuk
kalimat yang mengandung informasi yang sudah diketahui pada
saat perankingan. Untuk parameter pada sistem INUSUM
dalam melakukan update summarization, didapatkan nilai yang
paling optimal adalah 0.4. Secara keseluruhan, hasil dari
pengujian keluaran sistem menghasilkan nilai keberterimaan
ringkasan dokumen A sebesar 3.26, nilai keberterimaan
ringkasan kumpulan dokumen B sebesar 2.73, dan
keberterimaan ringkasan bersifat up-to-date sebesar 2.97. Oleh
karena itu, hasil keluaran sistem INUSUM dapat diterima.
Untuk penelitian selanjutnya, dapat dilakukan pengeliminasian
topik yang sudah pernah dibaca oleh pengguna, sehingga sistem
tidak menghasilkan ringkasan untuk topik yang sudah pernah
dibaca. Selain itu, pada proses update summarization dapat
dibuat suatu korpus update sebagai gold standard agar
pengujian hasil keluaran sistem menjadi lebih objektif.
6. REFERENSI
Barzilay, R., & Elhadad, M. (1997). Using Lexical Chains for Text
Summarization. Mathematics and Computer Science Dept. Ben Gurion
University.
Beil, F., Ester, M., & Xu, X. (2009). Frequent Term-Based Text
Clustering.
Carbonell, J., Goldstein, J. (1998) : The Use of MMR, Diversity-Based
Reranking for Reordering Documents and Producing Summaries
Goldstein, J., Mittal, V., Carbonell, J., & Kantrowitz, M. (2000). Multi-
Document Summarization By Sentence Extraction. Language
Technologies Institute Carnegie Mellon University.
Hovy, E., & Lin, C. (1997). Automated Text Summarization in
SUMMARIST. Information Sciences Institute of the University of
Southern California, (pp. 18-24).
Kogilavani, A., & Balasubramani, P. (2010). Clustering And Feature
Specific Sentemce Extraction Based Summarization of Multiple
Documents. International Journal of Computer Ccience & Information
Technology.
Mandala, R. (2006). Evaluasi Kinerja Sistem Penyaringan Informasi
Model Ruang Vektor. Seminar Nasional Aplikasi Teknologi Informasi
2006 (SNATI 2006). Yogyakarta.
Markou, M., & Singh, S. (2003). Novelty Detection: A Review - Part 1:
Statistical Approaches. Department of Computer Science, PANN
Research, University of Exeter, Exeter EX4 4PT, UK.
McKeown, K., Barzilay, R., Chen, J., Elson, D., Evans, D., Klavans, J.,
et al. (2003). Columbias Newsblaster: New Features and Future
Directions. Department of Computer Science Columbia University.
Rosell, M. (2009). Information Retrieval and Text Clustering.
Tala, F. Z. (2003). A Study of Stemming Effects on Information.
Institutefor Logic, Language and Computation Universite itvan
Amsterdam The Netherlands.

41 81 1 PB

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

41 81 1 PB

Diunggah oleh

Hak Cipta:

Format Tersedia

6 Widhaprasa E.

Waliprana, Masayu Leylia Khodra

: Vektor dokumen ke-

: Dokumen ke-j yang mengandung

: Frekuensi cluster yang mengandung dokumen

Anda mungkin juga menyukai