Implementasi Cross Method Latent Semantic Analysis Untuk Meringkas Dokumen Berita Berbahasa Indonesia

Techno.COM, Vol. 15, No.
4, November 2016 : 266-277
IMPLEMENTASI CROSS METHOD LATENT SEMANTIC

ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA
BERBAHASA INDONESIA
Fernando Winata1, Ednawati Rainarli2

1,2
Teknik Informatika, Teknik dan Ilmu Komputer, Universitas Komputer Indonesia
Jalan Dipatiukur No. 112-116, Coblong, Bandung, Jawa Barat 40132, Indonesia
E-mail : winata.nando@gmail.com1, ednawati.rainarli@email.unikom.ac.id2
Abstrak
Penelitian mengenai peringkasan teks secara otomatis sampai saat ini masih terus
dilakukan dengan harapan hasil ringkasan yang dihasilkan oleh mesin dapat mendekati
ringkasan yang dihasilkan oleh manusia. Salah satu metode yang digunakan untuk
menghasilkan ringkasan dengan bantuan mesin adalah metode Latent Semantic Analysis (LSA)
yang menerapkan konsep Singular Value Decomposition untuk pemilihan ringkasan yang
dihasilkan, tetapi dari beberapa hasil pengujian yang telah dilakukan terhadap metode ini
dapat diketahui bahwa tingkat akurasi dari ringkasan yang dihasilkan masih dapat ditingkatkan
kembali. Cross Method Latent Semantic Analysis (CMLSA) merupakan pengembangan dari
metode LSA yang dianggap dapat menghasilkan ringkasan dengan tingkat akurasi yang lebih
tinggi dari metode LSA. Untuk menguji seberapa baik ringkasan yang dihasilkan maka
dibuatlah simulator peringkas teks otomatis dengan menggunakan CMLSA sebagai metode
peringkasan sedangkan teks yag digunakan sebagai masukan adalah teks berita yang diambil
dari portal berita viva.co.id. Dari hasil penelitian ini dapat diketahui bahwa rata – rata nilai
performansi dari ringkasan yang dihasilkan dengan menggunakan metoede pengujian Precision,
Recall dan F-Measure adalah nilai Precision sebesar 72,25%, nilai Recall sebesar 66,7% dan
nilai F-Measure sebesar 69,6%, hasil ringkasan dengan menggunakan metode ini dengan
akurasi ringkasan sebesar 69,6% dianggap cukup baik.
Kata Kunci: cross method latent semantic analysis, TF-IDF, automatic text summarization,
natural language processing.
Abstract
The research on extracting summary from document automaticly still being researched
with the expectation that the extracted summary using machine help can be close to the
summary extracted by human. One of the method that used to extracting summary is called
Latent Semantic Analysis (LSA), this method used the concept of Singular Value Decomposition
as its base on extracting summary, but from the result of researchs that has been done to this
method it is known that this method still can be further upgraded to make the accuracy of the
extracted summary better. Cross Method Latent Semantic Analysis (CMLSA) is one of the
upgraded version of LSA with the ability to extract summary better than using LSA. Automatic
text summarization simulator is being builded for testing the accuracy of the extracted summary
with the use of CMLSA for the method of extracting summary and the text that used as an input
is news article that obtained from viva.co.id website. The result from this research are the
accuracy of extracted summary using Precision, Recall and F-Measure testing method are
Precison method value is 72,5%, Recall method value is 66,7% and F-Measure method value is
69,6%. From these result, we can know that the extracted summary using CMLSA can be
considered good.
Keywords: cross method latent semantic analysis, TF-IDF, automatic text summarization,
natural language processing.
266
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
1. PENDAHULUAN menggabungkan algoritma latent

semantic analysis dengan algoritma
Peringkas teks otmatis merupakan clustering. Pada penelitian Adiwijaya
sebuah teknik untuk mengambil dan kawan – kawan [6] dapat
ringkasan dengan menggunakan membuktikan bahwa metode latent
bantuan mesin. Penggunaan peringkas semantic analysis mempunyai tingkat
teks otomatis diharapkan dapat akurasi ringkasan yang lebih tinggi
membantu manusia untuk mendapatkan dibanding dengan metode relevance
ringkasan atau informasi inti dari measure.
sebuah dokumen dengan akurat dan
cepat. Pada tahun 2001 Yi Gong dan Xi Dari beberapa penelitian yang telah
Liu [1] mengenalkan sebuah metode dilakukan, baik untuk pengujian
baru yang dapat diterapkan pada maupun pengembangan dari metode
peringkas teks otomatis dengan LSA dapat diketahui bahwa metode ini
menggunakan konsep Singular Value masih dapat dikembangkan untuk
Decomposition (SVD) yang diberi nama menghasilkan ringkasan dengan tingkat
Latent Semantic Analysis (LSA). akurasi yang lebih baik. Salah satu hasil
Beberapa penelitian yang berkaitan pengembangan dari metode LSA yang
dengan peringkas teks otomatis dianggap dapat menghasilkan ringkasan
terutama penggunaan LSA sebagai yang lebih akurat dibandingkan dengan
metode penghasil ringkasan telah metode LSA dan hasil pengembangan
banyak dilakukan sebelumnya. metode LSA yang lain adalah Cross
Method Latent Semantic Analysis
Pada penelitian yang dilakukan (CMLSA) [4]. CMLSA merupakan
Steinberg dan kawan – kawan [2] pengembangan dari perbaikan metode
diketahui bahwa terdapat kekurangan LSA Steinberg dan kawan – kawan
dari metode LSA yaitu pada jumlah pada tahun 2004 yang menambahkan
dimensi dari matriks yang dihasilkan perbaikan pada tahap ekstraksi kalimat
dengan konsep SVD yang dapat ringkasan yang dilakukan untuk
mempengaruhi ringkasan yang meningkatkan tingkat akurasi ringkasan
dihasilkan, sehingga pada penelitian ini yang dihasilkan.
dilakukan perbaikan pada masalah yang
ditemukan untuk menghasilkan Peringkas teks otomatis diharapkan
ringkasan yang lebih baik. Penelitian dapat menghasilkan ringkasan
yang dilakukan oleh Murray dan kawan mendekati ringkasan yang dihasilkan
– kawan [3] yang melakukan proses oleh manusia dengan akurat dan cepat.
modifikasi pada tahapan reduksi Penerapan cross method latent semantic
matriks serta modifikasi pada tahap analysis pada peringkas teks otomatis
pengambilan ringkasan yang diharapkan dapat menghasilkan
menghasilkan ringkasan yang lebih ringkasan yang lebih akurat dibanding
akurat dibanding dengan metode LSA dengan ringkasan yang dihasilkan
sebelumnya[4]. metode - metode Latent Semantic
Analysis terdahulu [4].
Sedangkan penelitian yang terkait untuk
penerapan LSA pada artikel berbahasa
Indonesia juga telah banyak dilakukan. 2. METODE PENELITIAN
Penelitian Junta Zeniarja dan kawan –
kawan [5] berhasil meningkatkan Pada bab ini akan membahas tentang
tingkat akurasi yang dihasilkan dari teori apa saja yang dapat mendukung
multi document dengan cara implementasi Cross Metod Latent
267
Semantic Analysis pada peringkas teks Pada penelitian ini teknik peringkasan
otomatis teks yang digunakan adalah teknik
peringkasan secara ekstraksi dengan
2.1 Peringkas Teks Otomatis menggunakan mesin atau komputer
sebagai alat bantu untuk menghasilkan
Ringkasan adalah sebuah teks yang ringkasan
dihasilkan dari sebuah dokumen atau
lebih yang menyatakan informasi 2.2 Preprocessing
penting dari dokumen asli, dan sebuah
ringkasan memiliki ukuran yang relatif Preprocessing merupakan tahapan awal
lebih pendek dari dokumen asli [7]. untuk menghasilkan sebuah ringkasan.
Tujuan utama dari ringkasan adalah Teks masukan yang akan di ringkas
menghasilkan sebuah intisari atau terlebih dahulu harus melalui tahap
informasi inti yang terdapat dalam untuk membuang berbagai macam jenis
dokumen asli dalam bentuk yang lebih noise atau kata – kata yang di anggap
kecil agar pembaca dapat mendapatkan tidak penting dalam ringkasan yang
informasi penting yang terdapat dalam masih terdapat pada teks masukan [8].
dokumen dengan lebih cepat. Proses
peringkasan teks secara otomatis sendiri Dalam penerapan preprocessing
merupakan proses peringkasan pada terdapat beberapa tahap yang harus
suatu dokumen dengan menggunakan dilalui dimulai dari tahapan tokenisasi,
bantuan komputer. penghilangan stop words sampai
dengan tahapan stemming, selain
Menurut Andre F.T dan kawan – kawan tahapan itu juga biasanya di tambahkan
[7], terdapat dua buah pendekatan yang beberapa tahapan lain untuk kasus
dilakukan untuk menghasilkan sebuah tertentu seperi case folding dan
ringkasan secara otomatis yaitu : penghilangan kata yang jarang
a. Ekstraksi dimunculkan atau kata dengan frekuensi
Pada teknik ekstraksi, sistem kemunculan yang kecil [9].
menyalin unit-unit teks yang
dianggap paling penting dari teks Proses preprocessing yang diterapkan
sumber menjadi ringkasan. Unit- pada penelitian ini meliputi beberapa
unit teks yang disalin dapat berupa macam tahap yaitu:
klausa utama, kalimat utama, atau a. Pemecahan Kalimat
paragraf utama tanpa ada Pada tahapan ini teks masukan
penambahkan kalimat-kalimat baru dipecah menjadi beberapa kalimat
yang tidak terdapat pada dokumen berdasarkan delimiter atau pemisah
aslinya. yang sudah ditetapkan. Pemisah
b. Abstraksi tersebut adalah tanda titik(.),tanda
Teknik abstraksi menggunakan seru(!) dan tanda Tanya(?).
metode linguistik untuk memeriksa b. Case Folding
dan menafsirkan teks dokumen Pada tahapan ini dilakukan proses
menjadi ringkasan. Ringkasan teks penyamaan case atau besar kecil
tersebut dihasilkan dengan cara dari setiap huruf yang terdapat pada
menambahkan kalimat-kalimat baru teks masukan yang telah di pecah
yang merepresentasikan intisari menjadi beberapa kalimat. Selain
teks sumber ke dalam bentuk yang itu pada tahap ini juga di lakukakan
berbeda dengan kalimat-kalimat proses pembuangan pada tanda
yang ada pada teks sumber. baca,simbol dan angka yang
terdapat pada data masukan.
268
c. Tokenizing perhitungan bobot, yaitu Term

Pada tahapan ini teks masukan hasil frequency (TF) merupakan frekuensi
dari proses case folding dipecah kemunculan kata (t) pada kalimat (d).
kembali menjadi beberapa kalimat Document frequency (DF) adalah
berdasarkan spasi yang terdapat banyaknya kalimat dimana suatu kata (t)
pada kalimat hasil case folding. muncul.
d. Stop Words Removal
Pada tahapan ini dilakukan proses Frekuensi kemunculan kata di dalam
penghapusan stop words yang dokumen yang diberikan menunjukkan
masih terdapat pada teks hasil dari seberapa penting kata itu di dalam
proses tokenizing. Stop words dokumen tersebut. Frekuensi dokumen
merupakan sebuah kata yang yang mengandung kata tersebut
dianggap tidak terlalu penting menunjukkan seberapa umum kata
dalam proses peringkasan atau kata tersebut[4]. Bobot kata semakin besar
yang tidak mempunyai arti dalam jika sering muncul dalam suatu
sebuah dokumen[10]. Contoh dari dokumen dan semakin kecil jika muncul
stop words dalam bahasa Indonesia dalam banyak dokumen. Pada aloritma
adalah : dan,atau,jika dan TF-IDF digunakan rumus untuk
sebagainya. Tujuan utama menghitung bobot (W) masing masing
dilakukan tahap ini adalah untuk dokumen terhadap kata kunci dengan
mengurangi dimensi dari teks persamaan :
masukan sehingga proses (1)
peringkasan dapat berjalan dengan Keterangan:
lebih mudah [8].
e. Stemming d : dokumen ke-d
Stemming merupakan proses yang t : kata ke-t dari kata kunci
menyediakan pemetaan varian W : bobot dokumen ke-d terhadap kata
morfologi yang berbeda dari suatu ke-t
kataker akar katanya dengan cara tf : banyaknya kata yang dicari pada
[10]. proses ini melakukan sebuah dokumen
pemetaan dari penguraian berbagai IDF : Inversed Document Frequency
bentuk kata baik itu prefix, sufix,
maupun gabungan antara prefix dan Untuk nilai IDF dapat di cari dengan
sufix (confix), menjadi bentuk kata persamaan :
dasarnya. Pada penelitian ini IDF =Error! Reference source
algoritma stemming yang not found. (2)
digunakan adalah algoritma Keterangan:
stemming Nazief dan Adriani.
N : total dokumen
2.3 Algoritma Term Frequency – df : banyak dokumen yang mengandung
Inverse Document Frequency kata yang dicari
(TF-IDF)
2.4 Latent Semantic Analysis
Metode Term Frequency-Inverse
Document Frequency (TF-IDF) adalah Latent Semantic Analysis (LSA) adalah
cara pemberian bobot hubungan suatu suatu metode untuk mengekstrak
kata (term) terhadap dokumen. Untuk sebuah tulisan dalam suatu dokumen
dokumen tunggal tiap kalimat dianggap dan kemudian mengaplikasikannya
sebagai dokumen. Metode ini dalam perhitungan matematis. Penilaian
menggabungkan dua konsep untuk dengan metode LSA lebih kepada kata-
269
kata yang ada dalam tulisan tanpa nilai singular (singular value) suatu
memperhatikan urutan kata dan tata matriks yang merupakan salah satu
bahasa dalam tulisan tersebut, sehingga karakteristik matriks tersebut [11].
suatu kalimat yang dinilai adalah Dekomposisi nilai singular matriks riil
berdasarkan kata-kata kunci yang ada A mxn adalah faktorisasi.
pada kalimat tersebut [1]. (3)
Metode ini terinspirasi dari penggunaan Dengan U matriks orthogonal m x m, V

latent semantic indexing yang matriks orthogonal n x n dan S matriks
mengimplementaasikan metode singular diagonal m x n bernilai riil tak negatif
value decomposition (SVD) untuk yang disebut nilai-nilai singular.
menghasilkan sebuah ringkasan. Dengan kata lain S = diag (σ1, σ2, … ,
Terdapat tiga tahapan utama dalam σn ) terurut sehingga σ1 ≥ σ2 ≥ … ≥ σn
proses menghasilkan ringkasan [11].
menggunakan metode ini, yaitu :
a. Pembuatan matriks Matriks Amxn dapat dinyatakan sebagai
b. Singular value decomposition dekomposisi matriks yaitu matriks U, S
c. Ekstraksi kalimat ringkasan dan V . Matriks S merupakan matriks
diagonal dengan elemen diagonalnya
2.4.1 Pembuatan Matriks berupa nilai-nilai singular matriks A,
sedangkan matriks U dan V merupakan
Pada tahap ini dibuat sebuah matriks matriks-matriks yang kolom-kolomnya
berdasarkan dengan teks masukan yang berupa vektor singular kiri dan vektor
akan di ringkas. Matriks yang dibuat singular kanan dari matriks A untuk
berupa matriks dengan kata dari artikel nilai singular yang bersesuaian [11].
berita dijadikan sebagai baris dan
kalimat dalam artikel berita dijadikan Menentukan SVD meliputi langkah-
sebagai kolom, untuk nilai atau isi dari langkah menentukan nilai eigen dan
matriks tersebut di ambil berdasarkan vektor eigen dari matriks AAT atau ATA.
nilai dari bobot setiap kata yang Vektor eigen dari ATA membentuk
terdapat pada artikel yang di dapatkan kolom V, sedangkan vektor eigen dari
dari tahapan pembobotan kata AAT membentuk kolom U. Nilai
menggunakan Algoritma Term singular dalam S adalah akar pangkat
Frequency – Inverse Document dua dari nilai-nilai eigen matriks AAT
Frequency (TF-IDF). atau ATA. Nilai singular adalah elemen-
elemen diagonal dari S dan disusun
2.4.2 Singular Value Decomposition dengan urutan menurun [11].
Setelah matriks di ciptakan maka tahap 2.4.3 Ekstraksi Kalimat Ringkasan

selanjutnya adalah mengubah matriks
tersebut menjadi lebih kecil dengan Pada proses ini dilakukan tahap
menggunakan metode singular value pemilihan kalimat yang akan di jadikan
decomposition (SVD). Suatu proses sebagai ringkasan. Kalimat yang dipilih
dekomposisi akan memfaktorkan diambil dari kalimat yang terdapat pada
sebuah matriks menjadi lebih dari satu matriks VT. Kemudian dilakukan
matriks. Demikian halnya dengan pemilihan kalimat yang akan di jadikan
Dekomposisi Nilai Singular (Singular sebagai ringkasan berdasarkan kalimat
Value Decomposition) atau yang lebih yang mengandung bobot kata terbesar.
dikenal sebagai SVD, adalah salah satu Proses pemilihan diulang sebanyak
teknik dekomposisi berkaitan dengan jumlah kalimat yang terdapat dalam
270
matriks.Contoh dari proses ekstraksi Dimana :

menggunakan metode ini adalah sebagai i : baris matriks
berikut. j : kolom matriks
2.5 Cross Method Latent Semantic Baris - baris pada matriks atau kalimat -
Analysis kalimat yang mempunyai nilai length
yang tinggi akan di jadikan sebagai
Cross method latent semantic analysis ringkasan.
merupakan sebuah pegembangan dari
metode latent semantic analysis yang 2.6 Tahapan Penelitian
telah ada sebelumnya. Metode ini dapat
menghasilkan ringkasan dari teks Tahapan penelitian yang dilakukan pada
masukan yang lebih akurat penelitian ini dapat dilihat pada gambar
dibandingkan dengan metode latent 1 berikut:
semantic analysis yang sebelumnya [4].
Tahapan dari metode ini sebenarnya
sama seperti metode Latent Semantic
Analysis sebelumnya yaitu dimulai dari
tahap pembuatan matriks, Singular
Value Decomposition dan ekstraksi
ringkasan.
Yang menjadi perbedaan metode ini

dengan metode latent semantic analysis Gambar 1: Tahapan Penelitian
terdapat pada saat tahap ekstraksi
ringkasan. Metode ini menggunakan
nilai rata – rata (average) dan panjang Penjelasan metode penelitian yang
(length) yang di ambil dari matriks VT digunakan pada gambar 1 adalah
dan matriks S. Nilai average diambil sebagai berikut :
dari nilai rata – rata dari setiap bobot
kata yang terdapat baris matriks VT. a. Identifikasi Masalah
setelah ditemukan nilai rata – rata dari Berdasarkan latar belakang yang
setiap kata yang terdapat pada matriks telah disebutkan, permasalahan
VT, langkah selanjutnya adalah yang dapat di identifikasi adalah
mencocokan nilai rata-rata yang kebutuhan masyarakat akan
didapatkan pada setiap baris dengan peringkas teks otomatis yang dapat
nilai dari setiap kata yang terdapat pada menghasilkan ringkasan dengan
baris tersebut. Jika ternyata nilai dari cepat dan akurat. Serta penggunaan
kata tersebut lebih rendah dari nilai rata- metode pada peringkas teks
rata yang didapat, maka nilai kata otomatis yang dapat menghasilkan
tersebut di ubah menjadi nol. Tetapi jika ringkasan dengan tingkat akurasi
tidak maka nilai dari kata tersebut tetap. tinggi.
b. Analisis Masalah
Setelah tahapan pencarian dan Dari permasalahan yang telah di
pencocokan nilai rata – rata telah identifikasi didapatkan bahwa salah
dilakukan, tahap selanjutnya adalah satu metode yang digunakan untuk
menghitung length dari setiap baris dari menghasilkan ringkasan pada
matriks VT dengan rumus : peringkas teks otomatis untuk
artikel berita berbahasa Indonesia
(4) adalah metode Latent Semantic
271
Analysis (LSA). Tetapi metode otomatis untuk teks berbahasa

LSA yang diterapkan pada bebrapa Indonesia. Dimulai dari tahap
penelitian untuk menghasilkan pembangunan interface peringkas
ringkasan pada dokumen berbahasa teks otomatis, tahapan
Indonesia menggunakan metode preprocessing(pemecahan kalimat,
LSA yang lama sedangkan metode Case Folding, Tokenizing, Stop
LSA telah mengalami beberapa Words Removal dan Stemming),
tahap pengembangan. Sehingga pembobotan kata menggunakan
ringkasan yang dihasilkan oleh metode Term Frequency – Inverse
metode LSA yang lama memiliki Document Frequency (TF-IDF) dan
tingkat akurasi yang lebih rendah implementasi Cross Method Latent
jika dibandingkan dengan metode Semantic Analysis untuk
LSA yang telah dikembangkan. menghasilkan ringkasan.
c. Pengambilan Hipotesis Awal g. Pengujian Peringkas Teks Otomatis
Dari hasil analisis masalah di atas Pada tahapan ini, akan dilakukan
dapat diambil sebuah hipotesis awal proses pengujian terhadap
yaitu, untuk menghasilkan sebuah peringkas teks otomatis yang telah
peringkas teks otomatis metode di bangun untuk melihat apakah
yang dapat digunakan adalah Cross peringkas teks otomatis dapat
Method Latent Semantic Analysis berjalan dengan semestinya. Jika
yang dapat menghasilkan sebuah peringkas teks otomatis yang
ringkasan yang lebih akurat dibangun memiliki kekurangan
dibandingkan dengan metode latent maka akan kembali ke tahapan
semantic analysis biasa. perancangan peringkas teks
d. Studi Literatur otomatis untuk melakukan analisis
Pada tahap ini dilakukan studi kesalahan yang mungkin terjadi
terhadap literatur – literatur yang pada saat pembangunan peringkas
berkaitan dengan penelitian yang teks otomatis. Jika peringkas teks
dilakukan seperti literature otomatis sudah dapat berjalan
mengenai peringkas teks otomatis, dengan semestinya maka akan
proses pengolahan teks, dan cross masuk ke dalam tahapan pengujian
method latent semantic analysis, metode.
serta literature – literatur lain yang h. Pengujian Metode
mendukung penelitian. Dalam tahapan ini akan dilakukan
e. Perancangan Simulator pengujian terhadap Cross Method
Pada tahap ini dilakukan proses Latent Semantic Analysis untuk
perancangan peringkas teks mengetahui hasil dari implementasi
otomatis. Proses perancangan metode ini dalam peringkas teks
terdiri dari proses analisis otomatis. Jika dari tahapan ini
kebutuhan fungsional dan non memberikan hasil yang kurang baik
fungsional dari peringkas teks maka akan kembali ke tahapan
otomatis yang akan dibangun, studi literatur untuk menganalisis
analisis data masukan, perancangan kesalahan yang mungkin terjadi
tampilan antar muka peringkas teks pada saat penerapan metode.
otomatis dan perancangan jaringan i. Analisis Hasil Ringkasan
semantik. Pada proses ini dilakukan analisis
f. Pembangunan Peringkas Teks pada hasil ringkasan yang
Otomatis didapatkan dengan menggunakan
Pada tahap ini dilakaukan metode Latent Semantic Analysis.
pembangunan dari peringkas teks Untuk proses analisis digunakan
272
metode Precision,Recall serta pada setiap berita oleh mesin serta

metode F-Measure untuk jumlah dari kalimat ringkasan yang
mengetahui tingkat ke akuratan dihasilkan oleh mesin pada setiap berita
ringkasan yang dihasilkan dari yang di ringkas.
Cross Method Latent Semantic
Analysis. Data ringkasan manual merupakan hasil
j. Pengambilan Kesimpulan ringkasan yang diperoleh secara manual
Pada tahap ini dilakukan oleh manusia, pada penelitian ini data
pengambilan kesimpulan yang ringkasan manual dihasilkan oleh
didapat dari hasil ringkasan yang sepuluh orang dari berbagai latar
dihasilkan oleh peringkas teks belakang, hal ini dilakukan dengan
otomatis untuk teks berita harapan bahwa hasil ringkasan yan g
berbahasa Indonesia. dihasilkan beragam. Data dihasilkan
dengan meggunakan bantuan kuesioner
2.7 Pengumpulan Data dan Analisa dimana kuesioner yang digunakan berisi
Data berita yang akan di ringkas yang telah
dipotong per kalimat dalam sebuah
Pada penelitian ini terdapat tiga jenis tabel sehingga untuk menentukan
data yang digunakan dalam penelitian, kalimat mana yang dipilih sebagai
yaitu data berita, data hasil ringkasan ringkasan pengambil ringkasan hanya
peringkas teks otomatis dan data hasil perlu mencoret pada nomor kalimat
ringkasan manual atau manusia. yang dianggap memliki informasi
penting dalam berita tersebut. Jumlah
Data berita merupakan berita - berita kalimat yang dapat dipilih sebagai
yang akan digunakan sebagai masukan ringkasan tidak ditentukan sehingga ada
atau data yang akan di ringkas secara kemungkinan jumlah kalimat yang
otomatis menggunakan bantuan mesin dipilih oleh peringkas satu dengan
(peringkas teks otomatis) dan secara peringkas lainnya berbeda, hal ini
manual oleh manusia. Data berita yang dilakukan karena peneliti memiliki
digunakan merupakan data berita anggapan bahwa hasil ringkasan secara
bertema politik yang diambil dari situs manual yang dihasilkan oleh setiap
berita online viva.co.id. Dalam orang berbeda - beda. Hasil dari
penelitian ini digunakan enam buah ringkasan manual merupakan kalimat -
berita bertema politik sebagai data kalimat yang dipilih sebagai ringkasan
berita. dan jumlah kalimat yang dipilih sebagai
ringkasan pada setiap berita yang di
Data ringkasan peringkas teks otomatis ringkas.
merupakan data dari hasil ringkasan
yang dihasilkan oleh mesin dengan 2.8 Metode Pengujian Hasil
menggunakan Algoritma Cross Method Ringkasan
Latent Semantic Analysis dengan data
yang di ringkas merupakan data berita Hasil ringkasan yang dihasilkan oleh
politik dari situs viva.co.id yang telah di peringkas teks otomatis selanjutnya
ambil sebelumnya. Jumlah dari kalimat harus melalui tahapan pengujian dan
yang dapat dijadikan ringkasan oleh evaluasi untuk mengetahui tingkat
mesin di batasi, yaitu hanya 35% akurasi dan ketepatan hasil ringkasan
kalimat dari keseluruhan isi berita pada yang dihasilkan. Proses evaluasi hasil
setiap berita yang akan di ringkas. Hasil ringkasan dapat dikategorikan menjadi
dari data ringkasan adalah kalimat - dua yaitu metode evaluasi intrinsik dan
kalimat yang dipilih sebagai ringkasan metode evaluasi ekstrinsik [12].
273
Kalimat relevan adalah kalimat –

Pada proses evaluasi secara ekstrinsik, kalimat ringkasan yang dihasilkan oleh
kualitas dari hasil ringkasan peringkas teks otomatis yang sama
dilandaskan pada efek apakah hasil dari dengan kalimat – kalimat ringkasan
ringkasan dapat membantu pada kasus yang dihasilkan secara manual oleh
yang diberikan. Sedangkan pada proses manusia. Untuk mencari kalimat
evaluasi secara intrinsik, kualitas dari relevan digunakan persamaan:
hasil ringkasan berdasarkan dari hasil Kalimat relevan = Error! Reference source
analisis yang dilakukan pada ringkasan not found. (7)
secara langsung. Pada kasus evaluasi
intrinsik hasil ringkasan. Dimana :
KRS : Kalimat Ringkasan Sistem
dibandingkan dengan dokumen asli, KRM : Kalimat Ringkasan Manual
dari situ akan di analisis seberapa
banyak ide utama pada dokumen asli Setelah diketahui nilai precision dan
yang terdapat pada hasil ringkasan nilai recall, tahapan selanjutnya adalah
dengan menyamakan hasil ringkasan menghitung nilai dari f – measure yang
dengan hasil ringkasan abstrak atau merupakan nilai yang digunakan untuk
hasil ringkasan manual yang dilakukan mengukur nilai akurasi dari ringkasan
oleh manusia [13]. yang dihasilkan dengan menggunakan
nilai yang dihasilkan pada perhitungan
Pada penelitian ini proses evaluasi yang precision dan recall sebelumnya,
akan digunakan adalah proses evaluasi sehingga f-measure bisa juga disebut
secara intrinsik dengan menggunakan sebagai gabungan atau kombinasi nilai
metode precision, recall dan f -measure . precision dan recall [15]. F-measure
Nilai f - measure dihasikan berdasarkan dapat dicari dengan menggunakan
nilai precision dan recall. Metode persamaan berikut:
evaluasi ini merupakan metode evaluasi
yang sering digunakan dalam proses (8)
evaluasi hasil ringkasan. Dalam metode
intrinsik, precision dan recall
digunakan untuk mengukur kualitas
ringkasan sistem dengan cara 3.HASIL DAN PEMBAHASAN
membandingkan ringkasan sistem
dengan ringkasan manual (buatan 3.1 Skenario Pengujian
manusia). Precision adalah tingkat
ketepatan hasil ringkasan yang Pada bagian ini akan dipaparkan
dihasilkan peringkas teks otomatis tindakan yang akan dilakukan selama
sedangkan recall adalah tingkat proses pengujian terhadap peringkas
keberhasilan ringkasan yang dihasilkan teks otomatis berlangsung. Pada
peringkas teks otomatis.Untuk penelitian ini, akan dilakukan proses
menghitung nilai precision dan nilai pengujian tingkat akurasi dari ringkasan
recall digunakan persamaan berikut yang dihasilkan oleh manusia atau
[13]: manual dan hasil ringkasan dari.. Hasil
dari ringkasan manual diperoleh dari
sepuluh orang penguji dari berbagai
(5) macam kalangan, hal ini dilakukan
untuk mendapatkan hasil ringkasan
(6) manual yang beragam dengan catatan
penguji yang dipilih dianggap dapat
memberikan atau mengambil informasi
274
inti dari berita yang berikan dengan baik.

Tabel 2: Hasil Ringkasan Peringkas Teks
Data yang digunakan dalam penelitian Otomatis
ini adalah Artikel berita atau dokumen Jumlah
Jumlah Ringkasan Indeks
sumber berupa artikel berita bertema Dokumen
Kalimat Peringkas Kalimat
politik yang bersumber dari portal berita Teks Otomatis
viva.co.id dengan jumlah artikel berita 1 12 3 1,2,3
yang digunakan berjumlah enam buah 2 12 3 1,2,3
3 10 3 1,2,7
dokumen. Jumlah ringkasan yang 4 7 2 1,2
diambil baik ringkasan manual maupun 5 11 3 1,2,6
ringkasan peringkas teks otomatis 6 9 3 1,2,4
sebesar 35% dari banyak kalimat di

setiap dokumen uji tetapi untuk 3.4 Evaluasi Pengujian
ringkasan manual jika terdapat kalimat
yang memiliki jumlah frekuensi Evaluasi pengujian peringkas teks
kemiripan yang sama, maka seluruh otomatis dilakukan dengan cara
kalimat dengan frekuensi yang sama membandingkan hasil ringkasan manual
tersebut dipilih sebagai hasil ringkasan dengan hasil ringkasan sistem. Dalam
manual. Hasil ringkasan manual untuk proses evaluasi ini juga dicari nilai
setiap dokumen uji yang diambil dari kalimat relevan dari setiap ringkasan
sepuluh orang penguji merupakan yang dihasilkan dari setiap dokumen
kalimat dengan tingkat frekuensi dengan menggunakan persamaan (7).
pemilihan kalimat sebagai ringkasan Uji evaluasi peringkas teks otomatis
tertinggi di setiap dokumen uji. dapat dilihat pada Tabel 3.
Tabel 3: Uji Evaluasi Peringkas Teks

3.2 Hasil Ringkasan Manual Otomatis
Hasil ringkasan dari enam buah

Jumlah Kalimat
dokumen artikel berita politik berbahasa

Dokumen
∑KRM
Indonesia yang di dapatkan dari sepuluh

∑KRS
KRM
∑KR
KRS
KR
orang penguji yang berbeda dapat
dilihat pada tabel 1 di bawah :
Tabel 1: Hasil Ringkasan Manual
1 12 2,3,6,8 4 1,2,3 3 2,3 2
Jumlah
Jumlah Indeks 2 12 1,2,7 3 1,2,3 3 1,2 2
Dokumen Ringkasan
Kalimat Kalimat 3 10 1,3,7 3 1,2,7 3 1,7 2
Manual
4 7 1,2 2 1,2 2 1,2 2
1 12 4 2,3,6,8
5 11 1,2,4,1 4 1,2,6 3 1,2 2
2 12 4 1,2,7, 12
1
3 10 3 1,3,7
6 9 1,2,8 3 1,2,4 3 1,2 2
4 7 2 1,2
5 11 4 1,2,4,11
6 9 3 1,2,8 Keterangan :
KRM : Kalimat ringkasan manual
3.3. Hasil Ringkasan Peringkas Teks yang dihasilkan oleh manusia
Otomatis ∑KRM : Jumlah kalimat ringkasan
manual
Hasil ringkasan dari 6 buah dokumen KK : Kalimat ringkasan sistem
artikel berita politik berbahasa ∑KRS : Jumlah kalimat ringkasan
Indonesia yang dihasilkan oleh sistem
peringkas teks otomatis dapat dilihat KR : Kalimat relevan
pada tabel 2 dibawah : ∑KR : Jumlah kalimat relevan
275
Setelah diketahui hasil dari pengujian 4. KESIMPULAN

evaluasi pada peringkas teks otomatis ,
selanjutnya adalah tahapan pengujian Kesimpulan yang didapat dari hasil
peringkas teks otomatis yang dilakukan penelitian untuk implementasi Cross
terhadap ketepatan, keberhasilan dan Method Latent Semantic Analysis untuk
gabungan keduanya, dengan menghasilkan ringkasan pada peringkas
menggunakan perhitungan recall teks otomatis pada artikel berita politik
menggunakan persamaan (5), precision berbahasa Indonesia dengan
menggunakan persamaan (6), dan f- compression rate sebesar 35% yang
measure menggunakan persamaan (8). diuji dengan menggunakan data hasil
ringkasan manual dan data hasil
Hasil evaluasi pengujian peringkas teks ringkasan sistem dengan menggunakan
otomatis dalam notasi perhitungan metode Precision, Recall dan F-
recall, precision, dan fmeasure dapat Measure adalah :
dilihat pada Tabel 4. 1. Nilai akurasi rata-rata precision dari
ringkasan yang dihasilkan sebesar
Tabel 4: Hasil Pengujian Metode Precison, 72,25%
Recall dan F-Measure 2. Nilai rata-rata recall dari ringkasan
Dokumen Precision Recall F-Measure yang dihasilkan sebesar 66,7%
1 66,7% 50% 57,15% 3. Nilai rata-rata f-measures dari
2 66,7% 66,7% 67,7% ringkasan yang dihasilkan sebesar
3 66,7% 66,7% 67,7%
4 100% 100% 100% 69,6%.
5 66,7% 50% 57,15%
6 66,7% 66,7% 67,7%
Dari nilai akurasi Precision , Recall dan
Rata - rata 72,25% 66,7% 69,6%
F-Measure yang telah di dapatkan,
Dari tahapan pengujian yang telah dapat diketahui bahwa implementasi
dilakukan terhadap peringkas teks cross method latent semantic analysis
otomatis yang dibangun dengan pada peringkas teks otomatis untuk
menggunakan metode pengujian meringkas artikel berita politik
Precision , Recall dan F-Measure, dapat berbahasa Indonesia dapat
diketahui bahwa penggunaan metode menghasilkan ringkasan dengan baik.
cross method latent semantic analysis
untuk menghasilkan ringkasan dari 5.SARAN
artikel politik berbahasa Indonesia
memiliki rata – rata nilai performansi Dari hasil penelitian pada ringkasan
yang dihasilkan dengan Cross Method
Precision sebesar 72,25%, Recall
Latent Semantic Analysis yang di
sebesar 66,7% dan F-Measure sebesar
dapatkan dengan menggunakan metode
69,6%. Nilai akurasi ini dianggap
pengujian intrinsik F-Measure diketahui
sudah dapat menghasilkan sebuah
bahwa tingkat akurasi dari ringkasan
ringkasan dengan cukup baik.
yang dihasilkan dengan menggunakan
metode ini adalah sebesar 69,6%.
Akurasi dari ringkasan yang dihasilkan
Adapun saran yang dapat diberikan
dengan menggunakan cross method
untuk meningkatkan tingkat akurasi dari
latent semantic analysis ini masih dapat
ringkasan yang dihasilkan adalah
di tingkatkan lagi dengan menggunakan
sebagai berikut :
daftar kata dasar dan stop words bahasa
1. Penggunaan daftar stop words yang
Indonesia yang lebih lengkap pada saat
lebih lengkap untuk menghilangkan
tahap preprocessing.
noise secara lebih sempurna yang
276
masih terdapat pada dokumen "A Survey on Automatic Text

masukan. Summarization," Literature Survey
2. Penggunaan daftar kata dasar for the Language and Statistics II
bahasa Indonesia yang lebih course at CMU, vol. 4, pp. 192 -
lengkap untuk menyempurnakan 195, November 2007.
hasil yang didapatkan pada tahapan [8] J. Ilamathi, Nithya Vijayarani,
preprocessing stemming. "Preprocessing Techniques for Text
Mining," International Journal of
Computer Science and
DAFTAR PUSTAKA Communication Network, vol. 5, no.
1, pp. 7-16, 2015.
[1] Y Gong and X Liu, "Generic Text [9] Vikram Singh and Balwinder Saini,
Summarization Using Relevance "An Effective Pre-Processing
Measure and Latent Semantic," Algorithm For Information
Proceedings of the 24th Annual Retrieval Systems," International
International ACM SIGIR Journal of Database Management
Conference on Research and Systems, vol. 6, no. 6, p. 13, 2014.
Developement in Information
Retrieval, pp. 19 - 25, 2001. [10] Fadillah Z Tala, "A Study of
Stemming Effects on Information
[2] Karel Jezek Josef Steinberger, Retrieval in Bahasa Indonesia,"
"Using Latent Semantic Analysis in 2003.
Text Summarization and Summary
Evaluation," Proceedings of ISIM, [11] Gregoria Ariyanti, "Dekomposisi
pp. 93-100, 2004. Nilai Singular dan Aplikasinya,"
Prosiding Seminar Nasional
[3] Steve Renals, Jean Carletta Gabriel Matematika dan Pendidikan
Murray, "Extractive Summarization Matematika (2010):” Peningkatan
of Meeting Recordings," 2005. Kontribusi Penelitian dan
[4] Makbule Gulcin Ozsoy, Ilyas Pembelajaran Matematika dalam
Cicekli, and Ferda Nur Alp, "Text Upaya Pembentukan Karakter
Summarization of Turkish Texts Bangsa”, 2010.
Using Latent Semantic Analysis," [12] Manabu Okumura Takahiro
Proceedings of the 23rd Fukusima, "Text Summarization
international conference on Challenge Text Summarization
computational linguistics, pp. 869 - Evaluation in Japan," North
876, 2010. American Association for
[5] Junta Zeniarja, Abu Salam Ardytha Computational Linguistics
Luthfiarta, "Algoritma Latent (NAACL2001), Workshop on
Semantic Analysis (LSA) Pada Automatic Summarization, pp. 51 -
Peringkas Dokumen Otomatis 59, 2001.
Untuk Proses Clustering Dokumen," [13] Karel Jezek Josef Steinberg,
Semantik, vol. 3, no. 1, pp. 61-68, "Evaluation Measures for Text
2013. Summarization," Computing and
[6] Adiwijawa, Moch Arif Bijaksana Informatics, vol. 28, no. 2, pp. 251 -
Agung Triwibowo, "Penggunaan 275, 2009.
Metode Relevance Measure Dan
Latent Semantic Analysis (LSA)
Dalam Membuat Ikhtisar Dokumen
Berita," 2010.
[7] Andre F.T. Martins Dipanjan Das,
277

Implementasi Cross Method Latent Semantic Analysis Untuk Meringkas Dokumen Berita Berbahasa Indonesia

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Implementasi Cross Method Latent Semantic Analysis Untuk Meringkas Dokumen Berita Berbahasa Indonesia

Diunggah oleh

Hak Cipta:

Format Tersedia

Techno.COM, Vol. 15, No.

4, November 2016 : 266-277

IMPLEMENTASI CROSS METHOD LATENT SEMANTIC

Fernando Winata1, Ednawati Rainarli2

1. PENDAHULUAN menggabungkan algoritma latent

c. Tokenizing perhitungan bobot, yaitu Term

Metode ini terinspirasi dari penggunaan Dengan U matriks orthogonal m x m, V

Setelah matriks di ciptakan maka tahap 2.4.3 Ekstraksi Kalimat Ringkasan

matriks.Contoh dari proses ekstraksi Dimana :

Yang menjadi perbedaan metode ini

Analysis (LSA). Tetapi metode otomatis untuk teks berbahasa

metode Precision,Recall serta pada setiap berita oleh mesin serta

Kalimat relevan adalah kalimat –

inti dari berita yang berikan dengan baik.

sebesar 35% dari banyak kalimat di

Tabel 3: Uji Evaluasi Peringkas Teks

Hasil ringkasan dari enam buah

dokumen artikel berita politik berbahasa

Indonesia yang di dapatkan dari sepuluh

Setelah diketahui hasil dari pengujian 4. KESIMPULAN

masih terdapat pada dokumen "A Survey on Automatic Text

Anda mungkin juga menyukai