Abstrak
Penelitian mengenai peringkasan teks secara otomatis sampai saat ini masih terus
dilakukan dengan harapan hasil ringkasan yang dihasilkan oleh mesin dapat mendekati
ringkasan yang dihasilkan oleh manusia. Salah satu metode yang digunakan untuk
menghasilkan ringkasan dengan bantuan mesin adalah metode Latent Semantic Analysis (LSA)
yang menerapkan konsep Singular Value Decomposition untuk pemilihan ringkasan yang
dihasilkan, tetapi dari beberapa hasil pengujian yang telah dilakukan terhadap metode ini
dapat diketahui bahwa tingkat akurasi dari ringkasan yang dihasilkan masih dapat ditingkatkan
kembali. Cross Method Latent Semantic Analysis (CMLSA) merupakan pengembangan dari
metode LSA yang dianggap dapat menghasilkan ringkasan dengan tingkat akurasi yang lebih
tinggi dari metode LSA. Untuk menguji seberapa baik ringkasan yang dihasilkan maka
dibuatlah simulator peringkas teks otomatis dengan menggunakan CMLSA sebagai metode
peringkasan sedangkan teks yag digunakan sebagai masukan adalah teks berita yang diambil
dari portal berita viva.co.id. Dari hasil penelitian ini dapat diketahui bahwa rata – rata nilai
performansi dari ringkasan yang dihasilkan dengan menggunakan metoede pengujian Precision,
Recall dan F-Measure adalah nilai Precision sebesar 72,25%, nilai Recall sebesar 66,7% dan
nilai F-Measure sebesar 69,6%, hasil ringkasan dengan menggunakan metode ini dengan
akurasi ringkasan sebesar 69,6% dianggap cukup baik.
Kata Kunci: cross method latent semantic analysis, TF-IDF, automatic text summarization,
natural language processing.
Abstract
The research on extracting summary from document automaticly still being researched
with the expectation that the extracted summary using machine help can be close to the
summary extracted by human. One of the method that used to extracting summary is called
Latent Semantic Analysis (LSA), this method used the concept of Singular Value Decomposition
as its base on extracting summary, but from the result of researchs that has been done to this
method it is known that this method still can be further upgraded to make the accuracy of the
extracted summary better. Cross Method Latent Semantic Analysis (CMLSA) is one of the
upgraded version of LSA with the ability to extract summary better than using LSA. Automatic
text summarization simulator is being builded for testing the accuracy of the extracted summary
with the use of CMLSA for the method of extracting summary and the text that used as an input
is news article that obtained from viva.co.id website. The result from this research are the
accuracy of extracted summary using Precision, Recall and F-Measure testing method are
Precison method value is 72,5%, Recall method value is 66,7% and F-Measure method value is
69,6%. From these result, we can know that the extracted summary using CMLSA can be
considered good.
Keywords: cross method latent semantic analysis, TF-IDF, automatic text summarization,
natural language processing.
266
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
267
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
Semantic Analysis pada peringkas teks Pada penelitian ini teknik peringkasan
otomatis teks yang digunakan adalah teknik
peringkasan secara ekstraksi dengan
2.1 Peringkas Teks Otomatis menggunakan mesin atau komputer
sebagai alat bantu untuk menghasilkan
Ringkasan adalah sebuah teks yang ringkasan
dihasilkan dari sebuah dokumen atau
lebih yang menyatakan informasi 2.2 Preprocessing
penting dari dokumen asli, dan sebuah
ringkasan memiliki ukuran yang relatif Preprocessing merupakan tahapan awal
lebih pendek dari dokumen asli [7]. untuk menghasilkan sebuah ringkasan.
Tujuan utama dari ringkasan adalah Teks masukan yang akan di ringkas
menghasilkan sebuah intisari atau terlebih dahulu harus melalui tahap
informasi inti yang terdapat dalam untuk membuang berbagai macam jenis
dokumen asli dalam bentuk yang lebih noise atau kata – kata yang di anggap
kecil agar pembaca dapat mendapatkan tidak penting dalam ringkasan yang
informasi penting yang terdapat dalam masih terdapat pada teks masukan [8].
dokumen dengan lebih cepat. Proses
peringkasan teks secara otomatis sendiri Dalam penerapan preprocessing
merupakan proses peringkasan pada terdapat beberapa tahap yang harus
suatu dokumen dengan menggunakan dilalui dimulai dari tahapan tokenisasi,
bantuan komputer. penghilangan stop words sampai
dengan tahapan stemming, selain
Menurut Andre F.T dan kawan – kawan tahapan itu juga biasanya di tambahkan
[7], terdapat dua buah pendekatan yang beberapa tahapan lain untuk kasus
dilakukan untuk menghasilkan sebuah tertentu seperi case folding dan
ringkasan secara otomatis yaitu : penghilangan kata yang jarang
a. Ekstraksi dimunculkan atau kata dengan frekuensi
Pada teknik ekstraksi, sistem kemunculan yang kecil [9].
menyalin unit-unit teks yang
dianggap paling penting dari teks Proses preprocessing yang diterapkan
sumber menjadi ringkasan. Unit- pada penelitian ini meliputi beberapa
unit teks yang disalin dapat berupa macam tahap yaitu:
klausa utama, kalimat utama, atau a. Pemecahan Kalimat
paragraf utama tanpa ada Pada tahapan ini teks masukan
penambahkan kalimat-kalimat baru dipecah menjadi beberapa kalimat
yang tidak terdapat pada dokumen berdasarkan delimiter atau pemisah
aslinya. yang sudah ditetapkan. Pemisah
b. Abstraksi tersebut adalah tanda titik(.),tanda
Teknik abstraksi menggunakan seru(!) dan tanda Tanya(?).
metode linguistik untuk memeriksa b. Case Folding
dan menafsirkan teks dokumen Pada tahapan ini dilakukan proses
menjadi ringkasan. Ringkasan teks penyamaan case atau besar kecil
tersebut dihasilkan dengan cara dari setiap huruf yang terdapat pada
menambahkan kalimat-kalimat baru teks masukan yang telah di pecah
yang merepresentasikan intisari menjadi beberapa kalimat. Selain
teks sumber ke dalam bentuk yang itu pada tahap ini juga di lakukakan
berbeda dengan kalimat-kalimat proses pembuangan pada tanda
yang ada pada teks sumber. baca,simbol dan angka yang
terdapat pada data masukan.
268
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
269
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
kata yang ada dalam tulisan tanpa nilai singular (singular value) suatu
memperhatikan urutan kata dan tata matriks yang merupakan salah satu
bahasa dalam tulisan tersebut, sehingga karakteristik matriks tersebut [11].
suatu kalimat yang dinilai adalah Dekomposisi nilai singular matriks riil
berdasarkan kata-kata kunci yang ada A mxn adalah faktorisasi.
pada kalimat tersebut [1]. (3)
270
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
2.5 Cross Method Latent Semantic Baris - baris pada matriks atau kalimat -
Analysis kalimat yang mempunyai nilai length
yang tinggi akan di jadikan sebagai
Cross method latent semantic analysis ringkasan.
merupakan sebuah pegembangan dari
metode latent semantic analysis yang 2.6 Tahapan Penelitian
telah ada sebelumnya. Metode ini dapat
menghasilkan ringkasan dari teks Tahapan penelitian yang dilakukan pada
masukan yang lebih akurat penelitian ini dapat dilihat pada gambar
dibandingkan dengan metode latent 1 berikut:
semantic analysis yang sebelumnya [4].
Tahapan dari metode ini sebenarnya
sama seperti metode Latent Semantic
Analysis sebelumnya yaitu dimulai dari
tahap pembuatan matriks, Singular
Value Decomposition dan ekstraksi
ringkasan.
271
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
272
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
273
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
∑KRM
∑KR
KRS
KR
orang penguji yang berbeda dapat
dilihat pada tabel 1 di bawah :
Tabel 1: Hasil Ringkasan Manual
1 12 2,3,6,8 4 1,2,3 3 2,3 2
Jumlah
Jumlah Indeks 2 12 1,2,7 3 1,2,3 3 1,2 2
Dokumen Ringkasan
Kalimat Kalimat 3 10 1,3,7 3 1,2,7 3 1,7 2
Manual
4 7 1,2 2 1,2 2 1,2 2
1 12 4 2,3,6,8
5 11 1,2,4,1 4 1,2,6 3 1,2 2
2 12 4 1,2,7, 12
1
3 10 3 1,3,7
6 9 1,2,8 3 1,2,4 3 1,2 2
4 7 2 1,2
5 11 4 1,2,4,11
6 9 3 1,2,8 Keterangan :
KRM : Kalimat ringkasan manual
3.3. Hasil Ringkasan Peringkas Teks yang dihasilkan oleh manusia
Otomatis ∑KRM : Jumlah kalimat ringkasan
manual
Hasil ringkasan dari 6 buah dokumen KK : Kalimat ringkasan sistem
artikel berita politik berbahasa ∑KRS : Jumlah kalimat ringkasan
Indonesia yang dihasilkan oleh sistem
peringkas teks otomatis dapat dilihat KR : Kalimat relevan
pada tabel 2 dibawah : ∑KR : Jumlah kalimat relevan
275
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
276
Techno.COM, Vol. 15, No. 4, November 2016 : 266-277
277