Anda di halaman 1dari 6

Prosiding SNATIF Ke -5 Tahun 2018 ISBN: 978-602-1180-86-0

PERINGKASAN TEKS OTOMATIS BERITA BERDASARKAN KLASIFIKASI


KALIMAT MENGGUNAKAN SUPPORT VECTOR MACHINE

Pandu Gumi Somantri1*, Agus Komarudin2, Ridwan Ilyas3


123
Jurusan Informatika, Fakultas Sains dan Informatika, Universitas Jenderal Achmad Yani
Jl. Terusan Jenderal Sudirman, Cimahi, Jawa Barat, 40513
*
Email: pandugsomantri@gmail.com

Abstrak

Berita merupakan informasi mengenai sesuatu yang sedang terjadi meliputi peristiwa
apa yang terjadi (what), siapa yang terlibat dalam peristiwa (who), kapan (when) dan
dimana (where) peristiwa terjadi, serta kenapa (why) dan bagaimana (how) peristiwa
dapat terjadi. Ringkasan berita idealnya menjelaskan tentang 5W1H, hal ini diperlukan
agar membantu pembaca untuk mendapatkan informasi utama pada sebuah berita
secara efektif dan efisien. Penelitian ini membangun sistem peringkasan teks otomatis
menggunakan Support Vector Machine (SVM) dengan luaran tujuh kelas yaitu apa,
kapan, dimana, siapa, kenapa, bagaimana dan other. Fitur-fitur kalimat yang
digunakan dalam pembelajaran classifier adalah posisi kalimat dalam paragraf, posisi
kalimat keseluruhan, adanya data numerik, tanda koma terbaik, panjang kalimat dan
kata kunci. Proses klasifikasi dilakukan menggunakan SVM dengan mencari hyperplane
terbaik untuk memisahkan dua kelas.

Kata kunci: berita online; peringkasan teks; Support Vector Machine (SVM); text
mining

1. PENDAHULUAN
Kebutuhan masyarakat Indonesia terhadap berita semakin meningkat. Hal ini bisa
disimpulkan bahwa berita merupakan suatu kebutuhan dan pengetahuan karena menyatakan
bahwa berita merupakan salah satu sajian utama dalam sebuah media massa. Pada umumnya
pembaca ingin mendapatkan rangkuman suatu berita karena pemahaman dokumen teks
secara utuh memerlukan waktu yang lama jika dibandingkan dengan dokumen teks yang
sudah diringkas
Meringkas dokumen merupakan suatu proses penyaringan informasi dari suatu sumber
untuk menghasilkan dokumen yang ringkas bagi pengguna (Herdiyani, Ridha, & Adisantoso,
2012), dengan penyajian informasi berupa inti dari dokumen secara singkat dapat
mempermudah dalam membaca dokumen secara keseluruhan (Radev, McKeown, & Hovy,
2002). Terdapat dua teknik peringkasan teks yaitu peringkasan teks berdasarkan ekstraksi
dan abstraksi (Jezek, & Steinberger, 2007). Teknik ekstraksi merupakan suatu teknik untuk
menyalin unit-unit teks yang paling penting dari teks sumber menjadi ringkasan, sedangkan
teknik abstraksi adalah mengambil intisari dari teks sumber kemudian membuat ringkasan
dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber
dalam bentuk berbeda. Pada penelitian ini teknik peringkasan yang akan digunakan adalah
teknik ekstraksi.
Penelitian mengenai peringkasan dokumen otomatis telah banyak dilakukan,
diantaranya peringkasan dengan ekstraksi informasi menghasilkan peringkasan berupa berita
baru yang memiliki unsur kelengkapan isi berita 5w1h (Ilyas & Umbara, 2016). Berita
kesehatan (Indriyanto dkk., 2017), Berita pada timeline twitter (Nugraha dk., 2017), Sinopsis
buku (Indriani, 2014). Penelitian lain tentang peringkasan menggunakan beberapa ekstraksi
fitur seperti posisi kalimat, koneksi antar kalimat, kalimat positif (Alguliev & Aliguliyev,
2009) atau berdasarkan keterkaitan semantic antar kalimat (Lee dkk., 2009).
Penelitian ini membuat sistem peringkasan teks berdasarkan hasil ekstraksi yang
diasumsikan memberikan informasi mengenai kalimat. Fitur-fitur yang digunakan dalam
mengekstraksi yaitu posisi kalimat dalam paragraf, posisi keseluruhan kalimat, panjang
kalimat, data numerik, tanda koma terbalik dan kata kunci. Sehingga sistem dapat melakukan

Fakultas Teknik – Universitas Muria Kudus 57


ISBN: 978-602-1180-86-0 Prosiding SNATIF Ke -5 Tahun 2018

klasifikasi menggunakan SVM berdasarkan analisis setiap kalimat dengan luaran tujuh kelas
yaitu apa, kapan, dimana, siapa, kenapa, bagaimana dan other.

2. METODOLOGI
Sistem peringkasan teks dibangun dengan preprocessing yaitu segmentasi, case folding,
tokenizing, stopword dan stemming sehingga teks yang didapat menjadi terstruktur.
Kemudian dilakukan ekstraksi fitur yaitu posisi kalimat dalam paragraf, posisi keseluruhan
kalimat, data numerik, tanda koma terbalik, panjang kalimat dan kata kunci untuk
menghitung skor tiap-tiap kalimat. Hasil dari ekstraksi fitur selanjutnya dilakukan tahap
pelatihan dan klasifikasi menggunakan SVM. Sistem peringkasan teks dapat dilihat pada
Gambar 1.

Gambar 1. Sistem Peringkasan Teks

2.1 Preprocessing
Preprocessing merupakan langkah awal dilakukan pemrosesan teks guna membuat teks
menjadi lebih terstruktur. Preprocessing dilakukan dengan beberapa tahap, yaitu segmentasi,
case folding, tokenisasi, stopword removal dan stemming.
2.1.1 Segmentasi
Pada proses segmentasi, dokumen dipecah berdasarkan tanda pemisah kalimat. Setiap
dokumen yang telah dipecah akan dimasukkan kedalam list kalimat. Keluaran dari hasil
segmentasi berupa kumpulan kalimat yang akan digunakan pada proses berikutnya.
2.1.2 Case Folding
Pada proses case folding dilakukan pengubahan semua kata kedalam huruf kecil dan
penghapusan tanda baca selain ‘a-z’, angka, dan tanda baca yang dianggap tidak perlu.
2.1.3 Tokenisasi
Pada bagian tokenisasi, kalimat hasil case folding di pecah kedalam kata. Pemecahan
kalimat kedalam kata berdasarkan tanda spasi antar kalimat, sehingga dibuatlah list yang
terdiri dari kumpulan kata yang disebut token.
2.1.4 Stopword Removal
Stopword removal merupakan penghilangan kata yang tidak relevan dalam penentuan
topik dalam sebuah dokumen, seperti kata “dari”, ”adalah”, “atau”, “sebuah”, dan lain-lain
dalam dokumen bahasa Indonesia.
2.1.5 Stemming
Stemming merupakan suatu langkah yang dilakukan dengan tujuan mendapatkan kata
dasar dengan cara menghapus imbuhan.

58 Fakultas Teknik – Universitas Muria Kudus


Prosiding SNATIF Ke -5 Tahun 2018 ISBN: 978-602-1180-86-0

2.2 Ekstraksi Fitur


Ekstraksi fitur merupakan tahap processing. Processing adalah jantung dari peringkasan
teks yang mana dilakukan analisis lebih dalam pada dokumen (Desai & Shah, 2016). Berikut
ini merupakan fitur-fitur yang digunakan pada penelitian

2.2.1 Posisi kalimat dalam paragraf


Posisi kalimat merupakan bagian penting dalam dokumen. Kalimat awal dalam
paragraf merupakan bagian penting hampir dalam semua kasus karena menyampaikan topik
dokumen dan memiliki kemungkinan besar untuk diekstrak menjadi ringkasan (Desai &
Shah, 2016). Berikut merupakan rumus perhitungan posisi kalimat dalam paragraf yang
ditunjukkan pada persamaan 1.

posisi_kalimat = n - i / n (1)

Keterangan :
- n = total kalimat dalam paragraf
- i = posisi kalimat ke –i

2.2.2 Posisi keseluruhan kalimat


Nilai dari posisi keseluruhan kalimat dihitung dalam konteks keseluruhan dokumen.
Perhitungan posisi keseluruhan kalimat akan diberikan nilai terbesar pada awal kalimat,
sedangkan nilai terkecil diberikan pada akhir kalimat dalam sebuah dokumen. Berikut
merupakan rumus perhitungan posisi keseluruhan kalimat ditunjukkan pada persamaan 2.

posisi_keseluruhan = n – i / n (2)

Keterangan :
- n = total kalimat dalam dokumen
- i = posisi kalimat ke –i

2.2.3 Data numerik


Data numerik merepresentasikan beberapa informasi penting seperti tanggal, umur,
rupiah, alamat, dan lain sebagainya (Desai & Shah, 2016). Data numerik dihitung
menggunakan persamaan 3.

data_numerik = total data / panjang kalimat (3)

Keterangan :
- Total data = total data numerik dalam kalimat
- Panjang kalimat = total kata dalam kalimat

2.2.4 Tanda koma terbalik


Pada tanda koma terbalik biasanya mengindikasikan percakapan langsung, judul atau
nama, dan juga terkandung informasi yang penting (Desai & Shah, 2016). Tanda koma
terbalik dihitung menggunakan persamaan 4.

koma_terbalik = total kata / panjang kalimat (4)

Keterangan :
- Total kata = total banyaknya kata dalam tanda koma terbalik
- Panjang kalimat = total kata dalam kalimat

2.2.5 Panjang kalimat


Kalimat yang pendek mungkin tidak merepresentasikan topik dokumen karena kata
yang terkandung didalamnya sedikit, meskipun demikian, memilih kalimat yang panjang

Fakultas Teknik – Universitas Muria Kudus 59


ISBN: 978-602-1180-86-0 Prosiding SNATIF Ke -5 Tahun 2018

juga tidak baik untuk peringkasan (Desai & Shah, 2016). Sehingga, kalimat yang panjang
dan pendek diberikan nilai yang rendah. Nilai panjang kalimat dihitung berdasarkan
persamaan 5.

panjang_kalimat = total kata / kalimat terpanjang (5)

Keterangan :
- Total kata = total kata dalam kalimat
- Kalimat terpanjang = total kata dalam kalimat terpanjang pada sebuah paragraf

2.2.6 Kata kunci


Kata kunci merupakan kata yang muncul dengan frekuensi tinggi dalam sebuah
dokumen (Desai & Shah, 2016). Mengidentifikasi dan melakukan komputasi pada kata kunci
berguna untuk menentukan kalimat yang penting. Kata kunci dalam kalimat dihitung
berdasarkan persamaan 6.

kata_kunci = total data / panjang kalimat (6)

Keterangan :
- Total data = total banyaknya kata kunci dalam kalimat
- Panjang kalimat = total kata dalam kalimat

2.3 Support Vector Machine


Metode SVM dapat mengidentifikasi suatu obyek dengan menemukan hyperplane
terbaik yang berfungsi sebagai pemisah dua buah kelas. Hyperplane pada dasarnya
merupakan fungsi pemisah yang linier, tetapi hyperplane non-linier dapat digunakan untuk
permasalahan yang tidak dapat diselesaikan menggunakan hyperplane linier. Untuk
hyperplane non-linier, data ditransformasikan ke ruang fitur baru (feature space) yang
berdimensi lebih tinggi, sehingga data tersebut dapat dipisahkan secara linier seperti
Gambar 2.

Gambar 2. Transformasi dari vektor input ke feature space

Proses mencari hyperplane pada ruang fitur baru (feature space) membutuhkan “kernel
trick “ untuk mengatasi proses komputasi yang besar dalam mencari fungsi transformasi.
Terdapat kernel yang digunakan untuk pencarian hyperplane pada SVM, yaitu linier,
polynomial, radial basis function (RBF) dan tangent hyperbolic (Sigmoid) dengan persamaan
dapat dilihat pada Tabel 1.
Tabel 1. Fungsi Kernel
Kernel Jumlah Peserta
Polynomial
Gaussian RBF
Sigmoid

Pada penelitian ini, jenis kernel yang digunakan adalah Gaussian RBF. Setiap elemen
kernel 𝐾(𝑥𝑖,𝑥𝑗) digunakan untuk mengganti dot-product 𝑿,.𝑿𝒊 dalam persamaan Lagrange
Multiplier menggunakan Persamaan 7 dan untuk mencari koefisien fungsi pemisah 𝑤 dapat
dicari menggunakan Persamaan 8.

60 Fakultas Teknik – Universitas Muria Kudus


Prosiding SNATIF Ke -5 Tahun 2018 ISBN: 978-602-1180-86-0

(7)

(8)

Dengan menyelesaikan persamaan dualitas lagrange, maka diperoleh α. Setiap α > 0


menjadi support vector, sehingga untuk mencari koefisien 𝑤 dapat menggunakan Persamaan
9.

(9)

(10)

Maka fungsi pemisah non-linier untuk klasifikasi dapat dicari menggunakan Persamaan
10 dengan menambahkan fungsi 𝑆𝑖𝑔𝑛(𝑓(𝑥)).

3. HASIL PENELITIAN
Pada penelitian ini data latih yang digunakan sebanyak 450 data terdiri dari 36 kelas
apa, 19 kelas kapan, 12 kelas dimana, 34 kelas siapa, 33 kelas kenapa, 50 kelas bagaimana ,
dan 266 kelas other, diperoleh dari 30 berita. Pengujian dilakukan untuk mengetahui tingkat
akurasi terhadap sistem dengan menggunakan 10 data baru diperoleh dari 10 berita,
kemudian dilakukan perhitungan nilai recall, precision dan f-measure. Adapun nilai
performansi tersebut dihitung menggunakan persamaan berikut.

(11)

(12)

(13)

Dari pengujian yang dilakukan, didapatkan hasil ringkasan sistem dan hasil ringkasan
manual dapat dilihat pada Tabel 2 kemudian perbandingan pada hasil ringkasan sistem
dengan hasil ringkasan manual dapat dilihat pada Tabel 3.

Tabel 2. Hasil Ringkasan


Ringkasan Sistem Ringkasan Manual
Dok Jumlah Kalimat
Jumlah Kalimat Kalimat Ke- Jumlah Kalimat Kalimat Ke-
1. 16 5 1,2,7,8,13 7 1,2,6,7,12,14,15
2. 12 4 1,3,7,10 6 1,2,3,6,8,11
3. 21 6 1,5,6,15,16,19 7 1,3,4,6,17,18,20
4. 14 3 1,5,6 5 1,4,5,6,9
5. 10 3 1,2,7 5 1,3,5,6,7
6. 13 4 1,2,8,9 4 1,3,4,8
7. 11 3 1,7,10 5 1,6,9,10,11
8. 15 4 1,2,8,12 6 1,4,5,9,12,13
9. 14 5 1,2,3,8,13 6 1,2,4,7,8,11
10. 17 6 1,2,4,5,8,15,16 6 1,2,4,5,7,13,14

Fakultas Teknik – Universitas Muria Kudus 61


ISBN: 978-602-1180-86-0 Prosiding SNATIF Ke -5 Tahun 2018

Tabel 3 Hasil Perhitungan Nilai Performansi


Dok Recall Precision F-Measure
1. 43% 60% 51%
2. 33% 50% 39%
3. 29% 33% 31%
4. 60% 100% 75%
5. 40% 67% 51%
6. 50% 50% 50%
7. 40% 67% 51%
8. 33% 50% 39%
9. 33% 60% 42%
10. 67% 67% 67%
Rata-rata 42.8% 60.4% 49.6%

4. KESIMPULAN
Sistem peringkasan teks otomatis berita berdasarkan klasifikasi kalimat menggunakan
SVM. Hasil dari proses ekstraksi fitur menjadi masukan untuk pelatihan dan pengujian
menggunakan SVM. Pelatihan dilakukan untuk mencari koefisien hyperplane. Pengujian
dilakukan untuk melihat ringkasan teks berita yang terkategori 5w1h. Hasil pengujian dari 10
data uji menggunakan SVM non-linier menghasilkan nilai recall sebesar 42.8%, nilai
precision sebesar 60.4%, dan nilai f-measure sebesar 49.6%.

DAFTAR PUSTAKA
Alguliev, R., & Aliguliyev, R. (2009). Evolutionary Algorithm for Extractive Text
Summarization. Intelligent Information Management, 1, 128-138.
Aristoteles, Herdiyani, Y., Ridha, A., & Adisantoso, J. (2012). Text Feature Weighting for
Summarization of Documents in Bahasa Indonesia Using Genetic Algotihm. IJCSI
International Journalof Computer Science Issues, 9(3), 1-6.
Ilyas, R., & Umbara, F. (2016). Peringkasan Otomatis dengan Ekstraksi Informasi untuk
Dokumen Ter-cluster. Prosiding Annual Research Seminar , 2(1), 405-408.
Indrawan, R., Djamal, E. C., & Ilyas, R. (2017). Identifikasi Neuropsikologis terhadap Video
Iklan secara Real Time menggunakan Fast Fourier Transform dan Support Vector
Machine. Seminar Nasional Aplikasi Teknologi Informasi (SNATI).
Indriani, A. (2014). Maximum Marginal Relevance untuk Peringkasan Teks Otomatis
Sinopsis Buku Berbahasa Indonesia. Seminar Nasional Teknologi Informasi dan
Multimedia(29-34).
Indriyanto, R., Fauzi, M. A., & Muflikhah, L. (2017). Peringkasan Teks Otomatis pada
Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 1(11), 1198-1203.
Jezek, K., & Steinberger, J. (2008). Automatic Text Summarization (The state of the art 2007
and new challenges). Proceedings of Znalosti, 1-12.
Lee, J. H., Park, S., Ahn, C. M., & Kim, D. (2009). Automatic Generic Document
Summarization Based On Non-Negative Matrix Factorization. Information Processing
and Management 45, 20-34.
Nugraha, M. A., Khodra, M. L., & Trilaksono, B. R. (2013). Peringkasan Otomatis Berita
Online Bahasa Indonesia pada Timeline Twitter. Konferensi Nasional Sistem
Informasi, 14-16.
Radev, D. R., McKeown, K., & Hovy, E. (2002). Introduction to the Special Issue on
Summarization. Computational Linguistics, 28(4), 399-408.

62 Fakultas Teknik – Universitas Muria Kudus

Anda mungkin juga menyukai