9 17 1 SM

Prosiding SNATIF Ke -5 Tahun 2018 ISBN: 978-602-1180-86-0
PERINGKASAN TEKS OTOMATIS BERITA BERDASARKAN KLASIFIKASI

KALIMAT MENGGUNAKAN SUPPORT VECTOR MACHINE
Pandu Gumi Somantri1*, Agus Komarudin2, Ridwan Ilyas3

123
Jurusan Informatika, Fakultas Sains dan Informatika, Universitas Jenderal Achmad Yani
Jl. Terusan Jenderal Sudirman, Cimahi, Jawa Barat, 40513
*
Email: pandugsomantri@gmail.com
Abstrak
Berita merupakan informasi mengenai sesuatu yang sedang terjadi meliputi peristiwa
apa yang terjadi (what), siapa yang terlibat dalam peristiwa (who), kapan (when) dan
dimana (where) peristiwa terjadi, serta kenapa (why) dan bagaimana (how) peristiwa
dapat terjadi. Ringkasan berita idealnya menjelaskan tentang 5W1H, hal ini diperlukan
agar membantu pembaca untuk mendapatkan informasi utama pada sebuah berita
secara efektif dan efisien. Penelitian ini membangun sistem peringkasan teks otomatis
menggunakan Support Vector Machine (SVM) dengan luaran tujuh kelas yaitu apa,
kapan, dimana, siapa, kenapa, bagaimana dan other. Fitur-fitur kalimat yang
digunakan dalam pembelajaran classifier adalah posisi kalimat dalam paragraf, posisi
kalimat keseluruhan, adanya data numerik, tanda koma terbaik, panjang kalimat dan
kata kunci. Proses klasifikasi dilakukan menggunakan SVM dengan mencari hyperplane
terbaik untuk memisahkan dua kelas.
Kata kunci: berita online; peringkasan teks; Support Vector Machine (SVM); text
mining
1. PENDAHULUAN
Kebutuhan masyarakat Indonesia terhadap berita semakin meningkat. Hal ini bisa
disimpulkan bahwa berita merupakan suatu kebutuhan dan pengetahuan karena menyatakan
bahwa berita merupakan salah satu sajian utama dalam sebuah media massa. Pada umumnya
pembaca ingin mendapatkan rangkuman suatu berita karena pemahaman dokumen teks
secara utuh memerlukan waktu yang lama jika dibandingkan dengan dokumen teks yang
sudah diringkas
Meringkas dokumen merupakan suatu proses penyaringan informasi dari suatu sumber
untuk menghasilkan dokumen yang ringkas bagi pengguna (Herdiyani, Ridha, & Adisantoso,
2012), dengan penyajian informasi berupa inti dari dokumen secara singkat dapat
mempermudah dalam membaca dokumen secara keseluruhan (Radev, McKeown, & Hovy,
2002). Terdapat dua teknik peringkasan teks yaitu peringkasan teks berdasarkan ekstraksi
dan abstraksi (Jezek, & Steinberger, 2007). Teknik ekstraksi merupakan suatu teknik untuk
menyalin unit-unit teks yang paling penting dari teks sumber menjadi ringkasan, sedangkan
teknik abstraksi adalah mengambil intisari dari teks sumber kemudian membuat ringkasan
dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber
dalam bentuk berbeda. Pada penelitian ini teknik peringkasan yang akan digunakan adalah
teknik ekstraksi.
Penelitian mengenai peringkasan dokumen otomatis telah banyak dilakukan,
diantaranya peringkasan dengan ekstraksi informasi menghasilkan peringkasan berupa berita
baru yang memiliki unsur kelengkapan isi berita 5w1h (Ilyas & Umbara, 2016). Berita
kesehatan (Indriyanto dkk., 2017), Berita pada timeline twitter (Nugraha dk., 2017), Sinopsis
buku (Indriani, 2014). Penelitian lain tentang peringkasan menggunakan beberapa ekstraksi
fitur seperti posisi kalimat, koneksi antar kalimat, kalimat positif (Alguliev & Aliguliyev,
2009) atau berdasarkan keterkaitan semantic antar kalimat (Lee dkk., 2009).
Penelitian ini membuat sistem peringkasan teks berdasarkan hasil ekstraksi yang
diasumsikan memberikan informasi mengenai kalimat. Fitur-fitur yang digunakan dalam
mengekstraksi yaitu posisi kalimat dalam paragraf, posisi keseluruhan kalimat, panjang
kalimat, data numerik, tanda koma terbalik dan kata kunci. Sehingga sistem dapat melakukan
Fakultas Teknik – Universitas Muria Kudus 57

ISBN: 978-602-1180-86-0 Prosiding SNATIF Ke -5 Tahun 2018
klasifikasi menggunakan SVM berdasarkan analisis setiap kalimat dengan luaran tujuh kelas
yaitu apa, kapan, dimana, siapa, kenapa, bagaimana dan other.
2. METODOLOGI
Sistem peringkasan teks dibangun dengan preprocessing yaitu segmentasi, case folding,
tokenizing, stopword dan stemming sehingga teks yang didapat menjadi terstruktur.
Kemudian dilakukan ekstraksi fitur yaitu posisi kalimat dalam paragraf, posisi keseluruhan
kalimat, data numerik, tanda koma terbalik, panjang kalimat dan kata kunci untuk
menghitung skor tiap-tiap kalimat. Hasil dari ekstraksi fitur selanjutnya dilakukan tahap
pelatihan dan klasifikasi menggunakan SVM. Sistem peringkasan teks dapat dilihat pada
Gambar 1.
Gambar 1. Sistem Peringkasan Teks
2.1 Preprocessing
Preprocessing merupakan langkah awal dilakukan pemrosesan teks guna membuat teks
menjadi lebih terstruktur. Preprocessing dilakukan dengan beberapa tahap, yaitu segmentasi,
case folding, tokenisasi, stopword removal dan stemming.
2.1.1 Segmentasi
Pada proses segmentasi, dokumen dipecah berdasarkan tanda pemisah kalimat. Setiap
dokumen yang telah dipecah akan dimasukkan kedalam list kalimat. Keluaran dari hasil
segmentasi berupa kumpulan kalimat yang akan digunakan pada proses berikutnya.
2.1.2 Case Folding
Pada proses case folding dilakukan pengubahan semua kata kedalam huruf kecil dan
penghapusan tanda baca selain ‘a-z’, angka, dan tanda baca yang dianggap tidak perlu.
2.1.3 Tokenisasi
Pada bagian tokenisasi, kalimat hasil case folding di pecah kedalam kata. Pemecahan
kalimat kedalam kata berdasarkan tanda spasi antar kalimat, sehingga dibuatlah list yang
terdiri dari kumpulan kata yang disebut token.
2.1.4 Stopword Removal
Stopword removal merupakan penghilangan kata yang tidak relevan dalam penentuan
topik dalam sebuah dokumen, seperti kata “dari”, ”adalah”, “atau”, “sebuah”, dan lain-lain
dalam dokumen bahasa Indonesia.
2.1.5 Stemming
Stemming merupakan suatu langkah yang dilakukan dengan tujuan mendapatkan kata
dasar dengan cara menghapus imbuhan.
58 Fakultas Teknik – Universitas Muria Kudus

2.2 Ekstraksi Fitur

Ekstraksi fitur merupakan tahap processing. Processing adalah jantung dari peringkasan
teks yang mana dilakukan analisis lebih dalam pada dokumen (Desai & Shah, 2016). Berikut
ini merupakan fitur-fitur yang digunakan pada penelitian
2.2.1 Posisi kalimat dalam paragraf

Posisi kalimat merupakan bagian penting dalam dokumen. Kalimat awal dalam
paragraf merupakan bagian penting hampir dalam semua kasus karena menyampaikan topik
dokumen dan memiliki kemungkinan besar untuk diekstrak menjadi ringkasan (Desai &
Shah, 2016). Berikut merupakan rumus perhitungan posisi kalimat dalam paragraf yang
ditunjukkan pada persamaan 1.
posisi_kalimat = n - i / n (1)
Keterangan :
- n = total kalimat dalam paragraf
- i = posisi kalimat ke –i
2.2.2 Posisi keseluruhan kalimat

Nilai dari posisi keseluruhan kalimat dihitung dalam konteks keseluruhan dokumen.
Perhitungan posisi keseluruhan kalimat akan diberikan nilai terbesar pada awal kalimat,
sedangkan nilai terkecil diberikan pada akhir kalimat dalam sebuah dokumen. Berikut
merupakan rumus perhitungan posisi keseluruhan kalimat ditunjukkan pada persamaan 2.
posisi_keseluruhan = n – i / n (2)
Keterangan :
- n = total kalimat dalam dokumen
- i = posisi kalimat ke –i
2.2.3 Data numerik

Data numerik merepresentasikan beberapa informasi penting seperti tanggal, umur,
rupiah, alamat, dan lain sebagainya (Desai & Shah, 2016). Data numerik dihitung
menggunakan persamaan 3.
data_numerik = total data / panjang kalimat (3)
Keterangan :
- Total data = total data numerik dalam kalimat
- Panjang kalimat = total kata dalam kalimat
2.2.4 Tanda koma terbalik

Pada tanda koma terbalik biasanya mengindikasikan percakapan langsung, judul atau
nama, dan juga terkandung informasi yang penting (Desai & Shah, 2016). Tanda koma
terbalik dihitung menggunakan persamaan 4.
koma_terbalik = total kata / panjang kalimat (4)
Keterangan :
- Total kata = total banyaknya kata dalam tanda koma terbalik
2.2.5 Panjang kalimat

Kalimat yang pendek mungkin tidak merepresentasikan topik dokumen karena kata
yang terkandung didalamnya sedikit, meskipun demikian, memilih kalimat yang panjang

juga tidak baik untuk peringkasan (Desai & Shah, 2016). Sehingga, kalimat yang panjang
dan pendek diberikan nilai yang rendah. Nilai panjang kalimat dihitung berdasarkan
persamaan 5.
panjang_kalimat = total kata / kalimat terpanjang (5)
Keterangan :
- Total kata = total kata dalam kalimat
- Kalimat terpanjang = total kata dalam kalimat terpanjang pada sebuah paragraf
2.2.6 Kata kunci

Kata kunci merupakan kata yang muncul dengan frekuensi tinggi dalam sebuah
dokumen (Desai & Shah, 2016). Mengidentifikasi dan melakukan komputasi pada kata kunci
berguna untuk menentukan kalimat yang penting. Kata kunci dalam kalimat dihitung
berdasarkan persamaan 6.
kata_kunci = total data / panjang kalimat (6)
Keterangan :
- Total data = total banyaknya kata kunci dalam kalimat
2.3 Support Vector Machine

Metode SVM dapat mengidentifikasi suatu obyek dengan menemukan hyperplane
terbaik yang berfungsi sebagai pemisah dua buah kelas. Hyperplane pada dasarnya
merupakan fungsi pemisah yang linier, tetapi hyperplane non-linier dapat digunakan untuk
permasalahan yang tidak dapat diselesaikan menggunakan hyperplane linier. Untuk
hyperplane non-linier, data ditransformasikan ke ruang fitur baru (feature space) yang
berdimensi lebih tinggi, sehingga data tersebut dapat dipisahkan secara linier seperti
Gambar 2.
Gambar 2. Transformasi dari vektor input ke feature space
Proses mencari hyperplane pada ruang fitur baru (feature space) membutuhkan “kernel
trick “ untuk mengatasi proses komputasi yang besar dalam mencari fungsi transformasi.
Terdapat kernel yang digunakan untuk pencarian hyperplane pada SVM, yaitu linier,
polynomial, radial basis function (RBF) dan tangent hyperbolic (Sigmoid) dengan persamaan
dapat dilihat pada Tabel 1.
Tabel 1. Fungsi Kernel
Kernel Jumlah Peserta
Polynomial
Gaussian RBF
Sigmoid
Pada penelitian ini, jenis kernel yang digunakan adalah Gaussian RBF. Setiap elemen
kernel 𝐾(𝑥𝑖,𝑥𝑗) digunakan untuk mengganti dot-product 𝑿,.𝑿𝒊 dalam persamaan Lagrange
Multiplier menggunakan Persamaan 7 dan untuk mencari koefisien fungsi pemisah 𝑤 dapat
dicari menggunakan Persamaan 8.

(7)
(8)
Dengan menyelesaikan persamaan dualitas lagrange, maka diperoleh α. Setiap α > 0

menjadi support vector, sehingga untuk mencari koefisien 𝑤 dapat menggunakan Persamaan
9.
(9)
(10)
Maka fungsi pemisah non-linier untuk klasifikasi dapat dicari menggunakan Persamaan
10 dengan menambahkan fungsi 𝑆𝑖𝑔𝑛(𝑓(𝑥)).
3. HASIL PENELITIAN
Pada penelitian ini data latih yang digunakan sebanyak 450 data terdiri dari 36 kelas
apa, 19 kelas kapan, 12 kelas dimana, 34 kelas siapa, 33 kelas kenapa, 50 kelas bagaimana ,
dan 266 kelas other, diperoleh dari 30 berita. Pengujian dilakukan untuk mengetahui tingkat
akurasi terhadap sistem dengan menggunakan 10 data baru diperoleh dari 10 berita,
kemudian dilakukan perhitungan nilai recall, precision dan f-measure. Adapun nilai
performansi tersebut dihitung menggunakan persamaan berikut.
(11)
(12)
(13)
Dari pengujian yang dilakukan, didapatkan hasil ringkasan sistem dan hasil ringkasan
manual dapat dilihat pada Tabel 2 kemudian perbandingan pada hasil ringkasan sistem
dengan hasil ringkasan manual dapat dilihat pada Tabel 3.
Tabel 2. Hasil Ringkasan

Ringkasan Sistem Ringkasan Manual
Dok Jumlah Kalimat
Jumlah Kalimat Kalimat Ke- Jumlah Kalimat Kalimat Ke-
1. 16 5 1,2,7,8,13 7 1,2,6,7,12,14,15
2. 12 4 1,3,7,10 6 1,2,3,6,8,11
3. 21 6 1,5,6,15,16,19 7 1,3,4,6,17,18,20
4. 14 3 1,5,6 5 1,4,5,6,9
5. 10 3 1,2,7 5 1,3,5,6,7
6. 13 4 1,2,8,9 4 1,3,4,8
7. 11 3 1,7,10 5 1,6,9,10,11
8. 15 4 1,2,8,12 6 1,4,5,9,12,13
9. 14 5 1,2,3,8,13 6 1,2,4,7,8,11
10. 17 6 1,2,4,5,8,15,16 6 1,2,4,5,7,13,14

Tabel 3 Hasil Perhitungan Nilai Performansi

Dok Recall Precision F-Measure
1. 43% 60% 51%
2. 33% 50% 39%
3. 29% 33% 31%
4. 60% 100% 75%
5. 40% 67% 51%
6. 50% 50% 50%
7. 40% 67% 51%
8. 33% 50% 39%
9. 33% 60% 42%
10. 67% 67% 67%
Rata-rata 42.8% 60.4% 49.6%
4. KESIMPULAN
Sistem peringkasan teks otomatis berita berdasarkan klasifikasi kalimat menggunakan
SVM. Hasil dari proses ekstraksi fitur menjadi masukan untuk pelatihan dan pengujian
menggunakan SVM. Pelatihan dilakukan untuk mencari koefisien hyperplane. Pengujian
dilakukan untuk melihat ringkasan teks berita yang terkategori 5w1h. Hasil pengujian dari 10
data uji menggunakan SVM non-linier menghasilkan nilai recall sebesar 42.8%, nilai
precision sebesar 60.4%, dan nilai f-measure sebesar 49.6%.
DAFTAR PUSTAKA
Alguliev, R., & Aliguliyev, R. (2009). Evolutionary Algorithm for Extractive Text
Summarization. Intelligent Information Management, 1, 128-138.
Aristoteles, Herdiyani, Y., Ridha, A., & Adisantoso, J. (2012). Text Feature Weighting for
Summarization of Documents in Bahasa Indonesia Using Genetic Algotihm. IJCSI
International Journalof Computer Science Issues, 9(3), 1-6.
Ilyas, R., & Umbara, F. (2016). Peringkasan Otomatis dengan Ekstraksi Informasi untuk
Dokumen Ter-cluster. Prosiding Annual Research Seminar , 2(1), 405-408.
Indrawan, R., Djamal, E. C., & Ilyas, R. (2017). Identifikasi Neuropsikologis terhadap Video
Iklan secara Real Time menggunakan Fast Fourier Transform dan Support Vector
Machine. Seminar Nasional Aplikasi Teknologi Informasi (SNATI).
Indriani, A. (2014). Maximum Marginal Relevance untuk Peringkasan Teks Otomatis
Sinopsis Buku Berbahasa Indonesia. Seminar Nasional Teknologi Informasi dan
Multimedia(29-34).
Indriyanto, R., Fauzi, M. A., & Muflikhah, L. (2017). Peringkasan Teks Otomatis pada
Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 1(11), 1198-1203.
Jezek, K., & Steinberger, J. (2008). Automatic Text Summarization (The state of the art 2007
and new challenges). Proceedings of Znalosti, 1-12.
Lee, J. H., Park, S., Ahn, C. M., & Kim, D. (2009). Automatic Generic Document
Summarization Based On Non-Negative Matrix Factorization. Information Processing
and Management 45, 20-34.
Nugraha, M. A., Khodra, M. L., & Trilaksono, B. R. (2013). Peringkasan Otomatis Berita
Online Bahasa Indonesia pada Timeline Twitter. Konferensi Nasional Sistem
Informasi, 14-16.
Radev, D. R., McKeown, K., & Hovy, E. (2002). Introduction to the Special Issue on
Summarization. Computational Linguistics, 28(4), 399-408.

9 17 1 SM

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

9 17 1 SM

Diunggah oleh

Hak Cipta:

Format Tersedia

Prosiding SNATIF Ke -5 Tahun 2018 ISBN: 978-602-1180-86-0

PERINGKASAN TEKS OTOMATIS BERITA BERDASARKAN KLASIFIKASI

Pandu Gumi Somantri1*, Agus Komarudin2, Ridwan Ilyas3

Fakultas Teknik – Universitas Muria Kudus 57

Gambar 1. Sistem Peringkasan Teks

58 Fakultas Teknik – Universitas Muria Kudus

2.2 Ekstraksi Fitur

2.2.1 Posisi kalimat dalam paragraf

2.2.2 Posisi keseluruhan kalimat

2.2.3 Data numerik

data_numerik = total data / panjang kalimat (3)

2.2.4 Tanda koma terbalik

koma_terbalik = total kata / panjang kalimat (4)

2.2.5 Panjang kalimat

Fakultas Teknik – Universitas Muria Kudus 59

panjang_kalimat = total kata / kalimat terpanjang (5)

2.2.6 Kata kunci

kata_kunci = total data / panjang kalimat (6)

2.3 Support Vector Machine

Gambar 2. Transformasi dari vektor input ke feature space

60 Fakultas Teknik – Universitas Muria Kudus

Dengan menyelesaikan persamaan dualitas lagrange, maka diperoleh α. Setiap α > 0

Tabel 2. Hasil Ringkasan

Fakultas Teknik – Universitas Muria Kudus 61

Tabel 3 Hasil Perhitungan Nilai Performansi

62 Fakultas Teknik – Universitas Muria Kudus

Anda mungkin juga menyukai