Anda di halaman 1dari 7

BAB 1

PENDAHULUAN

1.1 Latar Belakang


Perkembangan internet mempengaruhi lahirnya generasi digital, hanya dengan menggunakan
internet dapat mengakses informasi yang diperlukan seperti berita online [1]. Berita online
merupakan sumber informasi harian yang dapat dibaca oleh warga atau masyarakat di
Indonesia. Berita online mengalami peningkatan yang signifikan [2]. Beberapa portal berita
seperti okezone.com, Tribunews.com, kompas.com dan detik.com menjadi media berita online
yang sering diakses berdasarkan penilian dari situ alexa.com. Hal ini membuat media media
berita tersebut menambahkan subdomain untuk kategori sebuah berita dengan tujuan untuk
menyebarkan kategori pembaca yang berbeda [3]. Kategorisasi berita yang sudah dilakukan
dengan melakukan penambahan subdomain juga bisa tidak terdata pada setiap media online
Indonesia karena banyaknya artikel yang diterbitkan.
Penulis melakukan eksplorasi terhadap media online diindonesia beberapa di antaranya
misalnya kategori berita kriminal, lingkungan hidup, politik dan ekonomi pada media
tribunnews.com dari awal tahun 2020 sampai akhir tahun begitu banyak. Banyaknya artikel
berita online pada tahun 2020 pada media media online dengan berbagai macam kategori
menimbulkan kecenderungan terhadap kategori suatu berita. Salah satu faktor dari masalah ini
adalah kesalahan manusia atau tidak terdatanya kejadian kejadian yang ada diindonesia. Untuk
meminimalisir masalah tersebut, pihak media online membutuhkan teknik untuk mengelola
jumlah arsip berita dari setiap kategori dengan baik.
Beberapa penelitian telah dilakukan dalam klasifikasi dokumen untuk menyelesaikan
permasalahan ini. Masalah klasifikasi dokumen untuk berita Indonesia menggunakan banyak
pendekatan. Salah satunya dilakukan oleh [4] Melakukan penelitian dengan klasifikasi
kategori dokumen berita berbahasa Indonesia dengan metode kategorisasi multi-label berbasis
domain-specific ontology hasilnya menunjukkan nilai rata-rata akurasi yang tinggi yaitu
kategori olah raga 93,85% dan kategori teknologi 96,32%. Meskipun metode ontology ini,
mengalami peningkatan kinerja saat data pelatihan cukup besar. Namun bila tidak cukup besar
tidak akan optimal. Penelitian yang dilakukan oleh [5] tentang A Study of Text Classification
for Indonesian News Article bertujuan untuk melakukan ulasan terhadap klasifikasi teks pada
Artikel Berita Indonesia. Dengan memanfaatkan algoritma support vector machine,
multinomial naive Bayes, dan decision. Hasilnya didapatkan bahwa algoritma support vector
machine mencapai kinerja yang tinggi dengan 93%. Peneliti [6] melakukan proses klasifikasi
dengan SVM pada 180 artikel berita kompas.com. Hasilnya mencapai akurasi rata-rata 85%. Dari celah
ini dapat disimpulkan bahwa masalah umum klasifikasi teks adalah data yang berdimensi besar.
Dengan kata lain, banyaknya fitur yang dilakukan dari dataset teks dapat mengurangi hasilnya. Dalam
penelitian ini akan membahas klasifikasi kategori berita terhadap media media yang ada
diindonesia sehingga dapat diketahui presentase dari kategori berita yang ada pada media
media online diindonesia. Penelitian ini menggunakan algoritma populer Machine Learning
(ML), SVM sebagai dokumen berita kelas berganda berdasarkan klasifikasi.

1.1 Rumusan Masalah


Penelitian tentang klasifikasi teks saat ini sudah banyak dilakukan menggunakan
berbagai macam metode seperti support vector machine, multinomial naive Bayes, dan
decision sehingga pada penelitian ini akan melakukan klasifikasi teks berdasarkan kategori
berita sehingga tidak terjadi kecenderungan berita terhadap suatu kategori pada media media
berita diindonesia. Penelitian ini menggunakan metode SVM dengan melakukan optimasi
terhadap parameter

1.2 Tujuan Penelitian


Pada penelitian ini memiliki tujuan untuk dapat melakukan klasifikasi teks terhadap website
media diindonesia sehingga media media berita di Indonesia dapat mengetahui kecenderungan
kategori berita yang dimuat pada setiap artikel bertia
1.3 Batasan Masalah
Adapun Batasan masalah pada penelitian ini:
1. Dataset teks diambil dari berbagai media di Indoensia yaitu, okezone, tribunnews, Voa,
detik, merdeka, kompas.
2. Penelitian ini hanya fokus terhadap optimasi parameter pada metode SVM (Support
Vektor Machine)
3. Penelitian ini hanya fokus terhadap kategori berita

1.4 Manfaat Penelitian


Adapun Manfaat pada penelitian ini adalah:
1. Menjadi tolak ukur penilaian terhadap pemberitaan media media diindonesia
berdasarkan dengan kategori berita
2. Menjadikan media media online di Indonesia dapat melakukan evaluas terhadap
kecenderungan pemberitaan berdasarkan kategori
BAB 2
LANDASAN TEORI

2.1 Identifikasi Kata


Proses identifikasi kata merupakan proses penghilangan angka, tanda baca dan
konversi huruf kapital dan huruf kecil. Secara garis besar proses ini dapat dibagi menjadi dua
proses, yaitu filtering dan case folding. Proses filtering merupakan proses yang berguna untuk
menghilangkan karakter - karakter nonhuruf seperti angka, tanda baca dan simbol, sedangkan
dalam proses case folding variasi huruf harus diseragamkan (menjadi huruf kecil saja).
Karakter selain huruf dihilangkan dan dianggap sebagai delimiter [7]

2.2 Klasifikasi
Klasifikasi adalah sebuah proses untuk menemukan sebuah model yang menjelaskan
dan membedakan konsep atau kelas data dengan tujuan memperkirakan kelas dari suatu objek
yang kelasnya tidak diketahui [7]. Dalam klasifikasi, diberikan sejumlah record yang
dinamakan data latih, yang terdiri dari beberapa atribut yang dapat berupa kontinu ataupun
kategoris, salah satu atribut menunjukkan kelas untuk record, dimana pemetaannya dapat
dilihat pada Gambar 2.1.

Gambar 2.1. Pemetaan atribut (x) ke dalam (y)


2.2.1 Tujuan Klasifikasi

Tujuan dari klasifikasi adalah untuk

1. Menemukan model dari data latih yang membedakan record kedalam kategori atau
kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan
record yang kelasnya belum diketahui sebelumnya pada testing set.
2. Mengambil keputusan dengan memprediksi suatu kasus, berdasarkan hasil klasifikasi
yang diperoleh.

Konsep Pembuatan Model dalam Klasifikasi Untuk mendapatkan model, harus dilakukan
analisis terhadap data latih, Sedangkan data uji digunakan untuk mengetahui tingkat
akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi
nama atau nilai kelas dari suatu objek data. Proses klasifikasi data dapat dibedakan dalam
dua tahap, yaitu

1. Pembangunan Model Tiap-tiap record yang digunakan dalam pembangunan model


dianalisis berdasarkan nilai-nilai atributnya dengan menggunakan suatu algoritma
klasifikasi untuk mendapatkan model.
2. Klasifikasi Pada tahap ini, data diuji untuk mengetahui tingkat akurasi dari model
yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang
ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record
data baru yang belum pernah dilatihkan atau diujikan sebelumnya. Pembuatan
model menguraikan sebuah set dari penentuan kelas-kelas

2.3 Web Crawl

Web crawler adalah sebuah perangkat lunak yang digunakan untuk menjelajah serta
mengumpulkan halaman-halaman web yang selanjutnya diindeks oleh mesin pencari. Sering
juga disebut dengan web spider atau web robot yang menjelajahi halaman website dengan
menggunakan web browser. Sebuah program yang memberikan suatu atau lebih seed url yang
akan mengunduh halaman-halaman dari url yang dituju dan mengekstrak beberapa konten
yang ada didalamnya [8]
2.4 Support Vektor Machine

SVM merupakan metode pembelajaran terawasi yang menghasilkan pemetaan dari


fungsi input-output dari sekumpulan data training. Fungsi pemetaan ini bisa berupa fungsi
klasifikasi atau fungsi regresi [9]. SVM menggunakan ruang hipotesis berupa fungsi-fungsi
linier di dalam feature space. SVM dilatih menggunakan algoritma pembelajaran yang
didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari
teori pembelajaran statistik. Teori mengenai SVM sudah berkembang sejak tahun 1960an,
namun pada tahun 1992 Vapnik, Boser, dan Guyon memperkenalkan kembali teori ini dan
semenjak saat itu SVM berkembang dengan pesat. Gambar dibawah ini akan digunakan oleh
penulis untuk mempermudah dalam memahami metode SVM

2.4.1 Karekteristik SVM

Berikut ini karekteristik dari metode SVM:

1. Secara prinsip SVM adalah linear classifier.


2. Pattern recognition dilakukan dengan mentransformasikan data pada ruang input (input
space) ke ruang yang berdimensi lebih tinggi (feature space), dan optimisasi dilakukan
pada ruang vector yang baru tersebut. Hal ini membedakan SVM dari solusi pattern
recognition pada umumnya, yang melakukan optimisasi parameter pada hasil
transformasi yang berdimensi lebih rendah daripada dimensi input space.
3. Menerapkan strategi Structural Risk Minimization (SRM).
4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua kelas,
namun telah dikembangkan untuk klasifikasi lebih dari dua kelas dengan adanya
pattern recognition.
DAFTAR PUSTAKA

[1] G. Septian, A. Susanto, and G. F. Shidik, “Indonesian news classification based on


NaBaNA,” Proc. - 2017 Int. Semin. Appl. Technol. Inf. Commun. Empower. Technol. a
Better Hum. Life, iSemantic 2017, vol. 2018-Janua, pp. 175–180, 2017, doi:
10.1109/ISEMANTIC.2017.8251865.
[2] L. Lindawati, “Pola Akses Berita Online Kaum Muda,” J. Stud. Pemuda, vol. 4, no. 1,
pp. 241–259, 2015.
[3] A. Rizaldy and H. A. Santoso, “Performance improvement of support vector machine
(SVM) With information gain on categorization of Indonesian news documents,” Proc.
- 2017 Int. Semin. Appl. Technol. Inf. Commun. Empower. Technol. a Better Hum. Life,
iSemantic 2017, vol. 2018-Janua, pp. 227–231, 2017, doi:
10.1109/ISEMANTIC.2017.8251874.
[4] J. A. Putra, P. Widodo, and S. Afiadi, “Klasifikasi Kategori Dokumen Berita Berbahasa
Indonesia Dengan Metode Kategorisasi Multi-Label Berbasis Domain-Specific
Ontology,” J. Teknosains, vol. 6, no. 2, p. 101, 2017, doi: 10.22146/teknosains.8611.
[5] G. L. Yovellia Londo, D. H. Kartawijaya, H. T. Ivariyani, P. W. P. Yohanes Sigit, A. P.
Muhammad Rafi, and D. Ariyandi, “A Study of Text Classification for Indonesian
News Article,” Proceeding - 2019 Int. Conf. Artif. Intell. Inf. Technol. ICAIIT 2019, pp.
205–208, 2019, doi: 10.1109/ICAIIT.2019.8834611.
[6] D. Y. Liliana, A. Hardianto, and M. Ridok, “Indonesian news classification using
support vector machine,” World Acad. Sci. Eng. Technol., vol. 81, no. 9, pp. 767–770,
2011, doi: 10.5281/zenodo.1074438.
[7] Z. Wang and B. Song, “Research on hot news classification algorithm based on deep
learning,” Proc. 2019 IEEE 3rd Inf. Technol. Networking, Electron. Autom. Control
Conf. ITNEC 2019, no. Itnec, pp. 2376–2380, 2019, doi:
10.1109/ITNEC.2019.8729020.
[8] J. Xia, W. Wan, R. Liu, G. Chen, and Q. Feng, “Distributed web crawling: A
framework for crawling of micro-Blog data,” IET Conf. Publ., vol. 2015, no. CP672,
pp. 62–68, 2015, doi: 10.1049/cp.2015.0255.
[9] Parveen and A. Singh, “Detection of brain tumor in MRI images, using combination of
fuzzy c-means and SVM,” 2nd Int. Conf. Signal Process. Integr. Networks, SPIN 2015,
pp. 98–102, 2015, doi: 10.1109/SPIN.2015.7095308.

Anda mungkin juga menyukai