Anda di halaman 1dari 7

PENERAPAN METODE SVM UNTUK KLASIFIKASI TWEET

TRANSAKSI E-COMMERCE DI TWITTER

Al Hafiz Yunas1, Yusra2


1,2
Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, UIN Sultan Syarif Kasim Riau
Jl. HR. Soebrantas No. 155 Simpang Baru, Panam, Pekanbaru, 28293
Email: al.hafiz.yunas@students.uin-suska.ac.id, yusra@uin-suska.ac.id

ABSTRAK

Banyaknya obrolan yang dilakukan pelaku e-commerce melalui tweet-tweet di Twitter menghasilkan banyak
sumber daya informasi mengenai e-commerce. Namun, hal ini perlu diklasifikasi untuk mengatasi
permasalahan besarnya data tidak terstruktur dari tweet-tweet tersebut.
Banyak penelitian yang dilakukan untuk menemukan metode klasifikasi yang tepat untuk menghasilkan
akurasi terbaik dari tweet-tweet tersebut. Support Vector Machine (SVM) sebagai salah satu metode
pembelajaran mesin dapat dijadikan pilihan dalam metode pembelajaran klasifikasi karena mampu bekerja di
data tidak terstruktur. Banyak penelitian klasifikasi dokumen yang menggunakan metode ini berhasil
menghasilkan akurasi yang cukup tinggi dibanding metode pembelajaran lainnya.
Penelitian ini menggunakan 1000 tweet sebagai dataset untuk mengetahui kinerja SVM dalam melakukan
tweet transaksi e-commerce. Untuk mendapatkan akurasi, dataset yang telah diunduh diproses dalam
beberapa tahapan yang terdiri dari pelabelan manual, preprocessing, ekstraksi fitur hingga proses
pembelajaran SVM. Dari model pembelajaran yang dihasilkan proses training SVM, didapat nilai akurasi
sebesar 96% dengan fitur threshold. Sedangkan fitur tanpa threshold model terbaik yang dihasilkan SVM
hanya menghasilkan akurasi sebesar 67 %

Kata Kunci: DF, E-commerce, Fitur, Klasifikasi, LibSVM, Preprocessing, SVM, Threshold, Transaksi,
Tweet, Twitter.

ABSTRACT

The large many of talks e-commerce perpetrators about their transaction through tweets on Twitter, generate
many information resources about e-commerce. However, this condition must be classified to solve
unstructured data problems from tweets.
Much research has been done to find out correct method in doing the classification, so as to produce best
accuracy. Support Vector Machine (SVM) as a machine learning method can be an option in classification
learning method because it can work in unstructured data. Many classifications document research that use
this method successfully produce optimum accuracy compared other learning methods.
This research uses 1000 tweets as a dataset to determine SVM performance in classification tweet e-
commerce transactions. Process to get accuracy, data sets have been downloaded hereafter processed in
several phases consist of manual labeling, preprocessing, feature extraction through the SVM learning
process. From the learning model generated SVM Trainning process, obtained an accuracy value of 96%
with threshold feature. While the features without the best threshold model produced SVM only produce
accuracy of 67%

Keywords : Classification, DF, E-commerce, Feature, LibSVM, Preprocessing, SVM, Threshold,


Transactions, Tweet, Twitter.

Pendahuluan orang. Hal ini berdampak pada kebiasaan


masyarakat terhadap dunia digital dan penggunaan
Seiring perkembangan zaman dan kemajuan teknologi yang berhubungan dengan internet. Salah
teknologi di bidang informasi, Elektronic satunya media sosial, bahkan saat ini minat
Commerce (E-Commerce) menjelma menjadi salah msyarakat melalui jalur media sosial lebih potensial
satu pilihan gaya hidup yang dilakukan banyak
dibanding melalui blog, forum atau teknologi serta Analisis Sentimen dan Ekstraksi Topik
pendukung lainnya. Penentu Sentimen pada Opini Terhadap Tokoh
Twitter adalah salah satu media sosial yang Publik (Sunni & Widyantoro, 2012).
sangat potensial menjadi satu bagian pendukung Untuk itu pada penelitian ini, dilakukan
perkembangan dan penggunaan teknologi e- penelitian terhadap kinerja SVM dalam melakukan
commerce. Selain sebagai salah satu media sosial klasifikasi tweet transaksi e-commerce. Penelitian
dengan pengguna terbesar dunia, pemilik Twitter ini menguji SVM dengan mengembangkan
sendiri juga sudah menaruh perhatiannya terhadap beberapa cara penelitian yang dilakukan
masalah ini (Anggraini, 2014). Hal ini dibuktikan sebelumnya dalam hal transaksi dan iklan e-
dengan penambahan fitur ‘buy’ pada tweet commerce serta beberapa penelitian terkait lainnya.
berkarakteristik e-commerce. Selain itu banyaknya .
jumlah followers akun e-commerce baik secara
perusahaan maupun perorangan serta tweet yang Metode Penelitian
berhubungan dengan kegiatatan itu, juga menjadi
alasan untuk memberikan khusus terhadap Twitter Pada penelitian ini dipaparkan langkah-
dalam hal e-commerce. langkah yang dilakukan dalam penyelesaian
Namun, besarnya reaksi itu menimbulkan permasalahan penelitian ini. Hal ini bertujuan agar
masalah terhadap besarnya data kegiatan e- proses penyelesaian penelitian ini berjalan sesuai
commerce di Twitter. Tentunya hal ini perlu dengan apa yang diharapkan. Tahap penelitian
ditangani agar dapat dimanfaatkan menjadi sebuah dapat dilihat pada gambar berikut ini.
sumber daya. Beberapa negara seperti Tiongkok
dan India mulai memberikan perhatian khusus
terhadap itu. Indonesia sendiri juga mulai menyoroti
tersebut saat pemerintah mulai gencar mencari
solusi terhadap pajak transaksi dan iklan e-
commerce di sosial media (Reily, 2017).
Klasifikasi menjadi salah satu pilihan untuk
mengatasi masalah besarnya jumlah data di Twitter.
Sebelumnya telah dilakukan penelitian terhadap
klasifikasi transaksi e-commerce dengan aplikasi
SAFE-F (Kodra & Purwarianti, 2013). Dalam
penelitiannya tersebut, dilakukan percobaan
terhadap beberapa algoritma dan metode untuk
mendapatkan hasil klasifikasi dengan akurasi
tertinggi terhadap transaksi online di Twitter
Support Vector Machine (SVM) sebagai salah
satu metode pembelajaran baru, muncul
menawarkan cara untuk melakukan klasifikasi data.
Beberapa penelitian mulai dilakukan menggunakan
metode ini untuk mengatasi permasalahan besarnya
data e-commerce di Twitter. Seperti yang dilakukan
dalam penelitiannya yang berjudul ‘Penerapan
Metode SVM Menggunakan Kernel Radial Basis
Function (RBF) Pada Klasifikasi Tweet’ (Muis &
Affandes, 2015). Dalam penelitian tersebut,
pengujian SVM dilakukan dengan memilih fitur dan
tidak. SVM Kernel RBF berhasil menghasilkan
akurasi sebesar 99,12% dengan melakukan
pemilihan fitur. Sedangkan tanpa memilih fitur
menghasilkan 97,54% untuk klasifikasi iklan. Gambar 1. Metode Penelitian
Selain itu, Metode ini juga berhasil
menghasilkan akurasi klasifikasi yang lebih baik Analisa Dataset
dibanding dengan metode pembelajaran lainnya
pada beberapa penelitian. Diantaranya seperti Dataset yang digunakan dalam penelitian ini
‘Klasifikasi Berita Indonesia Menggunakan Metode adalah tweet-tweet yang mengandung informasi
Naive Besian Clasification (NBC)’ (Ariadi & transaksi (berdasarkan definisi dan teori transaksi)
Fithriasari, 2015) dan ‘SVM dengan Config yang berhasil diunduh. Jumlah yang ditentukan
Stripping Stemmer’ (Hidayatullah & SN, 2014)
sebanyak 1000 data tweet, dengan rincian sebagai Pelabelan manual dilakukan terhadap dataset
berikut : yang telah tersimpan di database. Setiap data
dilabel dengan melihat ciri informasi data tersebut
Tabel 1 Tabel Rincian Dataset secara manual. Label yang telah ditentukan pada
penelitian ini berdasarkan teori dan penelitian
Trainning/Testing Data Training 800 (80%) sebelumnya, yaitu relevan dan iklan. Masing-
Data Testing 200 (20%) masing label direpresntasikan dengan memberi nilai
Kategori Relevan 500 1 untuk mewakili relevan, dan -1 untuk kelas iklan.
Iklan 500
Jumlah Dataset 1000 tweet Preprocessing

Dalam penelitian ini dataset berasal dari akun- Proses ini dilakukan untuk mendapatkan token
akun e-commerce terpopuler di Indonesia. yang dijadikan fitur pada proses selanjutnya.
Kepopuleran e-commerce tersebut berdasarkan pada Terdapat beberapa tahapan yang dilakukan proses
jumlah pengikut dan peta hasil studi yang dilakukan ini yang terdiri dari case folding, cleansing,
situs Iprice terhadap perusahaan e-commerce yang tokenizing, conver word, filtering dan stemming
terdaftar di ideA (Indonesia E-Commerce dengan flowchart sebagai berikut :
Association)

Pengundahan data dan Pelabelan Manual

Pengunduhan data dilakukan dengan program


yang dibangun dari script PHP yang mampu
mengunduh data tweet berdasarkan masukan (input)
dari pengguna. Proses pengunduhan dapat
dilakukan dengan melibatkan Twitter API berupa
key dan access token. Tak hanya itu, dilibatkan pula
TwitterOauth sebagai library otentifikasi. Adapun
flowchart proses yang dilakukan sebagai berikut :

Gambar2. Flowchart Preprocessing


Keterangan gambar :

1. Case Folding
Proses ini melakukan penyeragaman kata
dalam data tweet/dokumen

Pada penelitian ini, atribut tweet yang 2. Cleaning


diunduh hanya berupa text tweet. Untuk itu entitas Karakter dan entitas yang tidak diperlukan
id dan created at tidak diunduh sedangakan entitas kemudian dibersihkan dalam proses ini
lainnya seperti url, mention dan hastagh akan
dihapus pada tahap preprocessing. 3. Tokenizing
proses ini dilakukan untuk membuat kata-kata No Kata tf(O) tf(C) tf(E) tf(A) tf(N)
dalam dokumen dapat berdiri sendiri menjadi
token 20 Kalian 0 0 1 0 0
4. Converting Word 21 Buang 0 0 1 0 0
Proses ini mengubah kata-kata tak baku
menjadi kata baku. Hal ini diperlukan agar 22 Aja 1 0 1 0 0
data tweet dapat diproses maksimal pada 23 Ke 0 0 1 0 0
proses selanjutnya.
24 Jalan 0 0 1 0 0
5. Stopword Removal
Proses ini dilakukan untuk menghapus noise 25 Saya 0 0 0 0 1
berupa kata-kata yang tidak diperlukan. Selain 26 Sesal 0 0 0 0 1
menghapus kata-kata stoplist, tahapan ini juga
27 Apa 0 0 0 0 1
menghapus kata dua karakter
6. Stemming 28 Kembali 0 0 0 0 1
Proses ini mengubah semua kata menjadi 29 Hadir 0 0 0 0 1
bentuk kata dasar. Hal ini diperlukan untuk
30 Nyata 1 0 0 0 0
mengurangi varietas kata yang diperlukan
dalam proses mendapatkan fitur 31 Manis 1 0 0 0 0
32 Bibir 1 0 0 0 0
Ekstraksi Fitur dan Pembobotan

Fitur yang digunakan dalam proses selanjutnya Keterangan :


ditentukan dengan menentukan nilai batas bawah Kosa kata : Kata tunggal yang telah terpisah dari
(threshold) dari bobot keseluruhan token hasil
preprocessing. Penentuan threshold dilakukan dokumen query
dengan membuat grafik distribusi fitur untuk tf(n): Term frequency (frekuensi kata) pada
melihat nilai konstan jumlah fitur yang dihasilkan dokumen ke-n
dari beberapa rentang nilai.

Tabel 1 Hasil Pembobotan Kata Proses Klasifikasi Metode SVM


No Kata tf(O) tf(C) tf(E) tf(A) tf(N) Berdasarkan analisa kebutuhan data dan tahap
text mining yang telah dijabarkan sebelumnya,
1 Rasa 0 0 0 1 0
maka pada bagian ini dijelaskan teknik-teknik yang
2 Sayang 0 0 0 1 0 akan digunakan dalam klasifikasi data.Langkah-
3 Sama 0 2 0 1 0 langkah mengenai cara kerja algoritma Naïve
Bayesdijelaskan pada flowchart yang diperlihatkan
4 Dia 0 0 0 1 1
pada Gambar 3 dibawah ini
5 Hilang 0 0 0 1 0

6 Tapi 0 1 0 0 0
7 Hari 0 1 0 0 0
8 Yang 0 1 0 0 0
9 Ya 0 1 0 0 0
10 Biar 0 1 0 0 0
11 Liat 0 1 0 0 0
12 Sendiri 0 1 0 0 0
13 Kita 0 1 0 0 0
14 Jangan 0 1 0 0 0
15 Cemas 0 1 0 0 0
16 Masih 0 1 0 0 0
17 Kalah 0 1 0 0 0
18 Mak 0 0 1 0 0
Gambar3. Flowchart Klasifikasi Kepribadian
19 Sadis 0 0 1 0 0
dengan Naïve Bayes
Rancangan Sistem Teks varchar(20) - NO -

Analisa fungsional sistem akan menjelaskan


Preprocess varchar(200) - NO -
mengenai rancangan sistem yang akan dibuat
menggunakan flowchart. Sedangkan perancangan
sistem analisa klasifikasi kepribadian akun Keterangan varchar(200) - NO -
berdasarkan tweet pada Twitter dirancang
berdasarkan tahapan analisa yang telah dilakukan
sebelumnya. Kelas varchar(20) - NO -

1. Flowchart
Flowchart biasanya mempercepat
penyelesaian suatu masalah khususnya
masalah yang perlu dipelajari dan dievaluasi
lebih lanjut. Flowchart dapat menunjukkan
kegiatan dan simpanan yang digunakan dalam
suatu prosedur. Adapun Flowchartklasifikasi
kepribadian dapat dilihat pada Gambar 4 Hasil dan Pembahasan
dibawah ini
Setelah melakukan tahap pelatihan atau
pembelajaran terhadap data, maka tahap
selanjutnya adalah melakukan proses pengujian.
Rencana pengujian yang akan dilakukan sebagai
berikut :
1. Pengujian dilakukan untuk mengetahui
apakah sistem sudah berjalan sesuai dengan
analisa dan perancangan yang telah dibuat
dengan menggunakan metode whitebox.
2. Pengujian akurasi metode dengan
menggunakan confusion matrix.

Pengujian Akurasi Metode

Pengujian perhitungan akurasi metode


sebagaimana yang telah direncanakan
menggunakan metode confusion matrix. Pembagian
data pada pengujian ini terdiri dari sesuai dataset
untuk data latih menggunakan 90% data latih 10%
data uji, 80% data latih 20% data uji, 70% data latih
Gambar4. Rancangan Flowchartklasifikasi 30% data uji dan 60% data latih 40% data
kepribadian uji.Pengujian berdasarkan jika kata ada dikamus
dikembalikan, jika tidak maka tidak dikembalikan
dengan perbandingan akhir 70 : 30, maka dapat kita
2. Rancangan Basis Data
hitung akurasi pengujian dengan cara sebagai
Basisdata pada sistem ini berisikan 1 tabel berikut.
digunakan untuk menampung tweet yang akan
digunakan. jumlah klasifikasi yang tepat 13
tingkat akurasi ×100%= ×100%=86,66%
total keseluruhan data uji 15

Tabel 2 Rancangan TabelTweet


Grafik Perbandingan Keseluruhan Pengujian
Type dan Primary
Nama Field
Length Key
Null Default Akurasi

User_id varchar(20) - NO - Grafik perbandingan pada keseluruhan dalam


pengujian terdiri dari sesuai dataset untuk data latih
Screen_name varchar(20) - NO - menggunakan 90% data latih 10% data uji, 80%
data latih 20% data uji, 70% data latih 30% data uji
dan 60% data latih 40% data uji.Berikut semua hasil
pengujian untuk data perbandingan 70 : 30
dilakukan 14 pengujian dengan perbandingan yang 3. Sistem analisa kepribadian menggunakan
sama sehingga didapatkan akurasi tertinggi 86,66% metode Naïve Bayes ini telah berhasil
dapat dilihat seperti pada Gambar 5.10 di bawah ini. mengklasifikasikan 5 kelas, yakni neuroticism,
extraversion, openness, agreeableness, dan
conscientiousness pada pengujian berdasarkan
jika kata ada dikamus dikembalikan, jika tidak
maka tidak dikembalikan dengan tingkat
akurasi tertinggi dari perbandingan 70 : 30
sebesar 86,66 %.

Daftar Pustaka

[1] Wade, C &Tavris, C. (2007).


PsikologiEdisiKesembilanJilid
2.Jakarta :Erlangga.
[2] Santrok, J. W. (2011). Psikologi Pendidikan
(Educational Psychology). Yogyakarta.
Gambar4. Grafik hasil pengujian 70 : 30 Pustaka Pelajar.
[3] Febrianto, N., & Wijaya, A. (2015). Pembuatan
Kesimpulan Sistem Prediksi Kepribadian “ The Big Five
Traits ” dari Media Sosial Twitter.
Dengan dilakukannya pengujian setiap [4] Pamungkas, D. S., Setiyanto, N. A., &
penelitian yang telah dilakukan dapat ditarik Dolphina, E. (2015). Analisis Sentiment Pada
Sosial Media Twitter Menggunakan Naive
kesimpulan sebagai berikut : Bayes Classifier Terhadap, 14(4), 299–314.
1. Klasifikasi dengan menggunakan Naïve Bayes [5] Mujilahwati, S., Studi, P., Informatika, T.,
dapat diterapkan untuk klasifikasi kepribadian Teknik, F., Lamongan, U. I., & Mining, D.
neuroticism, extraversi, openness, (2016). Pre-Processing Text Mining Pada Data
agreeableness, dan conscientiousness pada Twitter, 2016(Sentika), 18–19.
dataset yang diperoleh dari Twitter. [6] Qiu, L., Lin, H., Ramsay, J., dan Yang, F.
(2012). You are what you tweet: Personality
expression and perception on Twitter. Division
2. Sistem telah berhasil menerapkan prediksi of Psicology,Singapore. Science Direct.
kepribadian dengan menggunakan 3 data akun Pp.710-718.
baru tanpa diberi pelabelan, hasil akhir [7] Sarwani, M. Z., & Mahmudy, W. F. (2015).
kepribadian pengguna Twitter menghasilkan Analisis Twitter Untuk Mengetahui Karakter,
(November), 2–3.
terdapat 2 akun yang sesuai dengan hasil [8] Goldberg, L. R., Johnson, J. A., Eber, H. W.,
representasi dari hasil angket kepribadian, Hogan, R., Ashton, M. C., Cloninger, C. R., &
sedangkan 1 akun yang tidak sesuai dengan Gough, H. G. (2006). The international
hasil representasi hasil angket kepribadian dari personality item pool and the future of public-
domain personality measures ଝ, 40, 84–96.
pengujian yang dihasilkan oleh sistem.

3. Penelitian selanjutnya dapat dikembangkan


Saran dengan menggunakan stemming dan metode
klasifikasi lainnya sehingga dapat mengetahui
Untuk pengembangan sistem ini di masa yang kelebihan masing-masing metode dan metode
akan datang, maka diberikan beberapa saran sebagai mana yang menghasilkan nilai akurasi yang
berikut : lebih baik.
1. Sistem klasifikasi akun Twitter ini dapat
dikembangkan untuk memproses tweet dalam
Bahasa Inggris, jadi tidak hanya memproses
tweet bahasa Indonesia. Dan dikembangkan
dengan pembacaan emoticon.

2. Pada penelitian selanjutnya perlu penanganan


khusus untuk kata alay dan kata daerah 4. Penelitian telah membahas penerapan
terutama jika nanti menggunakan tweet klasifikasi kepribadian terhadap ruang
berbagai bahasa, karena algoritma ECS hanya lingkup mahasiswa, selanjutnya dapat
digunakan untuk bahasa indonesia. dikembangkan dengan melakukan
penelitian terkait kepribadian yang
penerapannya berdasarkan pekerjaan.