Anda di halaman 1dari 8

PENERAPAN METODE SVM UNTUK KLASIFIKASI TWEET

TRANSAKSI E-COMMERCE DI TWITTER

Al Hafiz Yunas1, Yusra2


1,2
Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, UIN Sultan Syarif Kasim Riau
Jl. HR. Soebrantas No. 155 Simpang Baru, Panam, Pekanbaru, 28293
Email: al..hafiz..yunas@students.uin-suska.ac.id, yusra@uin-suska.ac.id

ABSTRAK

Banyaknya obrolan yang dilakukan pelaku e-commerce melalui tweet-tweet di Twitter menghasilkan banyak
sumber daya informasi mengenai e-commerce. Namun, hal ini perlu diklasifikasi untuk mengatasi
permasalahan besarnya data tidak terstruktur dari tweet-tweet tersebut.
Banyak penelitian yang dilakukan untuk menemukan metode klasifikasi yang tepat untuk menghasilkan
akurasi terbaik dari tweet-tweet tersebut. Support Vector Machine (SVM) sebagai salah satu metode
pembelajaran mesin dapat dijadikan pilihan dalam metode pembelajaran klasifikasi karena mampu bekerja di
data tidak terstruktur. Banyak penelitian klasifikasi dokumen yang menggunakan metode ini berhasil
menghasilkan akurasi yang cukup tinggi dibanding metode pembelajaran lainnya.
Penelitian ini menggunakan 1000 tweet sebagai dataset untuk mengetahui kinerja SVM dalam melakukan
tweet transaksi e-commerce. Untuk mendapatkan akurasi, dataset yang telah diunduh diproses dalam
beberapa tahapan yang terdiri dari pelabelan manual, preprocessing, ekstraksi fitur hingga proses
pembelajaran SVM. Dari model pembelajaran yang dihasilkan proses training SVM, didapat nilai akurasi
sebesar 96% dengan fitur threshold. Sedangkan fitur tanpa threshold model terbaik yang dihasilkan SVM
hanya menghasilkan akurasi sebesar 67 %

Kata Kunci: DF, E-commerce, Fitur, Klasifikasi, LibSVM, Preprocessing, SVM, Threshold, Transaksi,
Tweet, Twitter.

ABSTRACT

The large many of talks e-commerce perpetrators about their transaction through tweets on Twitter, generate
many information resources about e-commerce. However, this condition must be classified to solve
unstructured data problems from tweets.
Much research has been done to find out correct method in doing the classification, so as to produce best
accuracy. Support Vector Machine (SVM) as a machine learning method can be an option in classification
learning method because it can work in unstructured data. Many classifications document research that use
this method successfully produce optimum accuracy compared other learning methods.
This research uses 1000 tweets as a dataset to determine SVM performance in classification tweet e-
commerce transactions. Process to get accuracy, data sets have been downloaded hereafter processed in
several phases consist of manual labeling, preprocessing, feature extraction through the SVM learning
process. From the learning model generated SVM Trainning process, obtained an accuracy value of 96%
with threshold feature. While the features without the best threshold model produced SVM only produce
accuracy of 67%.

Keywords : Classification, DF, E-commerce, Feature, LibSVM, Preprocessing, SVM, Threshold,


Transactions, Tweet, Twitter.

Pendahuluan orang. Hal ini berdampak pada kebiasaan


masyarakat terhadap dunia digital dan penggunaan
Seiring perkembangan zaman dan kemajuan teknologi yang berhubungan dengan internet. Salah
teknologi di bidang informasi, Elektronic satunya media sosial, bahkan saat ini minat
Commerce (E-Commerce) menjelma menjadi salah msyarakat melalui jalur media sosial lebih potensial
satu pilihan gaya hidup yang dilakukan banyak
dibanding melalui blog, forum atau teknologi klasifikasi tweet transaksi e-commerce. Penelitian
pendukung lainnya. ini menguji SVM dengan mengembangkan
Twitter adalah salah satu media sosial yang beberapa cara penelitian yang dilakukan
sangat potensial menjadi satu bagian pendukung sebelumnya dalam hal transaksi dan iklan e-
perkembangan dan penggunaan teknologi e- commerce serta beberapa penelitian terkait lainnya.
commerce. Selain sebagai salah satu media sosial
dengan pengguna terbesar dunia, pemilik Twitter Metode Penelitian
sendiri juga sudah menaruh perhatiannya terhadap
masalah ini [1]. Hal ini dibuktikan dengan Pada penelitian ini dipaparkan langkah-
penambahan fitur ‘buy’ pada tweet berkarakteristik langkah yang dilakukan dalam penyelesaian
e-commerce. Selain itu banyaknya jumlah followers permasalahan penelitian ini. Hal ini bertujuan agar
akun e-commerce baik secara perusahaan maupun proses penyelesaian penelitian ini berjalan sesuai
perorangan serta tweet yang berhubungan dengan dengan apa yang diharapkan. Tahap penelitian
kegiatatan itu, juga menjadi alasan untuk dapat dilihat pada gambar berikut ini.
memberikan khusus terhadap Twitter dalam hal e-
commerce.
Namun, besarnya reaksi itu menimbulkan
masalah terhadap besarnya data kegiatan e-
commerce di Twitter. Tentunya hal ini perlu
ditangani agar dapat dimanfaatkan menjadi sebuah
sumber daya. Beberapa negara seperti Tiongkok
dan India mulai memberikan perhatian khusus
terhadap itu. Indonesia sendiri juga mulai menyoroti
tersebut saat pemerintah mulai gencar mencari
solusi terhadap pajak transaksi dan iklan e-
commerce di sosial media [2].
Klasifikasi menjadi salah satu pilihan untuk
mengatasi masalah besarnya jumlah data di Twitter.
Sebelumnya telah dilakukan penelitian terhadap
klasifikasi transaksi e-commerce dengan aplikasi
SAFE-F [3]. Dalam penelitiannya tersebut,
dilakukan percobaan terhadap beberapa algoritma
dan metode untuk mendapatkan hasil klasifikasi
dengan akurasi tertinggi terhadap transaksi online di
Twitter
Support Vector Machine (SVM) sebagai salah
satu metode pembelajaran baru, muncul
menawarkan cara untuk melakukan klasifikasi data.
Beberapa penelitian mulai dilakukan menggunakan
metode ini untuk mengatasi permasalahan besarnya
data e-commerce di Twitter. Seperti yang dilakukan
dalam penelitiannya yang berjudul ‘Penerapan
Metode SVM Menggunakan Kernel Radial Basis Gambar 1. Metode Penelitian
Function (RBF) Pada Klasifikasi Tweet’ [4]. Dalam
penelitian tersebut, pengujian SVM dilakukan Twitter
dengan memilih fitur dan tidak. SVM Kernel RBF
berhasil menghasilkan akurasi sebesar 99,12% Twitter dapat didefinisikan sebagai media sosial
dengan melakukan pemilihan fitur. Sedangkan yang dapat dijadikan alat berbagi ide dan pemikiran
tanpa memilih fitur menghasilkan 97,54% untuk dalam 140 karakter atau kurang [6]. Twitter
klasifikasi iklan. memiliki sejumlah objek data yang dapat diakses
Selain itu, Metode ini juga berhasil oleh pengguna, salah satunya tweet object (tweet).
menghasilkan akurasi klasifikasi yang lebih baik Tweet terdiri dari sejumlah entitas yang terdiri
dibanding dengan metode pembelajaran lainnya dari id, created at, and text. Selain itu, dalam tweet
pada beberapa penelitian. Diantaranya seperti juga terdapat data objek user (pengguna), entities
Analisis Sentimen dan Ekstraksi Topik Penentu (url, mention, dan hashtag), dan entities extended
Sentimen pada Opini Terhadap Tokoh Publik [5]. tf(media, tweet polls, geotweet, photo, video,
Untuk itu pada penelitian ini, dilakukan animated).
penelitian terhadap kinerja SVM dalam melakukan
Search merupakan salah satu metode yang DP + DP + DP + root word + DS + PP + P
diizinkan Twitter untuk pihak pengembang aplikasi
dan pengguna untuk terlibat atau mengakses data-
data Twitter. Search merupakan aktivitas DP : Derivation Prefix
menggunakan API Twitter untuk Root word : Kata Dasar
mendapatkan/mengunduh data tweets (statuses). DS : Derivation Suffix
Tweet sendiri didefinisikan sebagai teks tulisan PP : Possessive Pronoun (Inflection)
dengan 140 karakter yang ditampilkan pada [ku,mu,nya]
halaman pengguna [7]. P : Particle (Inflection) [lah,kah,].

Natural Language Processing Metode Pembobotan

Natural Language Processing (NLP) adalah Pada penelitian ini proses ekstraksi fitur
area dari penelitian dan aplikasi yang membahas dilakukan dengan melakukan perangkingan
bagaimana komputer bisa digunakan untuk terhadap seluruh term berdasarkan bobot. Adapun
memahami dan memanipulasi bahasa teks alami. metode pembobotan yang digunakan antara lain :
Penelitian tentang NLP bertujuan untuk
mengumpulkan pengetahuan tentang bagaimana a. Document Frequency (DF)
manusia memahami dan menggunakan bahasa b. Term Frequency (TF)
sehingga bisa dikembangkan untuk membuat sistem c. Inverse Document Frequency (IDF),
komputer mengerti dan memanipulasi bahasa alami d. TFIDF
untuk melakukan tugas yang diharapkan [8]
Support Vector Machine (SVM)
Preprocessing
SVM adalah sistem pembelajaran yang
Preprocessing merupakan sekumpulan tahapan menggunakan ruang hipotesis berupa fungsi-fungsi
untuk mempersiapkan data teks sebelum dilakukan linier dalam sebuah ruang fitur (feature space)
proses lain [9]. Preprocessing terhadap data tweet berdimensi tinggi, dilatih dengan algoritma
yang dilakukan pada penelitian terdiri dari beberapa pembelajaran yang didasarkan pada teori optimasi
tahapan. Tahapan-tahapan tersebut antara lain : dengan mengimplementasikan learning bias yang
berasal dari teori pembelajaran statistik. Dalam
a. Cleansing klasifikasi, SVM bertujuan untuk menghasilkan
b. Tokenizing model yang dapat memprediksi nilai target data test
c. Converting Word hanya melalui atribut data test [10].
d. Stopword Removal SVM dapat bekerja pada data linier maupun
e. Stemming : nonlinier [11]. Dimaksud dengan linier artinya data
dapat dipisah dengan garis pemisah secara linier.
Pada penelitian ini, proses converting word,
stopword removal dan stemming menggunakan SVM Non-Linier
sebuah kamus acuan dalam prosesnya. Converting
word menggunakan kamus normalisasi yang berisi Untuk mengklasifikasikan data yang tidak dapat
kata tak baku dan perubahannya dalam bentuk dipisahkan secara linier (non-linier) dapat dilakukan
baku. dengan beberapa cara. Salah satunya adalah dengan
Stopword removal menggunakan stoplist untuk mentransformasikan data ke dalam dimensi ruang
mengetahui kata-kata stoplist yang akan dihapus. fitur (feature space) sehingga dapat dipisahkan
Pembuatan kamus stopword pada penelitian ini secara linier pada feature space.
menggunakan kamus stopword (stoplist) Tala Feature space dalam prakteknya biasanya
dengan penambahan beberapa kata umum yang memiliki dimensi yang lebih tinggi dari vektor input
digunakan namun dinilai tidak terlalu penting. (input space). Hal ini mengakibatkan komputasi
Proses stemming menggunakan stemming ECS. pada feature space mungkin sangat besar, karena
Stemming ECS menganalisa setiap kata/term dengan ada kemungkinan feature space dapat memiliki
mengikuti format penulisan bahasa indonesia yang jumlah feature yang tidak terhingga. Selain itu, sulit
mengandung imbuhan (affix). Dalam ECS mengenal mengetahui fungsi transformasi yang tepat. Untuk
imbuhan berupa awalan (prefix) akhiran (suffix), mengatasi masalah ini, pada SVM digunakan
sisipan (infix) dan awalan akhiran (confix). Sehinga ”kernel trick”.
format dasar yang digunakan dalam membuang Syarat sebuah fungsi untuk menjadi fungsi
imbuhan adalah sebagai berikut : kernel jika memenuhi Teorema Mercer yang
menyatakan bahwa matriks kernel yang dihasilkan
harus bersifat positive semi-definite [11]. Fungsi
kernel yang umum digunakan antara lain:

a. Kernel Linier
K(𝑥𝑖, x) =𝑥𝑖𝑇 x
b. Pilynomial Kernel
K(𝑥𝑖, x)=( γ. 𝑥𝑖𝑇 x+r)𝑝 ,γ > 0
c. Radial Basis Fuction
K(𝑥𝑖, x)=exp(-γ |𝑥𝑖 –x|2 ) γ > 0
d. Sigmoid Kernel
K(𝑥𝑖, x)=tanh(γ𝑥𝑖𝑇 𝑥 + 𝑟)

Pada penelitian ini, kernel yang digunakan


adalah kernel RBF dengan pasangan parameter C
dan γ. Kernel RBF dapat menangani hubungan
antara label dan kelas atribut pada kasus non-linier.
Beberapa parameter pada kernel RBF juga memiliki
kinerja yang sama seperti titik parameter (C, γ) pada
kernel linier. Selain itu kernel sigmoid mempunyai
karakteritik yang hampir sama dengan RBF.
Gambar 2. Flowchart Preprocessing
Analisa Dataset
Pada penelitian ini, atribut tweet yang
Dataset yang digunakan dalam penelitian ini diunduh hanya berupa text tweet. Untuk itu entitas
adalah tweet-tweet yang mengandung informasi id dan created at tidak diunduh sedangakan entitas
transaksi (berdasarkan definisi dan teori transaksi) lainnya seperti url, mention dan hastagh akan
yang berhasil diunduh. Jumlah yang ditentukan dihapus pada tahap preprocessing.
sebanyak 1000 data tweet, dengan rincian sebagai
berikut : Pelabelan Manual
Tabel 1. Tabel Rincian Dataset Pelabelan manual dilakukan terhadap dataset
yang telah tersimpan di database. Setiap data
Trainning/Testing Data Training 800 (80%) dilabel dengan melihat ciri informasi data tersebut
Data Testing 200 (20%) secara manual. Label yang telah ditentukan pada
Kategori Relevan 500 penelitian ini terdiri dari :
Iklan 500 1. Relevan, yaitu tweet yang mempunyai ciri
Jumlah Dataset 1000 tweet seputar aktivitas transaksi, seperti pesan,
kirim beli, minat dan lain-lain
Dalam penelitian ini dataset berasal dari akun- 2. Iklan, yaitu tweet yang mengandung kata
akun e-commerce terpopuler di Indonesia. promo, iklan, jual, dan kata-kata lain yang
Kepopuleran e-commerce tersebut berdasarkan pada mengundang pengguna untuk
jumlah pengikut dan peta hasil studi yang dilakukan mengundang minat pembeli
situs Iprice terhadap perusahaan e-commerce yang
terdaftar di ideA (Indonesia E-Commerce Preprocessing
Association).
Proses ini dilakukan untuk mendapatkan token
Analisa Pengunduhan data yang dijadikan fitur pada proses selanjutnya.
Terdapat beberapa tahapan yang dilakukan proses
Pengunduhan data dilakukan dengan program ini yang terdiri dari case folding, cleansing,
yang dibangun dari script PHP yang mampu tokenizing, conver word, filtering dan stemming
mengunduh data tweet berdasarkan masukan (input) dengan flowchart sebagai berikut :
dari pengguna. Proses pengunduhan dapat
dilakukan dengan melibatkan Twitter API berupa
key dan access token. Tak hanya itu, dilibatkan pula
TwitterOauth sebagai library otentifikasi. Adapun
flowchart proses yang dilakukan sebagai berikut :
alfabet (bukan huruf), karakter itu berupa
simbol dan angka.

Setelah text tweet dibersihkan pada proses


cleansing. Tahapan selanjutnya adalah dengan
mengubah setiap kata penyusun berdiri sendiri
menjadi token tunggal. Untuk itu, proses dilakukan
dengan terlebih dahulu menentukan delimiter yang
memisahkan setiap kata. Delimiter merupakan
pembatas antar kata sehingga dapat dijadikan token
tunggal. Pada penelitian ini digunakan karakter
spasi untuk menjadi delimiter antara kata.
Setelah token terbentuk, setiap token akan
dilakukan proses converting word untuk mengatasi
masalah kata tak baku. Selanjutnya dilakukan
proses stopword removal untuk menghapus kata
yang tak penting (stoplist) dan stemming untuk
mengubah kata dalam bentuk dasar (root).

Ekstraksi Fitur dan Pembobotan

Proses pembentukan feature list dimulai


dengan menentuka token yang menjadi fitur.
Adapun upaya yang dilakukan adalah dengan
Gambar 3. Flowchart Preprocessing memberi id dan nilai pada masing-masing token.
Proses dimulai dengan menyeragamkan semua Kemudian ditentukan threshold minimum nilai
kata dalam dokumen pada tahapan case folding. token yang dapat menjadi fitur.
Selanjutnya dilakukan cleansing untuk Pemberian nilai token berdasarkan bobotnya
membersihkan tweet dari entitas dan karakter yang yang dihasilkan dengan metode DF. Dalam
tidak diperlukan. Pada penelitian ini yang prosesnya, setiap token akan dihitung jumlah
digunakan untuk dijadikan fitur berupa karakter kemunculannya dalam setiap dokumen. Jumlah
huruf/alfabet pembentuk kata yang terdapat dalam tersebut menjadi nilai bobot dari token tersebut.
entitas text tweet. Untuk itu perlu dilakukan
pembersihan text tweet dari entitas dan karakter Tabel 2. Distribusi fitur relevan dan nilai DF
yang tidak diperlukan
Entitas yang tidak diperlukan berupa mention, Range Jumlah
hastagh, emoticon dan link/url yang terdapat 1-5 601
didalam tweet. Sedangkan karakter yang tidak 6-10 53
diperlukan terdiri dari karakter numerik dan tanda 11-15 20
baca (punctuation). Hal ini diperlukan untuk 16-20 7
mengurangi noise pada proses selanjutnya 21-25 6
Proses pembersihan dilakukan dengan 26-30 3
mengubah karakter dan entitas yang tidak 31-35 2
diperlukan menjadi delimiter (pembatas). 36-40 1
Pembersihan dilakukan dengan terlebih dahulu 41-45 1
mengidentifikasi entitas dan karkater yang 46-50 1
diperlukan. Untuk itu karakter dan entitas yang 51-55 0
tidak diperlukan dikenali dengan ciri sebagai 56-60 0
berikut 61-65 2
66-70 4
1. Link/Url, entitas yang terdiri karakter-karakter <70 4
yang diawali kata ‘http’,’https’,’ftp’ dan ’file’
yang menunjukkan sebuah laman website. Setelah masing-masing token mempunyai id
2. Mention, merupakan entitas yang terdiri dan nilai, maka dilakukan perangkingan fitur untuk
karakter-karakter yang diawali dengan simbol mengetahui distribusi fitur. Nilai threshold
‘@’ yang menunjukkan sebuah akun. ditentukan berdasarkan nilai konstan dari hasil
3. Hastagh, terdiri karakter-karakter yang grafik distribusi fitur. Dari tabel tersebut, grafik
didahului simbol ‘#’. distribusi fitur dapat ditampilkan sebagai berikut:
4 Punctuation, emoticon dan karakter numerik.
Ketiganya diidentifikasi sebagai karakter non
ditentukan dengan rentang tertentu. Adapun rentang
yang ditentukan dalam penelitian ini adalah :

1. 0.1≥ C ≥1 dan 0.1≥ γ ≥1


2. 1≥ C ≥ 10 dan 0.1≥ γ ≥1
3. 0.1≥ C ≥1 dan 1≥ γ ≥ 10
4. 1≥ C ≥ 10 dan 1≥ γ ≥ 10

Seriap nilai akan diuji dalam skema 10-fold


cross validation untuk menghasilkan model dan
akurasi masing-masing fold. Kemudian dihitung
rataan akurasi dari seluruh akurasi yang didapat
Gambar 4. Distribusi Fitur Relevan disetiap pasangan parameter dalam k-fold cross
validation.
Berdasarkan hasil distribusi fitur, maka nilai
threshold mulai konstan terdapat pada titik antara Evaluasi Model
16-20. Diantara nilai tersebut, ditentukan threshold
dengan nilai 16 karena menghasilkan fitur yang Evaluasi model terbaik dilakukan dengan
paling banyak. Fitur yang dihasilkan akan disimpan menghitung persentase jumlah data yang
dalam file features.list. cocok/benar dalam klasifikasi dari data uji yang
Pengubahan fitur dari berbentuk teks atau digunakan. Nilai akurasi dapat dirumuskan sebagai
string menjadi vektor dilakukan dengan berikut :
menggunakan nilai bobot yang dihasilkan dengan
metode TF-IDF. Setiap fitur akan dihitung jumlah 𝐽𝑢𝑚𝑙𝑎ℎ 𝐾𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖 𝑏𝑒𝑛𝑎𝑟
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = x 100%
kemunculannya dalam satu dokumen (TF). 𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑢𝑗𝑖𝑐𝑜𝑏𝑎
Kemudian nilai tersebut dikalikan dengan inverse
document frequency (IDF) fitur tersebut Pengujian
Trainning dan Testing Pengujian Pasangan Parameter Terbaik

Kedua proses ini melibatkan algoritma Untuk mengetahui pasangan parameter


LibSVM dalam prosesnya. Proses training dimulai terbaik, maka hal yang pertama dilakukan adalah
dengan mengolah data train menggunakan k-fold dengan membuat tabel grid search. Adapun tabel
cross validation dan kernel RBF. Untuk melakukan grid search tersebut berisi rataan akurasi dari
tersebut program akan memanggil beberapa fungsi pasangan parameter yang rentang nilainya telah
LibSVM untuk melibatkan parameter dan ditentukan.
membangkitkan model.
Fungsi LibSVM menyiapkan dan melilibatkan Tabel 3. Pengujian Pasangan Parameter
parameter kernel untuk mengklasifikasi non linier
dengan kernel RBF. Kemudian dilakukan skema
pemodelan dengan k-fold cross validation.
Model dibangkitkan dengan memangil fungsi C
SVM Train dari LibSVM. Output yang dihasilkan 0.1 0.2 0.3 0.4 0.5
adalah sebuah file model dari k-fold cross γ
validation. Model dengan akurasi terbaik dari nilai 0.1 89,1% 90,7% 89,9% 89,2% 89,5%
pasangan parameter terbaik akan digunakan untuk 0.2 92,4% 92,5% 92,8% 91,8% 90,6%
proses testing. Proses testing dilakukan dengan 0.3 91,8% 92,2% 92,9% 93,5% 92,9%
memanggil fungsi LibSVM untuk dapat melakukan
evaluasi model terbaik dengan data testing. 0.4 92,2% 92,7% 93,5% 94,1% 94%
0.5 92% 92,6% 92,7% 94,2% 94,5%
Pemodelan dan Estimasi Parameter 0.6 92,2% 92,3% 93% 94,4% 95,1%
0.7 92,5% 92,2% 93,2% 95% 95,5%
Dari dataset yang digunakan dalam penelitian 0.8 92,1% 92,6% 93,4% 95,7% 95,8%
ini maka metode SVM yang digunakan adalah SVM 0.9 91,9% 92,7% 93,6% 95,9% 95,8%
non liner. Untuk itu digunakan kernel RBF yang 1 91,9% 92,9% 93,8% 95,9% 95,8%
mempunyai pasangan parameter C dan γ.
Proses pencarian nilai parameter terbaik
menggunakan metode grid search dengan k-fold
cross validation. Dilakukan pemberian beberapa
pasangan nilai secara manual yang nilai tersebut
C Pengujian Hasil Ekstraksi Fitur
0.6 0.7 0.8 0.9 1
γ Dalam penelitian ini, dilakukan pengujian
0.1 89,2% 89,2% 89,2% 87,2% 87,2% proses testing terhadap fitur yang dihasilkan pada
0.2 89,9% 89,3% 89,3% 87,2% 87,2% proses ekstraski fitur. Pengujian dilakukan dengan
0.3 91,6% 90.8% 90,9% 89,6% 87,5% mengukur pengaruh nilai threshold terhadap akurasi
0.4 93,1% 91,7% 91,5% 91,1% 90,6% model.
0.5 93,8% 93,1% 92,7% 91,6% 90,7%
0.6 94,6% 94,2% 93% 92,7% 92,2% Tabel 5. Hasil Rata-Rata Akurasi Pasangan
0.7 95,5% 95,6% 94,5% 93,5% 92,8% Parameter
0.8 95,8% 95,8% 95,6% 95,2% 93,8%
0.9 95,7% 95,8% 96,1% 95,4% 95,3% Jumlah Fitur Akurasi
1 95,5% 95,6% 96% 96% 95,9% Threshold 28 96%
Tanpa Threshold 749 63%
Estimasi parameter dilakukan dalam proses
Dari hasil ekstraksi fitur, akurasi lebih tinggi
training yang melibatkan kernel. Setiap pasang
dihasilkan oleh proses pembelajaran yang
kernel akan diuji agar mendapatkan rataan akurasi
menggunakan fitur dengan nilai threshold
dari 10 akurasi yang dihasilkan pemodelan k-fold
dibanding dengan yang tidak. Pemberian nilai
cross validation. Dari hasil pengujian didapat
threshold sebesar 26 mampu mempengaruhi hasil
parameter terbaik dari pasangan C= 0,9 dan γ =0,8
akurasi yang lebih tinggi.
dengan rataan akurasi sebesar 96,1%.
Analisi Hasil Akurasi dan Kinerja Klasifikasi
Pengujian Pemilihan Model Terbaik
Pada penelitian ini, data testing yang
Model terbaik merupakan model yang digunakan terdiri dari 100 tweet relevan dan 100
menghasilkan nilai akurasi terbaik. Adapun rincian tweet iklan. Dari 200 data testing ada 138 data yang
hasil dari skema k-fold yang dihasilkan dengan mengandung fitur relevan .
parameter kernel terbaik dapat dilihat pada tabel Dari hasil pengujian, didapat bahwa akurasi
berikut : klasifikasi dengan pembelajaran SVM terhadap
tweet transaksi e-commerce dalam penelitian ini
Tabel 4. Hasil Training dengan Skema K-Fold mencapai 96%. Nilai tersebut menunjukkan bahwa
SVM mampu menghasilkan nilai akurasi tinggi
fold Jumlah Jumlah Akurasi Akurasi terhadap data transaksi dari tweet e-commerce.
Benar Data Testing Untuk klasifikasi yang salah, hal ini terjadi
Fitur karena banyaknya fitur yang tidak relevan yang
1 58 63 92% 94% dihasilkan dari dataset. Selain itu, terdapat pula
2 58 63 97% 95% fitur-fitur relevan yang terdapat pada tweet iklan.
3 57 63 97% 96%
4 58 63 97% 95% Tabel 6. Rincian Data dan Hasil Pengujian
5 56 63 95% 94%
6 58 63 97% 93% Dataset 1000
7 56 63 97% 94%
8 56 62 97% 94% Data Training 800 (80% dataset)
9 53 62 95% 94% Data Relevan 400
10 57 62 97% 94% Data Iklan 400
Dari hasil pengujian skema k-fold cross
Data Testing 200 (20%dataset)
validation dengan parameter terbaik, terdapat tujuh
model yang menghasilkan nilai akurasi tertinggi. Data Relevan 100
Upaya untuk menemukan model terbaik dilakukan Data Iklan 100
dengan menguji model tersebut pada proses testing.
Dari hasil pengujian didapat bahwa model yang Data Fitur Train/Data Train 630
dihasilkan fold ke-3 berhasil menghasilkan nilai Data Fitur Test 138
akurasi tertinggi diantara model lainnya. Akurasi 130/138*100% = 96%
Kesimpulan Daftar Pustaka

Penelitian ini berhasil membuat program [1] Ervina Anggraini. (2014, Feb.) Liputan6.com.
untuk menguji implementasi SVM dalam [Online].
mengklasifikasi aktivitas transaksi dan iklan di http://tekno.liputan6.com/read/817032/twitter-
tweet-tweet transaksi e-commerce. Dari hasil rambah-bisnis-ie-commerce
penelitian disimpulkan bahwa :
[2] Michel Reily. (2017) KATADATA. [Online].
1. Metode pembelajaran SVM berhasil
https://katadata.co.id/berita/2017/12/08/bps-dan-
menghasilkan model pembelajaran yang
pelaku-e-commerce-akan-hitung-transaksi-online-
mempunyai nilai akurasi klasifikasi sebesar
96%. Dengan pasangan parameter C=0,9 dan di-media-sosial
γ=0,8. [3] Masayu Leila Kodra and Ayu Purwarianti,
2. Nilai akurasi yang didapat dari model terbaik "Ekstraksi Informasi Transaksi Online Pada
SVM tersebut melibatkan sejumlah tahapan lain Twitter," Jurnal Cybermatika, Volume 1, Issue 1,
di antaranya preprocessing, ekstraksi fitur dan Artikel 4, 2013.
pembobotan dengan metode yang telah [4] Imelda A Muis and Muhammad Affandes,
ditentukan. Tahapan lainnya tersebut dilakukan "Penerapan Metode Support Vector Machine (SVM)
untuk mendapatkan fitur yang tepat untuk Menggunakan Kernel Radial Basis Function (RBF)
digunakan dalam model pembelajaran Pada Klasifikasi Tweet," Jurnal Sains, Teknologi
3. Dari hasil pengujian, melibatkan nilai threshold dan Industri, Vol. 12 No. 2, pp. pp 189-197, 2015.
menghasilkan model yang mempunyai akurasi [5] Ismail Sunni and Dwi Hendratmo Widyantoro,
yang lebih baik dibanding dengan yang tidak. "Analisis Sentimen dan Ekstraksi Topik
Fitur yang dihasilkan tanpa nilai threshold PenentuSentimen pada Opini Terhadap Tokoh
menghasilkan banyak fitur yang tidak mewakili Publik," Jurnal Sarjana Institut Teknologi Bandung
data relevan dengan aktivitas transaksi. Bidang Teknik Elektro dan Informatika Vol 1, No, 2,
Sehingga, hal ini membuat model SVM tidak 2012.
menghasilkan klasifikasi secara benar
4. Dari 138 data testing yang mengandung fitur [6] Copernicus. (2009, Oktober) Copernicus.org.
setelah threshold, terdapat 6 data testing yang [Online].
salah diklasifikasi oleh model terbaik https://www.copernicus.org/PDF_introduction-
pembelajaran SVM. Hal ini terjadi karena fitur Twitter.pdf
yang digunakan mewakili kedua kelas yang [7] Yusra, Klasifikasi Minat Pengguna Twitter
diklasifikasi. Berdasarkan Tweet Menggunakan Support Vector
Machine (SVM). Bandung: Tesis. Sekolah Teknik
Saran Elektro dan Informatika Institut Teknologi
Bandung, 2013.
Adapun saran yang dapat diberikan untuk [8] S Vijayarani, J. Ilmathi, and Nithya, "Preprocessing
penelitian lanjutan yang terkait dengan penelitian Techniques for Text Mining - An Overview,"
ini adalah : International Journal of Computer Science &
1. Terdapat sejumlah informasi penting dari Communication Network, Vol 5(1), pp. 7-16, 2015.
data yang digunakan. Proses klasifikasi [9] Siti Mujilahwati, "Pre-Processing Text Minning
dapat dilanjutkan dengan mengekstrak Pada Data Twitter," Seminar Nasional Teknologi
informasi dari tweet-tweet hasil klasifikasi. Informasi dan Komunikasi 2016 (SENTIKA 2016)
Dengan penambahan sejumlah metode ISSN 2089-9815, 2016.
yang berhubungan dengan ekstraksi
[10] Chih-Chung Cang, Chi-Jen Li Chie- Wei Hsu, "A
informasi di dokumen berupa tweet.
Practical Guide to Support Vector Classification,"
2. Dari hasil penelitian terdapat beberapa data
Department of Computer Science, May 2016.
yang salah diklasifikasi karena beberapa
fitur mewakili kedua kelas yang digunakan [11] Kristanus Sembiring. (2007)
sebagai label. Untuk itu perlu dilakukan http://sutikno.blog.undip.ac.id. [Online].
proses penanganan yang lebih baik lagi http://sutikno.blog.undip.ac.id/files/2011/11/tutorial-
untuk mendapatkan fitur yang tepat untuk svm-bahasa-indonesia-oleh-krisantus.pdf
proses klasifikasi
3. Perlu penanganan terhadap tweet iklan
karena banyak diantaranya yang tidak
mengandung fitur. Terutama pada data
tweet iklan yang hanya mempunyai
informasi produk barang yang dijual