Jason Tan - Bab1-3
Jason Tan - Bab1-3
Collaborative Filtering
TUGAS AKHIR
Disusun Oleh:
JASON TAN
1117014
TUGAS AKHIR
Diajukan sebagai salah satu syarat untuk memperoleh
gelar sarjana dalam bidang Informatika
Disusun Oleh:
JASON TAN
1117014
Sebagai sivitas akademik Institut Teknologi Harapan Bangsa, saya yang bertanda
tangan di bawah ini:
beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti
Noneksklusif ini Institut Teknologi Harapan Bangsa berhak menyimpan,
mengalihmediakan, mengelola dalam pangkalan data, dan memublikasikan karya
ilmiah saya selama tetap mencantumkan nama saya sebagai penulis/pencipta dan
sebagai pemilik Hak Cipta.
Bandung, .. 2020
Yang menyatakan
Jason Tan
i
DAFTAR ISI
LEMBAR PENGESAHAN i
ABSTRAK i
ABSTRACT i
KATA PENGANTAR ii
DAFTAR TABEL iv
DAFTAR GAMBAR v
I PENDAHULUAN 1-1
1.1 Latar Belakang . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-1
1.2 Rumusan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-3
1.3 Batasan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-3
1.4 Tujuan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-4
1.5 Kontribusi Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . 1-4
1.6 Metode Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-4
1.7 Sistematika Penulisan . . . . . . . . . . . . . . . . . . . . . . . . . 1-5
ii
2.3.1 E-Commerce . . . . . . . . . . . . . . . . . . . . . . . . . 2-8
2.3.2 Rating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2-8
2.3.3 Review . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2-8
DAFTAR REFERENSI vi
iii
DAFTAR TABEL
iv
DAFTAR GAMBAR
v
BAB I
PENDAHULUAN
1-1
I. PENDAHULUAN
Model Based. Memory Based menggunakan data rating sebagai bahan untuk
mencari kesamaan antar produk atau user, sedangkan Model Based membuat
model menggunakan teknik-teknik data mining lalu menggunakan model tersebut
untuk mendapatkan hasil rekomendasi [3]. Menurut Eka Angga Laksana, Memory
Based Collaborative Filtering digunakan pada sistem rekomendasi situs Amazon
karena sangat efektif dan kemudahannya dalam implementasi [3]. Suriati., et al,
melakukan penelitian terhadap berbagai pendekatan sistem rekomendasi.
Penelitian ini membandingkan pendekatan Content Based, Collaborative Filtering,
dan pendekatan Hybrid yang merupakan gabungan dari dua pendekatan
sebelumya. Hasil dari penelitian tersebut adalah nilai Mean Absolute Percentage
Error (MAPE) dari Collaborative Filtering, Content Based dan Hybrid adalah
0,73, 0,93, dan 0,973. Nilai MAPE menunjukkan bahwa Collaborative Filtering
mempunyai nilai error yang lebih kecil dibandingkan kedua metode lainnya [4].
Di sisi lain, ada Sentiment Analysis yang merupakan metode untuk mengambil
nilai sentimen dari review seseorang terhadap sebuah produk. Dengan
menggunakan Sentiment Analysis maka sistem rekomendasi Collaborative
Filtering dapat ditingkatkan akurasinya karena nilai rating dapat dipadukan dengan
nilai review pengguna yang berbentuk teks terhadap produk yang telah dibeli.
Sentiment Analysis merupakan metode yang mengekstrak opini atau sentimen
orang-orang berdasarkan analisa teks [5].
1-2
I. PENDAHULUAN
review berbahasa Arab dan mengubah data review teks menjadi angka. Hasil
angka yang dihasilkan dari S3VM akan digunakan pada sistem rekomendasi
Collaborative Filtering untuk mencari korelasi antar pengguna. Hasil dari
penelitian menunjukkan nilai untuk sistem rekomendasi berbahasa Inggris,
Prancis, dan Arab mendapatkan nilai Mean Absolute Error (MAE) sebesar 0,52,
0,50, dan 0,60 dan nilai precission sebesar 0,96, 1, dan 0,9. Hal ini menunjukkan
bahwa penggabungan Sentiment Analysis ke dalam sistem rekomendasi bisa
menghasilkan rekomendasi yang berkualitas.
1. Dataset yang didapatkan mengandung nilai rating dan review teks, tetapi tidak
ada label positif atau negatif dari review teks.
2. Data review teks dari dataset yang didapatkan adalah review berbahasa
Inggris.
3. Data berlabel positif dan negatif yang akan digunakan pada data latih
Sentiment Analysis akan dihasilkan menggunakan Google Cloud Platform
dengan 50 persen dari total dataset.
1-3
I. PENDAHULUAN
1. Studi Literatur
Penulisan penelitian dengan mengumpulkan dari sumber-sumber referensi
baik artikel, jurnal, paper mengenai sistem rekomendasi dan Sentiment
Analysis.
2. Pengumpulan Data
Tahap ini merupakan tahap pengambilan dataset. Dataset adalah data
pembelian produk kategori Software pada e-commerce Amazon.
3. Analisis Masalah
Dilakukan analisis masalah yang ada, batasan masalah, dan kebutuhan yang
diperlukan.
4. Training Data
Tahap ini adalah tahap melatih dataset untuk Sentiment Analysis yang akan
dikategorikan sebagai data review positif dan negatif.
5. Testing Data
Tahap testing merupakan tahap pengujian sistem rekomendasi dengan
menggunakan Sentiment Analysis.
6. Evaluasi
Tahap evaluasi merupakan tahap terakhir, membandingkan hasil akurasi
sebelum dan sesudah sistem rekomendasi memakai Sentiment Analysis.
Hasil akan diukur menggunakan Root Mean Square Error (RMSE).
1-4
I. PENDAHULUAN
Bab ini berisi penjelasan mengenai masalah dan penyelesaian yang akan
dikerjakan dalam Penelitian. Bab Pendahuluan meliputi latar belakang, rumusan
masalah, batasan masalah, tujuan penelitian, kontribusi penelitian, metodologi
penelitian, dan sistematika pembahasan.
Bab II berisi hasil studi literatur yang dilakukan dalam pengerjaan Penelitian. Bab
ini menjelaskan hal-hal terkait teori dalam Penelitian, seperti tinjauan studi,
tinjauan pustaka yang berisi obyek penelitian, landasan teori tentang metode,
tahapan algoritma dan contoh penerapannya.
Bab III secara umum membahas tahapan pada Penelitian. Tahapan penelitian terdiri
dari pengumpulan data, pengolahan data, metode yang dipakai, pengujian metode,
evaluasi dan validasi hasil pengujian.
BAB V : PENUTUP
Bab V merupakan penutup dari Laporan Penelitian. Bab ini berisi kesimpulan
yang menjelaskan hal-hal yang diperoleh selama Penelitian dan menunjukan
ketercapaian tujuan dari Penelitian dan berisi saran untuk penelitian selanjutnya.
1-5
BAB II
LANDASAN TEORI
2.1.1.1 Content-Based
Content-Based merekomendasikan produk yang mempunyai kemiripan dengan
produk yang pernah dibeli sebelumnya oleh pengguna. Content-Based
menganalisa karakteristik dari produk yang dibeli oleh seorang pengguna lalu
mencari produk yang memiliki karakteristik yang serupa dan
merekomendasikannya kepada pengguna tersebut. Ada dua teknik yang dapat
digunakan untuk menghasilkan rekomendasi Content-Based, menggunakan
metode pengambilan informasi tradisional seperti Cosine-Similarity, TF-IDF,
Latent Dirichlet Allocation (LDA), atau menggunakan metode Machine Learning
seperti Naive-Bayes, Support Vector Machines, dan Decission Tree [2]. Pada
gambar 2.1 bisa dilihat cara kerja Content-Based. Seorang pengguna membeli
sebuah produk (merah), produk tersebut mempunyai kesamaan karakteristik
dengan produk lain (biru) karena itu produk biru direkomendasikan kepada
pengguna yang membeli barang merah.
2-1
II. LANDASAN TEORI
Ada dua tipe Collaborative Filtering, yaitu Memory Based Collaborative Filtering
dan Model Based Collaborative Filtering. Pebedaan dari keduanya adalah Memory
Based mencari kesamaan antar pengguna atau produk menggunakan operasi
aritmatika, sedangkan Model Based menggunakan machine learning untuk
memprediksi rating dari produk yang belum dinilai. Memory Based bisa dibagi
lagi menjadi User-Based dan Item-Based. User-Based merekomendasikan produk
berdasarkan kesamaan antara kedua pengguna, sedangkan Item-Based
2-2
II. LANDASAN TEORI
Keterangan
x : Variabel data pertama
y : Variabel data kedua
n : Banyaknya pasangan data x dan y
2-3
II. LANDASAN TEORI
2-4
II. LANDASAN TEORI
wT .x + b = 0 (2 . 2)
wT .x + b ≥ +1, dimana yi = +1 (2 . 3)
wT .x + b ≤ −1, dimana yi = −1 (2 . 4)
Keterangan
x : Vector masukan.
yi : Kelas.
wT : Vektor weight.
b : Bias.
m
w = ∑ αi yi xi (2 . 5)
i=1
2-5
II. LANDASAN TEORI
Keterangan
w : Vector weight.
αi : Nilai alpha ke i.
xi : Vektor masukan ke i.
yi : Nilai kelas ke i.
2.1.5 TF-IDF
TF-IDF atau Term Frequency - Inverse Document Frequency adalah teknik untuk
mengetahui seberapa pentingnya sebuah kata di dalam sebuah dokumen. Kata
yang penting dan unik dalam sebuah dokumen akan merepresentasikan maksud
dari dokumen tersebut. Rumus dari TF-IDF dapat dilihat pada persamaan 2.2.
Kata yang sering muncul dalam sebuah dokumen tetapi jarang muncul di dokumen
lainnya akan mempunyai nilai TF-IDF yang tinggi.
N
W (x, y) = t f (x, y).log( ) (2 . 6)
d f (x)
Keterangan
W (x, y) : Nilai kata x dalam dokumen y.
t f (x, y) : Frekuensi kata x dalam dokumen y.
d f (x) : Banyak dokumen yang mengandung kata x.
N : Total dokumen yang ada.
2-6
II. LANDASAN TEORI
2-7
II. LANDASAN TEORI
2.3.1 E-Commerce
E-Commerce atau electronic commerce adalah segala aktivitas jual beli yang
dilakukan melalui media elektronik, seringnya dilakukan melalui media internet
[12]. Di dalam sebuah e-commerce seperti Lazada atau Amazon, pengguna dapat
melihat produk, membeli produk, dan memberikan penilaian terhadap produk yang
telah mereka beli. Penilaian yang mereka lakukan dapat berupa angka rating
maupun tulisan review.
2.3.2 Rating
Pada pembelian produk di e-commerce, pengguna dapat menilai produk yang telah
dibeli menggunakan angka atau bintang untuk menunjukkan pendapat pembeli
terhadap produk tersebut. Nilai yang diberikan mempunyai kisaran angka yang
beragam, tetapi pada umumnya mempunyai kisaran angka 1-5. Semakin suka
pengguna terhadap produk maka semakin tinggi angka rating yang diberikan.
Contoh rating bisa dilihat pada gambar 2.6, gambar tersebut menunjukkan rating
pada situs Amazon yang dilambangkan dengan bintang.
2.3.3 Review
Selain bisa memberikan rating, pengguna bisa memberikan komentar berbentuk
teks terhadap produk yang telah dibeli. Review bisa menunjukkan pendapat
pengguna terhadap produk yang telah dibeli, seringkali review yang bagus akan
diberikan bersamaan dengan rating yang bagus, begitu juga dengan review yang
buruk akan diberikan bersamaan dengan rating yang buruk. Contoh review bisa
dilihat pada gambar 2.6, tulisan yang diberikan para pengguna menunjukkan
pengalaman mereka terhadap produk tersebut.
2-8
II. LANDASAN TEORI
2-9
BAB III
Bab ini memaparkan analisis masalah yang diatasi berserta pendekatan dan alur
kerja dari algoritme yang dikembangkan, mengimplementasikan metode yang
digunakan dan hasil yang akan ditampilkan.
3-1
III. ANALISIS DAN PERANCANGAN SISTEM
Seperti pada gambar 3.1, terdapat beberapa variabel indikator yang memengaruhi
hasil dan perlu dilakukan penyesuaian, seperti kernel type pada klasifikasi
sentimen SVM dan jumlah minimum review dari sebuah produk untuk
Collaborative Filtering. Penelitian ini bertujuan untuk melihat hasil akurasi dari
sistem rekomendasi yang menggunakan rating dan review sebagai parameter untuk
pendekatan Collaborative Filtering.
3-2
III. ANALISIS DAN PERANCANGAN SISTEM
3-3
III. ANALISIS DAN PERANCANGAN SISTEM
Berikut ini adalah uraian dari flowchart training SVM pada gambar 3.3 yang
dilakukan dalam penelitian ini:
1. Data yang menjadi masukan adalah data review produk yang sudah dilabelkan
menurut kelasnya masing-masing.
3-4
III. ANALISIS DAN PERANCANGAN SISTEM
Pada gambar 3.4 terlihat urutan proses Sentiment Analysis menggunakan Support
Vector Machine. Berikut ini adalah uraian dari flowchart pada gambar 3.4 yang
dilakukan dalam penelitian ini:
1. Data yang menjadi masukan adalah data review pengguna terhadap produk
yang berbentuk teks.
3. Proses TF-IDF juga dilakukan untuk mengetahui bobot dari kalimat yang
menjadi masukan pada proses Sentiment Analysis
3.4.1 Dataset
Data masukan yang akan digunakan pada penelitian ini adalah data pembelian
pada situs Amazon sebanyak 459.436 data. Dari tabel 3.1 dapat dilihat data
mempunyai kolom reviewerID yaitu ID pengguna yang melakukan pembeli, asin
yaitu ID produk, title yaitu nama produk, overall merupakan nilai rating pengguna
terhadap pembelian tersebut, dan reviewText yang merupakan review pengguna
3-5
III. ANALISIS DAN PERANCANGAN SISTEM
Tabel 3.2 merupakan rincian dari dataset yang telah dipilih. Dari 459.436 review,
terdapat 21.663 produk dan 317.147 pengguna dengan produk yang paling banyak
di review sebanyak 8.994 review dan pengguna paling banyak melakukan review
sebanyak 73 review.
Review 459436
Product 21663
User 375147
3.4.2 Preprocessing
Tahap ini adalah tahap menyiapkan teks yang didapatkan dari kolom
reviewText di tabel 3.1 untuk diolah ke tahap-tahap selanjutnya. Tahap
preprocessing meliputi beberapa tahap yang bisa dilihat pada gambar 3.5.
3-6
III. ANALISIS DAN PERANCANGAN SISTEM
3-7
III. ANALISIS DAN PERANCANGAN SISTEM
3 IF YOU ARE TAKING THIS CLASS if you are taking this class dont waste
DON”T WASTE YOUR MONEY ON your money on this so called book for
THIS SO CALLED BOOK! $140.00 a book that isint even bound loose leafs
FOR A ”BOOK” THAT ISIN’T EVEN that i had to provide my own binder
BOUND LOOSE LEAFS, THAT I for turns out you can buy access to the
HAD TO PROVIDE MY OWN book at mcgraw hill connect core for
BINDER FOR. TURNS OUT YOU this book is a complete waste of money
CAN BUY ACCESS TO THE BOOK
AT MCGRAW HILL CONNECT
CORE FOR $70.00 THIS BOOK IS A
COMPLETE WASTE OF MONEY!
4 Strong backgroung, good read, quite up strong backgroung good read quite up
to date. It takes a holistic approach to to date it takes a holistic approach to
the subject. Lack of references is a bit the subject lack of references is a bit
surprising. Jorge surprising jorge
5 I have used LearnSmart and can i have used learnsmart and can
officially say that this is an amazing officially say that this is an amazing
study tool that quickly and simply study tool that quickly and simply
adapts to your style of learning. You adapts to your style of learning you
can access it at anytime and it is on the can access it at anytime and it is on the
go! Once you start using LearnSmart go once you start using learnsmart you
you will quickly realize that this is the will quickly realize that this is the best
best way to learn and study. I am way to learn and study i am a business
a business student and I did not use student and i did not use learnsmart for
LearnSmart for my Accounting I class, my accounting i class however i did
however, I did use it for my Accounting use it for my accounting ii class the
II class. The grade difference from grade difference from accounting i to
Accounting I to Accounting II was accounting ii was a whole letter grade
a whole letter grade... thanks to thanks to learnsmart every college
LearnSmart! Every college student student should definitely check it out
should definitely check it out!
3.4.2.2 Tokenizing
Tahap ini memisahkan setiap kata-kata dalam sebuah kalimat yang terpisahkan
oleh spasi dan menjadikannya kata-kata tunggal dalam bentuk array. Contoh dapat
dilihat pada tabel 3.4
3-8
III. ANALISIS DAN PERANCANGAN SISTEM
1 the materials arrived early and were [’the’, ’materials’, ’arrived’, ’early’,
in excellent condition however for the ’and’, ’were’, ’in’, ’excellent’,
money spent they really shouldve come ’condition’, ’however’, ’for’, ’the’,
with a binder and not just loose leaf ’money’, ’spent’, ’they’, ’really’,
’shouldve’, ’come’, ’with’, ’a’,
’binder’, ’and’, ’not’, ’just’, ’loose’,
’leaf’]
2 not worth the price most of the [’not’, ’worth’, ’the’, ’price’, ’most’,
concepts are pretty superficial the ’of’, ’the’, ’concepts’, ’are’, ’pretty’,
authors are also a little behind on the ’superficial’, ’the’, ’authors’, ’are’,
times ’also’, ’a’, ’little’, ’behind’, ’on’, ’the’,
’times’]
3 if you are taking this class dont waste [’if’, ’you’, ’are’, ’taking’, ’this’,
your money on this so called book for ’class’, ’dont’, ’waste’, ’your’,
a book that isint even bound loose leafs ’money’, ’on’, ’this’, ’so’, ’called’,
that i had to provide my own binder ’book’, ’for’, ’a’, ’book’, ’that’,
for turns out you can buy access to the ’isint’, ’even’, ’bound’, ’loose’, ’leafs’,
book at mcgraw hill connect core for ’that’, ’i’, ’had’, ’to’, ’provide’, ’my’,
this book is a complete waste of money ’own’, ’binder’, ’for’, ’turns’, ’out’,
’you’, ’can’, ’buy’, ’access’, ’to’,
’the’, ’book’, ’at’, ’mcgraw’, ’hill’,
’connect’, ’core’, ’for’, ’this’, ’book’,
’is’, ’a’, ’complete’, ’waste’, ’of’,
’money’]
4 strong backgroung good read quite up [’strong’, ’backgroung’, ’good’, ’read’,
to date it takes a holistic approach to ’quite’, ’up’, ’to’, ’date’, ’it’, ’takes’,
the subject lack of references is a bit ’a’, ’holistic’, ’approach’, ’to’, ’the’,
surprising jorge ’subject’, ’lack’, ’of’, ’references’, ’is’,
’a’, ’bit’, ’surprising’, ’jorge’]
3-9
III. ANALISIS DAN PERANCANGAN SISTEM
5 i have used learnsmart and can [’i’, ’have’, ’used’, ’learnsmart’, ’and’,
officially say that this is an amazing ’can’, ’officially’, ’say’, ’that’, ’this’,
study tool that quickly and simply ’is’, ’an’, ’amazing’, ’study’, ’tool’,
adapts to your style of learning you ’that’, ’quickly’, ’and’, ’simply’,
can access it at anytime and it is on the ’adapts’, ’to’, ’your’, ’style’, ’of’,
go once you start using learnsmart you ’learning’, ’you’, ’can’, ’access’,
will quickly realize that this is the best ’it’, ’at’, ’anytime’, ’and’, ’it’, ’is’,
way to learn and study i am a business ’on’, ’the’, ’go’, ’once’, ’you’,
student and i did not use learnsmart for ’start’, ’using’, ’learnsmart’, ’you’,
my accounting i class however i did ’will’, ’quickly’, ’realize’, ’that’,
use it for my accounting ii class the ’this’, ’is’, ’the’, ’best’, ’way’, ’to’,
grade difference from accounting i to ’learn’, ’and’, ’study’, ’i’, ’am’,
accounting ii was a whole letter grade ’a’, ’business’, ’student’, ’and’,
thanks to learnsmart every college ’i’, ’did’, ’not’, ’use’, ’learnsmart’,
student should definitely check it out ’for’, ’my’, ’accounting’, ’i’, ’class’,
’however’, ’i’, ’did’, ’use’, ’it’, ’for’,
’my’, ’accounting’, ’ii’, ’class’,
’the’, ’grade’, ’difference’, ’from’,
’accounting’, ’i’, ’to’, ’accounting’,
’ii’, ’was’, ’a’, ’whole’, ’letter’,
’grade’, ’thanks’, ’to’, ’learnsmart’,
’every’, ’college’, ’student’, ’should’,
’definitely’, ’check’, ’it’, ’out’]
3-10
III. ANALISIS DAN PERANCANGAN SISTEM
3-11
III. ANALISIS DAN PERANCANGAN SISTEM
3.4.2.4 Stemming
Tahap ini diperlukan untuk mengubah kata-kata yang ada menjadi kata dasar.
Tahap ini dihasilkan dengan menggunakan algoritma Porter yang tersedia pada
library NLTK. Contoh Stemming dapat dilihat pada tabel 3.6.
3-12
III. ANALISIS DAN PERANCANGAN SISTEM
3-13
III. ANALISIS DAN PERANCANGAN SISTEM
3.4.2.5 TF-IDF
3-14
Gambar 3.6 Contoh hasil perhitungan TF-IDF
III. ANALISIS DAN PERANCANGAN SISTEM
Berikut gambar 3.7 adalah tabel antara kata dengan review yang sudah diberi label
-1 dan 1.
3-15
III. ANALISIS DAN PERANCANGAN SISTEM
x1 x2 x3 x4 x5
3-16
III. ANALISIS DAN PERANCANGAN SISTEM
K(xi , x j ) = xi xTj (3 . 1)
Membuat perhitungan matrix nilai X, hasilnya dapat dilihat pada tabel 3.9.
Selanjutnya dilakukan perhitungan matrix nilai Y, hasilnya dapat dilihat pada tabel
3.10.
Tabel 3.10 Tabel Matrix Perhitungan Nilai Y
3-17
III. ANALISIS DAN PERANCANGAN SISTEM
kernel linear 3 . 3.
n
∑ xi xTj (3 . 2)
i=1, j=1
n
∑ yi yTj (3 . 3)
i=1, j=1
Dari perhitungan di atas didapatkan nilai Support Vector dari tiap R, kemudian
ditambah nilai bias=1 pada masing-masing Support Vector sehingga terbentuk
tabel Support Vector Bias pada tabel 3.11.
R1 R2 R3 R4 R5
6, 45566 4, 88559 19, 1312 7, 15654 47, 4312
Support 3 3 −3 3 3
Vector 1 1 1 1 1
Bias
Setelah nilai Support Vector didapatkan, selanjutnya mencari nilai αi, didapatkan
3-18
III. ANALISIS DAN PERANCANGAN SISTEM
n
∑ ai SiT S j (3 . 4)
i=1, j=1
1 1
T
6, 45566 4, 88559
α2 3 ∗ 3 = 23, 5397α2
1 1
...
... T
6, 45566 47, 4312
α5 3 ∗ 3 = 23, 5397α5
1 1
Karena kelas label positif adalah S3 maka kita ambil nilai α3 dan masukkan ke
dalam persamaan 3 . 5
3-19
III. ANALISIS DAN PERANCANGAN SISTEM
n
W̃ = ∑ αi Si (3 . 5)
i=1
19, 1312 1, 0628
W̃ = 0, 0555 −3 = −0, 16666
1 0, 0555
" #
1, 0628
Sehingga di dapatkan nilai: w = , dengan nilai b = 0,0555. Nilai
−0, 16666
hyperplane untuk mengklasifikasikan kelas ’neg’ dibanding dengan kelas lainnya
adalah 0,0555.
3-20
III. ANALISIS DAN PERANCANGAN SISTEM
Selanjutnya di lakukan perhitungan matrix nilai X dan nilai Y seperti pada proses
training menggunakan persamaan 3 . 1 sehinggal menghasilkan tabel 3.13 dan tabel
3.14.
Tabel 3.13 Tabel Matrix Perhitungan Nilai X Testing
3-21
III. ANALISIS DAN PERANCANGAN SISTEM
Selanjutnya dilakukan perhitungan matrix nilai Y, hasilnya dapat dilihat pada tabel
3.10.
Tabel 3.14 Tabel Matrix Perhitungan Nilai Y Testing
Lalu lakukan perhitungan dengan untuk nilai x dengan 3 . 2 dan untuk nilai y
dengan 3 . 3 sehingga " menghasilkan
# nilai x dan y untuk RT. Nilai RT yang
1, 1222
didapatkan adalah RT = . Selanjutnya lakukan perhitungan matrix RT
0
dengan nilai w yang didapatkan pada proses Testing sehingga didapatkan:
" #
1, 1222
w.RT = [1, 0628 − 0, 1666] ∗ = 1, 192806 > 0, 0555
0
Karena hasil perhitungan lebih tinggi dari bias kelas ’neg’, maka RT merupakan
kelas ’neg’.
3.4.4 New Rating
Hasil rating baru akan didapatkan dengan menggabungkan rating pada kolom
overall dengan hasil klasifikasi dari Sentiment Analysis. Agar hasil klasifikasi bisa
digabungkan, data dari kolom textSentiment akan digunakan untuk mendapatkan
nilai angka dari review. Pemetaan klasifikasi dan angka dapat di lihat pada tabel
3.15.
Tabel 3.15 Tabel Pemetaan Klasifikasi Teks dengan Nilai Angka
3-22
III. ANALISIS DAN PERANCANGAN SISTEM
Hal ini dilakukan agar pada data review bisa dilakukan perhitungan
matematika. Setelah mendapatkan nilai angka, data rating baru adalah rata-rata
dari data rating lama dengan data angka review, sehingga rumus untuk
mendapatkan nilai rating baru dapat di lihat di persamaan 3 . 6:
x+y
newRating = (3 . 6)
2
Sehingga untuk review no 1 pada tabel 3.16, nilai x adalah 4 dan nilai y
adalah 3. Contoh perhitungannya adalah:
newRating = x+y 4+3
2 = 2 = 3, 5
Dimana x adalah nilai rating dan y adalah nilai review. Contoh hasil perhitungan
rating baru bisa dilihat pada tabel 3.16.
3-23
III. ANALISIS DAN PERANCANGAN SISTEM
3-24
III. ANALISIS DAN PERANCANGAN SISTEM
User-5 4 3.5 2
Tabel 3.19 Matrix produk P-1 dan produk P-2 dengan overall
x y xy x2 y2
4 4 16 16 16
1 5 5 1 25
4 5 20 16 25
1 3 3 1 9
4 4 16 16 16
Total 14 21 60 50 91
Kemudian perhitungan korelasi produk P-1 dengan produk P-2 menggunakan data
pada tabel 3.18 dapat dilihat sebagai berikut:
Tabel 3.20 Matrix produk P-1 dan produk P-2 dengan newRating
x y xy x2 y2
3,5 3,5 12,25 12,25 12,25
1 5 5 1 25
4 5 20 16 25
1,5 2,5 3,75 2,25 6,25
4 3 12 16 9
Total 14 19 53 47,5 77,5
3-25
III. ANALISIS DAN PERANCANGAN SISTEM
3-26
DAFTAR REFERENSI
[3] Eka Angga Laksana, “Collaborative Filtering dan Aplikasinya”, Jurnal Ilmiah
Teknologi Informasi Terapan Volume 1 No 1, Bandung, Indonesia, December
2014.
[5] Tae-Yeun Kim, Sung Bum Pan, and Sung-Hwan Kim, “Sentiment Digitization
Modeling for Recommendation System”, Sustainability 12.12, Gwangju,
Korea, June 2020.
[6] Tanjim Ul Haque, Nudrat Nawal Saber, Faisal Muhammad Shah, “Sentiment
Analysis on Large Scale Amazon Product Reviews”, 2018 IEEE International
Conference on Innovative Research and Development (ICIRD), Dhaka,
Bangladesh, June 2019.
[7] Amel Ziani, Nabiha Azizi, Didier Schwab, Monther Aldwairi, Nassira Chekkai,
Djamel Zenakhra, Soraya Cheriguene, ”Recommender System Through
Sentiment Analysis”, 2nd International Conference on Automatic Control,
Telecommunications and Signals, Annava, Algeria, 2017.
vi
DAFTAR REFERENSI
[10] Alia Karim Abdul Hassan, Ahmed Bahaa aldeen abdulwahhab, “Reviews
Sentiment analysis for collaborative recommender system”, Kurdistan Journal
of Applied Research (KJAR) Volume 2 Issue 3, Baghdad, Iraq, August 2017.
vii