Anda di halaman 1dari 1

->progress yang sudah dikerjakan:

1. preprocessing memperbaiki dan mengkompilasi


kamus yang digunakan untuk normalisasi yang awalnya
baru 3k-an baris menjadi 18k-an baris setelah ditambah
kan kamus yang ditemukan rendhy

2. lalu menambah list kata untuk stopword seperti


musik, indihome, sobat, halo, iya, banget dll
(yg tidak relevan dengan wifi indihome)
karena saat percobaan sebelumnya diperoleh
kata-kata yg tidak relevan yang malah menjadi top 20
most frequency words

3. membandingkan file hasil drop duplicate (sebelum


tokenize) dengan file hasil tokenize, normalisasi dan
stopword dan stemming.
dari hasil membandingkan tersebut terdapat 100-an
row yang menjadi kosong. langkah yg dilakukan tidak langsung
drop row, melainkan lihat dulu substansi per rows
yg menjadi kosong tsb.
seperti yg di file sebelumnya:
"indihome kamu kenapa sih masalah terus"
malah jadi kosong. untuk mensiasati tersebut
isi baris yg kosong dengan kata yg penting,
misal "masalah terus"
6563/6564

4. Melihat frekuensi term yg sering banyak muncul


jadi mengalami perubahan (lebih baik)

5. Pelabelan kamus lexicon


sebelumnya juga terdapat masalah dalam pelabelan
karena kamus yg tersedia menghasilkan kata
'lambat'--> positif yg seharusnya negatif
'keren'--> negatif yg seharusnya positif
'komplain'

setelah diubah proporsinya ada sedikit mengalami perubahan


dimana sebelumnya positif : 60%--> jadi berkurang

6. Klasifikasi:
->SVM % akurasinya tetap tapii menurut saya
modelnya telah lebih bagus dibandingkan sebelumnya
karena sudah merepresentasikan wifi indohome
bisa dilihat pada visualisasi kelas kata sentimennya

Anda mungkin juga menyukai