kamus yang digunakan untuk normalisasi yang awalnya baru 3k-an baris menjadi 18k-an baris setelah ditambah kan kamus yang ditemukan rendhy
2. lalu menambah list kata untuk stopword seperti
musik, indihome, sobat, halo, iya, banget dll (yg tidak relevan dengan wifi indihome) karena saat percobaan sebelumnya diperoleh kata-kata yg tidak relevan yang malah menjadi top 20 most frequency words
3. membandingkan file hasil drop duplicate (sebelum
tokenize) dengan file hasil tokenize, normalisasi dan stopword dan stemming. dari hasil membandingkan tersebut terdapat 100-an row yang menjadi kosong. langkah yg dilakukan tidak langsung drop row, melainkan lihat dulu substansi per rows yg menjadi kosong tsb. seperti yg di file sebelumnya: "indihome kamu kenapa sih masalah terus" malah jadi kosong. untuk mensiasati tersebut isi baris yg kosong dengan kata yg penting, misal "masalah terus" 6563/6564
4. Melihat frekuensi term yg sering banyak muncul
jadi mengalami perubahan (lebih baik)
5. Pelabelan kamus lexicon
sebelumnya juga terdapat masalah dalam pelabelan karena kamus yg tersedia menghasilkan kata 'lambat'--> positif yg seharusnya negatif 'keren'--> negatif yg seharusnya positif 'komplain'
setelah diubah proporsinya ada sedikit mengalami perubahan
dimana sebelumnya positif : 60%--> jadi berkurang
6. Klasifikasi: ->SVM % akurasinya tetap tapii menurut saya modelnya telah lebih bagus dibandingkan sebelumnya karena sudah merepresentasikan wifi indohome bisa dilihat pada visualisasi kelas kata sentimennya