“Convert_text_list” adalah fungsi yang dibuat untuk mentokenisasi setiap kata agar dapat dihitung
nilai tf idf, sebagai contoh mengambil data dari index ke 3 “caranya untuk dapat bantuan ribet”
“calc_TF” adalah fungsi yang dibuat untuk menghitung term frekuensi seluruh kata dalam dokumen
dengan parameter dokumen
“calc_DF” dengan parameter tfdict berfungsi sebagai menghitung bobot seluruh dokumen pada data
Dan pada gambar diatas adlah hasil dari perhitungan idf
“calc_TF_IDF” adalah fungsi untuk menghitung seluruh bobot tfidf
Pada kolom rank menunjukkan bobot yang paling besar adalah kata yang sering keluar
Kombinasi DSTF-IDF
Dengan mentukan hot term maka keseluruhan bobot ini akan dihitung untuk mendapatkan nilai
standar deviasinya, dan nantinya berfungsi untuk menaikkan nilai idf , dan nilai standart deviasi pada
gambar dibawah
Perhatikan pada proses diatas , pada proses tersebut terdapat nilai standart deviasi yang
dikombinasikan kedalam tf idf maka hasilnya akan berdampak seperti gambar dibawah
Terlihat bahwa dengan menambahkan nilai standart deviasi bobot idf meningkat dan hasil dari
topterm juga berbeda
Dan kesimpulan selanjutnya dengan mengambil satu sampel untuk dilihat grafik hot term terhadap
time seperti dibawah ini
Dengan memanggil dataframe bobot dstfidf diambil sampel kata “bpjs” dan hasilnya sebagai berikut