Anda di halaman 1dari 7

Import library

1. Numpy = berfungsi menjadikan data sebagai matrix


2. Pandas = library untuk memanipulasi kedalam dataframe
3. Pylab dikombinasikan dengan seaborn untuk memvisualisasikan hot term time
4. df sebagai pemanggilan data yang akan diolah
5. ast = library default dari python berfungsi untuk mengolah data string agar string dapat di
tokenisasi

“Convert_text_list” adalah fungsi yang dibuat untuk mentokenisasi setiap kata agar dapat dihitung
nilai tf idf, sebagai contoh mengambil data dari index ke 3 “caranya untuk dapat bantuan ribet”
“calc_TF” adalah fungsi yang dibuat untuk menghitung term frekuensi seluruh kata dalam dokumen
dengan parameter dokumen

“calc_DF” dengan parameter tfdict berfungsi sebagai menghitung bobot seluruh dokumen pada data
Dan pada gambar diatas adlah hasil dari perhitungan idf
“calc_TF_IDF” adalah fungsi untuk menghitung seluruh bobot tfidf

Dan gambar diatas menunjukkan total hasil tf idf

Gambar diatas adalah hasil hot top-term dari tf idf

Pada kolom rank menunjukkan bobot yang paling besar adalah kata yang sering keluar
Kombinasi DSTF-IDF

Dengan mentukan hot term maka keseluruhan bobot ini akan dihitung untuk mendapatkan nilai
standar deviasinya, dan nantinya berfungsi untuk menaikkan nilai idf , dan nilai standart deviasi pada
gambar dibawah

Nilai standart deviasinya adalah 0,06480356329320888


Proses selanjutnya adalah dengan menambahkan hasil dari nilai standart deviasi kedalam proses tf
idf sepeti gambar dibawah

Perhatikan pada proses diatas , pada proses tersebut terdapat nilai standart deviasi yang
dikombinasikan kedalam tf idf maka hasilnya akan berdampak seperti gambar dibawah

Terlihat bahwa dengan menambahkan nilai standart deviasi bobot idf meningkat dan hasil dari
topterm juga berbeda
Dan kesimpulan selanjutnya dengan mengambil satu sampel untuk dilihat grafik hot term terhadap
time seperti dibawah ini

Dengan memanggil dataframe bobot dstfidf diambil sampel kata “bpjs” dan hasilnya sebagai berikut

Anda mungkin juga menyukai