Anda di halaman 1dari 19

Rumus

tf = berapa kali suatu kata muncul pada dokumen

df = berapa banyak dokumen yang mengandung kata i

idf = ln( n+1 / df(i)+1 ) + 1

tfidf = tf X idf

nilai normalisasi euclidea = √( tfidf-1^2 + tfidf-2^2 + …. + tfidf-m^2 )

tfidf akhir = tfidf / normalisasi ueclidean


Note :
i = kata ke-
n = banyak data/ baris m = banyak fitur/ kolom
ln = e log x, atau biasa disebut sebagai logaritma natural
dengan nilai e pada 'e log' adalah 2.718281828459045
sehingga misalkan nilai x adalah 10 maka,
ln 10 sama dengan 2.718281828459045 log 10
idf = untuk rumus idf umumnya rumus yang dipakai adalah -> ln( n / df(i) ) + 1
bisa juga dituliskan dengan :

tetapi untuk library sklearn tfidf rumus default yg dipakai adalah -> ln( n+1 / df(i)+1 ) + 1
bisa juga dituliskan dengan :

tfidf = dan untuk rumus tfidf umumnya hanya sampai tf X idf saja, tetapi pada library sklearn tfidf
terdapat normalisasi euclidean lagi yang dilakukan setelah mendapatkan nilai tfidf-nya,
sehingga setelah mendapatkan nilai tfidf akan dilakukan normalisasi euclidean pada
setiap nilai tfidf berdasarkan nilai normalisasi euclideannya

normalisasi euclidean
= nilai normalisasi euclidean dicari perbaris data, sehingga nilai normalisasi euclidean
tiap baris data akan berbeda(dapat dilihat di sheet euclidean_normalization).
untuk mencari nilai normalisasi euclidean yaitu dengan mem-pangkat dua-kan nilai tfidf
di setiap kolom pada baris yang sama lalu menjumlahkan semua hasil pemangkatan tersebut,
setelah didapatkan hasil penjumlahannya baru dicari akar dai nilai penjumlahan tersebut,
dan itulah nilai normalisasi euclidean pada baris tersebut
contoh :
nilai tfidf awal
a b c
1 1 0 2
2 0 0.5 3
3 1 2 0.5
pemangkatan dua setiap nilai tfidf
a b c
1 1 0 4
2 0 0.25 9
3 1 4 0.25
penjumlahan hasil pangkat dua nilai tfidf pada setiap baris
hasil penjumlahan
1 5
2 9.25
3 5.25
pengakaran hasil penjumlahan nilai tfidf pada setiap baris
hasil akar(nilai normalisasi euclidean)
1 2.236068
2 3.041381
3 2.291288

tfidf akhir = setelah didapatkan nilai normalisasi ueclidean pada setiap baris data, tinggal membagikan
ke nilai tfidf awal sesuai baris data nilai normalisasi euclidean tersebut
contoh :
nilai tfidf awal
a b c nilai normalisasi euclidean
1 1 0 2 2.236068
2 0 0.5 3 3.041381
3 1 2 0.5 2.291288
membagi nilai tfidf awal dengan nilai normalisasi euclidean
a b c
1 0.447214 0 0.894427
2 0 0.164399 0.986394
3 0.436436 0.872872 0.218218
sehingga didapatkanlah hasil akhir tfidf pada tabel di atas
+1 / df(i)+1 ) + 1

ibrary sklearn tfidf


n nilai tfidf-nya,
clidean pada

i euclidean

ua-kan nilai tfidf


mangkatan tersebut,
mlahan tersebut,
ggal membagikan
text class_label
sebar spora 1
nge dm kem 1
sifat iseng 1
indonesia 1
si booming 1
prasaan ka 0
bang gak n 0
yg arab kir 0
semarang d 0
bosen cok 0
abang arab baliho bang banget beranda booming bosen buku byasak cok daddy dimana2 dm
0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 1 0 0 0 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 2 0 1 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0 0 0
0 0 0 1 0 0 0 0 0 0 0 1 0 0
0 1 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 1 0
0 0 1 0 0 0 0 1 0 0 1 0 0 0
df
1 1 1 1 1 1 1 1 1 1 1 1 1 1
idf
2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748
elu folloe gak gegara ghozali gojali hasil indonesia iseng kaga kemarin keren kirain knp
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 1 0 0 0
0 0 0 0 0 0 1 0 1 0 0 0 0 0
0 0 0 0 0 0 0 1 0 0 0 1 0 0
0 0 0 0 1 0 0 0 0 0 0 1 0 0
1 1 0 0 0 0 0 0 0 1 0 0 0 1
0 0 1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 1 0
0 0 0 1 0 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0

1 1 1 1 1 2 1 1 1 1 1 2 1 1

2.704748 2.704748 2.704748 2.704748 2.704748 2.299283 2.704748 2.704748 2.704748 2.704748 2.704748 2.299283 2.704748 2.704748
komuk konsistenkonsistensi mben metu mulu ndelok nge niat njenggg nonggol nyepam prasaan rai
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 1 0 0 0 0 0 0
0 1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 1 1 0 1 0
0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 0 0 1 0 0
0 0 0 1 1 0 1 0 0 0 0 0 0 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1

2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748
sebar semarang si sifat sporadis sugar tp tular udinus war yasin yg
1 0 0 0 1 0 0 1 0 0 0 0
0 0 0 0 0 0 0 0 0 1 0 0
0 0 0 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 1 1
0 1 0 0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0

1 1 1 1 1 1 1 1 1 1 1 1

2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748 2.704748
abang arab baliho bang banget beranda booming bosen buku byasak cok daddy dimana2 dm
0 0 0 0 0 0 0 0 0 0 0 0 0 0
2.704748 0 0 0 0 0 0 0 0 2.704748 0 0 0 2.704748
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 5.409496 0 2.704748 0 0 0 0 0 0 0
0 0 0 0 0 2.704748 0 0 0 0 0 0 0 0
0 0 0 2.704748 0 0 0 0 0 0 0 2.704748 0 0
0 2.704748 0 0 0 0 0 0 2.704748 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 2.704748 0
0 0 2.704748 0 0 0 0 2.704748 0 0 2.704748 0 0 0
elu folloe gak gegara ghozali gojali hasil indonesia iseng kaga kemarin keren kirain knp
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 2.299283 0 0 0 0 2.704748 0 0 0
0 0 0 0 0 0 2.704748 0 2.704748 0 0 0 0 0
0 0 0 0 0 0 0 2.704748 0 0 0 2.299283 0 0
0 0 0 0 2.704748 0 0 0 0 0 0 2.299283 0 0
2.704748 2.704748 0 0 0 0 0 0 0 2.704748 0 0 0 2.704748
0 0 2.704748 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 2.704748 0
0 0 0 2.704748 0 2.299283 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
komuk konsistenkonsistensi mben metu mulu ndelok nge niat njenggg nonggol nyepam prasaan rai
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 2.704748 0 0 0 0 0 0
0 2.704748 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 2.704748 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 2.704748 0 0 0 2.704748 2.704748 0 2.704748 0
0 0 0 0 0 0 0 0 2.704748 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
2.704748 0 0 0 0 0 0 0 0 0 0 2.704748 0 0
0 0 0 2.704748 2.704748 0 2.704748 0 0 0 0 0 0 2.704748
sebar semarang si sifat sporadis sugar tp tular udinus war yasin yg
2.704748 0 0 0 2.704748 0 0 2.704748 0 0 0 0
0 0 0 0 0 0 0 0 0 2.704748 0 0
0 0 0 2.704748 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 2.704748 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 2.704748 0 0 0 0 0
0 0 0 0 0 2.704748 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 2.704748 2.704748
0 2.704748 0 0 0 0 0 0 2.704748 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
penyebut_euclidean_norm
4.684761
7.012894
5.409496
3.549981
7.988241
8.553164
6.048001
6.048001
7.012894
7.156091
abang arab baliho bang banget beranda booming bosen buku byasak cok daddy dimana2 dm
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0.385682 0 0 0 0 0 0 0 0 0.385682 0 0 0 0.385682
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0.677182 0 0.338591 0 0 0 0 0 0 0
0 0 0 0 0 0.316228 0 0 0 0 0 0 0 0
0 0 0 0.447214 0 0 0 0 0 0 0 0.447214 0 0
0 0.447214 0 0 0 0 0 0 0.447214 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0.385682 0
0 0 0.377964 0 0 0 0 0.377964 0 0 0.377964 0 0 0
elu folloe gak gegara ghozali gojali hasil indonesia iseng kaga kemarin keren kirain knp
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0.327865 0 0 0 0 0.385682 0 0 0
0 0 0 0 0 0 0.5 0 0.5 0 0 0 0 0
0 0 0 0 0 0 0 0.761905 0 0 0 0.647689 0 0
0 0 0 0 0.338591 0 0 0 0 0 0 0.287833 0 0
0.316228 0.316228 0 0 0 0 0 0 0 0.316228 0 0 0 0.316228
0 0 0.447214 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0.447214 0
0 0 0 0.385682 0 0.327865 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
komuk konsistenkonsistensi mben metu mulu ndelok nge niat njenggg nonggol nyepam prasaan rai
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0.385682 0 0 0 0 0 0
0 0.5 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0.338591 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0.316228 0 0 0 0.316228 0.316228 0 0.316228 0
0 0 0 0 0 0 0 0 0.447214 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0.385682 0 0 0 0 0 0 0 0 0 0 0.385682 0 0
0 0 0 0.377964 0.377964 0 0.377964 0 0 0 0 0 0 0.377964
sebar semarang si sifat sporadis sugar tp tular udinus war yasin yg
0.57735 0 0 0 0.57735 0 0 0.57735 0 0 0 0
0 0 0 0 0 0 0 0 0 0.385682 0 0
0 0 0 0.5 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0.338591 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0.316228 0 0 0 0 0
0 0 0 0 0 0.447214 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0.447214 0.447214
0 0.385682 0 0 0 0 0 0 0.385682 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0

Anda mungkin juga menyukai