FAKULTAS TEKNIK
PROGRAM STUDI TEKNIK INFORMATIKA
Gedung Q Ruang 307 Jl Semolowaru No 45 Surabaya 60118
Telp. (031) 5931800 ext. 124 informatika@untag-sby.ac.id
I. PETUNJUK
1. Tuliskan jawaban dalam format dokumen A4 dan dalam bentuk pdf
2. Kumpulkan di siakad dan di elitag
3. Tidak ada toleransi keterlambatan
II. SOAL
1. Buat kumpulan dokumen yang terdiri dari 5 atau 6 dokumen dan masing – masing memiliki 5 sampai 6 kata,
kemudian tuliskan inverted index yang mungkin dimunculkan dari kumpulan dokumen tersebut.
2. Tuliskan algoritma untuk membuat inverted index dari kumpulan dokumen dan menghitung tf.idf dari kumpulan
dokumen tersebut.
3. Gunakan file movies.txt, kemudian buat program dalam bahasa python untuk membaca isinya, melakukan
tokenisasi dan menghitung Zip’f Law dari dokumen tersebut.
4. Dari dokumen pada soal nomor 1, berikan contoh penghitungan similarity menggunakan cosine similarity.
5. Diberikan beberapa dokumen sebagai berikut:
D1 : Shipment of gold damaged in a fire
D2 : Delivery of silver arrived in a silver truck
D3 : Shipment of gold arrived in a truck
Tanda Tangan
1
2