NORFAZILAH - 60200119018 - A - Aplikasi IR

Tugas Besar
SISTEM TEMU KEMBALI INFORMASI

(Aplikasi “Text Summarization” )
Oleh :
Nama : NORFAZILAH
Nim 60200119018
Kelas :A
JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI ALAUDDIN
MAKASSAR
2022
Information Retrieval :
Information Retrieval (IR) atau sering disebut “temu kembali infromasi”
adalah ilmu yang mempelajari prosedur-prosedur dan metode-metode untuk
menemukan kembali informasi yang tersimpan dari berbagai sumber (resources)
yang relevan atau koleksi sumber informasi yang dicari atau dibutuhkan. Dengan
tindakan index (indexing), panggilan (searching), pemanggilan data kembali
(recalling).
Pembahasan
Pada aplikasi IR ini menggunakan sistem Summarization atau ringkasan
dengan metode Tokenization memakai rumus TF-IDF.
• Summarization
Salah satu cara untuk peringkasan yang sudah diterapkan adalah
Peringkasan Teks Otomatis (Automated Text Summarization), Tujuannya
untuk mengambil sumber infomasi dengan mengutip sebagian besar isi yang
penting dan menampilkan kepada pembaca dalam bentuk ringkas sesuai
dengan kebutuhan pembaca. Dengan demikian teknologi ini dapat
membantu pembaca untuk menyerap informasi yang terdapat dalam teks
melalui ringkasan tanpa membaca keseluruhan dokumen.
• TF-IDF
Basis pertama yang digunakan adalah Term Frequency Inverse
Document Frequency (TF-IDF). Basis pembobotan TF-IDF adalah jenis
pembobotan yang sering digunakan dalam IR dan text mining. Pembobotan
ini adalah suatu pengukuran statistik untuk mengukur seberapa penting
sebuah kata dalam kumpulan dokumen. TF-IDF adalah metode untuk
menghitung bobot setiap kata yang paling umum digunakan pada
information retrieval.
TF-IDF dapat dirumuskan sebagai berikut,
Dimana sebelumnya dihitung terlebih dahulu Term Frequency (TF)

yaitu frekuens kemunculan suatu term di tiap dokumen. Kemudian dihitung
Inverse Document Frequency (IDF) yaitu nilai bobot suatu term dihitung
dari seringnya suatu term muncul di beberapa dokumen. Semakin sering
suatu term muncul di banyak dokumen, maka nilai IDF nya akan kecil.
Jadi prosesnya melalui text processing yaitu dilakukan Tokenization
lalu perhitungan TF-IDF sehingga membuahkan hasil dari dokumen. Dan
hasil rangkuman.
➢ Tokenisasi (Tokenizations)
Aplikasi IR ini menggunakan metode Tokenization yaitu untuk
menghitung jumlah kata perdokumen dengan memisahkan kata-kata
tersebut. Merupakan proses pemotongan kalimat menjadi kata-kata.
Pemotongan kalimat berdasarkan delimiter yang menyusunnya, yaitu spasi
(” ”).
Tokenization adalah proses memisahkan deretan kata di dalam kalimat,
paragraf atau halaman menjadi token atau potongan kata tunggal atau
termmed word yang berdiri sendiri. Di dalam tokenizing karakter dan
symbol selain a-z dihilangkan, pemecahan kalimat dan kata dilakukan
berdasarkan pada spasi di dalam kalimat tersebut. Tahapan ini juga
menghilangkan karakter-karakter tertentu seperti tanda baca dan mengubah
semua token ke bentuk huruf kecil (lower case).
Contoh proses tokenizing
Input: Sinyal adalah besaran fisis yang berubah menurut waktu, ruang, atau
variabel-variabel bebas lainnya.
Output: sinyal adalah besaran fisis yang berubah menurut waktu ruang atau
variabel variabel bebas lainnya
Implementasi Sistem :
- Tampilan Awal Aplikasi
Tampilan menunjukkan untuk memilih jumlah kalimat untuk yang ingin
dirangkum, misal 2 kalimat. Lalu ada Dokumen untuk memasukkan teks
yang akan dilakukan preprocessing.
- Pembahasan dan Hasil
Setelah disubmit ini terdapat beberapa bagian dari hasilnya yaitu statistik
dokumen, kalimat, tokenisasi kata, hasil akhir, dan rangkuman.
Pada bagian statistik dokumen dan kalimat diatas, disini menunjukkan jumlah
kalimat dari dokumen yang dimasukkan yaitu 4, dan jumlah kata yaitu 43 kata, dan
akan dirangkum menjadi 2 kalimat sesuai pilihan sebelumnya. Lalu juga
menghasilkan nilai alfa yaitu 0,6 dan nilai beta yaitu 0,4.
Serta ada bagian Kalimat yang membagi kalimat-kalimat sesuai dokumen yang
dimasukkan.
Pada proses tokenisasi diatas, aplikasi ini dapat membagi semua kalimat pada
dokumen menjadi perkata-kata untuk dihitung berapa kata setiap kalimat, sehingga
didapatkan hasil tokenisasinya. Sigma TF adalah hasil dari semua jumlah kata dari
kalimat. Lalu melakukan proses perhitungan dengan menggunakan rumus TF-IDF.
Terakhir yaitu hasil dari proses dan perhitungan diatas, hasil ini menunjukkan pada
setiap kalimat dari kata yang berbeda memiliki sigma yang berbeda. Dan bagian
rangkuman menunjukkan hasil rangkuman dari proses summarization yaitu
merangkum dari 4 kalimat menjadi 2 kalimat.

NORFAZILAH - 60200119018 - A - Aplikasi IR

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

NORFAZILAH - 60200119018 - A - Aplikasi IR

Diunggah oleh

Hak Cipta:

Format Tersedia

Tugas Besar

SISTEM TEMU KEMBALI INFORMASI

JURUSAN TEKNIK INFORMATIKA

Dimana sebelumnya dihitung terlebih dahulu Term Frequency (TF)

Anda mungkin juga menyukai