Bab Ii
Bab Ii
LANDASAN TEORI
2.1 Proses Pemerolehan Informasi
Proses pemerolehan informasi adalah proses pencarian material (bisa berupa
dokumen ataupun kata) yang bertujuan untuk memenuho kebutuhan informasi
dari suatu kumpulan dokumen yang besar. Proses ini biasanya berhubungan
dengan dengan representasi, media penyimpanan, pengaksesan, dan
pengorganisasian sesuatu yang memiliki informasi [1].
Proses pemerolehan informasi digunakan untuk mengurangi terlalu besarnya
jumlah informasi sehingga pada proses pencarian informasi akan menjadi lebih
efektif dan memberikan hasil pencarian dokumen yang relevan dengan query.
Query merupakan kata kunci yang diberikan oleh pengguna kepada sistem sebagai
acuan untuk mendapatkan informasi yang relevan terhadap kebutuhan query.
Query yang dimasukkan ke dalam sistem akan diolah menggunakan metode yang
diterapkan ke dalam sistem pemerolehan informasi untuk kemudian ditampilkan
berdasarkan urutan nilai relevansi yang paling tinggi. Untuk lebih mempermudah
proses pemerolehan informasi maka data bisa diklasifikasikan [2].
II-7
II-8
TF=0.5+0.5 X
[ '
ft , d
'
max {f t , d :t , d ∈d } ]
c. Inverse Document Frequency (IDF). Pendekatan IDF mirip dengan TF,
yakni menghitung frekuensi kemunculan suatu term. Namun, jika TF
menghitung kemunculan suatu term hanya di satu dokumen teks, maka
IDF menghitung kemunculan suatu term di keseluruhan korpus
dokumen.
II-10
Metode ini mengkategorikan sebuah sampel data tetangga terdekat pada data
training. Semakin mirip suatu dokumen maka semakin tinggi peluang untuk
dikelompokkan kedalam satu dokumen. Sebaliknya, apabila dokumen semakin
tidak mirip maka peluang untuk dikelompokkan ke dalam satu dokumen semakin
rendah. Dalam pengukuran kemiripan ini biasanya menggunaka Cosine
Similiarity, kovarian dan kolerasi[6].
Cosine similiarity adalah metode yang digunakan untuk mencari kemiripan
antara vector dokumen dengan vector query. Semakin mirip vector dokumen
dengan vector query maka dokumen semakin sesuai dengan query[5]. Rumus
untuk perhitungan cosine similiarity antara dua vector adalah sebagai berikut:
t
∑ ( Wik .Wjk )
k=1
CosSim ( Di , Dj )=
√∑
t t
2 2
Wik . ∑ Wjk
k=1 k=1
Dimana :
2.5 Python
Python merupakan bahasa pemrograman yang interpretative, interactive,
object-oriented, dan bisa digunakan pada semua platform. Python juga salah satu
bahasa pemrograman yang mudah digunakan dengan menggabungkan kapabilitas,
kemampuan dan sintaksis kode yang sangat jelas[7]. Bahasa pemrograman
Python termasuk dinamis karena adanya fitur manajemen memori yang otomatis
[8].
sebuah data baru yang belum pernah muncul pada sebuah dataset. Data yang
digunakan biasanya disebut dengan data training Salah satu metode yang paling
popular yaitu k-fold cross validation, dimana metode ini digunakan untuk
melakukan pengujian data, dimana data akan dilipat sebanyak k dan mengulangi
atau melakukan iterasi sebanyak k[9] .