net/publication/276416878
CITATIONS READS
0 4,361
2 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Abdul Azis Abdillah on 18 May 2015.
ABSTRAK
Memiliki banyak dokumen terkadang sangat merepotkan, terutama disaat ingin mencari dokumen yang
dibutuhkan secara cepat dan tepat. Salah satu cara untuk mencari dokumen dari tumpukan dokumen adalah
dengan me-ranking. Ranking merupakan salah satu cabang ilmu dari information retrieval. Information
retrieval yaitu menemukan materi (biasanya dokumen) dari sebuah kumpulan data yang tidak terstruktur
(biasanya teks) untuk memenuhi kebutuhan informasi dari koleksi yang besar (Manning dkk, 2008). salah
satu metode pencarian dokumen adalah dengan menggunakan Vector Space Model (VSM). VSM menggunakan
konsep yang terdapat pada aljabar linear yaitu ruang vektor. Berdasarkan konsep yang digunakan tersebut,
dikembangkan pemodelan dokumen untuk melakukan pencarian terhadap dokumen yang dibutuhkan.
Representasi vektor kolom dimanfaatkan dalam pengkonversian dokumen input. Konsep lain yang digunakan
adalah dengan mengetahui kedekatan antara dua buah vektor, yaitu dengan cara menghitung besarnya sudut
yang terbentuk antara dua vektor dan kemudian diurutkan dari data yang memiliki besar sudut yang terkecil
hingga yang terbesar yang menandakan urutan data hasil ranking dari yang paling relevan hingga tidak
relevan. Pada paper ini dijelaskan tentang pencarian dokumen dengan menggunakan VSM dan
implementasinya pada 50 judul buku yang terdapat pada database perpustakaan STKIP Surya.
ABSTRACT
we have many documents are sometime very inconvenient, especially when we want to search for document
that we need quickly and accurately. One way to search for document from the pile of documents is with
ranking. Ranking is one of science in information retrieval. Information retrieval is finding material (especially
documents) from unstructured dataset (especially text) to fulfill information needs from large collection
(Manning et al, 2008). Vector Space Model (VSM) is one of method to search document that uses ranking. VSM
uses vector space concept in linear algebra. Based on the concepts used, developed modeling documents to
conduct a search of the necessary documents. Column vector representation used in the conversion of input
document. Another concept that is used to determine the proximity between two vectors, by calculating the
angle formed between the two vectors and then sorted from the data that has a large measure of angle the
smallest to the largest. That point indicates the results of ranking from relevant document to irrelevant
document. This paper described vector space model implementation in finding document using 50 books from
STKIP Surya library database.
pada Google dan Yahoo! yang sudah sangat 2. Vector Space Model
familiar di masyarakat.
Vector Space Model (VSM)
salah satu metode untuk me-ranking mempresentasikan setiap dokumen yang terdapat
dokumen adalah dengan menggunakan Vector dalam database dan query ke dalam vektor
Space Model (VSM). VSM menggunakan konsep multidimensi. Dimensi dari vektor
yang terdapat pada aljabar linear yaitu ruang berkorespondensi dengan jumlah setiap term
vektor. Berdasarkan konsep yang digunakan dalam database dan kumpulan term tersebut
tersebut, dikembangkan pemodelan dokumen membentuk suatu ruang vektor.
untuk melakukan pencarian terhadap dokumen
Pada VSM setiap term, , di dalam
yang dibutuhkan. Representasi vektor kolom
dokumen maupun query, , diberikan suatu bobot
dimanfaatkan dalam pengkonversian dokumen
(weight) yang bernilai real . Dokumen dan
input. Konsep lain yang digunakan adalah dengan
mengetahui kedekatan antara dua buah vektor, query diekspresikan sebagai vektor -dimensi
dengan cara menghitung besarnya sudut yang =( , ,…, ) dan diasumsikan terdapat
terbentuk antara dua vektor dan kemudian dokumen di dalam database, yaitu = 1,2, … , .
diurutkan dari data yang memiliki besar sudut Contoh dari VSM dengan tiga dimensi untuk dua
yang terkecil hingga yang terbesar yang dokumen dan , satu query , dan tiga term
menandakan urutan data hasil ranking dari yang , , dan dapat dilihat pada gambar 2.
paling relevan hingga yang tidak relevan. Pada
paper ini akan dibahas implementasi Vector Space
Model untuk pencarian dokumen.
Sumber : C.J. van Rijsbergen, 1979 Selain itu pada VSM, database dari semua
dokumen direpresentasikan oleh matriks term-
Gambar 1. Diagram alur Information Retrieval document (atau matriks term-frequency). Dimana
setiap sel pada matriks berkorespondensi dengan
bobot yang diberikan dari suatu term dalam
LANDASAN TEORI dokumen yang ditentukan. Nilai nol berarti bahwa
term tidak terdapat dalam dokumen.
1. Information Retrieval
Inverse Document Frequency (IDF). IDF
Information Retrieval (IR) adalah
didefinisikan sebagai
menemukan materi (biasanya dokumen) dari
sebuah kumpulan data yang tidak terstruktur = log ( )
(biasanya teks) untuk memenuhi kebutuhan
informasi dari koleksi yang besar (Manning dkk, dimana merupakan frekuensi dokumen dari
2008). Tujuan IR adalah untuk memenuhi term atau sama dengan jumlah dokumen yang
kebutuhan informasi pengguna dengan me- mengandung term dan adalah total dokumen di
retrieve semua dokumen yang relevan, dan pada dalam database. Log digunakan untuk
waktu yang sama me-retrieve sesedikit dokumen memperkecil pengaruh relative untuk .
yang tak relevan. Secara umum diagram alur
information retrieval dapat dilihat pada gambar 1. Bobot dihitung menggunakan ukuran
tf-idf (term frequency-inversed document
frequency) didefinisikan sebagai
= ×
3. Similarity 2. Software
Salah satu ukuran kemiripan teks yang Software yang digunakan adalah macro
popular digunakan pada VSM untuk pencarian VBA yang terdapat pada Microsoft Excel dan OS
dokumen adalah cosine similarity (Krzysztof J. Windows Vista Ultimate.
Cios, dkk. 2007). Konsep dari cosine similarity
yaitu menghitung nilai cosinus sudut antara dua 3. Hardware
vektor yaitu jika diberikan dokumen yang
Spesifikasi hardware yang digunakan
dipresentasikan oleh vektor dan query , dan
pada eksperimen ini adalah Processor Intel
term yang diekstrak dari database, maka nilai Pentium(R) Dual-Core T4200 @ 2.0GHz 1.20 GHz,
cosine similarity didefinisikan sebagai RAM 3.5 GB.
⋅
, = 4. Implementasi
⋅| |
Pada implementasi ini ditampilkan 10
atau dapat ditulis sebagai
dokumen teratas berdasarkan hasil pencarian
∑ ⋅ dokumen dengan 10 query berbeda. Untuk setiap
, = query dilakukan pencarian dokumen dengan VSM
∑ ⋅∑ tanpa pembobotan tf-idf dan VSM tf-idf dan
kemudian dibandingkan hasil pencariannya. Tabel
dimana representasi grafis sudut antara dokumen 1 menunjukkan daftar query yang digunakan pada
dan query dapat dilihat pada gambar 3. percobaan.
Tabel 2. Hasil Pencarian Dokumen Menggunakan pada urutan ke tiga. Dokumen teratas yang
Query “indonesia” ditampilkan memiliki panjang dokumen yang
VSM VSM tf-idf lebih pendek jika dibandingkan dengan dokumen
Rank Doc. Doc. yang lain hasil perangkingan.
Sim Sim
Id id
1 D2 0.707107 D2 0.209113 Tabel 4. Hasil Pencarian Dokumen Menggunakan
2 D3 0.707107 D3 0.209113 Query “teknik teknologi”
3 D4 0.57735 D5 0.180553 VSM VSM tf-idf
4 D5 0.57735 D19 0.163052 Rank Doc. Doc.
Sim Sim
5 D6 0.57735 D45 0.153284 Id id
6 D7 0.57735 D49 0.150458 1 D46 0.5 D34 0.390351
7 D8 0.5 D4 0.149508 2 D34 0.408248 D49 0.338462
8 D9 0.5 D6 0.149508 3 D44 0.408248 D9 0.305483
9 D11 0.5 D7 0.149508 4 D50 0.408248 D46 0.24154
10 D19 0.5 D9 0.136205 5 D23 0.377964 D23 0.222077
6 D9 0.353553 D50 0.201658
Tabel 3. Hasil Pencarian Dokumen Menggunakan 7 D45 0.353553 D45 0.190325
Query “Filsafat” 8 D47 0.316228 D44 0.178207
VSM VSM tf-idf 9 D43 0.288675 D47 0.15852
Rank Doc. Doc. 10 D49 0.288675 D43 0.145957
Sim Sim
Id id
1 D24 0.866025 D24 0.515841 Tabel 5. Hasil Pencarian Dokumen Menggunakan
2 D25 0.755929 D25 0.466161 Query “teknik internet”
3 D26 0.707107 D26 0.328367 VSM VSM tf-idf
4 D27 0.57735 D27 0.296367 Rank Doc. Doc.
Sim Sim
5 D28 0.57735 D28 0.271456 Id id
6 D29 0.5 D49 0.245171 1 D31 0.707107 D31 0.597577
7 D30 0.447214 D29 0.236578 2 D32 0.5 D46 0.323639
8 D49 0.408248 D30 0.195586 3 D46 0.5 D50 0.270202
9 D48 0.353553 D48 0.147371 4 D33 0.408248 D45 0.255017
10 D1 0 D1 0 5 D34 0.408248 D44 0.23878
6 D35 0.408248 D47 0.212401
Tabel 4 menunjukkan hasil pencarian 10 7 D44 0.408248 D43 0.195568
dokumen teratas menggunakan query “teknik 8 D50 0.408248 D32 0.186651
teknologi”. Sedangkan tabel 5 menunjukkan hasil 9 D36 0.353553 D34 0.158988
pencarian 10 dokumen teratas menggunakan 10 D37 0.353553 D48 0.150125
query “teknik internet”. Pada VSM dokumen
pertama yang muncul adalah “matematika teknik” Berdasarkan tabel 6, tabel 7, dan tabel 8
dimana “matematika teknik” merupakan dokumen jika dipilih suatu query yang dimana query
dengan panjang terpendek jika dibandingkan tersebut tepat ada pada database maka dokumen
dengan dokumen yang lain hasil perangkingan. tersebut akan memiliki nilai similarity satu dan
Sedangkan pada VSM tf-idf dokumen pertama akan ditempatkan pada posisi teratas pada setiap
yang dimunculkan jika menggunakan query pencarian dokumen.
“teknik teknologi” adalah “teknologi warung
internet”, “matematika teknik” berada pada
urutan ke empat.
Pada VSM dan VSM tf-idf sama-sama
menampilkan dokumen “internet” pada urutan
pertama saat diinput query “teknik internet”, pada
pada VSM dokumen “internet sehat” berada pada
urutan ke dua dan “matematika teknik” berada
pada urutan ke tiga. Sedangkan VSM tf-idf
dilanjutkan dengan dokumen “matematika teknik”
pada urutan ke dua dan “teknik dasar autocad”
Tabel 6. Hasil Pencarian Dokumen Menggunakan Tabel 9. Hasil Pencarian Dokumen Menggunakan
Query “internet” Query “nasionalisme indonesia”
VSM VSM tf-idf VSM VSM tf-idf
Rank Doc. Doc. Rank Doc. Doc.
Sim Sim Sim Sim
Id id Id id
1 D31 1 D31 1 1 D2 0.5 D17 0.257088
2 D32 0.707107 D32 0.312346 2 D3 0.5 D2 0.052545
3 D33 0.57735 D34 0.266054 3 D4 0.408248 D3 0.052545
4 D34 0.57735 D33 0.245987 4 D5 0.408248 D5 0.045369
5 D35 0.57735 D35 0.245987 5 D6 0.408248 D19 0.040971
6 D36 0.5 D38 0.216527 6 D7 0.408248 D45 0.038517
7 D37 0.5 D39 0.215398 7 D17 0.377964 D49 0.037807
8 D38 0.5 D40 0.196965 8 D8 0.353553 D4 0.037568
9 D39 0.5 D36 0.1865 9 D9 0.353553 D6 0.037568
10 D40 0.5 D37 0.1865 10 D11 0.353553 D7 0.037568
Tabel 7. Hasil Pencarian Dokumen Menggunakan Tabel 10. Hasil Pencarian Dokumen Menggunakan
Query “matematika teknik” Query “indonesia mengajar”
VSM VSM tf-idf VSM VSM tf-idf
Rank Doc. Doc. Rank Doc. Doc.
Sim Sim Sim Sim
Id id Id id
1 D46 1 D46 1 1 D2 0.5 D1 0.318409
2 D44 0.408248 D50 0.159105 2 D3 0.5 D2 0.052545
3 D50 0.408248 D45 0.150163 3 D1 0.471405 D3 0.052545
4 D45 0.353553 D44 0.140602 4 D4 0.408248 D5 0.045369
5 D47 0.316228 D47 0.12507 5 D5 0.408248 D19 0.040971
6 D43 0.288675 D43 0.115157 6 D6 0.408248 D45 0.038517
7 D48 0.25 D48 0.088399 7 D7 0.408248 D49 0.037807
8 D23 0.188982 D23 0.062545 8 D8 0.353553 D4 0.037568
9 D1 0 D1 0 9 D9 0.353553 D6 0.037568
10 D2 0 D2 0 10 D11 0.353553 D7 0.037568
Tabel 11. Hasil Pencarian Dokumen Menggunakan 2. Hasil pencarian dokumen menggunakan VSM
Query “teknologi Indonesia” tanpa pembobotan tf-idf bergantung kepada
VSM VSM tf-idf panjang dokumen. Semakin pendek suatu
Rank Doc. Doc. dokumen yang relevan maka akan
Sim Sim ditampilkan pada urutan teratas.
Id id
1 D9 0.707107 D34 0.458116 3. Secara umum pencarian dokumen
2 D49 0.57735 D49 0.449881 mengunakan VSM tf-idf lebih relevan jika
3 D2 0.5 D9 0.405945 dibandingkan dengan menggunakan VSM
4 D3 0.5 D23 0.167092 tanpa pembobotan tf-idf.
5 D4 0.408248 D2 0.071184
6 D5 0.408248 D3 0.071184
7 D6 0.408248 D5 0.061462 REFERENSI
8 D7 0.408248 D19 0.055505
9 D34 0.408248 D45 0.05218 [1] Cios, Krzysztof J., dkk. (2007). Data Mining a
10 D8 0.353553 D4 0.050894 Knowledge Discovery Approach. Springer.
[2] Manning, Christopher D., Raghavan,
Prabhakar,. Schutze. (2008). Introduction to
KESIMPULAN Information Retrieval. Cambridge University
Press, New York, USA.
Berdasarkan hasil eksperimen yang diperoleh [3] Salton, G., Wong, A., Yang, C. S. (1975). A
selama percobaan, dapat diambil beberapa Vector Space Model for Automatic Indexing.
kesimpulan sebagai berikut : Communications of the ACM, Nov 1975,
1. Metode Vector Space Model dapat digunakan volume 18, Number 11, Pp. 613-620
untuk melakukan pencarian dokumen. [4] Van Rijsbergen, C.J. (1979). Information
Retrieval. Butterworths, London.
LAMPIRAN