Anda di halaman 1dari 8

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/276416878

IMPLEMENTASI VECTOR SPACE MODEL UNTUK PENCARIAN DOKUMEN

Conference Paper · May 2013

CITATIONS READS

0 4,361

2 authors:

Abdul Azis Abdillah Indra Bayu Muktyas


Politeknik Negeri Jakarta College of Teacher Education
20 PUBLICATIONS   12 CITATIONS    11 PUBLICATIONS   3 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Kumpulan Soal Olimpiade dan Pembahasan View project

Python View project

All content following this page was uploaded by Abdul Azis Abdillah on 18 May 2015.

The user has requested enhancement of the downloaded file.


IMPLEMENTASI VECTOR SPACE MODEL UNTUK PENCARIAN DOKUMEN

Abdul Azis Abdillah1, Indra Bayu Muktyas2


Program Studi Pendidikan Matematika, STKIP Surya, Tangerang, Banten
abdul.azis.a@stkipsurya.ac.id1, recobayu@gmail.com2

ABSTRAK
Memiliki banyak dokumen terkadang sangat merepotkan, terutama disaat ingin mencari dokumen yang
dibutuhkan secara cepat dan tepat. Salah satu cara untuk mencari dokumen dari tumpukan dokumen adalah
dengan me-ranking. Ranking merupakan salah satu cabang ilmu dari information retrieval. Information
retrieval yaitu menemukan materi (biasanya dokumen) dari sebuah kumpulan data yang tidak terstruktur
(biasanya teks) untuk memenuhi kebutuhan informasi dari koleksi yang besar (Manning dkk, 2008). salah
satu metode pencarian dokumen adalah dengan menggunakan Vector Space Model (VSM). VSM menggunakan
konsep yang terdapat pada aljabar linear yaitu ruang vektor. Berdasarkan konsep yang digunakan tersebut,
dikembangkan pemodelan dokumen untuk melakukan pencarian terhadap dokumen yang dibutuhkan.
Representasi vektor kolom dimanfaatkan dalam pengkonversian dokumen input. Konsep lain yang digunakan
adalah dengan mengetahui kedekatan antara dua buah vektor, yaitu dengan cara menghitung besarnya sudut
yang terbentuk antara dua vektor dan kemudian diurutkan dari data yang memiliki besar sudut yang terkecil
hingga yang terbesar yang menandakan urutan data hasil ranking dari yang paling relevan hingga tidak
relevan. Pada paper ini dijelaskan tentang pencarian dokumen dengan menggunakan VSM dan
implementasinya pada 50 judul buku yang terdapat pada database perpustakaan STKIP Surya.

Kata kunci : ranking, information retrieval, Vector Space Models.

ABSTRACT
we have many documents are sometime very inconvenient, especially when we want to search for document
that we need quickly and accurately. One way to search for document from the pile of documents is with
ranking. Ranking is one of science in information retrieval. Information retrieval is finding material (especially
documents) from unstructured dataset (especially text) to fulfill information needs from large collection
(Manning et al, 2008). Vector Space Model (VSM) is one of method to search document that uses ranking. VSM
uses vector space concept in linear algebra. Based on the concepts used, developed modeling documents to
conduct a search of the necessary documents. Column vector representation used in the conversion of input
document. Another concept that is used to determine the proximity between two vectors, by calculating the
angle formed between the two vectors and then sorted from the data that has a large measure of angle the
smallest to the largest. That point indicates the results of ranking from relevant document to irrelevant
document. This paper described vector space model implementation in finding document using 50 books from
STKIP Surya library database.

Keywords : ranking, information retrieval, Vector Space Models.

PENDAHULUAN yang sesuai dengan kebutuhan secara cepat dan


mudah. Tanpa hal tersebut, maka informasi yang
Memiliki banyak dokumen terkadang terdapat dalam dokumen akan tanpa guna.
sangat merepotkan, terutama disaat ingin mencari
dokumen yang kita butuhkan secara cepat dan Salah satu cara untuk mendapatkan
tepat. Pada tahun 2005, Yahoo! mengumumkan kembali informasi yang terdapat dalam dokumen
bahwa Search Engine Yahoo! telah mengindeks yang sesuai dengan kebutuhan pengguna adalah
lebih dari 19.2 milyar dokumen dengan melakukan Ranking. Ranking merupakan
(www.iht.com/articles/2005/08/15/business/we salah satu cabang ilmu dari information retrieval.
b.php). Dokumen dengan jumlah yang sangat Ranking merupakan bagian penting dari masalah
banyak tersebut, tentu memerlukan suatu pencarian informasi, seperti pengambilan
mekanisme agar pengguna dapat melakukan dokumen, penyaringan informasi, penempatan
pencarian atau mendapatkan kembali dokumen iklan online, dan lain-lain. Salah satu aplikasi
ranking terdapat pada search engine, contohnya
Abdul Azis Abdillah

pada Google dan Yahoo! yang sudah sangat 2. Vector Space Model
familiar di masyarakat.
Vector Space Model (VSM)
salah satu metode untuk me-ranking mempresentasikan setiap dokumen yang terdapat
dokumen adalah dengan menggunakan Vector dalam database dan query ke dalam vektor
Space Model (VSM). VSM menggunakan konsep multidimensi. Dimensi dari vektor
yang terdapat pada aljabar linear yaitu ruang berkorespondensi dengan jumlah setiap term
vektor. Berdasarkan konsep yang digunakan dalam database dan kumpulan term tersebut
tersebut, dikembangkan pemodelan dokumen membentuk suatu ruang vektor.
untuk melakukan pencarian terhadap dokumen
Pada VSM setiap term, , di dalam
yang dibutuhkan. Representasi vektor kolom
dokumen maupun query, , diberikan suatu bobot
dimanfaatkan dalam pengkonversian dokumen
(weight) yang bernilai real . Dokumen dan
input. Konsep lain yang digunakan adalah dengan
mengetahui kedekatan antara dua buah vektor, query diekspresikan sebagai vektor -dimensi
dengan cara menghitung besarnya sudut yang =( , ,…, ) dan diasumsikan terdapat
terbentuk antara dua vektor dan kemudian dokumen di dalam database, yaitu = 1,2, … , .
diurutkan dari data yang memiliki besar sudut Contoh dari VSM dengan tiga dimensi untuk dua
yang terkecil hingga yang terbesar yang dokumen dan , satu query , dan tiga term
menandakan urutan data hasil ranking dari yang , , dan dapat dilihat pada gambar 2.
paling relevan hingga yang tidak relevan. Pada
paper ini akan dibahas implementasi Vector Space
Model untuk pencarian dokumen.

Sumber : Krzysztof J. Cios, 2007


Gambar 2. Representasi dokumen dan query pada
ruang vektor

Sumber : C.J. van Rijsbergen, 1979 Selain itu pada VSM, database dari semua
dokumen direpresentasikan oleh matriks term-
Gambar 1. Diagram alur Information Retrieval document (atau matriks term-frequency). Dimana
setiap sel pada matriks berkorespondensi dengan
bobot yang diberikan dari suatu term dalam
LANDASAN TEORI dokumen yang ditentukan. Nilai nol berarti bahwa
term tidak terdapat dalam dokumen.
1. Information Retrieval
Inverse Document Frequency (IDF). IDF
Information Retrieval (IR) adalah
didefinisikan sebagai
menemukan materi (biasanya dokumen) dari
sebuah kumpulan data yang tidak terstruktur = log ( )
(biasanya teks) untuk memenuhi kebutuhan
informasi dari koleksi yang besar (Manning dkk, dimana merupakan frekuensi dokumen dari
2008). Tujuan IR adalah untuk memenuhi term atau sama dengan jumlah dokumen yang
kebutuhan informasi pengguna dengan me- mengandung term dan adalah total dokumen di
retrieve semua dokumen yang relevan, dan pada dalam database. Log digunakan untuk
waktu yang sama me-retrieve sesedikit dokumen memperkecil pengaruh relative untuk .
yang tak relevan. Secara umum diagram alur
information retrieval dapat dilihat pada gambar 1. Bobot dihitung menggunakan ukuran
tf-idf (term frequency-inversed document
frequency) didefinisikan sebagai
= ×

2 Prodi Pendidikan Matematika, STKIP Surya, Tangerang, Banten


Implementasi Vector Space Model untuk Pencarian Dokumen

3. Similarity 2. Software
Salah satu ukuran kemiripan teks yang Software yang digunakan adalah macro
popular digunakan pada VSM untuk pencarian VBA yang terdapat pada Microsoft Excel dan OS
dokumen adalah cosine similarity (Krzysztof J. Windows Vista Ultimate.
Cios, dkk. 2007). Konsep dari cosine similarity
yaitu menghitung nilai cosinus sudut antara dua 3. Hardware
vektor yaitu jika diberikan dokumen yang
Spesifikasi hardware yang digunakan
dipresentasikan oleh vektor dan query , dan
pada eksperimen ini adalah Processor Intel
term yang diekstrak dari database, maka nilai Pentium(R) Dual-Core T4200 @ 2.0GHz 1.20 GHz,
cosine similarity didefinisikan sebagai RAM 3.5 GB.

, = 4. Implementasi
⋅| |
Pada implementasi ini ditampilkan 10
atau dapat ditulis sebagai
dokumen teratas berdasarkan hasil pencarian
∑ ⋅ dokumen dengan 10 query berbeda. Untuk setiap
, = query dilakukan pencarian dokumen dengan VSM
∑ ⋅∑ tanpa pembobotan tf-idf dan VSM tf-idf dan
kemudian dibandingkan hasil pencariannya. Tabel
dimana representasi grafis sudut antara dokumen 1 menunjukkan daftar query yang digunakan pada
dan query dapat dilihat pada gambar 3. percobaan.

Tabel 1. Daftar query yang digunakan


Query
Detail Query
ID
Q1 Indonesia
Q2 Filsafat
Q3 Teknik teknologi
Q4 Teknik Internet
Q5 Internet
Q6 Matematika Teknik
Q7 Teknik Analisis Data
Sumber : Krzysztof J. Cios, 2007 Q8 Nasionalisme Indonesia
Q9 Indonesia Mengajar
Gambar 3. Representasi grafis sudut antara Q10 Teknologi Indonesia
dokumen dan query
Tabel 2 menunjukkan hasil pencarian 10
Secara geometris, sudut yang merentang dokumen teratas menggunakan query “Indonesia”.
antara vektor dan query dapat diukur. Sedangkan tabel 3 menunjukkan hasil pencarian
Semakin kecil sudut diantara kedua vektor dan 10 dokumen teratas menggunakan query “filsafat”.
query , maka akan semakin tinggi derajat Pada VSM dan VSM tf-idf dokumen pertama dan
kesamaan. Cosinus dari sudut tersebut dokumen kedua yang dimunculkan saat di input
merupakan koefisien yang dapat mewakili query “Indonesia” sama yaitu “ceritalah Indonesia”
kemiripan antara vektor dan query . sebagai dokumen pertama dan
“Indonesia/proses” sebagai dokumen ke dua,
EKSPERIMEN
sedangkan untuk dokumen ke tiga dokumen yang
1. Dataset dimunculkan berbeda. Dapat dilihat dari kedua
dokumen teratas yang ditampilkan memiliki
Dataset yang digunakan adalah kumpulan panjang dokumen yang paling pendek jika
50 judul buku yang terdapat pada database dibandingkan dengan dokumen lain hasil
perpustakaan STKIP Surya. Dataset ini dapat perangkingan.
dilihat pada tabel 10.

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika 2013 3


Abdul Azis Abdillah

Tabel 2. Hasil Pencarian Dokumen Menggunakan pada urutan ke tiga. Dokumen teratas yang
Query “indonesia” ditampilkan memiliki panjang dokumen yang
VSM VSM tf-idf lebih pendek jika dibandingkan dengan dokumen
Rank Doc. Doc. yang lain hasil perangkingan.
Sim Sim
Id id
1 D2 0.707107 D2 0.209113 Tabel 4. Hasil Pencarian Dokumen Menggunakan
2 D3 0.707107 D3 0.209113 Query “teknik teknologi”
3 D4 0.57735 D5 0.180553 VSM VSM tf-idf
4 D5 0.57735 D19 0.163052 Rank Doc. Doc.
Sim Sim
5 D6 0.57735 D45 0.153284 Id id
6 D7 0.57735 D49 0.150458 1 D46 0.5 D34 0.390351
7 D8 0.5 D4 0.149508 2 D34 0.408248 D49 0.338462
8 D9 0.5 D6 0.149508 3 D44 0.408248 D9 0.305483
9 D11 0.5 D7 0.149508 4 D50 0.408248 D46 0.24154
10 D19 0.5 D9 0.136205 5 D23 0.377964 D23 0.222077
6 D9 0.353553 D50 0.201658
Tabel 3. Hasil Pencarian Dokumen Menggunakan 7 D45 0.353553 D45 0.190325
Query “Filsafat” 8 D47 0.316228 D44 0.178207
VSM VSM tf-idf 9 D43 0.288675 D47 0.15852
Rank Doc. Doc. 10 D49 0.288675 D43 0.145957
Sim Sim
Id id
1 D24 0.866025 D24 0.515841 Tabel 5. Hasil Pencarian Dokumen Menggunakan
2 D25 0.755929 D25 0.466161 Query “teknik internet”
3 D26 0.707107 D26 0.328367 VSM VSM tf-idf
4 D27 0.57735 D27 0.296367 Rank Doc. Doc.
Sim Sim
5 D28 0.57735 D28 0.271456 Id id
6 D29 0.5 D49 0.245171 1 D31 0.707107 D31 0.597577
7 D30 0.447214 D29 0.236578 2 D32 0.5 D46 0.323639
8 D49 0.408248 D30 0.195586 3 D46 0.5 D50 0.270202
9 D48 0.353553 D48 0.147371 4 D33 0.408248 D45 0.255017
10 D1 0 D1 0 5 D34 0.408248 D44 0.23878
6 D35 0.408248 D47 0.212401
Tabel 4 menunjukkan hasil pencarian 10 7 D44 0.408248 D43 0.195568
dokumen teratas menggunakan query “teknik 8 D50 0.408248 D32 0.186651
teknologi”. Sedangkan tabel 5 menunjukkan hasil 9 D36 0.353553 D34 0.158988
pencarian 10 dokumen teratas menggunakan 10 D37 0.353553 D48 0.150125
query “teknik internet”. Pada VSM dokumen
pertama yang muncul adalah “matematika teknik” Berdasarkan tabel 6, tabel 7, dan tabel 8
dimana “matematika teknik” merupakan dokumen jika dipilih suatu query yang dimana query
dengan panjang terpendek jika dibandingkan tersebut tepat ada pada database maka dokumen
dengan dokumen yang lain hasil perangkingan. tersebut akan memiliki nilai similarity satu dan
Sedangkan pada VSM tf-idf dokumen pertama akan ditempatkan pada posisi teratas pada setiap
yang dimunculkan jika menggunakan query pencarian dokumen.
“teknik teknologi” adalah “teknologi warung
internet”, “matematika teknik” berada pada
urutan ke empat.
Pada VSM dan VSM tf-idf sama-sama
menampilkan dokumen “internet” pada urutan
pertama saat diinput query “teknik internet”, pada
pada VSM dokumen “internet sehat” berada pada
urutan ke dua dan “matematika teknik” berada
pada urutan ke tiga. Sedangkan VSM tf-idf
dilanjutkan dengan dokumen “matematika teknik”
pada urutan ke dua dan “teknik dasar autocad”

4 Prodi Pendidikan Matematika, STKIP Surya, Tangerang, Banten


Implementasi Vector Space Model untuk Pencarian Dokumen

Tabel 6. Hasil Pencarian Dokumen Menggunakan Tabel 9. Hasil Pencarian Dokumen Menggunakan
Query “internet” Query “nasionalisme indonesia”
VSM VSM tf-idf VSM VSM tf-idf
Rank Doc. Doc. Rank Doc. Doc.
Sim Sim Sim Sim
Id id Id id
1 D31 1 D31 1 1 D2 0.5 D17 0.257088
2 D32 0.707107 D32 0.312346 2 D3 0.5 D2 0.052545
3 D33 0.57735 D34 0.266054 3 D4 0.408248 D3 0.052545
4 D34 0.57735 D33 0.245987 4 D5 0.408248 D5 0.045369
5 D35 0.57735 D35 0.245987 5 D6 0.408248 D19 0.040971
6 D36 0.5 D38 0.216527 6 D7 0.408248 D45 0.038517
7 D37 0.5 D39 0.215398 7 D17 0.377964 D49 0.037807
8 D38 0.5 D40 0.196965 8 D8 0.353553 D4 0.037568
9 D39 0.5 D36 0.1865 9 D9 0.353553 D6 0.037568
10 D40 0.5 D37 0.1865 10 D11 0.353553 D7 0.037568

Tabel 7. Hasil Pencarian Dokumen Menggunakan Tabel 10. Hasil Pencarian Dokumen Menggunakan
Query “matematika teknik” Query “indonesia mengajar”
VSM VSM tf-idf VSM VSM tf-idf
Rank Doc. Doc. Rank Doc. Doc.
Sim Sim Sim Sim
Id id Id id
1 D46 1 D46 1 1 D2 0.5 D1 0.318409
2 D44 0.408248 D50 0.159105 2 D3 0.5 D2 0.052545
3 D50 0.408248 D45 0.150163 3 D1 0.471405 D3 0.052545
4 D45 0.353553 D44 0.140602 4 D4 0.408248 D5 0.045369
5 D47 0.316228 D47 0.12507 5 D5 0.408248 D19 0.040971
6 D43 0.288675 D43 0.115157 6 D6 0.408248 D45 0.038517
7 D48 0.25 D48 0.088399 7 D7 0.408248 D49 0.037807
8 D23 0.188982 D23 0.062545 8 D8 0.353553 D4 0.037568
9 D1 0 D1 0 9 D9 0.353553 D6 0.037568
10 D2 0 D2 0 10 D11 0.353553 D7 0.037568

Tabel 8. Hasil Pencarian Dokumen Menggunakan Tabel 9 menunjukkan hasil pencarian 10


Query “teknik analisis data” dokumen teratas menggunakan query
VSM VSM tf-idf “nasionalisme indonesia”, tabel 10 menunjukkan
Rank Doc. Doc. hasil pencarian 10 dokumen teratas menggunakan
Sim Sim query “Indonesia mengajar”, dan tabel 11
Id id
1 D44 1 D44 1 menunjukkan hasil pencarian 10 dokumen teratas
2 D46 0.408248 D46 0.142956 menggunakan query “teknologi informasi”.
3 D50 0.333333 D50 0.119352 Pada VSM dokumen yang mengandung query
4 D45 0.288675 D45 0.112644 “nasionalisme Indonesia” berada pada urutan ke
5 D47 0.258199 D47 0.09382 tujuh, sedangkan pada VSM tf-idf berada pada
6 D43 0.235702 D43 0.086385 urutan pertama. Pada VSM dokumen yang
7 D48 0.204124 D48 0.066312 mengandung query “Indonesia mengajar” berada
8 D23 0.154303 D23 0.046918 pada urutan ke tiga, sedangkan pada VSM tf-idf
9 D1 0 D1 0 berada pada urutan pertama. Dokumen yang
10 D2 0 D2 0 pertama adalah “ceritalah Indonesia” dan diikuti
oleh “Indonesia/proses”. Pada VSM dokumen yang
mengandung query “teknologi Indonesia” berada
pada urutan pertama, sedangkan pada VSM
berada pada urutan ke tiga.

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika 2013 5


Abdul Azis Abdillah

Tabel 11. Hasil Pencarian Dokumen Menggunakan 2. Hasil pencarian dokumen menggunakan VSM
Query “teknologi Indonesia” tanpa pembobotan tf-idf bergantung kepada
VSM VSM tf-idf panjang dokumen. Semakin pendek suatu
Rank Doc. Doc. dokumen yang relevan maka akan
Sim Sim ditampilkan pada urutan teratas.
Id id
1 D9 0.707107 D34 0.458116 3. Secara umum pencarian dokumen
2 D49 0.57735 D49 0.449881 mengunakan VSM tf-idf lebih relevan jika
3 D2 0.5 D9 0.405945 dibandingkan dengan menggunakan VSM
4 D3 0.5 D23 0.167092 tanpa pembobotan tf-idf.
5 D4 0.408248 D2 0.071184
6 D5 0.408248 D3 0.071184
7 D6 0.408248 D5 0.061462 REFERENSI
8 D7 0.408248 D19 0.055505
9 D34 0.408248 D45 0.05218 [1] Cios, Krzysztof J., dkk. (2007). Data Mining a
10 D8 0.353553 D4 0.050894 Knowledge Discovery Approach. Springer.
[2] Manning, Christopher D., Raghavan,
Prabhakar,. Schutze. (2008). Introduction to
KESIMPULAN Information Retrieval. Cambridge University
Press, New York, USA.
Berdasarkan hasil eksperimen yang diperoleh [3] Salton, G., Wong, A., Yang, C. S. (1975). A
selama percobaan, dapat diambil beberapa Vector Space Model for Automatic Indexing.
kesimpulan sebagai berikut : Communications of the ACM, Nov 1975,
1. Metode Vector Space Model dapat digunakan volume 18, Number 11, Pp. 613-620
untuk melakukan pencarian dokumen. [4] Van Rijsbergen, C.J. (1979). Information
Retrieval. Butterworths, London.

6 Prodi Pendidikan Matematika, STKIP Surya, Tangerang, Banten


Implementasi Vector Space Model untuk Pencarian Dokumen

LAMPIRAN

Tabel 12. Dataset yang digunakan pada eksperimen


Doc. Doc.
No. Judul Buku No. Judul Buku
ID ID
1 Indonesia mengajar-kisah para D1 26 Filsafat modern D26
pengajar muda di pelosok negeri
2 Ceritalah indonesia D2 27 Filsafat pendidikan islam D27
3 Indonesia/proses D3 28 Pengantar filsafat barat D28
4 Menuju indonesia swadaya D4 29 Pengantar filsafat ilmu pengetahuan D29
5 Kamus inggris-indonesia D5 30 Filsafat ilmu sebuah pengantar D30
populer
6 Korupsi mengorupsi indonesia D6 31 Internet D31
7 Digital camera indonesia D7 32 Internet sehat D32
8 Direktori open source indonesia D8 33 Mari mengenal internet D33
9 Teknologi indonesia akan kemana? D9 34 Teknologi warung internet D34
10 Godot di amerika dan indonesia D10 35 Belajar sendiri internet D35
11 Bantuan likuiditas bank indonesia D11 36 Konferensi video melalui internet D36
12 Indonesia habis gelap terbitlah D12 37 Bisnis Sukses lewat Internet D37
terang
13 The internet in indonesia's new D13 38 Belajar internet untuk anak D38
democracy
14 Munju sejarah sumatra antara D14 39 Internet Wireless dan Hotspot D39
indonesia dan dunia
15 Tanah air bahasa (seratus jejaqk D15 40 Mengenal internet for beginners D40
pers indonesia)
16 Kamus inggris - indonesia: pilihan D16 41 Internet governance asia-pasific D41
kata lain penerjemah perspektif
17 Nasionalisme-kenali indonesia-mu, D17 42 Arah kebijakan penyelenggaraan D42
temukan passion-mu berkaryalah jasa internet teleponi (VOIP) di
untuk masa depan bangsamu Indonesia
18 Politik pendidikan D18 43 Dasar-dasar Teknik Pemrograman D43
19 Revolusi pendidikan di indonesia D19 44 Teknik analisis data D44
20 Pendidikan tanpa kekerasan D20 45 Teknik membangun indonesia jaya D45
21 Setia budhi: jurnal pendidikan D21 46 Matematika teknik D46
22 Potensi kekayaan intelektual D22 47 Teknik pengawetan tanah dan air D47
departemen pendidikan nasional
23 Pengembangan sekolah teknik D23 48 Filsafat teknik dan pikiran D48
elektro dan informatika institut spiritualis dari siswa pemula
teknologi bandung sebagai institusi
pendidikan berbasis riset
24 Filsafat kantian, filsafat jacobian, D24 49 Filsafat dan teknologi untuk D49
filsafat fictean membangun indonesia
25 Filsafat jiwa dan filsafat ilmu D25 50 Teknik dasar autocad D50

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika 2013 7

View publication stats

Anda mungkin juga menyukai