Anda di halaman 1dari 9

Tugas Review Jurnal :

Lakukan review jurnal terkait dengan Topik Information Retrieval System/Sistem Temu Kembali
Informasi (3 jurnal) sesuai dengan templete berikut.

REVIEW JURNAL (1)

Judul
PERANCANGAN INFORMATION RETRIEVAL (IR)
UNTUK PENCARIAN
IDE POKOK TEKS ARTIKEL BERBAHASA INGGRIS
DENGAN PEMBOBOTAN VECTOR SPACE
MODEL
Jurnal Jurnal Ilmiah Teknologi dan Informasi ASIA
Vol. & Hal. 1-7
Tahun 2015
Penulis STMIK ASIA Malang
Tanggal 1, Februari

Artikel berbahasa Inggris merupakan artikel dengan bahasa yang


paling cepat menyebar dan terbaru dikarenakan bahasa Inggris
merupakan bahasa internasional yang banyak digunakan orang di
Abstrak dunia, namun tidak semua orang fasih berbahasa Inggris dan
membutuhkan bantuan untuk mengerti isi sementara artikel yang akan
dibaca sangat penting dan panjang sehingga dapat menyita waktu.
Memanfaatkan Information Retrieval pada teks mining untuk
menemukan ide pokok dalam teks pada artikel berbahasa Inggris,
dapat membantu pembaca untuk lebih mudah memahami isi artikel
dan menghemat waktu yang dibutukan untuk membaca secara garis
besar dengan memberikan sebuah konten yang lebih ringkas dari
artikel awal. Basis pertama yang digunakan adalah Term Frequency
Inverse Document Frequency (TF-IDF) untuk memberikan nilai
dan menggunakan pembobotan Vector Space Model untuk menarik
hasil dari pencarian ide pokok. Kata kunci yang digunakandalam
proses peringkasan adalah judul dari artikel.

1
Dari hasil perhitungan TF-IDF yang telah dijalankan pada sistem dapat
disimpulkan bahwa semakin banyak kata yang sama ditemukan pada
sebuah kata maka nilai TF-IDF akan semakin tinggi, tapi bila kata
yang sama ditemukan pada kalimat lain maka nilai TF-IDF nya akan
semakin rendah.

Permasalahan

Artikel adalah salah satu informasi berupa tulisan yang berisikan


Tujuan informasi, gagasan pikiran, atau pendapat penulis yang berguna bagi
pembaca. Dalam dunia Internet terdapat banyak sekali informasi-
informasi berupa artikel yang tersebar luas dan dalam berbagai bahasa.
Salah satu jenis artikel yang banyak dijumpai di dunia maya adalah
artikel tentang komputer dan teknologi yang merupakan topik yang
banyak dibicarakan di era teknologi modern saat ini.
Salah satu cara untuk peringkasan yang sudah diterapkan adalah
Peringkasan Teks Otomatis (Automated Text Summarization) atau
sering disebut Text Summarization, yaitu sebuah proses untuk
menghasilkan ringkasan dari teks menggunakan komputer. Tujuannya
untuk mengambil sumber infomasi dengan mengutip sebagian besar isi
yang penting dan menampilkan kepada pembaca dalam bentuk ringkas
sesuai dengan kebutuhan pembaca. Dengan demikian teknologi ini
dapat membantu pembaca untuk menyerap informasi yang terdapat
dalam teks melalui ringkasan tanpa membaca keseluruhan dokumen.
Vector Space Model (VSM) sebagai metode yang mengukur
kemiripan antara suatu dokumen dengan suatu query user dengan
menggunakan cosinus dari sudut antar vektor yang dibentuk oleh
dokumen dengan vektor dari
Metode METODE PENELITIAN
1. Studi Pustaka (Library Research)

Studi Pustaka dilakukan dengan cara mempelajari teori-teori literatur


dan buku-buku yang berhubungan dengan objek kajian sebagai dasar
dalam penelitian ini, dengan tujuan memperoleh dasar teoritis
gambaran dari apa yang dilakukan. Teori yang dipelajari yaitu: text
mining, Term Frequency-Inverse Document Frequency (TF-IDF),
vector space model, Porter Stemming, metode tagging, dansebagainya.
2. Melakukan kajian secara online di Internet

Browsing pada halaman-halaman situs di Internet yang membahas


tentang algoritma-algoritma yang akan digunakan dalam pembuatan
program, seperti contoh algoritma untuk melakukan stemming dan
tagging. Browsing juga dilakukan untuk mengumpulkan ebook
2
ataupun artikel yang akan dibutuhkan dalam proses peringkasan.
3. Analisa data

Penelitian dilakukan menggunakan berkas data yang didapat untuk


selanjutnya dilakukan analisa dan pembandingan dengan ringkasan
yang sudah dibuat secara manual. Setelah dilakukan pengumpulan
data, tahap selanjutnya dilakukan studi pustaka dan analisa atas data
yang sudah diperoleh untuk membuat perancangan dan
implementasi aplikasi Information Retrieval (IR) untuk peringkasan
teks otomatis pada
Hasil KAJIAN TEORI
INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI)
Information Retrieval merupakan sistem yang menerima query dari
pengguna, kemudian dilakukan ranking terhadap dokumen berdasar
kesesuian terhadap query. Hasil ranking yang diberikan pada pengguna
merupakan dokumen yang menurut sistem memiliki relevansi terhadap
query, tetapi tingkat relevansi itu sendiri merupakan hal yang subjektif
tergantung dari pengguna yang dipengaruhii oleh berbagai macam
faktor seperti topik, pewaktuan, sumber informasi maupun tujuan
pengguna. Model sistem temu kembali menentukan detail sistem temu
yaitu meliputi representasi dokumen maupun query, fungsi pencarian
(retrieval function), dan notasi kesesuaian (relevance notation)
dokumen terhadap query.
Information Retrieval terbagi dari beberapa bagian yang dijabarkan
sebagai berikut:
1. Text Operations, meliputi pemilihan kata-kata dalam query maupun
dokumen (term selection) dalam proses transformasi dokumen atau
query menjadi term index (indeks kata-kata).
2. Query formulation, memberi bobot pada indeks kata-kata query.
3. Ranking, mencari dokumen-dokumen yang relevan terhadap query
dan mengurungkan dokumen tersebut berdasarkan kesesuaiannya
dengan query.
4. Indexing, membangung basis data indeks dari koleksi dokumen
Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.

Kesimpulan KESIMPULAN
Dari apa yang sudah dijabarkan pada sebelumnya, maka dapat diambil
kesimpulan sebagai berikut:
1. Dari hasil perhitungan TF-IDF yang telah dijalankan pada sistem
dapat disimpulkan bahwa semakin banyak kata yang sama ditemukan
pada sebuah kata maka nilai TF-IDF akan semakin tinggi, tapi bila
kata yang sama ditemukan pada kalimat lain maka nilai TF-IDF nya
akan semakin rendah.
2. Sistem masih belum bisa mengenali mana alamat sebuah web atau
sebuah kata yang memerlukan titik di tengah kalimat dengan limiter
titik yang digunakan untuk memecah kalimat sehingga terkadang
sistem memecah sebuah alamat web menjadi kalimat tersendiri yang
dapat memengaruhi hasil peringkasan karena dimungkinkan
memunculkan kalimat yang tidak utuh.
3. Dengan nilai rata-rata recall sebesar 66,86%, precision 72,29%, f-
measure 70,38% hasil peringkasan belum bisa dianggap optimal, salah
satu faktor yang mempengaruhi adalah query yang digunakan,
3
diperlukan tambahan query yang relevan dengan artikel untuk hasil
peringkasan yang lebih optimal.

DAFTAR PUSTAKA
[1] Arifin, A Z. Penggunaan Digital Tree Hibrida pada Aplikasi
Information Retrieval untuk Dokumen Berita. Jurusan Teknik
Pustaka Informatika, FTIF, Institut Teknologi Sepuluh Nopember. Surabaya.
2002
[2] Grossma D, Ophir F. Information Retrieval : Algorithm and
Heuristics. Kuwer Academic Publisher. 1998
[3] Han, Jiawei dan Kamber, Micheline. Data Mining : Concept and
Techniques Second Edition. Morgan Kaufmann Publishers. 2006
[4] Herwansyah, Adit. Aplikasi Pengkategorian Dokumen Dan
PengukuranTingkat Similaritas Dokumen Menggunakan Kata Kunci
Pada Dokumen Penulisan Ilmiah Universitas
Gunadarma.http://www.gunadarma.ac.id/library/articles/graduate/com
puter-science/2009/Artikel_10105046.pdf
[5] Karmayasa, Oka. Mahendra, Ida Bagus. Implementasi Vector
Space Model Dan Beberapa Notasi Metode Term Frequency Inverse
Document Frequency (TF-IDF) Pada Sistem Temu Kembali Informasi.
http://ojs.unud.ac.id/index.php/JLK/article/download/2787/1981
[6] Manning Christopher D, Prabhakar Raghavan dan Hinrich
Schutze. An Introduction to Information Retrieval. England.
Cambgridge University Press. 2009

4
REVIEW JURNAL (2)

TEMU BALIK INFORMASI PADA DOKUMEN TEKS


Judul
BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE
RETRIEVAL MODEL
Jurnal Seminar Nasional Teknologi Informasi & Komunikasi Terapan 2012
(Semantik 2012)
Vol. & Hal. -&8
Tahun 2012
Penulis Giat Karyono, Fandy Setyo Utomo
Tanggal 23 Juni 2012

Pencarian informasi berdasarkan query oleh pengguna, yang


diharapkan dapat menemukan koleksi dokumen berdasarkan
kebutuhan pengguna, dikenal dengan Information Retrieval atau temu
balik informasi. Penelitian ini membahas tentang implementasi sistem
Abstrak temu balik informasi untuk mencari dan menemukan dokumen teks
berbahasa indonesia menggunakan Vector Space Retrieval Model.
Tujuan penelitian ini untuk menyediakan solusi pada mesin pencarian
agar mampu menyediakan informasi dokumen teks pada database
yang tepat menggunakan kata kunci tertentu. Hasil dari pencarian
direpresentasikan dengan urutan/ranking kemiripan dokumen dengan
query.

Kata kunci : Information Retrieval, Temu Balik Informasi, Vector


Space Retrieval Model

Adanya ketidakcocokan/tidak relevan suatu hasil dokumen yang kita


Permasalahan cari pada mesin pencarian,maka untuk mencari dan mencocokan
dokumen teks berbahasa indonesia menggunakan vector space
retrieval model.
Untuk menyediakan solusi pada mesin pencarian agar mampu
Tujuan menyediakan informasi dokumen teks pada database yang tepat
menggunakan kata kunci tertentu. Hasil dari pencarian
direpresentasikan dengan urutan/ranking kemiripan dokumen dengan
query.
Metode 1 Metodologi perancangan sistem
2 Metodologi Indexing Teks
3 Metodologi Pencarian Teks
Hasil Sebagai mesin pencarian untuk pencarian dokumen teks berbahasa
indonesia

Kesimpulan Dari hasil penelitian, dapat disimpulkan bahwa Sistem Temu Balik
Informasi menggunakan Vector Space Model dapat digunakan sebagai
mesin pencarian untuk pencarian dokumen teks berbahasa indonesia.

1. Agusta, Ledy. Perbandingan Algoritma Stemming Porter


dengan Algoritma Nazief dan Adriani untuk Stemming
Pustaka Dokumen Teks Bahasa Indonesia. Pada Konferensi Nasional
Sistem dan Informatika 2009. No Jurnal : KNS&I09-036.
2. Cios, Krzysztof J. Etc. (2007) Data Mining A Knowledge
Discovery Approach, Springer.
3. Lee D.L. (1997). Document Ranking and the Vector-Space
Model. IEEE March-April 1997.
4. Lu, Guojun. Multimedia Database Management Systems.
ARTECH HOUSE Inc. Canton Street : 1999.
5. Murad, Azmi MA., Martin, Trevor. (2007) Word Similarity for
Document Gouping using Soft Computing. IJCSNS
International Journal of Computer Science and Network
Security, Vol.7 No.8, August 2007, pp. 20- 27
6. Polettini, Nicola (2004) The Vector Space Model in Information
Retrieval – Term Weighting Problem
7. Salton, Gerard (1983) Introduction to Modern Information
Retrieval, McGraw Hil
REVIEW JURNAL (3)

RANCANG BANGUN APLIKASI INFORMATION RETRIEVAL UNTUK


Judul MENGKOLEKSI DATA PARALEL KORPUS TEKS BAHASA INGGRIS
– BAHASA INDONESIA

Jurnal Jurnal sistem dan teknologi informasi (JustIN) vol 2, No 1 (2015).

Vol. & Hal. 2&4


Tahun 2015
Penulis Edy Septiandri
Tanggal -

Paralel korpus merupakan dua dokumen teks yang saling


berhubungan dimana dokumen teks pertama berisi kumpulan kalimat
sumber dan dokumen teks kedua berisi kumpulan kalimat
terjemahannya. Paralel korpus berfungsi sebagai sumber utama dalam
Abstrak mengembangkan sebuah Mesin Penerjemah Statistik. Hasil terjemahan
dari sebuah Mesin Penerjemah Statistik tergantung pada jumlah dari
paralel korpus yang tersedia. Pembuatan paralel korpus secara manual
tidaklah mudah, karena akan memakan waktu yang lama, memerlukan
biaya yang tidak sedikit dan jumlah dokumen yang terbatas. Sistem
temu balik informasi atau information retrieval dapat membantu dalam
hal mengelola dan menemukan kembali dokumen secara cepat dan
efektif. Sistem ini dibuat untuk mengkoleksi data parlel korpus
khususnya bahasa Indonesia dan Inggris, dimana output dari aplikasi
ini akan menambah perbendaharaan paralel korpus bahasa Indonesia-
Inggris. Sistem ini mampu untuk mengumpulkan dokumen secara
otomatis dari sebuah website yang telah ditentukan, dan sasarannya
hanya dokumen yang berbahasa Indonesia dan Inggris. Dokumen yang
telah terkumpul akan dibersihkan dari semua tanda baca yang tidak
diperlukan dengan metode tokenization, setelah itu dokumen tersebut
akan diproses kembali untuk memisahkan antara kalimat sumber dan
kalimat terjemahannya dengan metode parse. Setelah semua proses
selesai maka akan menghasilkan sebuah paralel korpus. Aplikasi
information retrieval ini akan mempermudah dalam pembuatan sebuah
paralel korpus dan akan memperkaya perbendaharaan paralel korpus
bahasa Indonesia-Inggris.

Kata kunci: paralel korpus, mesin penerjemah statistik, sistem temu


balik informasi, tokenization, parse.
Pembuatan paralel korpus secara manual tidaklah mudah karena
Permasalahan akan memakan waktu yang lama, memerlukan biaya yang tidak sedikit
dan jumlah dokumen yang terbatas

Melakukan analisis, perancangan dan pembuatan aplikasi yang


Tujuan difokuskan untuk menghasilkan paralel korpus dengan menggunakan
metode information retrieval

Metode a. Merancang Sistem


b. Merancangan Arsitektur Sistem
c. Merancangan Diagram Konteks
Diagram konteks sistem temu bakik informasi untuk mengkoleksi data
paralel korpus teks bahasa Inggris dan bahasa Indonesia.
d. Merancangan Diagram Overview
Diagram overview berisi penjelasan urutan-urutan proses dari diagram
konteks. Pada diagram ini proses dibagi menjadi 3 proses, yaitu
crawling, tokenisasi dan parsing.

Hasil a. Sistem mampu mengumpulkan dokumen artikel berita melalui


proses crawling website dari situs milik BBC dengan alamat URL
http://www.bbc.co.uk/indonesia/topik/dwi bahasa/
b. Sistem dapat melakukan proses tokenisasi untuk menghilangkan
semua tanda baca yang tidak diperlukan, dan proses parsing untuk
menghilang semua dokumen yang tidak relevan dan memisahkan
antara kalimat bahasa Inggris dan bahasa Indonesia ke dalam dua
dokumen yang berbeda yaitu, dokumen korpus bahasa Inggris dan
dokumen korpus bahasa Indonesia.
c. Sistem temu balik ini telah menghasilkan paralel korpus bahasa
Inggris dan bahasa Indonesia sebanyak 1541 kalimat, sehingga dapat
menambah perbendaharaan paralel korpus bahasa Inggris dan bahasa
Indonesia yang sudah ada, yaitu dari 27.326 kalimat menjadi 28.867
kalimat.
d. Pembuatan paralel korpus menggunakan aplikasi Information
Retrieval jauh lebih cepat dibanding dengan pembuatan paralel korpus
dengan cara manual.

Kesimpulan 1. Sistem mampu mengumpulkan dokumen artikel berita melalui


proses crawling website dari situs milik BBC dengan alamat
URL
http://www.bbc.co.uk/indonesia/topik/dwi bahasa/, sehingga
menghasilkan sebuah dokumen yang berisi kumpulan artikel
berbahasa Inggris sebagai bahasa sumber dan berbahasa
Indonesia sebagai bahasa terjemahan.
2. Sistem dapat melakukan proses tokenisasi untuk
menghilangkan semua tanda baca yang tidak diperlukan, dan
proses parsing untuk menghilang semua dokumen yang tidak
relevan dan memisahkan antara kalimat bahasa Inggris dan
bahasa Indonesia ke dalam dua dokumen yang berbeda yaitu,
dokumen korpus bahasa Inggris dan dokumen korpus bahasa
Indonesia. Kedua dokumen tersebut merupakan paralel korpus
teks bahasa Inggris-Indonesia.
3. Sistem temu balik ini telah menghasilkan paralel korpus
bahasa Inggris dan bahasa Indonesia sebanyak 1541 kalimat,
sehingga dapat menambah perbendaharaan paralel korpus
bahasa Inggris dan bahasa Indonesia yang sudah ada, yaitu
dari
27.326 kalimat menjadi 28.867 kalimat.
4. Pembuatan paralel korpus menggunakan aplikasi Information
Retrieval jauh lebih cepat dibanding dengan pembuatan paralel
korpus dengan cara manual.

1. Amin, Fakhtul. 2012. Sistem Temu Balik Informasi Dengan


Metode Vector Space Model. Jurnal Sistem Informasi Bisnis.
Unduh:
Pustaka http://ejournal.undip.ac.id/index.php/jsi
nbis/article/downloadSuppFile/37/303
2. Gusmita, R. H. dan Manurung, R. 2008. Some initial
experiments with indonesian probabilistic parsing. Malaysia:
MALINDO Workshop.
3. Hadhiatma, Agung. 2010. Pencarian Dokumen Berdasarkan
Kombinasi Antara Model Ruang Vektor Dan Model Domain
Ontologi. Yogyakarta: semnasIF.
4. Sasongko, Jati. 2010. Aplikasi untuk Membangun Corpus dari
Data Hasil Crawling dengan Berbagai Format Data Secara
Otomatis. Jurnal Teknologi Informasi Dinamik. Unduh:
http://www.unisbank.ac.id/ojs/index.ph
p/fti1/article/download/107/102
5. Siagian, Adelina Irmadewita. 2012. Implementasi Corpus
Generator Dengan Parallel Text.
Unduh: http://repository.usu.ac.id/bitstream/12
3456789/33897/4/Chapter%20II.pdf
6. Sujaini, Herry. 2012. Korpus Paralel Indonesia - Inggris.
Unduh: http://herrysujaini.blogspot.com/2012/0 5/korpus-
paralel-indonesia-inggris.html

Anda mungkin juga menyukai