Anda di halaman 1dari 4

Nama : Muhammad Lazuardi Nuriman

NIM : 1606893260
Resume Artikel Tag Clouds

MTCIR: A Multi-Term Tag Cloud Information Retrieval System

1. Pengantar
Masalah yang menjadi fokus adalah akses informasi dalam database, terutama akses
informasi ke data teks. Atribut tekstual dalam database terdiri dari informasi berguna yang tidak
terstruktur, dan terkadang tidak terproses dengan benar. Kami mengajukan sebuah metode untuk
membuat tag multi-istilah dari atribut teks dalam database. Tag cloud multi-istilah membantu
menyelesaikan masalah yang ada di tag cloud satu-istilah klasik. Di sini kami menyajikan sebuah
sistem yang mengekstrak informasi semantik dari teks tidak terstruktur dalam database
menggunakan bentuk menengah matematis yang memungkinkan untuk mendeteksi istilah
gabungan.
2. Pekerjaan Terkait
Dalam Kuo, Henrich, Good, dan Wilkinson (2007), dihadirkan sebuah aplikasi yang
menggunakan word cloud untuk merangkum informasi yang ditemukan dari database biomedis.
Ide serupa disajikan dalam Koutrika, Zadeh, dan Garcia-Molina (2009). Dalam pekerjaan ini, hasil
suatu query diringkas menggunakan tag cloud. Tag cloud tersebut digunakan untuk memandu
pengguna dalam perbaikan query. Arsitektur baru disajikan dalam Jung (2009) memperkenalkan
semantik menggunakan konteks dalam sistem penandaan kolaboratif dalam layanan blog.
Pendekatan lain dalam penggunaan tag cloud disajikan dalam Leone et al. (2011). Dalam aplikasi
ini, pengguna dapat menjelajahi database, memberikan query teks atau memilih istilah dari tag
cloud. Akhir-akhir ini beberapa penulis mempelajari bagaimana memasukkan semantik dalam tag
cloud. Dalam Prez Garca-Plaza, Zubiaga, Fresno, dan Martnez (2012), pendekatan berbeda
terhadap konstruksi kelompok dibandingkan. Pendekatan pertama berdasarkan co-occurrence tag,
dan pendekatan kedua menggunakan konten tekstual untuk mendefinisikan hubungan antar tag.
Pekerjaan ini mengajukan pendekatan baru:
1. Tag cloud dibangun di atas atribut seluruh database.
2. Tag cloud menggunakan tag multi-istilah.
3. Tag cloud didukung oleh definisi matematis mendasar.
4. Proses pembuatan tag cloud didefinisikan secara jelas dan mendetail.
3. Metodologi Pembuatan Tag Cloud
Pada bagian ini, kami mengajukan metodologi umum untuk pembuatan tag cloud dari teks.
Tahapan-tahapan yang sesuai dengan metodologi dapat diterapkan menggunakan alat yang
berbeda dan sumber eksternal.
Tahapan yang diajukan antara lain:
Pra-proses sintaksis
Pra-proses semantik
Perwakilan bentuk menengah
Pembuatan tag cloud
3.1. Pra-proses sintaksis
Biasanya tahap ini mencakup tokenisasi, stop word removal dan stemming. Bergantung
pada data yang diproses dan alat eksternal yang digunakan nantinya, mungkin disarankan untuk
melewati stemming. Penggunaan algoritma stemming seperti Porter (1980), menghasilkan bentuk
stem yang tidak bisa dikenali oleh kamus elektronik yang menghasilkan banyak kesulitan dalam
pra-proses semantik.
Beberapa alat yang dapat digunakan untuk melakukan pra-proses sintaksis dalam teks
adalah:
ANNIE (a Nearly-New Information Extraction System), sistem ekstraksi informasi yang
dikembangkan sebagai sebuah modul di dalam GATE (General Architecture for Text
Engineering).
Lucene, proyek open-source yang dijalankan dalam Java.
PrePro2010, memungkinkan untuk melakukan tugas pra-proses dasar seperti tokenisasi,
deteksi frasa, stemming, penandaan kelas kata, pengenalan entitas, analisis struktur
dokumen dan deteksi bahasa otomatis.
DB2DS, alat ini memungkinkan untuk membersihkan dan menyaring atribut teks dalam
database yang berhubungan.
3.2. Pra-proses Semantik
Tujuan utama dari pra-proses semantik adalah homogenisasi dari konsep yang ada dalam
suatu teks. Konsep yang sama dapat diwakili oleh bentuk atau istilah sintaksis berbeda dalam teks.
3.2.1. Penandaan Kelas Kata
Penanda kelas kalimat menambah tag pada setiap istilah dalam konteks kalimat. Tag kelas
kata meliputi kata benda, kata kerja, kata sifat, kata keterangan, dll. Kelas kata dapat ditentukan
menggunakan informasi yang sebelumnya dikumpulkan tentang istilah tersebut, atau
menggunakan struktur konteks. Proses penandaan sangat kompleks, karena konteksnya
bergantung pada konteks dan beberapa istilah dapat mengubah kelas kata saat digunakan di
konteks berbeda.
3.2.2. Disambiguasi Makna Kata
Setelah penandaan, makna yang tidak valid untuk istilah dibuang. Bagaimanapun juga,
suatu istilah dapat mempunyai lebih dari satu makna untuk satu kelas kata. Dengan disambiguasi
makna kata, kita dapat memilih makna yang paling tepat untuk suatu istilah dengan
memperhitungkan konteksnya.
3.2.3. Pemilihan Perwakilan Resmi
Semua kata yang didisambiguasi ditempatkan pada suatu set sinonim Sk menurut
maknanya. Kami mendefinisikan satu set sinonim berupa Sk, k = 1, ... ,n. Setiap istilah tj
dimasukkan hanya ke dalam satu set Sk.
3.3. Perwakilan Menengah
Saat pra-pemrosesan teks sudah selesai, teks disimpan dalam bentuk perwakilan
menengah. Perwakilan ini bisa berupa bentuk perwakilan teks mana saja yang tersedia dalam
literatur. Akan lebih baik jika bentuk menengahnya lebih informatif.
3.4. Pembuatan Tag Cloud
Bobot istilah di WAPO-Structure mencerminkan frekuensinya. Tag cloud dibangun
menggunakan frekuensi ini. Pembuatan tag cloud dilakukan menggunakan program Java yang
mensimulasikan algoritma distribusi tag yang digunakan oleh Wordle.
4. Arsitektur Umum dari Sistem Pembuatan Tag Cloud Multi-Istilah
Penerapan yang disajikan menghasilkan tag cloud dari atribut teks dalam database. Tag
cloud yang dihasilkan digunakan untuk meminta konten dari atribut teks. Tidak semua informasi
yang disajikan dalam atribut teks dapat disajikan pada pengguna. Tag cloud merangkum istilah
yang paling relevan dan frekuen dalam teks. Untuk memilih istilah yang tepat untuk disajikan
dalam tag cloud, kita harus memproses data dan menyajikannya dalam cara yang tepat.
4.1. Pra-pemroses Sintaksis
Modul ini melakukan pra-proses sintaksis pada teks dan terhubung dengan alat DB2DS.
Alat ini memungkinkan untuk memilih dan menyaring atribut database. Dalam konfigurasi dasar,
pra-pemroses sintaksis akan menerapkan tokenisasi, stop word removal, dan S-stemmer.
4.2. Pra-pemroses Semantik
Modul ini mendeteksi sinonim dan menyajikan semua istilah sintaksis yang mungkin untuk
konsep yang ada sebagai istilah unik. Masukan dari modul ini dapat berupa keluaran dari modul
pra-pemroses sintaksis, atau kolom teks dalam database. Sebagaimana di modul sebelumnya, teks
yang diproses dapat menimpa yang asli, dimasukkan dalam kolom baru, atau dikirim ke modul
berikutnya untuk menghasilkan struktur.
4.3. Penghasil WAPO-Structure
Modul ini mengubah teks yang telah diproses menjadi formalisme yang dapat digunakan
untuk menghasilkan struktur deskriptif. Keluaran dari modul ini adalah WAPO-Structure yang
disimpan sebagai tipe obyek dalam database. Saat WAPO-Structure sudah dihasilkan dan
disimpan, maka dapat digunakan untuk menciptakan struktur yang berbeda untuk berinteraksi
dengan teks dalam database.
4.4. Penghasil Tag Cloud
Modul Java ini membuat tag cloud dari WAPO-Structure yang disimpan dalam database.
Tag cloud disajikan kepada pengguna sebagai antarmuka untuk meminta kolom teks yang
diekstrak darinya. Tag cloud juga menyajikan rangkuman dari konten yang paling relevan dalam
teks.
4.5. Query Builder
Modul query builder menghasilkan query ke database dari tag cloud dan menyajikan
hasilnya kepada pengguna. Arsitekturnya mencerminkan organisasi metodologi, dan
memungkinkan untuk menciptakan antarmuka yang tepat untuk menganalisis dan query teks
dalam database.
5. Menggunakan MTCIR Beberapa kasus
Hasil yang ada dalam Torres-Parejo et al. (2013, dalam press) menunjukkan bahwa
cakupan, ketepatan, pemanggilan kembali dan pengukuran F untuk tag cloud yang dihasilkan
menggunakan pendekatan ini, serupa dengan nilai yang dihitung untuk tag cloud yang diciptakan
oleh para ahli.
6. Kesimpulan dan Pekerjaan Mendatang
Sistem MTCIR diperkenalkan untuk pembuatan tag cloud multi-isitilah dari atribut teks
dalam database. Tag cloud yang dihasilkan digunakan untuk memvisualisasikan suatu rangkuman
konten tekstual dari database, dan dapat digunakan untuk mencari informasi darinya. Pra-proses
semantik adalah proses untuk mencari makan yang tepat untuk istilah dan kemudian
mengelompokkan semua istilah dengan makna yang sama. Yang baru dari proposal ini adalah
penggunaan metodologi yang mengintegrasikan bentuk perwakilan menengah matematis untuk
menghasilkan tag cloud. Untuk menguji pendekatan kami, kami telah memilih empat set data
dengan topik berbeda. Di masa depan kami berencana untuk memperluas semantik struktur
menggunakan ontologi, dan mengombinasikan tag berbeda yang diperoleh dari database berbeda
sambil menjaga hubungannya. Kami juga berencana untuk menerapkan atau membuat pendekatan
ke data tidak terstruktur yang ada dalam database seperti rekam klinis.

Sumber
Torres-Parejo, U., Campaa, J. R., Delgado, M., & Vila, M. A. (2013). MTCIR: A multi-term tag
cloud information retrieval system. Expert Systems with Applications, 5448-5455.

Anda mungkin juga menyukai