Disusun Oleh:
Puji syukur kehadirat Allah SWT yang telah memberikan rahmat dan
hidayah-Nya sehingga penulis dapat menyelesaikan tugas laporan yang berjudul
“META: A Unified Toolkit for Text Data Management and Analysis” ini tepat pada
waktunya.
Adapun tujuan dari penulisan dari laporan ini adalah untuk memenuhi ujian
akhir semeseter pada matakuliah Temu Kembali Informasi. Selain itu, laporan ini
juga bertujuan untuk menambah wawasan tentang META: A Unified Toolkit for
Text Data Management and Analysis bagi para pembaca dan juga bagi penulis.
Penulis mengucapkan banyak terima kasih kepada Bapak Zainal Abidin,
S.Si., M.T selaku dosen mata kuliah Temu Kembali Informasi. Yang telah
memberikan tugas laporan ini sehingga dapat menambah pengetahuan serta
wawasan sesuai dengan bidang studi yang penulis tekuni.
Penulis menyadari bahwa, laporan yang di tulis ini masih sangat jauh dari
kesempurnaan. Oleh karena itu, kritik dan saran dari pembaca akan sangat penulis
nantikan demi kesempurnaan laporan ini.
Penulis
ii
DAFTAR ISI
JUDUL......................................................................................................................i
KATA PENGANTAR.............................................................................................ii
DAFTAR ISI...........................................................................................................iii
BAB I PENDAHULUAN.........................................................................................1
2.2 META...........................................................................................................2
3.6 Aplikasi Mesin Pencari dan Pemeringkat (Search Engine and Rankers
Application)........................................................................................................7
BAB IV PENUTUP..................................................................................................9
4.1 Kesimpulan...................................................................................................9
DAFTAR PUSTAKA.............................................................................................10
iii
BAB I
PENDAHULUAN
1
BAB II
LANDASAN TEORI
2.2 META
META merupakan kependekan dari “ModErn Text Analysis” ini adalah
toolkit atau perangkat lunak open source (sumber terbuka) yang dikemas dalam
bentuk library C++ yang dapat digunakan secara gratis untuk berbagai
keperluan dalam pembuatan aplikasi yang berhubungan dengan Data Science
seperti Pengambilan teks (Text Retrieval), Mesin pencari (Search Engine),
Manajemen data teks (Text Data Management), Analisis data teks (Text Data
Analysis), dan Sistem informasi teks (Text Information Systems).
2
META menyediakan berbagai fitur dan fungsi yang dapat kita gunakan,
antara lain:
3
BAB III
PEMBAHASAN
4
baru, kemudian jalankan perintah berikut untuk mengunduh dependensi dan
perangkat lunak terkait yang diperlukan untuk membangun:
Kemudian, keluar dari shell dan jalankan shell "MinGW-w64 Win64". Baru
kemudian kita bisa mendapatkan toolkit dan mulai dengan:
# set up submodules
git submodule update --init --recursive
./unit-test --reporter=spec
5
inverted_index digunakan untuk membuat mesin pencari, atau
melakukan klasifikasi dengan knearest-neighbour atau algoritma
serupa.
Karena setiap aplikasi META mengambil indeks sebagai input, semua data
yang diproses dapat dipertukarkan di antara semua komponen. Ini juga
memberikan keuntungan besar untuk klasifikasi. META mendukung klasifikasi
out-of-core secara default! Jika set data cukup kecil (seperti asumsi kebanyakan
toolkit lain), cache dapat digunakan seperti no_ evict_cache untuk menyimpan
semuanya dalam memori tanpa mengorbankan kecepatan apa pun.
Tokenizer selalu didahulukan karena dia yang akan membagi konten string
dokumen menjadi token.
6
3.5 Toolkit Terkait (Related Toolkits)
Perangkat lunak yang mendukung manajemen teks dan analisis cenderung
terbagi dalam dua kategori. Yang pertama adalah toolkit mesin pencari, yang
sangat cocok untuk membangun aplikasi mesin pencari, tetapi cenderung
memiliki dukungan terbatas untuk analisis teks / fungsi penambangan.
Contohnya adalah sebagai berikut:
Lucene. https://lucene.apache.org/
Terrier. http://terrier.org/
Indri/Lemur. http://www.lemurproject.org/
Yang kedua adalah penambangan teks atau data mining umum dan toolkit
machine learning, yang cenderung secara selektif mendukung beberapa fungsi
analisis teks, tetapi umumnya tidak mendukung kemampuan pencarian.
Contohnya adalah sebagai berikut.
Weka. http://www.cs.waikato.ac.nz/ml/weka/
LIBSVM. https://www.csie.ntu.edu.tw/cjlin/libsvm/
Stanford NLP. http://nlp.stanford.edu/software/corenlp.shtml
Illinois NLP Curator.
http://cogcomp.cs.illinois.edu/page/software_view/Curator
ScikitLearn. http://scikit-learn.org/stable/
NLTK. http://www.nltk.org/
3.6 Aplikasi Mesin Pencari dan Pemeringkat (Search Engine and Rankers
Application)
Ini adalah salah satu contoh aplikasi berbasi web yang dibangun
menggunakan META. Aplikasi mesin pencari ini berada di atas artikel
Wikipedia dengan judul artikel sebagai metadata. Memilih ranker dari
dropdown di sebelah kiri bilah pencarian mengubah fungsi peringkat yang
digunakan untuk menilai setiap dokumen. Nomor di sebelah kanan setiap
dokumen adalah skor yang diberikan penyerang itu. Mengeklik tautan akan
7
membuka artikel Wikipedia terkait. Kode sumber dapat ditemukan online di
GitHub di organisasi perangkat MeTA.
Gambar 3.6
8
BAB IV
PENUTUP
4.1 Kesimpulan
Terdapat kekurangan integrasi yang mulus antara kemampuan
mesin pencari dengan berbagai fungsi analisis teks, yang diperlukan untuk
membangun sistem terpadu untuk mendukung pengelolaan dan analisis
teks. Filosofi desain utama META, yang juga membedakan META dari
toolkit yang ada, adalah penekanannya pada integrasi yang erat antara
kemampuan pencarian (kemampuan akses teks secara umum) dengan fungsi
analisis teks, yang memungkinkannya memberikan dukungan penuh untuk
membangun perangkat yang kuat. aplikasi analisis teks. Untuk
memfasilitasi pendidikan dan penelitian, META dirancang dengan
penekanan pada modularitas dan ekstensibilitas yang dicapai melalui desain
berorientasi objek.
META dapat digunakan bersama dengan toolkit yang ada dalam
berbagai cara. Misalnya, untuk aplikasi teks berskala sangat besar,
perangkat mesin pencari yang ada dapat digunakan untuk mendukung
pencarian, sedangkan META dapat digunakan untuk mendukung analisis
lebih lanjut dari hasil pencarian yang ditemukan atau subset data teks apa
pun yang diperoleh dari yang asli. Himpunan data. NLP toolkit dapat
digunakan untuk memproses data teks dan menghasilkan data teks
beranotasi untuk modul dalam META untuk digunakan sebagai input.
META juga dapat digunakan untuk menghasilkan representasi teks yang
akan dimasukkan ke dalam penambangan data atau perangkat machine
learning yang berbeda.
9
DAFTAR PUSTAKA
1. Massung S, Geigle C, Zhai C. MeTA: A Unified Toolkit for Text Retrieval and
Analysis. :6.
4. MeTA: ModErn Text Analysis : Search Engine and Rankers. Accessed January
15, 2021. https://meta-toolkit.org/search-demo.html
5. MeTA: ModErn Text Analysis : Setup Guide. Accessed January 15, 2021.
https://meta-toolkit.org/setup-guide.html#windows-build-guide
10