Anda di halaman 1dari 13

LAPORAN

META: A Unified Toolkit for Text Data


Management and Analysis

Disusun Oleh:

Alya Hafidzah Alzahra 18312200


Diky Indra Hermawanto 18312258
Ardi Wibowo 18312206

FAKULTAS TEKNIK DAN ILMU KOMPUTER


UNIVERSITAS TEKNOKRAT INDONESIA
BANDAR LAMPUNG
2021
KATA PENGANTAR

Puji syukur kehadirat Allah SWT yang telah memberikan rahmat dan
hidayah-Nya sehingga penulis dapat menyelesaikan tugas laporan yang berjudul
“META: A Unified Toolkit for Text Data Management and Analysis” ini tepat pada
waktunya.
Adapun tujuan dari penulisan dari laporan ini adalah untuk memenuhi ujian
akhir semeseter pada matakuliah Temu Kembali Informasi. Selain itu, laporan ini
juga bertujuan untuk menambah wawasan tentang META: A Unified Toolkit for
Text Data Management and Analysis bagi para pembaca dan juga bagi penulis.
Penulis mengucapkan banyak terima kasih kepada Bapak Zainal Abidin,
S.Si., M.T selaku dosen mata kuliah Temu Kembali Informasi. Yang telah
memberikan tugas laporan ini sehingga dapat menambah pengetahuan serta
wawasan sesuai dengan bidang studi yang penulis tekuni.
Penulis menyadari bahwa, laporan yang di tulis ini masih sangat jauh dari
kesempurnaan. Oleh karena itu, kritik dan saran dari pembaca akan sangat penulis
nantikan demi kesempurnaan laporan ini.

Bandar Lampung, 15 Januari 2021

Penulis

ii
DAFTAR ISI

JUDUL......................................................................................................................i

KATA PENGANTAR.............................................................................................ii

DAFTAR ISI...........................................................................................................iii

BAB I PENDAHULUAN.........................................................................................1

1.1 Latar Belakang..............................................................................................1

1.2 Rumusan Masalah.........................................................................................1

1.3 Tujuan Penulisan..........................................................................................1

BAB II LANDASAN TEORI...................................................................................2

2.1 Manajemen dan Analisis Data Teks.............................................................2

2.2 META...........................................................................................................2

BAB III PEMBAHASAN.........................................................................................4

3.1 Filosofi desain (Design Philosophy).............................................................4

3.2 Menyiapkan META (Setting up META)......................................................4

3.3 Arsitektur (Architecture)..............................................................................5

3.4 Tokenisasi dengan META (Tokenization with META)................................6

3.5 Toolkit Terkait (Related Toolkits)................................................................7

3.6 Aplikasi Mesin Pencari dan Pemeringkat (Search Engine and Rankers
Application)........................................................................................................7

BAB IV PENUTUP..................................................................................................9

4.1 Kesimpulan...................................................................................................9

DAFTAR PUSTAKA.............................................................................................10

iii
BAB I

PENDAHULUAN

1.1 Latar Belakang


Informasi adalah salah satu sumber daya terpenting saat ini. Setiap hari
informasi berupa teks tidak terstruktur dan terstruktur dihasilkan dari berbagai
sumber seperti hasil survei, tweet, catatan call center, transkrip telepon, review
pelanggan online, rekaman interaksi, email, dan dokumen lainnya. Sumber-
sumber ini menyediakan teks mentah, yang tidak mudah dipahami tanpa
menggunakan alat analisis teks yang tepat. Analisis teks dapat dilakukan secara
manual, tetapi proses manual tidak efektif.
Sistem tradisional menggunakan kata kunci dan tidak dapat membaca dan
memahami bahasa di email, tweet, halaman web, dan dokumen teks. Karena
alasan ini, kita dapat menggunakan META sebagai perangkat lunak analitik teks
untuk menganalisis data teks dalam jumlah besar. Perangkat lunak ini
membantu pengguna untuk mendapatkan wawasan dari data teks, melakukan
klasifikasi prediktif, dan mengindeks pencarian dengan informasi yang
diekstrak.

1.2 Rumusan Masalah


Rumusan masalah berdasarkan latar belakang makalah ini antara lain,
sebagai berikut:

 Apa itu manajemen dan analisis data teks ?


 Apa itu META ?

1.3 Tujuan Penulisan


Tujuan penulisan makalah ini antara lain, sebagai berikut:

 Untuk memahami manajemen dan analisis data teks.


 Untuk mengetahui META.

1
BAB II

LANDASAN TEORI

2.1 Manajemen dan Analisis Data Teks


Manajemen dan Analisis Data Teks adalah proses yang dilakukan secara
otomatis untuk mengklasifikasikan dan mengekstrak informasi bermakna dari
teks tidak terstruktur. Ini melibatkan pendeteksian dan interpretasi tren dan pola
untuk mendapatkan wawasan yang relevan dari data hanya dalam hitungan
detik.
Misalkan sebuah perusahaan perlu menganalisis ratusan ulasan online untuk
mempelajari tentang hal-hal yang disukai atau tidak disukai klien tentang
produk perusahaan tersebut. Membaca setiap review secara manual akan
memakan waktu dan sangat tidak efektif. Namun, analisis teks dapat membantu
perusahaan tersebut menandai ulasan secara otomatis sesuai dengan topiknya
(analisis topik) dan mengklasifikasikan setiap opini sebagai positif, negatif, atau
netral (analisis sentimen), menghemat jam kerja yang berharga dan memastikan
kriteria yang konsisten diterapkan ke semua data.
Untuk memahami cara kerja Manajemen dan Analisis Data Teks, penting
untuk menyebutkan Pemrosesan Bahasa Alami (NLP), ini merupakan
subbidang Artificial Intelligence yang membantu komputer memahami cara
kita berkomunikasi.

2.2 META
META merupakan kependekan dari “ModErn Text Analysis” ini adalah
toolkit atau perangkat lunak open source (sumber terbuka) yang dikemas dalam
bentuk library C++ yang dapat digunakan secara gratis untuk berbagai
keperluan dalam pembuatan aplikasi yang berhubungan dengan Data Science
seperti Pengambilan teks (Text Retrieval), Mesin pencari (Search Engine),
Manajemen data teks (Text Data Management), Analisis data teks (Text Data
Analysis), dan Sistem informasi teks (Text Information Systems).

2
META menyediakan berbagai fitur dan fungsi yang dapat kita gunakan,
antara lain:

 Tokenisasi teks dan fitur semantik.


 Pengindeksan (inverted indeks dan forward indeks) dengan berbagai
strategi caching.
 Kumpulan fungsi peringkat untuk mencari indeks.
 Model topik.
 Algoritma klasifikasi.
 Algoritma grafik.
 Model bahasa.
 Implementasi crf (penandaan pos, penguraian dangkal).
 Wrappers untuk liblinear dan libsvm (termasuk parser set data libsvm).
 Dukungan utf8 untuk analisis pada berbagai bahasa.
 Algoritma multithread.

3
BAB III

PEMBAHASAN

3.1 Filosofi desain (Design Philosophy)


Filosofi desain perangkat lunak MeTA adalah untuk memfasilitasi
pendidikan dan eksperimen penelitian dengan berbagai algoritma. Perangkat
lunak ini penekanannya ada pada modularitas dan ekstensibilitas yang dicapai
melalui desain berorientasi objek. Ini memungkinkan konfigurasi yang fleksibel
dari subset modul yang dipilih sehingga memudahkan untuk merancang tugas
kursus atau bereksperimen dengan beberapa algoritma yang dipilih sesuai
kebutuhan dalam proyek penelitian terfokus. Misalnya, telah berhasil
digunakan dalam Massive Open Online Courses (MOOC) tentang Pengambilan
Teks dan Mesin Pencari di mana lebih dari seribu pelajar Coursera telah
menggunakan toolkit untuk menyelesaikan tugas pemrograman yang besar. Ini
akan digunakan lagi untuk mendukung tugas pemrograman untuk Massive
Open Online Courses (MOOC) mendatang lainnya tentang Penambangan Teks
dan Analisis .

3.2 Menyiapkan META (Setting up META)


META memiliki situs web dengan tutorial dan repositori online di GitHub.
Situs web META berisi instruksi untuk mengunduh dan mengatur perangkat
lunak untuk konfigurasi sistem tertentu.
MeTA dapat dibangun di Windows menggunakan toolchain MinGW-w64
dengan gcc. Namun sangat disarankan menggunakan MSYS2 karena ini
membuat pengambilan kompiler dan library terkait jauh lebih mudah. Kita
dapat mengunjungi https://meta-toolkit.org/setup-guide.html dan mengikuti
instruksi untuk instalasi pada platform yang diinginkan.
Untuk memulai, unduh installer MSYS2 dari situs web
https://www.msys2.org/ dan ikuti petunjuk di halaman tersebut. Setelah
terpasang, kita harus menggunakan MinGW shell untuk memulai terminal

4
baru, kemudian jalankan perintah berikut untuk mengunduh dependensi dan
perangkat lunak terkait yang diperlukan untuk membangun:

pacman -Syu git make patch mingw-w64-x86_64-{gcc,cmake,icu,jemalloc,zlib} --force

Kemudian, keluar dari shell dan jalankan shell "MinGW-w64 Win64". Baru
kemudian kita bisa mendapatkan toolkit dan mulai dengan:

# clone the project


git clone https://github.com/meta-toolkit/meta.git
cd meta

# set up submodules
git submodule update --init --recursive

# set up a build directory


mkdir build
cp ../config.toml
cd build

# configure and build the project


cmake .. -G "MSYS Makefiles" -DCMAKE_BUILD_TYPE=Release
make

Sekarang kita dapat menguji sistem dengan menjalankan perintah berikut:

./unit-test --reporter=spec

3.3 Arsitektur (Architecture)


Semua data yang diproses di META disimpan dalam indeks. Ada dua jenis
indeks: forward_index dan inverted_index. Yang pertama dikunci oleh ID
dokumen, dan yang kedua dikunci oleh ID istilah.

 forward_index digunakan untuk aplikasi seperti pemodelan topik dan


sebagian besar tugas klasifikasi.

5
 inverted_index digunakan untuk membuat mesin pencari, atau
melakukan klasifikasi dengan knearest-neighbour atau algoritma
serupa.

Karena setiap aplikasi META mengambil indeks sebagai input, semua data
yang diproses dapat dipertukarkan di antara semua komponen. Ini juga
memberikan keuntungan besar untuk klasifikasi. META mendukung klasifikasi
out-of-core secara default! Jika set data cukup kecil (seperti asumsi kebanyakan
toolkit lain), cache dapat digunakan seperti no_ evict_cache untuk menyimpan
semuanya dalam memori tanpa mengorbankan kecepatan apa pun.

3.4 Tokenisasi dengan META (Tokenization with META)


Langkah pertama dalam membuat indeks atas segala jenis data teks adalah
proses "tokenisasi". Pada tingkat tinggi, ini berarti mengonversi dokumen teks
individual menjadi vektor jumlah suku yang jarang. Vektor renggang ini
kemudian biasanya digunakan oleh pengindeks untuk mengeluarkan
inverted_index di atas korpus.
META menyusun proses analisis teks ini menjadi beberapa lapisan untuk
memberi pengguna kendali sebanyak mungkin untuk menganalisis data teks.
Penganalisis, dalam banyak kasus, akan mengambil "filter chain" yang
digunakan untuk menghasilkan token akhir untuk proses tokenisasinya: rantai
filter selalu didefinisikan sebagai kelas tokenizer khusus diikuti dengan urutan
nol atau lebih kelas filter, masing-masing yang dibaca dari keluaran kelas
sebelumnya. Misalnya, berikut adalah filter chain sederhana yang menurunkan
huruf besar semua token dan hanya menyimpan token dengan rentang panjang
tertentu:

icu_tokenizer → lowercase_filter → length_filter

Tokenizer selalu didahulukan karena dia yang akan membagi konten string
dokumen menjadi token.

6
3.5 Toolkit Terkait (Related Toolkits)
Perangkat lunak yang mendukung manajemen teks dan analisis cenderung
terbagi dalam dua kategori. Yang pertama adalah toolkit mesin pencari, yang
sangat cocok untuk membangun aplikasi mesin pencari, tetapi cenderung
memiliki dukungan terbatas untuk analisis teks / fungsi penambangan.
Contohnya adalah sebagai berikut:

 Lucene. https://lucene.apache.org/
 Terrier. http://terrier.org/
 Indri/Lemur. http://www.lemurproject.org/

Yang kedua adalah penambangan teks atau data mining umum dan toolkit
machine learning, yang cenderung secara selektif mendukung beberapa fungsi
analisis teks, tetapi umumnya tidak mendukung kemampuan pencarian.
Contohnya adalah sebagai berikut.

 Weka. http://www.cs.waikato.ac.nz/ml/weka/
 LIBSVM. https://www.csie.ntu.edu.tw/cjlin/libsvm/
 Stanford NLP. http://nlp.stanford.edu/software/corenlp.shtml
 Illinois NLP Curator.
http://cogcomp.cs.illinois.edu/page/software_view/Curator
 ScikitLearn. http://scikit-learn.org/stable/
 NLTK. http://www.nltk.org/

3.6 Aplikasi Mesin Pencari dan Pemeringkat (Search Engine and Rankers
Application)
Ini adalah salah satu contoh aplikasi berbasi web yang dibangun
menggunakan META. Aplikasi mesin pencari ini berada di atas artikel
Wikipedia dengan judul artikel sebagai metadata. Memilih ranker dari
dropdown di sebelah kiri bilah pencarian mengubah fungsi peringkat yang
digunakan untuk menilai setiap dokumen. Nomor di sebelah kanan setiap
dokumen adalah skor yang diberikan penyerang itu. Mengeklik tautan akan

7
membuka artikel Wikipedia terkait. Kode sumber dapat ditemukan online di
GitHub di organisasi perangkat MeTA.

Gambar 3.6

8
BAB IV

PENUTUP

4.1 Kesimpulan
Terdapat kekurangan integrasi yang mulus antara kemampuan
mesin pencari dengan berbagai fungsi analisis teks, yang diperlukan untuk
membangun sistem terpadu untuk mendukung pengelolaan dan analisis
teks. Filosofi desain utama META, yang juga membedakan META dari
toolkit yang ada, adalah penekanannya pada integrasi yang erat antara
kemampuan pencarian (kemampuan akses teks secara umum) dengan fungsi
analisis teks, yang memungkinkannya memberikan dukungan penuh untuk
membangun perangkat yang kuat. aplikasi analisis teks. Untuk
memfasilitasi pendidikan dan penelitian, META dirancang dengan
penekanan pada modularitas dan ekstensibilitas yang dicapai melalui desain
berorientasi objek.
META dapat digunakan bersama dengan toolkit yang ada dalam
berbagai cara. Misalnya, untuk aplikasi teks berskala sangat besar,
perangkat mesin pencari yang ada dapat digunakan untuk mendukung
pencarian, sedangkan META dapat digunakan untuk mendukung analisis
lebih lanjut dari hasil pencarian yang ditemukan atau subset data teks apa
pun yang diperoleh dari yang asli. Himpunan data. NLP toolkit dapat
digunakan untuk memproses data teks dan menghasilkan data teks
beranotasi untuk modul dalam META untuk digunakan sebagai input.
META juga dapat digunakan untuk menghasilkan representasi teks yang
akan dimasukkan ke dalam penambangan data atau perangkat machine
learning yang berbeda.

9
DAFTAR PUSTAKA

1. Massung S, Geigle C, Zhai C. MeTA: A Unified Toolkit for Text Retrieval and
Analysis. :6.

2. Zhai C, Massung S. Text Data Management and Analysis: A Practical


Introduction to Information Retrieval and Text Mining. ACM; 2016.
doi:10.1145/2915031

3. MeTA: ModErn Text Analysis : MeTA. Accessed January 15, 2021.


https://meta-toolkit.org/

4. MeTA: ModErn Text Analysis : Search Engine and Rankers. Accessed January
15, 2021. https://meta-toolkit.org/search-demo.html

5. MeTA: ModErn Text Analysis : Setup Guide. Accessed January 15, 2021.
https://meta-toolkit.org/setup-guide.html#windows-build-guide

6. Meta-Toolkit/Meta. meta-toolkit; 2021. Accessed January 15, 2021.


https://github.com/meta-toolkit/meta

10

Anda mungkin juga menyukai