ABSTRAK
Volume dan variasi permintaan data besar untuk meningkatkan kemampuan komputasi
sistem IE ini. Penting untuk memahami kompetensi dan keterbatasan teknik IE yang ada
terkait dengan pra-pemrosesan data, ekstraksi dan transformasi data, serta representasi
untuk data multidimensi tidak terstruktur dalam jumlah besar. Kata Kunci: Big data,
Ekstraksi Informasi (IE), Tinjauan Pustaka, Teknik Berbasis Pembelajaran, Data
Multimedia, Data Tidak Terstruktur Proses ekstraksi informasi (IE) digunakan untuk
mengekstraksi informasi berguna dari data tidak terstruktur atau semi terstruktur. Data
besar menimbulkan tantangan baru bagi teknik IE dengan pesatnya pertumbuhan
multifaset yang juga disebut data tidak terstruktur multidimensi. Sistem IE tradisional
tidak efisien dalam menangani banyaknya data besar yang tidak terstruktur. Sejumlah
penelitian telah dilakukan pada IE, mengatasi tantangan dan permasalahan untuk
berbagai tipe data seperti teks, gambar, audio dan video. Pekerjaan penelitian
konsolidasi yang sangat terbatas telah dilakukan untuk menyelidiki keterbatasan IE yang
bergantung pada tugas dan tidak bergantung pada tugas yang mencakup semua tipe
data dalam satu studi. Penelitian ini mengatasi keterbatasan ini dan menyajikan
tinjauan literatur sistematis mengenai teknik canggih untuk berbagai data besar, yang
menggabungkan semua jenis data. Tantangan-tantangan IE terkini juga diidentifikasi dan
dirangkum. Solusi potensial diusulkan untuk memberikan arahan penelitian masa depan
dalam big data IE. Penelitian ini penting dalam kaitannya dengan tren dan tantangan
terkini terkait analisis big data. Hasil penelitian dan rekomendasi akan membantu
meningkatkan analisis big data dengan menjadikannya lebih produktif.
Kata kunci: Big data, Ekstraksi Informasi (IE), Tinjauan Pustaka, Teknik Berbasis
Pembelajaran, Data Multimedia, Data Tidak Terstruktur
PENDAHULUAN
Kemajuan teknologi mendorong pesatnya pertumbuhan volume data dalam
beberapa tahun terakhir. Volume, variasi (data terstruktur, tidak terstruktur, dan semi
terstruktur) dan kecepatan big data juga telah mengubah paradigma kemampuan
komputasi sistem. Data tidak terstruktur pada sebuah big data terdiri dari berbagai macam
kategori yaitu data tekstual dan non-tekstual. Data tekstual adalah data-data formatnya berupa
teks seperti dokumen sedangkan data non-tekstual adalah data yang formatnya tidak berupa teks
seperti data berupa audio, gambar, maupun video. Karena besarnya volume dan kompleksitas
data yang tidak terstruktur, maka dibutukan proses ekstrasi informasi dalam sebuah big data
1
Universitas Negeri Sriwijaya – Sistem Komputer 2023
agar mendapat informasi atau pengetahuan baru dari Kumpulan big data yang tidak terstruktur.
Di dalam paper ini akan dijelaskan berbagai jenis-jenis informasi yang dapat di ekstrasi pada
sebuah big data yang tidak terstruktur.
PEMBAHASAN
1. Pengertian Ekstrasi Informasi
Proses ekstraksi informasi (IE) adalah proses mengekstrak informasi terstruktur yang
berguna dari data yang tidak terstruktur dalam bentuk entitas, relasi, objek, peristiwa, dan
banyak jenis lainnya. Informasi yang diekstrak dari data tidak terstruktur digunakan untuk
menyiapkan data untuk dianalisis. Oleh karena itu, transformasi yang efisien dan akurat dari
data yang tidak terstruktur dalam proses IE akan meningkatkan analisis data. Berbagai teknik
telah diperkenalkan untuk berbagai jenis data yaitu teks, gambar, audio, dan video.
2
Universitas Negeri Sriwijaya – Sistem Komputer 2023
lisan atau tertulis. Pemrosesan Bahasa Alami digunakan untuk memahami dan mengekstrak
data dalam bahasa manusia, baik lisan maupun tertulis. Salah satu tugas penting dalam NLP
adalah ekstraksi informasi, yang merupakan proses mengambil informasi yang terstruktur
dari data teks yang tidak terstruktur. Ekstraksi informasi bertujuan untuk mengidentifikasi
entitas dan hubungan di antara entitas tersebut dalam teks. Hal ini dapat membantu dalam
mengisi basis pengetahuan dengan informasi yang berguna. Teknik ekstraksi informasi
digunakan untuk menganalisis teks dalam bentuk bebas dan menghasilkan informasi yang
relevan dan terstruktur. Melalui teknik ini, tujuan akhirnya adalah mengidentifikasi fakta-
fakta penting dalam teks untuk digunakan dalam basis data atau pengetahuan.
2.1.1. Named entity recognition (NER)
NER adalah salah satu tugas penting dari sistem IE yang digunakan untuk
mengekstrak entitas deskriptif. Hal ini membantu untuk mengidentifikasi entitas
generik atau entitas yang tidak bergantung pada domain seperti lokasi, orang, dan
organisasi, dan entitas yang bergantung pada domain seperti penyakit, obat, bahan
kimia, protein, dll. Dalam proses ini, entitas diidentifikasi dan diklasifikasikan secara
semantik ke dalam kelas-kelas yang telah dikarakterisasi sebelumnya. Sistem NER
tradisional menggunakan Metode Berbasis Aturan (RBM), Metode Berbasis
Pembelajaran (LBM) atau pendekatan hibrida. NER bersama dengan NLP memainkan
peran penting dalam pemodelan bahasa dan NER kontekstual menggunakan analisis
morfologi, sintaksis, fonetik, dan semantik bahasa. Penjawaban pertanyaan,
penerjemahan mesin, peringkasan teks otomatis, penggalian teks, pencarian informasi,
penggalian opini, dan populasi basis pengetahuan merupakan aplikasi utama NER. Oleh
karena itu, efisiensi dan akurasi yang lebih tinggi dari sistem NER ini sangat penting,
tetapi data besar membawa tantangan baru pada sistem ini, yaitu volume, variasi, dan
kecepatan.
Ekstraksi entitas pada kumpulan kalimat merupakan upaya untuk mendeteksi
dan mengklasifikasi entitas seperti nama orang, organisasi, tempat, dan waktu. Hal ini
sering disebut dengan istilah Named Entity Recognition (NER). NER tidak hanya
bertindak sebagai alat untuk ekstraksi informasi, namun juga memainkan peran penting
dalam berbagai natural language processing (NLP) seperti text understanding,
information retrieval, automatic text summerization, machine translation, dan
knowledge base construction. Terdapat empat pendekatan utama yang diterapkan dalam
NER yaitu Pendekatan rule-based, yang tidak membutuhkan data beranotasi karena
mengandalkan aturan buatan, Pendekatan unsupervied learning, Pendekatan feature-
3
Universitas Negeri Sriwijaya – Sistem Komputer 2023
Sistem rule-based NER mengandalkan aturan buatan. Kim & Woodland, 2000
mengusulkan untuk menggunakan pendekatan Brill rule inference untuk masukan
speech. Performa rule-based dibandingkan dengan IdentiFinder yang merupakan salah
satu sistem stokastik paling sukses. Kedua teknik ini menunjukkan kinerja yang hampir
sama, begitu juga dalam hal informasi tambahan seperti tanda baca, penggunaan huruf
besar, dan daftar nama. Penelitian ini menghasilkan inferensi aturan otomatis
merupakan alternatif yang layak untuk pendekatan berbasis HMM dalam named entity
recognition, namun tetap mempertahankan keuntungan dari pendekatan rule-based.
Hanisch (Hanisch et al., 2005) mengusulkan ProMiner yang memanfaatkan kamus
sinonim pra-proses untuk mengidentifikasi penyebutan protein dan gen potensial dalam
teks biomedis. Berdasarkan semua sinonim yang terdeteksi untuk satu abstrak, pengenal
database yang paling masuk akal dikaitkan dengan teks. Hasilnya dalam prediksi buta,
sistem mencapai F-measure sekitar 0,8 untuk organisme tikus dan lalat serta 0,9 untuk
organisme ragi.
Pendekatan khas dari unsupervised learning adalah clustering atau
pengelompokan. Sistem NER berbasis pengelompokan mengekstrak entitas bernama
dari kelompok yang dikelompokkan berdasarkan kesamaan konteks. Collins (Collins &
Singer, 1999) mengamati bahwa penggunaan data yang tidak berlabel mengurangi
persyaratan pengawasan menjadi hanya 7 aturan sederhana. Pendekatan ini memperoleh
pengaruh dari redundansi alami dalam data, untuk banyak contoh entitas bernama baik
ejaan nama dan konteks yang muncul cukup untuk menentukan jenisnya. Demikian
pula KNOWITALL (Etzioni et al., 2005) yang memanfaatkan satu set nama predikat
sebagai input dan memproses pengenalannya dari sekumpulan kecil pola ekstraksi
generik. Penelitian ini menyajikan tiga cara berbeda untuk mengatasi tantangan dan
mengevaluasi kinerjanya dengan perolehan peningkatan 4 kali lipat menjadi 8 kali lipat
dengan presisi 0,90 dan menemukan lebih dari 10.000 kota yang hilang.
Pada supervised learning, NER diterapkan ke multi-class classification atau
tugas sequence labeling. Dengan sampel data beranotasi, fitur dirancang dengan cermat
untuk mewakili setiap contoh pelatihan. Algoritma pembelajaran mesin kemudian
4
Universitas Negeri Sriwijaya – Sistem Komputer 2023
digunakan untuk mempelajari model guna mengenali pola sepura dari data yang tidak
terlihat. Feature engineering merupakan hal yang sangat penting dalam sistem
supervised NER. Representasi feature vector merupakan abstraksi atas teks di mana
sebuah kata diwakili oleh satu atau banyak nilai boolean, numerik, atau nominal. Fitur
tingkat kata, fitur pencarian daftar, dan fitur corpus telah banyak digunakan dalam
supervised NER. Berdasarkan fitur-fitur ini, banyak algoritma pembelajaran mesin yang
telah diterapkan dalam supervised NER, termasuk Hidden Markov Model (HMM),
Decision Threes, Maximum Entropy Model, Support Vector Machine, dan Contitional
Random Fields (CRF)
5
Universitas Negeri Sriwijaya – Sistem Komputer 2023
6
Universitas Negeri Sriwijaya – Sistem Komputer 2023
pengenalan konteks atau interaksi adalah tugas utama deteksi hubungan visual
dalam pemahaman gambar. Dalam klasifikasi dan deteksi objek, objek dikenali
berdasarkan penampilannya, dan label kelasnya memiliki hubungan yang jelas. Solusi
berbasis CNN dalam klasifikasi objek seperti VGG dan ResNet telah mencapai kinerja
yang sangat baik. Selain itu, Faster R-CNN dan R-CNN telah mencapai kesuksesan
besar dalam pembelajaran mendalam. Terdapat beberapa tantangan dalam deteksi
hubungan visual, termasuk variasi dalam kategori predikat yang sama, distribusi dengan
ekor panjang (triple yang jarang muncul), dan tumpang tindih antar kelas. Pengenalan
hubungan yang jarang muncul diatasi dengan memperkenalkan vektor spasial.
Tantangan distribusi ekor panjang menyebabkan kesulitan dalam mengumpulkan citra
pelatihan yang cukup untuk semua hubungan. Untuk mengatasi masalah ini,
pengetahuan linguistik dapat digunakan untuk memperbaiki kinerja model. Teknik
pembelajaran mendalam seperti CNN, RCNN, dan reinforcement learning telah terbukti
efektif dalam ekstraksi informasi dari gambar yang besar dan tidak terstruktur. CNN,
RCNN, dan pembelajaran penguatan mencapai hasil yang lebih baik dalam recall.
Selain itu, Faster-RCNN dan R-CNN telah mencapai prestasi yang luar biasa dalam
deteksi objek. Penggunaan pengetahuan linguistik juga dapat meningkatkan kinerja
deteksi hubungan. Tantangan yang berkaitan dengan volume, variasi, dan kecepatan
data besar belum sepenuhnya diatasi dalam teknik deteksi hubungan visual.
2.2.2. Text Recognition (Pengenalan Teks)
Pengenalan teks adalah proses ekstraksi informasi dari konten teks dalam
gambar. Teks dalam gambar dan video memberikan informasi tambahan tentang konten
visual, yang dapat meningkatkan efisiensi dalam pencarian berbasis kata kunci,
pengindeksan, pengambilan informasi, dan pembuatan teks gambar otomatis. Sistem
pengenalan informasi teks (TIE) bertugas mendeteksi, melokalisasi, dan mengenali teks
dalam data visual, seperti gambar dan video. Konten visual dapat dibagi menjadi dua
kategori utama, yaitu konten perseptual dan konten semantik. Konten perseptual
mencakup fitur seperti warna, bentuk, tekstur, dan atribut temporal, sementara konten
semantik berkaitan dengan identifikasi dan pengenalan objek, entitas, dan peristiwa.
Sistem TIE mengikuti serangkaian tahap, mulai dari deteksi, lokalisasi, pelacakan,
hingga ekstraksi atau peningkatan, untuk mendeteksi dan mengidentifikasi teks dalam
data visual. Tugas pengenalan teks seringkali terkait dengan pendekatan Optical
Character Recognition (OCR) untuk mengenali karakter dalam gambar atau dokumen
yang dipindai. Misalnya, dalam konteks mengekstrak informasi dari dokumen
7
Universitas Negeri Sriwijaya – Sistem Komputer 2023
8
Universitas Negeri Sriwijaya – Sistem Komputer 2023
pengenalan wajah bergantung pada seperangkat fitur wajah yang berbeda untuk wajah
yang dikenal dan wajah yang tidak dikenal. Fitur-fitur ini dikelompokkan ke dalam fitur
internal dan eksternal masing-masing. Berbagai teknik telah diusulkan untuk
pengenalan wajah dalam berbagai dataset, tetapi teknik-teknik tradisional ini tidak
memadai untuk mengatasi dataset besar secara efisien. Pengenalan wajah dalam gambar
berkualitas rendah, seperti gambar buram dan beresolusi rendah, dapat merusak
kinerjanya. Representasi sparse dan metode deep learning yang dikombinasikan dengan
fitur buatan tangan lebih unggul dalam kasus gambar berkualitas rendah. Teknik
pengenalan wajah harus mampu mengenali wajah-wajah dengan ekspresi wajah dan
posisi yang berbeda dalam berbagai kondisi pencahayaan. Berbagai solusi berbasis deep
learning telah diusulkan untuk mengatasi keterbatasan teknik tradisional.
Teknik pengenalan wajah Deep CNN tanpa perlu melakukan rekayasa fitur
ekstensif mengurangi upaya pemilihan fitur yang paling sesuai. Teknik pengenalan
wajah Deep CNN dievaluasi pada basis data wajah UJ dengan 50 gambar, dan hasilnya
menunjukkan akurasi validasi dari 22% meningkat menjadi 80% setelah 10 epok dan
100% setelah 80 iterasi. Namun, ada beberapa keterbatasan yang terkait dengan solusi
ini, seperti overfitting dan dataset yang sangat kecil. Untuk mengurangi overfitting,
diperlukan aplikasi metode berhenti lebih awal. Arsitektur VGG-face dan arsitektur
VGG-face yang dimodifikasi dengan 5 lapisan konvolusi, 3 lapisan pooling, 3 lapisan
fully connected, dan lapisan softmax dievaluasi menggunakan lima dataset gambar yang
berbeda, yaitu basis data wajah ORL dengan 400 gambar, basis data wajah yale dengan
165 gambar, basis data wajah yale-B yang dipotong dengan 2470 gambar, faces 94,
Feret dengan 11.338 gambar, dan CVL face db. Untuk semua dataset, pendekatan yang
diusulkan memberikan hasil yang lebih baik dibandingkan dengan metode tradisional.
Meskipun teknik yang diusulkan mengungguli lima dataset yang berbeda, namun
dataset tersebut tidak kompleks dan berukuran besar. Teknik pengenalan wajah berbasis
deep learning seperti jaringan konvolusi dalam (deep convolutional network) atau
VGG-face dan lightened CNN memiliki kemampuan untuk mengatasi sejumlah besar
dataset yang beragam. Representasi wajah berbasis deep learning lebih kuat dalam
mengatasi gambar yang tidak selaras. Jaringan konvolusi dalam (deep CNN) dapat
memberikan kinerja yang lebih baik dalam mengenali objek dari data yang hanya
sebagian terlihat, tetapi perbaikan gambar penting dalam deep CNN sebelum operasi
konvolusi untuk gambar berkualitas rendah. Meskipun teknik deep learning memiliki
kemampuan untuk meningkatkan kinerja pengenalan wajah, ada pula tantangan yang
9
Universitas Negeri Sriwijaya – Sistem Komputer 2023
terkait dengan teknik deep learning yang harus dipertimbangkan sebelumnya. Kualitas
gambar, data yang hilang dalam gambar, dan noise harus diatasi karena faktor-faktor ini
dapat merusak kinerja teknik pengenalan wajah berbasis deep learning. Pengenalan
wajah dengan ekspresi wajah yang berbeda, pencahayaan yang berbeda, dan
penggunaan aksesori dapat menyebabkan sebagian wajah terhalang. Deteksi sebagian
occlusion ini memerlukan arsitektur deep learning yang optimal dan hiperparameter
yang baru untuk mengatasi tantangan ini. Namun, pemilihan teknik yang sesuai sangat
bergantung pada ukuran dan kualitas data. Selanjutnya, solusi yang lebih kuat dan
optimal diperlukan untuk dataset besar dengan akurasi tinggi dan laten rendah.
2.3. IE dalam Audio
Perusahaan seperti pusat panggilan dan file musik adalah sumber utama yang
menghasilkan data audio dalam jumlah besar. Berbagai jenis informasi dapat
diekstraksi dari data ini untuk membantu analisis prediktif dan deskriptif. Subtugas IE
dari data audio diklasifikasikan sebagai deteksi peristiwa akustik dan pengenalan
ucapan otomatis.
2.3.1. Acoustic event detection (Deteksi Peristiwa Akustik)
Pengekstrakan peristiwa suara atau ekstraksi peristiwa akustik adalah bidang
yang sedang berkembang yang bertujuan untuk memproses sinyal akustik kontinu,
mengubahnya menjadi deskripsi simbolis. Aplikasi dari deteksi peristiwa suara otomatis
adalah indeks dan pencarian multimedia, pengenalan pola, pengawasan, dan aplikasi
pemantauan lainnya. Representasi simbolis dari peristiwa suara ini digunakan dalam
tagging otomatis dan segmentasi. Suara-suara ini berasal dari berbagai sumber dan
mengandung peristiwa yang tumpang tindih dan latar belakang berisik. Selain itu,
akurasi parametrik dari model pelatihan pada data pelatihan yang terbatas juga sulit
dicapai. kelangkaan data dan overfitting adalah keterbatasan umum dari solusi deteksi
peristiwa akustik. Dalam hal ini, augmentasi data yang dimodifikasi mencapai hasil
yang lebih baik karena modifikasi dalam karakteristik frekuensi dengan rentang
frekuensi tertentu. Pengenalan konteks adalah salah satu solusi untuk mengatasi
masalah tumpang tindih dan meningkatkan akurasi deteksi peristiwa akustik, tetapi
mengidentifikasi peristiwa suara konteks tertentu adalah salah satu tantangan kritis
untuk deteksi peristiwa akustik. Menambahkan bahasa atau pengetahuan sebelumnya
dapat membantu dalam mengekstrak peristiwa suara konteks.
2.3.2. Automatic speech recognition (ASR)
10
Universitas Negeri Sriwijaya – Sistem Komputer 2023
1
1
Universitas Negeri Sriwijaya – Sistem Komputer 2023
kontras rendah, kompleksitas latar belakang, ukuran font, orientasi, jenis, dan bahasa
yang berbeda. Selain itu, bingkai video berkualitas rendah, bingkai buram, dan waktu
komputasi yang tinggi adalah tantangan khusus terkait proses ekstraksi teks dari video.
Pipa deteksi dan ekstraksi teks terdiri dari tahap deteksi teks, lokalasi teks, pelacakan
teks, binarisasi teks, dan pengenalan teks. Dalam konteks teknik IE (ekstraksi
informasi), tinjauan ini hanya menyajikan teknik terkini untuk pengenalan teks.
Algoritma yang lebih tangguh diperlukan untuk mengenali berbagai jenis teks latar dan
buatan dari video berkualitas rendah serta memiliki kemampuan untuk mengatasi
kinerja ruang dan kecepatan di bidang ini.
2.4.2. Automatic video summarization (Ringkasan Video Otomatis)
Automatic video summarization (Ringkasan Video Otomatis) adalah proses
membuat ringkasan video. Alat otomatis sangat penting untuk menganalisis dan
memahami konten visual. Orang-orang menghasilkan volume besar video
menggunakan ponsel, kamera wearable, dan Google Glass, dll. Beberapa contoh
pertumbuhan pesat ini adalah: 144.000 jam video diunggah setiap hari di YouTube,
lifeloggers menghasilkan video berukuran gigabyte menggunakan kamera wearable,
422.000 kamera CCTV menghasilkan video 24/7 di London. Pertumbuhan pesat data
video setiap hari menyoroti kebutuhan untuk mengembangkan algoritma ringkasan
video otomatis yang cepat dan efisien. AVS (Automatic Video Summarization) memiliki
banyak aplikasi dalam kehidupan nyata seperti pengawasan, media sosial, pemantauan,
dll. Ini menyediakan ringkasan konten video dalam bentuk tayangan singkat yang
mempresentasikan video pendek dari konten semantik video asli yang panjang, dikenal
sebagai ringkasan berbasis tayangan atau ringkasan video dinamis. Yang kedua adalah
ringkasan video berbasis key frame, juga dikenal sebagai ringkasan video statis, di
mana frame dan fitur audio-visual diekstraksi. Memilih frame atau subshot yang paling
relevan atau penting dari video untuk ringkasan video adalah tugas yang kritis.
Beberapa teknik yang diawasi, tidak diawasi, dan lainnya diperkenalkan dalam literatur
visi komputer dan multimedia. Kriteria pemilihan dan prioritas untuk frame dan
tayangan dirancang secara manual dalam pendekatan tidak diawasi, sedangkan teknik
yang diawasi memanfaatkan ringkasan yang dibuat oleh pengguna untuk pembelajaran.
Setiap teknik memiliki sifat yang berbeda untuk representasi, keragaman, dan
ketertarikan. Baru-baru ini, teknik yang diawasi mencapai hasil yang menjanjikan
dibandingkan dengan teknik tidak diawasi tradisional. Kualitas buruk, misalnya gerakan
kamera yang erratic, pencahayaan yang bervariasi, dll., dan kekurangan konten, yaitu
12
Universitas Negeri Sriwijaya – Sistem Komputer 2023
kesulitan dalam menemukan frame yang representatif, adalah dua tantangan penting
untuk AVS dengan video yang dihasilkan pengguna. Meskipun ada keterbatasan teknik
yang tidak diawasi, modifikasi seperti menggabungkan informasi sebelumnya tentang
kategori, pemilihan fitur yang dalam daripada fitur dangkal telah disajikan. Namun,
sistem-sistem ini tidak mampu menunjukkan perbaikan yang menjanjikan. Selain itu,
sulit untuk mendefinisikan kriteria bersama yang dioptimalkan untuk pemilihan frame
karena kompleksitas pemilihan frame di antara sejumlah besar subset yang mungkin.
Sebaliknya, teknik yang diawasi memerlukan data yang diawasi yang besar, yang
merupakan salah satu keterbatasannya karena kelangkaan kumpulan data besar. Secara
keseluruhan, teknik yang diawasi lebih unggul daripada teknik yang tidak diawasi.
Namun, diperlukan algoritma yang lebih efisien dan cepat untuk AVS, khususnya untuk
menangani beragamitas dan kecepatan data besar.
3. Metode pada IE
Dua kategori utama teknik IE adalah metode berbasis aturan (RBM) dan metode berbasis
pembelajaran (LBM). Sulit untuk mengidentifikasi metode mana yang lebih populer dan efektif
di IE. Dalam hal ini, dua penelitian menunjukkan analisis yang sangat berbeda. Tinjauan ini
mengidentifikasi bahwa LBM lebih populer dalam domain penelitian akademis dibandingkan
dengan RBM namun pentingnya RBM tidak dapat diabaikan. Namun, perdebatan mengenai
perbandingan kedua pendekatan ini bersifat subjektif karena berbagai faktor seperti biaya,
manfaat, dan spesifikasi tugas. Tabel 8 menyajikan perbandingan kedua pendekatan ini secara
umum. Analisis komparatif mengeksplorasi pro dan kontra yang berbeda dari kedua pendekatan
namun pemilihan pendekatan untuk tugas apa pun sangat bergantung pada kebutuhan pengguna
dan tugas yang ada karena IE adalah proses berbasis komunitas. Secara umum, pendekatan
berbasis pembelajaran dibagi menjadi teknik diawasi, semi diawasi dan tidak diawasi. Teknik-
teknik ini juga memiliki keterbatasan untuk menangani kumpulan data berskala besar dan
kompleksitas data tidak terstruktur dalam jumlah besar. Teknik yang diawasi memerlukan data
pelatihan yang diberi label secara manual yang merupakan salah satu kelemahan utama teknik
ini. Konstruksi korpus berlabel skala besar adalah tugas yang melelahkan dan memakan waktu.
Teknik ini efektif untuk IE khusus domain yang memerlukan ekstraksi informasi spesifik.
Efisiensi Teknik-teknik ini juga bergantung pada ciri-ciri yang dipilih seperti ciri morfologi,
sintaksis, semantik, dan leksikal. Sedangkan teknik IE tanpa pengawasan tidak memerlukan
data berlabel. Teknik ini mengekstrak penyebutan entitas dari teks, mengelompokkan entitas
serupa dan mengidentifikasi relasi. Dalam hal ini, pra-pemrosesan data yang intensif akan
1
3
Universitas Negeri Sriwijaya – Sistem Komputer 2023
diperlukan untuk data besar karena kumpulan data besar yang tidak terstruktur memiliki nilai
yang hilang, gangguan, dan kesalahan lainnya yang menghasilkan ekstraksi yang tidak
informatif dan tidak koheren. Teknik semisupervised menggunakan korpus berlabel dan tidak
berlabel dengan tingkat pengawasan yang kecil. Untuk data skala besar, pembelajaran dengan
pengawasan jarak jauh, pembelajaran mendalam (CNN, RNN, DNN) teknik pembelajaran
transfer lebih cocok untuk IE dari teks bebas data.
14
Universitas Negeri Sriwijaya – Sistem Komputer 2023
Sangat Bergantung pada domain thesauri Tidak diperlukan tenaga ahli dan sistem
meskipun system berbasis aturan dapat dikembangkan dengan cepat dengan
memerlukan pengetahuan domain dan biaya yang relatif rendah
memakan waktu, hasilnya membuktikan
bahwa system ini lebih handal dan berguna
untuk pemrosesan otomatis
Deklaratif Dapat beradaptasi
Membutuhkan pekerjaan manual yang Lebih sedikit Upaya manual
melelahkan
Sangat transparan dan ekspresif Probabilitas lebih rendah daripada berbasis
aturan
DAFTAR PUSTAKA
Adnan, Kiran, Akbar,Rehan.2019. An analytical study of information extraction
from unstructured and multidimensional big data. Journal of Big Data, vol 6 no 91
https://doi.org/10.1186/s40537-019-0254-8
1
5