Tugas Analitik Big Data - M Raffly Riyansyah Putera - 09011482326004

Universitas Negeri Sriwijaya – Sistem Komputer 2023
EKSTRASI INFORMASI DARI BIG DATA YANG TIDAK

TERSTRUKTUR DAN MULTIDIMENSI
M Raffly Riyansyah Putera
Program Studi Sistem Komputer, Universitas Negeri Sriwijaya, Kota Palembang

rafflyriyansyah10@gmail.com
ABSTRAK
Volume dan variasi permintaan data besar untuk meningkatkan kemampuan komputasi
sistem IE ini. Penting untuk memahami kompetensi dan keterbatasan teknik IE yang ada
terkait dengan pra-pemrosesan data, ekstraksi dan transformasi data, serta representasi
untuk data multidimensi tidak terstruktur dalam jumlah besar. Kata Kunci: Big data,
Ekstraksi Informasi (IE), Tinjauan Pustaka, Teknik Berbasis Pembelajaran, Data
Multimedia, Data Tidak Terstruktur Proses ekstraksi informasi (IE) digunakan untuk
mengekstraksi informasi berguna dari data tidak terstruktur atau semi terstruktur. Data
besar menimbulkan tantangan baru bagi teknik IE dengan pesatnya pertumbuhan
multifaset yang juga disebut data tidak terstruktur multidimensi. Sistem IE tradisional
tidak efisien dalam menangani banyaknya data besar yang tidak terstruktur. Sejumlah
penelitian telah dilakukan pada IE, mengatasi tantangan dan permasalahan untuk
berbagai tipe data seperti teks, gambar, audio dan video. Pekerjaan penelitian
konsolidasi yang sangat terbatas telah dilakukan untuk menyelidiki keterbatasan IE yang
bergantung pada tugas dan tidak bergantung pada tugas yang mencakup semua tipe
data dalam satu studi. Penelitian ini mengatasi keterbatasan ini dan menyajikan
tinjauan literatur sistematis mengenai teknik canggih untuk berbagai data besar, yang
menggabungkan semua jenis data. Tantangan-tantangan IE terkini juga diidentifikasi dan
dirangkum. Solusi potensial diusulkan untuk memberikan arahan penelitian masa depan
dalam big data IE. Penelitian ini penting dalam kaitannya dengan tren dan tantangan
terkini terkait analisis big data. Hasil penelitian dan rekomendasi akan membantu
meningkatkan analisis big data dengan menjadikannya lebih produktif.
Kata kunci: Big data, Ekstraksi Informasi (IE), Tinjauan Pustaka, Teknik Berbasis
Pembelajaran, Data Multimedia, Data Tidak Terstruktur
PENDAHULUAN
Kemajuan teknologi mendorong pesatnya pertumbuhan volume data dalam
beberapa tahun terakhir. Volume, variasi (data terstruktur, tidak terstruktur, dan semi
terstruktur) dan kecepatan big data juga telah mengubah paradigma kemampuan
komputasi sistem. Data tidak terstruktur pada sebuah big data terdiri dari berbagai macam
kategori yaitu data tekstual dan non-tekstual. Data tekstual adalah data-data formatnya berupa
teks seperti dokumen sedangkan data non-tekstual adalah data yang formatnya tidak berupa teks
seperti data berupa audio, gambar, maupun video. Karena besarnya volume dan kompleksitas
data yang tidak terstruktur, maka dibutukan proses ekstrasi informasi dalam sebuah big data
1
agar mendapat informasi atau pengetahuan baru dari Kumpulan big data yang tidak terstruktur.
Di dalam paper ini akan dijelaskan berbagai jenis-jenis informasi yang dapat di ekstrasi pada
sebuah big data yang tidak terstruktur.
PEMBAHASAN
1. Pengertian Ekstrasi Informasi
Proses ekstraksi informasi (IE) adalah proses mengekstrak informasi terstruktur yang
berguna dari data yang tidak terstruktur dalam bentuk entitas, relasi, objek, peristiwa, dan
banyak jenis lainnya. Informasi yang diekstrak dari data tidak terstruktur digunakan untuk
menyiapkan data untuk dianalisis. Oleh karena itu, transformasi yang efisien dan akurat dari
data yang tidak terstruktur dalam proses IE akan meningkatkan analisis data. Berbagai teknik
telah diperkenalkan untuk berbagai jenis data yaitu teks, gambar, audio, dan video.
2. Jenis-jenis informasi yang di ekstraksi

Jenis-jenis informasi yang di ekstraksi dalam big data dapat digambarkan melalui grafik
di bawah ini;
Gambar 1. Klasifikasi eksraksi informasi dalam Big Data

Grafik tersebut menunjukkan diagram dari berbagai jenis informasi yang dapat
diekstraksi dari sejumlah besar data. Grafik tersebut dibagi menjadi empat kategori data yaitu
informasi dalam bentuk teks, audio, gambar(image), dan infromasi dalam bentuk video.
Berdasarkan kategori-kategori tersebut proses ekstraksi dibagi menjadi beberapa subtugas yaitu:
2.1. IE dari Teks
Istilah Pemrosesan Bahasa Alami (Natural Language Processing - NLP) merujuk pada
metode-metode untuk menginterpretasi data yang disampaikan oleh manusia dalam bentuk
2
lisan atau tertulis. Pemrosesan Bahasa Alami digunakan untuk memahami dan mengekstrak
data dalam bahasa manusia, baik lisan maupun tertulis. Salah satu tugas penting dalam NLP
adalah ekstraksi informasi, yang merupakan proses mengambil informasi yang terstruktur
dari data teks yang tidak terstruktur. Ekstraksi informasi bertujuan untuk mengidentifikasi
entitas dan hubungan di antara entitas tersebut dalam teks. Hal ini dapat membantu dalam
mengisi basis pengetahuan dengan informasi yang berguna. Teknik ekstraksi informasi
digunakan untuk menganalisis teks dalam bentuk bebas dan menghasilkan informasi yang
relevan dan terstruktur. Melalui teknik ini, tujuan akhirnya adalah mengidentifikasi fakta-
fakta penting dalam teks untuk digunakan dalam basis data atau pengetahuan.
2.1.1. Named entity recognition (NER)
NER adalah salah satu tugas penting dari sistem IE yang digunakan untuk
mengekstrak entitas deskriptif. Hal ini membantu untuk mengidentifikasi entitas
generik atau entitas yang tidak bergantung pada domain seperti lokasi, orang, dan
organisasi, dan entitas yang bergantung pada domain seperti penyakit, obat, bahan
kimia, protein, dll. Dalam proses ini, entitas diidentifikasi dan diklasifikasikan secara
semantik ke dalam kelas-kelas yang telah dikarakterisasi sebelumnya. Sistem NER
tradisional menggunakan Metode Berbasis Aturan (RBM), Metode Berbasis
Pembelajaran (LBM) atau pendekatan hibrida. NER bersama dengan NLP memainkan
peran penting dalam pemodelan bahasa dan NER kontekstual menggunakan analisis
morfologi, sintaksis, fonetik, dan semantik bahasa. Penjawaban pertanyaan,
penerjemahan mesin, peringkasan teks otomatis, penggalian teks, pencarian informasi,
penggalian opini, dan populasi basis pengetahuan merupakan aplikasi utama NER. Oleh
karena itu, efisiensi dan akurasi yang lebih tinggi dari sistem NER ini sangat penting,
tetapi data besar membawa tantangan baru pada sistem ini, yaitu volume, variasi, dan
kecepatan.
Ekstraksi entitas pada kumpulan kalimat merupakan upaya untuk mendeteksi
dan mengklasifikasi entitas seperti nama orang, organisasi, tempat, dan waktu. Hal ini
sering disebut dengan istilah Named Entity Recognition (NER). NER tidak hanya
bertindak sebagai alat untuk ekstraksi informasi, namun juga memainkan peran penting
dalam berbagai natural language processing (NLP) seperti text understanding,
information retrieval, automatic text summerization, machine translation, dan
knowledge base construction. Terdapat empat pendekatan utama yang diterapkan dalam
NER yaitu Pendekatan rule-based, yang tidak membutuhkan data beranotasi karena
mengandalkan aturan buatan, Pendekatan unsupervied learning, Pendekatan feature-
3
based supervised learning yang mengandalkan algoritma pembelajaran yang diawasi

dengan rekayasa fitur yang cermat, dan Pendekatan berbasis deep-learning, yang secara
otomatis menemukan representasi yang diperlukan untuk klasifikasi dan/atau deteksi
dari input mentah secara end-to-end.
Sistem rule-based NER mengandalkan aturan buatan. Kim & Woodland, 2000
mengusulkan untuk menggunakan pendekatan Brill rule inference untuk masukan
speech. Performa rule-based dibandingkan dengan IdentiFinder yang merupakan salah
satu sistem stokastik paling sukses. Kedua teknik ini menunjukkan kinerja yang hampir
sama, begitu juga dalam hal informasi tambahan seperti tanda baca, penggunaan huruf
besar, dan daftar nama. Penelitian ini menghasilkan inferensi aturan otomatis
merupakan alternatif yang layak untuk pendekatan berbasis HMM dalam named entity
recognition, namun tetap mempertahankan keuntungan dari pendekatan rule-based.
Hanisch (Hanisch et al., 2005) mengusulkan ProMiner yang memanfaatkan kamus
sinonim pra-proses untuk mengidentifikasi penyebutan protein dan gen potensial dalam
teks biomedis. Berdasarkan semua sinonim yang terdeteksi untuk satu abstrak, pengenal
database yang paling masuk akal dikaitkan dengan teks. Hasilnya dalam prediksi buta,
sistem mencapai F-measure sekitar 0,8 untuk organisme tikus dan lalat serta 0,9 untuk
organisme ragi.
Pendekatan khas dari unsupervised learning adalah clustering atau
pengelompokan. Sistem NER berbasis pengelompokan mengekstrak entitas bernama
dari kelompok yang dikelompokkan berdasarkan kesamaan konteks. Collins (Collins &
Singer, 1999) mengamati bahwa penggunaan data yang tidak berlabel mengurangi
persyaratan pengawasan menjadi hanya 7 aturan sederhana. Pendekatan ini memperoleh
pengaruh dari redundansi alami dalam data, untuk banyak contoh entitas bernama baik
ejaan nama dan konteks yang muncul cukup untuk menentukan jenisnya. Demikian
pula KNOWITALL (Etzioni et al., 2005) yang memanfaatkan satu set nama predikat
sebagai input dan memproses pengenalannya dari sekumpulan kecil pola ekstraksi
generik. Penelitian ini menyajikan tiga cara berbeda untuk mengatasi tantangan dan
mengevaluasi kinerjanya dengan perolehan peningkatan 4 kali lipat menjadi 8 kali lipat
dengan presisi 0,90 dan menemukan lebih dari 10.000 kota yang hilang.
Pada supervised learning, NER diterapkan ke multi-class classification atau
tugas sequence labeling. Dengan sampel data beranotasi, fitur dirancang dengan cermat
untuk mewakili setiap contoh pelatihan. Algoritma pembelajaran mesin kemudian
4
digunakan untuk mempelajari model guna mengenali pola sepura dari data yang tidak
terlihat. Feature engineering merupakan hal yang sangat penting dalam sistem
supervised NER. Representasi feature vector merupakan abstraksi atas teks di mana
sebuah kata diwakili oleh satu atau banyak nilai boolean, numerik, atau nominal. Fitur
tingkat kata, fitur pencarian daftar, dan fitur corpus telah banyak digunakan dalam
supervised NER. Berdasarkan fitur-fitur ini, banyak algoritma pembelajaran mesin yang
telah diterapkan dalam supervised NER, termasuk Hidden Markov Model (HMM),
Decision Threes, Maximum Entropy Model, Support Vector Machine, dan Contitional
Random Fields (CRF)
Tabel 1. Tools / Library untuk Named Entity Recognition
Nama Library Bahasa Pemrograman Lisensi

SpaCy Python MIT
GATE Java LGPL
OpenNLP Java Apache 2.0
CoreNLP Java GPL 3.0
NLTK Python Apache 2.0
CogcompNLP Java Research
2.1.2. Relation extraction (RE)

Relation extraction (RE) adalah subtugas dari IE yang mengekstrak hubungan
substansial antar entitas. Entitas dan relasi digunakan untuk membuat anotasi data
dengan benar dengan menganalisis sifat semantik dan kontekstual data. Pendekatan
yang diawasi menggunakan teknik berbasis fitur dan berbasis kernel untuk RE. DIPRE,
Snowball, KnowItAll adalah beberapa contoh RE semi-supervised. Beberapa
pendekatan yang diawasi, diawasi secara lemah dan diawasi sendiri telah diperkenalkan
untuk mengekstrak hubungan satu ke satu dan banyak ke banyak antar entitas. Dalam
penelitian ini, berbagai fitur leksikal, semantik, sintaksis, dan morfologi telah
diekstraksi dan kemudian hubungan antar entitas menggunakan teknik berbasis
pembelajaran telah diidentifikasi. Teknik berbasis pembelajaran atau berbasis aturan
tradisional tidak cukup untuk menangani volume dan dimensi data besar yang tidak
terstruktur. LBM yang diawasi membutuhkan korpus beranotasi yang besar dan
merupakan tugas yang sangat melelahkan untuk membuat anotasi kumpulan data yang
besar secara manual. Untuk mengurangi upaya anotasi manual, metode yang diawasi
secara lemah lebih efektif. RE semantik dengan fitur yang sesuai dan anotasi semantik
adalah dua tantangan kritis dari RE.
5
2.1.3. Event extraction (EE) dan ekstraksi fakta yang menonjol

Ekstraksi Peristiwa (EE) adalah proses mengekstrak peristiwa dari teks yang
mencakup pemicu (kata kerja atau kata kerja dinormalisasi) dan argumen (entitas yang
menjelaskan pengaruh peristiwa tersebut). Ekstraksi Fakta Penting adalah proses
mengidentifikasi fakta-fakta penting dari teks, termasuk hubungan antara entitas.
beberapa tantangan dalam IE dari data besar yang tidak terstruktur yang terkait dengan
volume, variasi, dan teknik IE. Data besar yang tidak terstruktur hadir dengan
heterogenitas jenis data, representasi yang berbeda, dan interpretasi semantik yang
kompleks. Masalah intrinsik dari data tidak terstruktur ini menimbulkan tantangan bagi
analisis big data. Untuk membuat data yang tidak terstruktur tersedia dalam bentuk
yang siap dianalisis, data tersebut harus ditransformasikan ke dalam konten yang
terstruktur dan dipersiapkan untuk dianalisis. Proses IE harus cukup efisien untuk
meningkatkan efektivitas analisis big data. Heterogenitas, dimensi, dan keragaman data
penting untuk ditangani dalam IE menggunakan big data. Namun, volume data yang
tidak terstruktur meningkat dua kali lipat setiap tahun menjadi lebih penting untuk
mengekstrak informasi semantik dari banjir data tidak terstruktur yang begitu besar.
Namun demikian, data besar juga membawa beberapa tantangan untuk pendekatan
berbasis pembelajaran yaitu dimensi data, skalabilitas, komputasi terdistribusi,
kemampuan beradaptasi dan kegunaan. Dalam hal ini, kemajuan dalam pendekatan
berbasis pembelajaran berusaha sebaik mungkin untuk menangani kompleksitas data
besar.
2.2. IE dari Gambar
IE dari gambar adalah bidang dengan peluang dan tantangan besar seperti
mengekstraksi deskripsi linguistik, fitur semantik, visual dan tag, pemahaman konteks,
dan pengenalan wajah. IE tingkat konten dan konteks dari berbagai jenis gambar dapat
meningkatkan analisis, penambangan, dan pemrosesan gambar. Bagian berikut meninjau IE
dari gambar dengan subtugas yang berbeda.
2.2.1. Visual relationship detection (Deteksi hubungan visual)
Deteksi hubungan visual mengekstrak informasi interaksi objek dalam
gambar. Representasi semantik hubungan objek ini disajikan dalam bentuk
rangkap tiga (Subjek, Predikat, Objek). Ekstraksi rangkap tiga semantik dari
gambar akan bermanfaat bagi berbagai aplikasi dunia nyata seperti pengambilan
informasi berbasis konten, menjawab pertanyaan dalam bentuk visual, pengambilan
kalimat ke gambar dan pengenalan halus. Klasifikasi dan deteksi objek serta
6
pengenalan konteks atau interaksi adalah tugas utama deteksi hubungan visual
dalam pemahaman gambar. Dalam klasifikasi dan deteksi objek, objek dikenali
berdasarkan penampilannya, dan label kelasnya memiliki hubungan yang jelas. Solusi
berbasis CNN dalam klasifikasi objek seperti VGG dan ResNet telah mencapai kinerja
yang sangat baik. Selain itu, Faster R-CNN dan R-CNN telah mencapai kesuksesan
besar dalam pembelajaran mendalam. Terdapat beberapa tantangan dalam deteksi
hubungan visual, termasuk variasi dalam kategori predikat yang sama, distribusi dengan
ekor panjang (triple yang jarang muncul), dan tumpang tindih antar kelas. Pengenalan
hubungan yang jarang muncul diatasi dengan memperkenalkan vektor spasial.
Tantangan distribusi ekor panjang menyebabkan kesulitan dalam mengumpulkan citra
pelatihan yang cukup untuk semua hubungan. Untuk mengatasi masalah ini,
pengetahuan linguistik dapat digunakan untuk memperbaiki kinerja model. Teknik
pembelajaran mendalam seperti CNN, RCNN, dan reinforcement learning telah terbukti
efektif dalam ekstraksi informasi dari gambar yang besar dan tidak terstruktur. CNN,
RCNN, dan pembelajaran penguatan mencapai hasil yang lebih baik dalam recall.
Selain itu, Faster-RCNN dan R-CNN telah mencapai prestasi yang luar biasa dalam
deteksi objek. Penggunaan pengetahuan linguistik juga dapat meningkatkan kinerja
deteksi hubungan. Tantangan yang berkaitan dengan volume, variasi, dan kecepatan
data besar belum sepenuhnya diatasi dalam teknik deteksi hubungan visual.
2.2.2. Text Recognition (Pengenalan Teks)
Pengenalan teks adalah proses ekstraksi informasi dari konten teks dalam
gambar. Teks dalam gambar dan video memberikan informasi tambahan tentang konten
visual, yang dapat meningkatkan efisiensi dalam pencarian berbasis kata kunci,
pengindeksan, pengambilan informasi, dan pembuatan teks gambar otomatis. Sistem
pengenalan informasi teks (TIE) bertugas mendeteksi, melokalisasi, dan mengenali teks
dalam data visual, seperti gambar dan video. Konten visual dapat dibagi menjadi dua
kategori utama, yaitu konten perseptual dan konten semantik. Konten perseptual
mencakup fitur seperti warna, bentuk, tekstur, dan atribut temporal, sementara konten
semantik berkaitan dengan identifikasi dan pengenalan objek, entitas, dan peristiwa.
Sistem TIE mengikuti serangkaian tahap, mulai dari deteksi, lokalisasi, pelacakan,
hingga ekstraksi atau peningkatan, untuk mendeteksi dan mengidentifikasi teks dalam
data visual. Tugas pengenalan teks seringkali terkait dengan pendekatan Optical
Character Recognition (OCR) untuk mengenali karakter dalam gambar atau dokumen
yang dipindai. Misalnya, dalam konteks mengekstrak informasi dari dokumen
7
berbahasa Tamil atau manuskrip palem, penggunaan OCR melibatkan teknik

segmentasi yang melibatkan beberapa tahapan, seperti prapemrosesan gambar, ekstraksi
fitur, pengenalan karakter, dan konversi teks digital. Hasil eksperimen menunjukkan
tingkat akurasi konversi yang tinggi, seperti 91,57% untuk Brahmi dan 89,75% untuk
Vattezhuthu. Namun, ketika menangani pengenalan karakter dalam tulisan tangan,
terutama dengan menggunakan jaringan syaraf tiruan, hasilnya bisa beragam. Sebagai
contoh, penggunaan jaringan syaraf radial basis function (RBF) dalam pengenalan
karakter tulisan tangan menghasilkan akurasi yang lebih rendah dibandingkan dengan
teknik lain, seperti jaringan saraf propagasi balik. Sistem OCR seringkali lebih baik
dalam mengenali karakter dalam dokumen yang dipindai, tetapi ketika berhadapan
dengan variasi gambar yang berbeda, hasilnya bisa bervariasi. Beberapa faktor yang
memengaruhi kinerja OCR meliputi variasi geometris, latar belakang yang kompleks,
variasi tata letak teks, font, pencahayaan yang tidak merata, konten multibahasa,
resolusi rendah, dan kualitas rendah. Pengenalan teks dalam data visual dapat
menggunakan berbagai pendekatan berbasis pembelajaran, baik yang diawasi maupun
yang tidak diawasi. Metode pembelajaran yang diawasi melibatkan penggunaan
algoritma seperti Support Vector Machine (SVM) dan Bayesian classifier untuk
memahami struktur atau konsep dari fitur-fitur yang ada dalam teks. Pengklasifikasi ini
dilatih untuk memahami struktur teks dan dapat diuji pada wilayah yang tidak memiliki
label. Dalam pembelajaran diawasi, terdapat beberapa contoh kesuksesan. Contohnya,
pengenalan karakter yang terdistorsi menggunakan Exempler SVM mengalahkan
teknologi terkini dalam beberapa kasus. Demikian pula, pengklasifikasi dengan
Conditional Random Fields (CRF) digunakan untuk mengenali karakter dengan skor,
batasan spasial, dan pengetahuan linguistik yang menghasilkan akurasi yang baik.
Namun, terdapat tantangan yang harus dihadapi, seperti ketahanan terhadap distorsi dan
kemampuan beradaptasi terhadap variasi bahasa. Pengenalan karakter dalam konteks
bahasa yang berbeda dapat menjadi tantangan yang signifikan.
2.2.3. Face Recognition (Pengenalan Wajah)
Pengenalan Wajah adalah proses mengidentifikasi wajah dalam gambar. Tugas
untuk mengenali wajah-wajah yang serupa merupakan tantangan komputasional.
Terlihat bahwa manusia memiliki kemampuan pengenalan wajah yang sangat kuat, dan
kemampuan ini lebih unggul daripada pengenalan wajah yang dikenal, tetapi
kemampuan untuk mengenali wajah yang tidak dikenal rentan terhadap kesalahan.
Perbedaan pengenalan wajah ini pada manusia mengarah pada temuan bahwa
8
pengenalan wajah bergantung pada seperangkat fitur wajah yang berbeda untuk wajah
yang dikenal dan wajah yang tidak dikenal. Fitur-fitur ini dikelompokkan ke dalam fitur
internal dan eksternal masing-masing. Berbagai teknik telah diusulkan untuk
pengenalan wajah dalam berbagai dataset, tetapi teknik-teknik tradisional ini tidak
memadai untuk mengatasi dataset besar secara efisien. Pengenalan wajah dalam gambar
berkualitas rendah, seperti gambar buram dan beresolusi rendah, dapat merusak
kinerjanya. Representasi sparse dan metode deep learning yang dikombinasikan dengan
fitur buatan tangan lebih unggul dalam kasus gambar berkualitas rendah. Teknik
pengenalan wajah harus mampu mengenali wajah-wajah dengan ekspresi wajah dan
posisi yang berbeda dalam berbagai kondisi pencahayaan. Berbagai solusi berbasis deep
learning telah diusulkan untuk mengatasi keterbatasan teknik tradisional.
Teknik pengenalan wajah Deep CNN tanpa perlu melakukan rekayasa fitur
ekstensif mengurangi upaya pemilihan fitur yang paling sesuai. Teknik pengenalan
wajah Deep CNN dievaluasi pada basis data wajah UJ dengan 50 gambar, dan hasilnya
menunjukkan akurasi validasi dari 22% meningkat menjadi 80% setelah 10 epok dan
100% setelah 80 iterasi. Namun, ada beberapa keterbatasan yang terkait dengan solusi
ini, seperti overfitting dan dataset yang sangat kecil. Untuk mengurangi overfitting,
diperlukan aplikasi metode berhenti lebih awal. Arsitektur VGG-face dan arsitektur
VGG-face yang dimodifikasi dengan 5 lapisan konvolusi, 3 lapisan pooling, 3 lapisan
fully connected, dan lapisan softmax dievaluasi menggunakan lima dataset gambar yang
berbeda, yaitu basis data wajah ORL dengan 400 gambar, basis data wajah yale dengan
165 gambar, basis data wajah yale-B yang dipotong dengan 2470 gambar, faces 94,
Feret dengan 11.338 gambar, dan CVL face db. Untuk semua dataset, pendekatan yang
diusulkan memberikan hasil yang lebih baik dibandingkan dengan metode tradisional.
Meskipun teknik yang diusulkan mengungguli lima dataset yang berbeda, namun
dataset tersebut tidak kompleks dan berukuran besar. Teknik pengenalan wajah berbasis
deep learning seperti jaringan konvolusi dalam (deep convolutional network) atau
VGG-face dan lightened CNN memiliki kemampuan untuk mengatasi sejumlah besar
dataset yang beragam. Representasi wajah berbasis deep learning lebih kuat dalam
mengatasi gambar yang tidak selaras. Jaringan konvolusi dalam (deep CNN) dapat
memberikan kinerja yang lebih baik dalam mengenali objek dari data yang hanya
sebagian terlihat, tetapi perbaikan gambar penting dalam deep CNN sebelum operasi
konvolusi untuk gambar berkualitas rendah. Meskipun teknik deep learning memiliki
kemampuan untuk meningkatkan kinerja pengenalan wajah, ada pula tantangan yang
9
terkait dengan teknik deep learning yang harus dipertimbangkan sebelumnya. Kualitas
gambar, data yang hilang dalam gambar, dan noise harus diatasi karena faktor-faktor ini
dapat merusak kinerja teknik pengenalan wajah berbasis deep learning. Pengenalan
wajah dengan ekspresi wajah yang berbeda, pencahayaan yang berbeda, dan
penggunaan aksesori dapat menyebabkan sebagian wajah terhalang. Deteksi sebagian
occlusion ini memerlukan arsitektur deep learning yang optimal dan hiperparameter
yang baru untuk mengatasi tantangan ini. Namun, pemilihan teknik yang sesuai sangat
bergantung pada ukuran dan kualitas data. Selanjutnya, solusi yang lebih kuat dan
optimal diperlukan untuk dataset besar dengan akurasi tinggi dan laten rendah.
2.3. IE dalam Audio
Perusahaan seperti pusat panggilan dan file musik adalah sumber utama yang
menghasilkan data audio dalam jumlah besar. Berbagai jenis informasi dapat
diekstraksi dari data ini untuk membantu analisis prediktif dan deskriptif. Subtugas IE
dari data audio diklasifikasikan sebagai deteksi peristiwa akustik dan pengenalan
ucapan otomatis.
2.3.1. Acoustic event detection (Deteksi Peristiwa Akustik)
Pengekstrakan peristiwa suara atau ekstraksi peristiwa akustik adalah bidang
yang sedang berkembang yang bertujuan untuk memproses sinyal akustik kontinu,
mengubahnya menjadi deskripsi simbolis. Aplikasi dari deteksi peristiwa suara otomatis
adalah indeks dan pencarian multimedia, pengenalan pola, pengawasan, dan aplikasi
pemantauan lainnya. Representasi simbolis dari peristiwa suara ini digunakan dalam
tagging otomatis dan segmentasi. Suara-suara ini berasal dari berbagai sumber dan
mengandung peristiwa yang tumpang tindih dan latar belakang berisik. Selain itu,
akurasi parametrik dari model pelatihan pada data pelatihan yang terbatas juga sulit
dicapai. kelangkaan data dan overfitting adalah keterbatasan umum dari solusi deteksi
peristiwa akustik. Dalam hal ini, augmentasi data yang dimodifikasi mencapai hasil
yang lebih baik karena modifikasi dalam karakteristik frekuensi dengan rentang
frekuensi tertentu. Pengenalan konteks adalah salah satu solusi untuk mengatasi
masalah tumpang tindih dan meningkatkan akurasi deteksi peristiwa akustik, tetapi
mengidentifikasi peristiwa suara konteks tertentu adalah salah satu tantangan kritis
untuk deteksi peristiwa akustik. Menambahkan bahasa atau pengetahuan sebelumnya
dapat membantu dalam mengekstrak peristiwa suara konteks.
2.3.2. Automatic speech recognition (ASR)
10
Pengenalan Ucapan Otomatis (ASR) adalah tugas untuk mengenali dan

mengonversi ucapan menjadi media lain, seperti teks, oleh karena itu juga dikenal
sebagai speech to text (STT). Aplikasi utama ASR meliputi panggilan suara, penunjuk
arah panggilan, pengendalian suara, pembelajaran bahasa berbantu komputer, pencarian
berbicara, dan robotika. Dalam proses pengenalan ucapan, gelombang suara dari ucapan
pembicara diubah menjadi sinyal listrik, lalu diubah menjadi sinyal digital. Sinyal
digital ucapan ini kemudian diwakili dalam urutan diskrit dari vektor-vektor fitur. Pipa
proses sistem pengenalan ucapan terdiri dari ekstraksi fitur, pemodelan akustik,
pemodelan ejaan, dan penyandi (decoder). Secara umum, sistem pengenalan ucapan
otomatis ini dibagi menjadi lima kategori berdasarkan metode klasifikasi, seperti
pendekatan berbasis templat, pendekatan berbasis pengetahuan, dynamic time warping
(DTW), model Markov tersembunyi (HMM), dan pendekatan berbasis jaringan saraf
tiruan (ANN).
2.4. Video dalam IE
Tujuan utama dari Ekstraksi Informasi (IE) dari video adalah untuk memahami dan
mengekstrak informasi relevan dari konten video yang terdapat dalam video. Aplikasi dari
IE dalam video mencakup indeks semantik, analisis dan pencarian berdasarkan konten,
pengkodean video berdasarkan konten, bantuan bagi orang yang memiliki keterbatasan
penglihatan, dan otomatisasi dalam supermarket. Di era data besar, media sosial dan banyak
platform lainnya menghasilkan video digital dengan kecepatan yang sangat tinggi. Ini bukan
hanya tentang ukuran data yang penting, daya komputasi tinggi dan kecepatan juga penting
untuk mengekstrak informasi yang berguna dari video digital ini.
2.4.1. Text Recognition (Pengenalan Teks)
Setiap hari, volume besar data video diproduksi dan dibagikan di media sosial.
Teks dalam video memainkan peran penting dalam mengekstrak informasi kaya dan
memberikan petunjuk semantik tentang konten video. Ekstraksi dan analisis teks dalam
video telah menunjukkan kinerja yang baik dalam pemahaman gambar. Teks keterangan
dan teks latar adalah dua kategori teks yang dapat diekstrak dari video. Teks keterangan
memberikan informasi semantik tingkat tinggi dalam keterangan, lapisan tambahan, dan
teks tambahan, sedangkan teks latar biasanya tertanam dalam gambar seperti papan
tanda, merek dagang, dll. Pengenalan teks keterangan atau teks buatan lebih mudah
dibandingkan dengan teks latar karena teks keterangan ditambahkan di atas video untuk
meningkatkan pemahaman. Sementara itu, pengenalan teks latar kompleks karena
1
1
kontras rendah, kompleksitas latar belakang, ukuran font, orientasi, jenis, dan bahasa
yang berbeda. Selain itu, bingkai video berkualitas rendah, bingkai buram, dan waktu
komputasi yang tinggi adalah tantangan khusus terkait proses ekstraksi teks dari video.
Pipa deteksi dan ekstraksi teks terdiri dari tahap deteksi teks, lokalasi teks, pelacakan
teks, binarisasi teks, dan pengenalan teks. Dalam konteks teknik IE (ekstraksi
informasi), tinjauan ini hanya menyajikan teknik terkini untuk pengenalan teks.
Algoritma yang lebih tangguh diperlukan untuk mengenali berbagai jenis teks latar dan
buatan dari video berkualitas rendah serta memiliki kemampuan untuk mengatasi
kinerja ruang dan kecepatan di bidang ini.
2.4.2. Automatic video summarization (Ringkasan Video Otomatis)
Automatic video summarization (Ringkasan Video Otomatis) adalah proses
membuat ringkasan video. Alat otomatis sangat penting untuk menganalisis dan
memahami konten visual. Orang-orang menghasilkan volume besar video
menggunakan ponsel, kamera wearable, dan Google Glass, dll. Beberapa contoh
pertumbuhan pesat ini adalah: 144.000 jam video diunggah setiap hari di YouTube,
lifeloggers menghasilkan video berukuran gigabyte menggunakan kamera wearable,
422.000 kamera CCTV menghasilkan video 24/7 di London. Pertumbuhan pesat data
video setiap hari menyoroti kebutuhan untuk mengembangkan algoritma ringkasan
video otomatis yang cepat dan efisien. AVS (Automatic Video Summarization) memiliki
banyak aplikasi dalam kehidupan nyata seperti pengawasan, media sosial, pemantauan,
dll. Ini menyediakan ringkasan konten video dalam bentuk tayangan singkat yang
mempresentasikan video pendek dari konten semantik video asli yang panjang, dikenal
sebagai ringkasan berbasis tayangan atau ringkasan video dinamis. Yang kedua adalah
ringkasan video berbasis key frame, juga dikenal sebagai ringkasan video statis, di
mana frame dan fitur audio-visual diekstraksi. Memilih frame atau subshot yang paling
relevan atau penting dari video untuk ringkasan video adalah tugas yang kritis.
Beberapa teknik yang diawasi, tidak diawasi, dan lainnya diperkenalkan dalam literatur
visi komputer dan multimedia. Kriteria pemilihan dan prioritas untuk frame dan
tayangan dirancang secara manual dalam pendekatan tidak diawasi, sedangkan teknik
yang diawasi memanfaatkan ringkasan yang dibuat oleh pengguna untuk pembelajaran.
Setiap teknik memiliki sifat yang berbeda untuk representasi, keragaman, dan
ketertarikan. Baru-baru ini, teknik yang diawasi mencapai hasil yang menjanjikan
dibandingkan dengan teknik tidak diawasi tradisional. Kualitas buruk, misalnya gerakan
kamera yang erratic, pencahayaan yang bervariasi, dll., dan kekurangan konten, yaitu
12
kesulitan dalam menemukan frame yang representatif, adalah dua tantangan penting
untuk AVS dengan video yang dihasilkan pengguna. Meskipun ada keterbatasan teknik
yang tidak diawasi, modifikasi seperti menggabungkan informasi sebelumnya tentang
kategori, pemilihan fitur yang dalam daripada fitur dangkal telah disajikan. Namun,
sistem-sistem ini tidak mampu menunjukkan perbaikan yang menjanjikan. Selain itu,
sulit untuk mendefinisikan kriteria bersama yang dioptimalkan untuk pemilihan frame
karena kompleksitas pemilihan frame di antara sejumlah besar subset yang mungkin.
Sebaliknya, teknik yang diawasi memerlukan data yang diawasi yang besar, yang
merupakan salah satu keterbatasannya karena kelangkaan kumpulan data besar. Secara
keseluruhan, teknik yang diawasi lebih unggul daripada teknik yang tidak diawasi.
Namun, diperlukan algoritma yang lebih efisien dan cepat untuk AVS, khususnya untuk
menangani beragamitas dan kecepatan data besar.
3. Metode pada IE
Dua kategori utama teknik IE adalah metode berbasis aturan (RBM) dan metode berbasis
pembelajaran (LBM). Sulit untuk mengidentifikasi metode mana yang lebih populer dan efektif
di IE. Dalam hal ini, dua penelitian menunjukkan analisis yang sangat berbeda. Tinjauan ini
mengidentifikasi bahwa LBM lebih populer dalam domain penelitian akademis dibandingkan
dengan RBM namun pentingnya RBM tidak dapat diabaikan. Namun, perdebatan mengenai
perbandingan kedua pendekatan ini bersifat subjektif karena berbagai faktor seperti biaya,
manfaat, dan spesifikasi tugas. Tabel 8 menyajikan perbandingan kedua pendekatan ini secara
umum. Analisis komparatif mengeksplorasi pro dan kontra yang berbeda dari kedua pendekatan
namun pemilihan pendekatan untuk tugas apa pun sangat bergantung pada kebutuhan pengguna
dan tugas yang ada karena IE adalah proses berbasis komunitas. Secara umum, pendekatan
berbasis pembelajaran dibagi menjadi teknik diawasi, semi diawasi dan tidak diawasi. Teknik-
teknik ini juga memiliki keterbatasan untuk menangani kumpulan data berskala besar dan
kompleksitas data tidak terstruktur dalam jumlah besar. Teknik yang diawasi memerlukan data
pelatihan yang diberi label secara manual yang merupakan salah satu kelemahan utama teknik
ini. Konstruksi korpus berlabel skala besar adalah tugas yang melelahkan dan memakan waktu.
Teknik ini efektif untuk IE khusus domain yang memerlukan ekstraksi informasi spesifik.
Efisiensi Teknik-teknik ini juga bergantung pada ciri-ciri yang dipilih seperti ciri morfologi,
sintaksis, semantik, dan leksikal. Sedangkan teknik IE tanpa pengawasan tidak memerlukan
data berlabel. Teknik ini mengekstrak penyebutan entitas dari teks, mengelompokkan entitas
serupa dan mengidentifikasi relasi. Dalam hal ini, pra-pemrosesan data yang intensif akan
1
3
diperlukan untuk data besar karena kumpulan data besar yang tidak terstruktur memiliki nilai
yang hilang, gangguan, dan kesalahan lainnya yang menghasilkan ekstraksi yang tidak
informatif dan tidak koheren. Teknik semisupervised menggunakan korpus berlabel dan tidak
berlabel dengan tingkat pengawasan yang kecil. Untuk data skala besar, pembelajaran dengan
pengawasan jarak jauh, pembelajaran mendalam (CNN, RNN, DNN) teknik pembelajaran
transfer lebih cocok untuk IE dari teks bebas data.
Pendekatan pembelajaran mendalam menunjukkan hasil yang lebih baik untuk

kumpulan data besar meskipun terdapat keterbatasan dan tantangan. Ia memiliki kemampuan
untuk menggeneralisasi pembelajaran dan juga memiliki karakteristik unik dalam
memanfaatkan data yang tidak berlabel selama pelatihan. Pembelajaran mendalam memiliki
kemampuan untuk mempelajari berbagai fitur karena memiliki banyak lapisan tersembunyi.
Teknik ini lebih cocok untuk pengenalan pola. Pembelajaran tanpa pengawasan (mendalam)
memiliki kapasitas/kompleksitas model yang besar, kecepatan pembelajaran yang tinggi. Sistem
berbasis pembelajaran fitur mahal secara komputasi untuk data skala besar. Untuk pemilihan
teknik yang tepat untuk kumpulan data skala besar, biaya komputasi, skalabilitas dan akurasi
adalah faktor kuncinya. Algoritma dan teknik yang lebih canggih diperlukan untuk mencapai
akurasi dan efisiensi yang lebih tinggi. Over-ftting dapat diatasi dengan pelatihan mandiri dan
untuk mengatasi keterbatasan ketersediaan dataset beranotasi besar, pembelajaran penguatan
atau pengawasan jarak jauh dapat digunakan karena teknik ini menggunakan dataset berlabel
kecil. Ketepatan waktu distribusi data, keseimbangan keinformatifan, keterwakilan, dan
keragaman, kinerja pemodelan data untuk data heterogen, dimensi, jarang dan tidak seimbang
dan penataan data tidak terstruktur terbuka tantangan bagi IE menggunakan kumpulan data
besar yang tidak terstruktur
Tabel 2 Perbandingan Pendekatan berbasis aturan dan pendekatan berbasis

pembelajaran
Pendekatan Berbasis Aturan Pendekatan Berbasis Pembelajaran
Dapat ditafsirkan dan cocok untuk Kinerja pendekatan pembelajaran mesin lebih
pengembangan cepat dan transfer domain baik dalam hal presisi dan perolehan, tetatpi
pemilihan fitur yang tepat adalah hal yang
bijak
Manusia dan mesin dapat berkontribusi pada Data pelatihan yang dihasilkan memakan
model yang sama. Jadi mudah untuk waktu dalam pendekatan berbasis
menggabungkan pengetahuan domain pembelajaran sedangkan pendekatan berbasis
aturan menentukan kosakata yang telah
ditentukan sebelumnya
14
Sangat Bergantung pada domain thesauri Tidak diperlukan tenaga ahli dan sistem
meskipun system berbasis aturan dapat dikembangkan dengan cepat dengan
memerlukan pengetahuan domain dan biaya yang relatif rendah
memakan waktu, hasilnya membuktikan
bahwa system ini lebih handal dan berguna
untuk pemrosesan otomatis
Deklaratif Dapat beradaptasi
Membutuhkan pekerjaan manual yang Lebih sedikit Upaya manual
melelahkan
Sangat transparan dan ekspresif Probabilitas lebih rendah daripada berbasis
aturan
Hambatan big data yang tidak terstruktur untuk IE

Dengan volume besar dan kompleksitas data besar yang tidak terstruktur, data teks
bebas bahasa alami menyiratkan berbagai masalah bagi pengguna untuk mengekstrak
informasi yang paling relevan dan diperlukan. Data yang berisik dan berkualitas rendah
adalah salah satu tantangan utama IE dibandingkan data besar. Hal ini menyebabkan
kesulitan dalam mengidentifikasi keterkaitan semantik antara entitas dan istilah,
meningkatkan efektivitas dan kinerja sistem IE, mengekstraksi informasi yang relevan
secara kontekstual, pemodelan data dan menyusun data.
DAFTAR PUSTAKA
Adnan, Kiran, Akbar,Rehan.2019. An analytical study of information extraction
from unstructured and multidimensional big data. Journal of Big Data, vol 6 no 91
https://doi.org/10.1186/s40537-019-0254-8
1
5

Tugas Analitik Big Data - M Raffly Riyansyah Putera - 09011482326004

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Analitik Big Data - M Raffly Riyansyah Putera - 09011482326004

Diunggah oleh

Hak Cipta:

Format Tersedia

Universitas Negeri Sriwijaya – Sistem Komputer 2023

EKSTRASI INFORMASI DARI BIG DATA YANG TIDAK

M Raffly Riyansyah Putera

Program Studi Sistem Komputer, Universitas Negeri Sriwijaya, Kota Palembang

2. Jenis-jenis informasi yang di ekstraksi

Gambar 1. Klasifikasi eksraksi informasi dalam Big Data

based supervised learning yang mengandalkan algoritma pembelajaran yang diawasi

Tabel 1. Tools / Library untuk Named Entity Recognition

Nama Library Bahasa Pemrograman Lisensi

2.1.2. Relation extraction (RE)

2.1.3. Event extraction (EE) dan ekstraksi fakta yang menonjol

berbahasa Tamil atau manuskrip palem, penggunaan OCR melibatkan teknik

Pengenalan Ucapan Otomatis (ASR) adalah tugas untuk mengenali dan

Pendekatan pembelajaran mendalam menunjukkan hasil yang lebih baik untuk

Tabel 2 Perbandingan Pendekatan berbasis aturan dan pendekatan berbasis

Hambatan big data yang tidak terstruktur untuk IE

Anda mungkin juga menyukai