Tn001-Es2204-Ptpsw-Size-02-21 - Tte Mih

BADAN PENGKAJIAN DAN PENERAPAN TEKNOLOGI
Program
Sistem Informasi Zoonosis dan
Emerging Infectious Disease (SIZE)
TECHNICAL NOTE
Studi Literatur terkait Analitika Media Sosial dan Digital
TN-001/ES2204/PTPSW/SIZE/02/21
WP 2.2
Pengembangan Sistem
WBS 2
Pengembangan Model Spasial dan Sistem
Dibuat oleh : Diperiksa oleh : Disetujui oleh :

Engineering Staff Leader Group Leader
Nama : Taufiq Widiaputra, ST Nama : Prabu Kresna M.T.I Nama : Dr. M Iqbal Habibie
Tanggal : 26 Febuari 2021 Tanggal : 27 Febuari 2021 Tanggal : 28 Febuari 2021
No Butir : II.B.4.a No Butir : II.B.4.b No Butir : II.B.4.c
Studi Literatur terkait Analitika Media Sosial dan Digital
Instruksi :
Berdasarkan Instruction Sheet No. IS 02/WP22/PPTPSW/2/2021 dari WP Leader untuk
melakukan Melakukan Studi Literatur terkait Analitika Media Sosial dan Digital. Maka keluaran dari
kegiatan yang telah dilakukan adalah sebagai berikut.
Hasil :
Pada kegiatan ini penulis mengerjakan IS: Melakukan Studi Literatur terkait Analitika
Media Sosial dan Digital dengan pembahasan mengenai text mining.
Kegiatan :
Definisi Text Mining
Text mining merupakan kegiatan untuk menarik sejumlah data tertentu dari suatu
kelompok data besar. Kebutuhan penerapan text mining meningkat dalam beberapa tahun
terakhir karena banyak dan beragamnya jenis data yang dihasilkan dari berbagai platform
media sosial dan media informasi lainnya. Peningkatan jumlah data teks yang tersedia,
menciptakan kebutuhan akan suatu algoritma desain tingkat lanjut yang dapat mempelajari
pola tertentu dari suatu data secara dinamis dan terukur.
Jika suatu data terstruktur pada umumnya dikelola dengan sebuah sistem database,
maka data teks berbeda. Data teks bisa didapatkan melalui mesin pencari. Mesin pencari
memberi kemudahan bagi pengguna untuk menemukan informasi tertentu secara mudah
dengan memasukan kata kunci. Studi mengenai pengambilan informasi pada umumnya
berfokus pada pemberian fasilitas untuk akses informasi, sedangkan tujuan utama dari text
mining adalah analisa informasi untuk menemukan pola tertentu dari data.
Text mining dapat dianggap memudahkan akses informasi untuk membantu pengguna
lebih jauh dalam menggali informasi dan memfasilitasi untuk pengambilan keputusan.
Terdapat juga beberapa aplikasi text mining dimana tujuan utamanya adalah untuk analisa dan
menemukan pola tertentu dari sekumpulan data, termasuk didalamnya trend dan pecilan
dalam data teks. Secara teknis, kegiatan mining berfokus pada pemodelan utama, algoritma
dan aplikasi mengenai apa yang seseorang bisa pelajari dari beberapa macam data teks.
Lebih lanjut, data teks dapat dianalisa melalui berberapa cara. Sebagai contoh, data teks
dapat diasumsikan sebagai suatu kumpulan kata yang sama dengan frekuensi terbanyak
muncul maupun dapat berupa kalimat utama. Namun demikian, pada banyak kondisi, akan
lebih mudah bagi pengguna jika suatu teks informasi diwakili dengan kata yang memiliki
makna. Sebagai contoh, merangkum data teks dengan entitas bernama seperti orang,
organisasi dan lokasi, serta keterkaitannya akan memberikan temuan pattern yang lebih
menarik dibandingkan dengan hanya memperlihatkan kata-kata yang sering muncul.
Algoritma dalam Text Mining
Beberapa jenis algoritma dan aplikasinya dalam text mining, antara lain:
Information Extraction from Text Data

Ekstraksi informasi adalah hal utama dalam text mining. Tujuan ekstraksi informasi
adalah menemukan informasi secara terstruktur. Sebagai contoh, ekstraksi entitas dan
kaitannya pada suatu teks akan mengarahkan pada lebih banyak informasi lain yang
bermakna. Informasi tersebut dapat disampaikan secara langsung pada pengguna maupun
digunakan oleh sistem komputer lain seperti mesin pencari dan sistem manajemen database
untuk menyediakan pelayanan bagi konsumen akhir.
Text Summarization
Fungsi lain yang sering muncul pada penerapan text mining adalah perangkuman.
Rangkuman adalah memberikan gambaran singkat mengenai keseluruhan isi dokumen. Cara
untuk merangkum secara umum tebagi dua, yaitu:
- Extractive Summarization
Merupakan teknik merangkum dengan informasi yang terdapat langsung pada
keseluruhan teks
- Abstactive Summarization
Hasil rangkuman yang berupa kesimpulan sehingga informasi tersebut tidak
harus tertulis dalam dokumen
Unsupervised Learning Methods from Text Data

Metode pembelajaran tak terawasi tidak membutuhkan training data tertentu, sehingga
bisa diterapkan pada data teks manapun tanpa membutuhkan manual effort. Dua metode
pembelajaran tidak terawasi yang umum digunakan dalam konteks teks data adalah clustering
dan topic modeling.
LSI dan Dimensionally Reduction for Data Mining

Variasi dari reduksi dimensionality yang sering digunakan untuk data teks disebut
sebagai latent semantic indexing. Satu diantara karakteristik menarik latent semantic indexing
adalah ini akan meberikan kita aspek kunci arti kata dalam data teks yang membuatnya lebih
cocok untuk beragam aplikasi mining.
Supervised Learning Methods from Text Data

Metode pembelajaran terawasi adalah metode machine learning secara umum yang
bisa menemukan data training untuk melakukan klasifikasi atau regresi fungsi yang bisa
digunakan untuk menghitung prediksi data baru yang belum terlihat.
Transfer Learning with Text Data

Pekerjaan mining lintas bahasa memunculkan kasus dimana atribut teks mungkin
berbeda bahasa. Sebagai contoh, judul dokumen dengan bahasa Inggris lebih banyak dan
mudah ditemukan dibanding judul dokumen dengan bahasa Cina. Permasalahan dalam
transfer learning adalah upaya untuk melakukan transfer ilmu pengetahuan dari satu domain
ke domain lain. Kondisi lain yang menghalangi adalah adanya mixture antara data teks dan
data multimedia. Ini merupakan kasus yang sering terjadi pada banyak aplikasi web dan media
sosial seperti Flickr, Youtube dan situs sharing multimedia lainnya dimana pengguna berasal
dari seluruh negara dengan beragam bahasa.
Probabilistic Techniques for Text Data

Probabilistic model menggunakan teori probabilitas (teori kemungkinan) untuk
pemodelan data yang berubah-ubah. Model probabilitas menggambarkan suatu kelompok
distribusi probabilitas yang mungkin pada suatu kelompok data yang diteliti, dan bertujuan
untuk menemukan suatu distribusi (biasanya dalam bentuk parameter) dalam pemodelan
probabilitas yang terbaik/paling tepat untuk mendeskripsikan kelompok data tersebut.
Mining Text Streams

Beragama aplikasi di web menciptakan aliran data teks. Aplikasi web pada khususnya
seperti social network yang menyediakan input data teks sekaligus dari seluruh pengguna
dapat menyebabkan aliran data teks menerus dalam jumlah besar. Pun demikian dengan
aliran berita seperti Reuters maupun agregator seperti Google news yang menciptakan
volume aliran data yang besar dan bisa diperoleh terus menerus.
Cross Lingual Mining of Text Data

Dengan perkembangan informasi berbasis web maupun yang diperoleh dari satu aplikasi
ke aplikasi lainnya, menjadi penting untuk memudahkan kegiatan data mining dalam beragam
bahasa. Dalam kegiatan mining lintas bahasa, diharapkan dapat mengelompokkan beberapa
data menjadi satu kelompok data. Sebagai contoh, kata yang dokumen yang menggunakan
beragam bahasa dapat dikelompokan dalam satu cluster selama dokumen-dokumen tersebut
memiliki makna serupa.
Text mining in Multimedia Network

Perkembangan pesat infrastruktur komunikasi seperti web dan ponsel memegang peran
penting dalam pembuatan konten, penyimpanan dan sharing entitas multimedia. Konten
multimedia seperti foto dan video begitu banyak tersedia. Sebagai contoh, Youtube sebagai
media sharing video, memiliki miliaran video. Sedangkan media sosial Youtube didalamnya
terdapat ratusan miliar foto.
Text mining in Social Media

Salah satu sumber data teks adalah melalui sosial media. Sosial media memungkinkan
seseorang untuk mengekspresikan perasaannya dengan mudah dan bebas dengan subjek
yang beragam. Namun demikian, proses mining data pada platform media sosial
membutuhkan keterampilan khusus terutama karena data yang mengandung bahasa yang
kurang baik dan tidak baku.
Opinion Mining from Text Data
Sumber data teks yang cukup banyak dapat juga ditemukan dalam bentuk
opini/pendapat/komentar dari seseorang. Kegiatan mining data teks berupa pendapat
dilakukan dengan menampakkan dan merangkum opini yang tersebar secara luas, seperti
pendapat konsumen terhadap suatu produk yang berguna sebagai masukan untuk
pengambilan keputusan dan peningkatan kualitas bisnis. Tetapi terkadang ditemukan juga
adanya komentar spam yang tidak berguna dan menjadi noise dalam data mining.
Text mining from Biomedical Data

Kegiatan text mining memainkan peran penting dalam penyediaan hasil riset biomedis
serta peningkatan efektifitas dan efisiensi akses informasi yang tersembunyi dibalik banyaknya
data dan literatur yang ada. Text mining dalam kaitannya dengan biomedis berperan dalam
memfasilitasi percepatan penemuan-penemuan di bidang biomedis.
Kerangka Kerja Umum dalam Analisa Teks
Secara umum, kerangka kerja analisa teks terdiri atas tiga urutan tahap, meliputi
1. Text Preprocessing
Text Preprocessing dilakukan agar input dokumen menjadi lebih sesuai untuk mewakili
data teks. Proses itu sangat diperlukan untuk kebanyakan pekerjaan analisa teks. Text
preprocessing dapat dilakukan dengan dua metode, yaitu:
- Metode Stop Word Removal
Metode ini dilakukan dengan cara me-remove kata-kata yang banyak muncul namun
kurang bermakna
- Stemming
Metode ini dilakukan melalui generalisasi suatu kata berimbuhan ke dalam bentuk
dasarnya. Sebagai contoh, kata “lihat, :melihat” dan “dilihat” dapat dianggap sebagai satu kata
sama yaitu “lihat”.
Metode text preprocessing dilakukan untuk satu tujuan spesifik. Pada banyak aplikasi
seperti Opinion Mining / NLP, harus dilakukan juga analisa dari sudut pandangn tata cara
penulisan. Metode ini harus menjaga struktur suatu kalimat agar maknannya tetap. Sebagai
contoh, tanpa informasi ini, akan sulit membedakan dua kalimat berikut:
a. Dari universitas apa presiden berasal?
b. Siapakah presiden yang berasal dari Universitas Harvard?
Dua kalimat tersebut memiliki padanan kata yang mirip, namun sangat berbeda dalam
konteks kalimatnya.
2. Text Representation
Tahapan berikutnya untuk pemodelan dokumen adalah dengan merubahnya dalam
bentuk vektor numerik dan menyesuaikannya dengan operasi aljabar linear. Representasi ini
dinamakan Bug of Words (BOG) atau Vector Space Model (VSM). Pada pemodelan ini, sebuah
kata digambarkan sebagai sebuah variabel terpisah dengan jumlah tertentu dan untuk tujuan
beragam.
Gambar 1. Tahapan Analisa Teks
3. Knowledge Discovery
Ketika sebuah data teks sudah diubah dalam bentuk vektor numerik, kita bisa
menerapkan metode machine learning ataupun metode data mining seperti klasifikasi
maupun pengelompokan. Dalam machine learning, adanya kemiripan adalah sebuah aspek
penting untuk beragam pekerjaan. Perhitungan persamaan yang banyak digunakan antar V1
dan V2 adalah dengan persamaan fungsi cosinus dengan persamaan:
Similarity(V1, V2) = cos (Ө) = V1*V2
||V1||||V2||
Dengan menerapakan urutan metode text preprocession, text representation dan
knowledge discovery, kita bisa menemukan informasi berguna dari sekumpulan data.
Sumber:
Charu C. Aggarwal. ChengXiang Zhai
Mining Text Data. Springer

Tn001-Es2204-Ptpsw-Size-02-21 - Tte Mih

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tn001-Es2204-Ptpsw-Size-02-21 - Tte Mih

Diunggah oleh

Hak Cipta:

Format Tersedia

BADAN PENGKAJIAN DAN PENERAPAN TEKNOLOGI

Dibuat oleh : Diperiksa oleh : Disetujui oleh :

Information Extraction from Text Data

Unsupervised Learning Methods from Text Data

LSI dan Dimensionally Reduction for Data Mining

Supervised Learning Methods from Text Data

Transfer Learning with Text Data

Probabilistic Techniques for Text Data

Mining Text Streams

Cross Lingual Mining of Text Data

Text mining in Multimedia Network

Text mining in Social Media

Text mining from Biomedical Data

Kerangka Kerja Umum dalam Analisa Teks

Anda mungkin juga menyukai