Program
Sistem Informasi Zoonosis dan
Emerging Infectious Disease (SIZE)
TECHNICAL NOTE
Studi Literatur terkait Analitika Media Sosial dan Digital
TN-001/ES2204/PTPSW/SIZE/02/21
WP 2.2
Pengembangan Sistem
WBS 2
Pengembangan Model Spasial dan Sistem
Nama : Taufiq Widiaputra, ST Nama : Prabu Kresna M.T.I Nama : Dr. M Iqbal Habibie
Tanggal : 26 Febuari 2021 Tanggal : 27 Febuari 2021 Tanggal : 28 Febuari 2021
No Butir : II.B.4.a No Butir : II.B.4.b No Butir : II.B.4.c
Studi Literatur terkait Analitika Media Sosial dan Digital
Instruksi :
Berdasarkan Instruction Sheet No. IS 02/WP22/PPTPSW/2/2021 dari WP Leader untuk
melakukan Melakukan Studi Literatur terkait Analitika Media Sosial dan Digital. Maka keluaran dari
kegiatan yang telah dilakukan adalah sebagai berikut.
Hasil :
Pada kegiatan ini penulis mengerjakan IS: Melakukan Studi Literatur terkait Analitika
Media Sosial dan Digital dengan pembahasan mengenai text mining.
Kegiatan :
Definisi Text Mining
Text mining merupakan kegiatan untuk menarik sejumlah data tertentu dari suatu
kelompok data besar. Kebutuhan penerapan text mining meningkat dalam beberapa tahun
terakhir karena banyak dan beragamnya jenis data yang dihasilkan dari berbagai platform
media sosial dan media informasi lainnya. Peningkatan jumlah data teks yang tersedia,
menciptakan kebutuhan akan suatu algoritma desain tingkat lanjut yang dapat mempelajari
pola tertentu dari suatu data secara dinamis dan terukur.
Jika suatu data terstruktur pada umumnya dikelola dengan sebuah sistem database,
maka data teks berbeda. Data teks bisa didapatkan melalui mesin pencari. Mesin pencari
memberi kemudahan bagi pengguna untuk menemukan informasi tertentu secara mudah
dengan memasukan kata kunci. Studi mengenai pengambilan informasi pada umumnya
berfokus pada pemberian fasilitas untuk akses informasi, sedangkan tujuan utama dari text
mining adalah analisa informasi untuk menemukan pola tertentu dari data.
Text mining dapat dianggap memudahkan akses informasi untuk membantu pengguna
lebih jauh dalam menggali informasi dan memfasilitasi untuk pengambilan keputusan.
Terdapat juga beberapa aplikasi text mining dimana tujuan utamanya adalah untuk analisa dan
menemukan pola tertentu dari sekumpulan data, termasuk didalamnya trend dan pecilan
dalam data teks. Secara teknis, kegiatan mining berfokus pada pemodelan utama, algoritma
dan aplikasi mengenai apa yang seseorang bisa pelajari dari beberapa macam data teks.
Lebih lanjut, data teks dapat dianalisa melalui berberapa cara. Sebagai contoh, data teks
dapat diasumsikan sebagai suatu kumpulan kata yang sama dengan frekuensi terbanyak
muncul maupun dapat berupa kalimat utama. Namun demikian, pada banyak kondisi, akan
lebih mudah bagi pengguna jika suatu teks informasi diwakili dengan kata yang memiliki
makna. Sebagai contoh, merangkum data teks dengan entitas bernama seperti orang,
organisasi dan lokasi, serta keterkaitannya akan memberikan temuan pattern yang lebih
menarik dibandingkan dengan hanya memperlihatkan kata-kata yang sering muncul.
Algoritma dalam Text Mining
Beberapa jenis algoritma dan aplikasinya dalam text mining, antara lain:
Text Summarization
Fungsi lain yang sering muncul pada penerapan text mining adalah perangkuman.
Rangkuman adalah memberikan gambaran singkat mengenai keseluruhan isi dokumen. Cara
untuk merangkum secara umum tebagi dua, yaitu:
- Extractive Summarization
Merupakan teknik merangkum dengan informasi yang terdapat langsung pada
keseluruhan teks
- Abstactive Summarization
Hasil rangkuman yang berupa kesimpulan sehingga informasi tersebut tidak
harus tertulis dalam dokumen
Secara umum, kerangka kerja analisa teks terdiri atas tiga urutan tahap, meliputi
1. Text Preprocessing
Text Preprocessing dilakukan agar input dokumen menjadi lebih sesuai untuk mewakili
data teks. Proses itu sangat diperlukan untuk kebanyakan pekerjaan analisa teks. Text
preprocessing dapat dilakukan dengan dua metode, yaitu:
- Metode Stop Word Removal
Metode ini dilakukan dengan cara me-remove kata-kata yang banyak muncul namun
kurang bermakna
- Stemming
Metode ini dilakukan melalui generalisasi suatu kata berimbuhan ke dalam bentuk
dasarnya. Sebagai contoh, kata “lihat, :melihat” dan “dilihat” dapat dianggap sebagai satu kata
sama yaitu “lihat”.
Metode text preprocessing dilakukan untuk satu tujuan spesifik. Pada banyak aplikasi
seperti Opinion Mining / NLP, harus dilakukan juga analisa dari sudut pandangn tata cara
penulisan. Metode ini harus menjaga struktur suatu kalimat agar maknannya tetap. Sebagai
contoh, tanpa informasi ini, akan sulit membedakan dua kalimat berikut:
a. Dari universitas apa presiden berasal?
b. Siapakah presiden yang berasal dari Universitas Harvard?
Dua kalimat tersebut memiliki padanan kata yang mirip, namun sangat berbeda dalam
konteks kalimatnya.
2. Text Representation
Tahapan berikutnya untuk pemodelan dokumen adalah dengan merubahnya dalam
bentuk vektor numerik dan menyesuaikannya dengan operasi aljabar linear. Representasi ini
dinamakan Bug of Words (BOG) atau Vector Space Model (VSM). Pada pemodelan ini, sebuah
kata digambarkan sebagai sebuah variabel terpisah dengan jumlah tertentu dan untuk tujuan
beragam.
Gambar 1. Tahapan Analisa Teks
3. Knowledge Discovery
Ketika sebuah data teks sudah diubah dalam bentuk vektor numerik, kita bisa
menerapkan metode machine learning ataupun metode data mining seperti klasifikasi
maupun pengelompokan. Dalam machine learning, adanya kemiripan adalah sebuah aspek
penting untuk beragam pekerjaan. Perhitungan persamaan yang banyak digunakan antar V1
dan V2 adalah dengan persamaan fungsi cosinus dengan persamaan:
Similarity(V1, V2) = cos (Ө) = V1*V2
||V1||||V2||
Dengan menerapakan urutan metode text preprocession, text representation dan
knowledge discovery, kita bisa menemukan informasi berguna dari sekumpulan data.
Sumber:
Charu C. Aggarwal. ChengXiang Zhai
Mining Text Data. Springer