CHAPTER
/
Analisis Prediktif II: Analisis Teks,
Web, dan Media Sosial
TUJUAN PEMBELAJARAN
■ Menjelaskan analisis teks dan ■ Menjelaskan analisis sentimen
memahami kebutuhan akan ■ Kembangkan keakraban dengan
penambangan teks aplikasi analisis sentimen yang
■ Membedakan antara analisis teks, populer
penggalian teks, dan penggalian ■ Pelajari metode umum untuk analisis
data sentimen
■ Memahami berbagai area aplikasi ■ Membiasakan diri dengan analisis
yang berbeda untuk penggalian teks ucapan yang berkaitan dengan
■ Mengetahui proses pelaksanaan analisis sentimen
proyek text mining
■ Mengapresiasi berbagai metode untuk
memperkenalkan struktur pada data
berbasis teks
/.1 Sketsa Pembuka: Mesin versus Manusia dalam Bahaya!: Kisah Watson 274
/.2 Analisis Teks dan Gambaran Umum Penambangan Teks 277
/.3 Pemrosesan Bahasa Alami (NLP) 281
/.& Aplikasi Penambangan Teks 287
/./ Proses Penambangan Teks 294
/.6 Analisis Sentimen 302
/.5 Gambaran Umum Penambangan Web 313
273
274 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
Dapatkah sebuah mesin mengalahkan manusia dalam hal yang seharusnya menjadi
keahlian manusia? Ternyata, ya, dan nama mesin itu adalah Watson. Watson adalah sistem
komputer yang luar biasa (kombinasi baru antara perangkat keras dan perangkat lunak
canggih) yang dirancang untuk menjawab pertanyaan yang diajukan dalam bahasa alami
manusia. Sistem ini dikembangkan pada tahun 2010 oleh tim Riset IBM sebagai bagian
dari proyek DeepQA dan dinamai sesuai dengan nama presiden pertama IBM, Thomas J.
Watson.
Latar Belakang
Sekitar 3 tahun yang lalu, IBM Research mencari tantangan penelitian besar untuk
menyaingi ketertarikan ilmiah dan populer dari Deep Blue, sang juara catur komputer,
yang juga memiliki relevansi yang jelas dengan kepentingan bisnis IBM. Tujuannya adalah
untuk memajukan ilmu komputer dengan mengeksplorasi cara-cara baru bagi teknologi
komputer untuk mempengaruhi ilmu pengetahuan, bisnis, dan masyarakat. Oleh karena itu,
IBM Research melakukan sebuah tantangan untuk membangun sebuah sistem komputer
yang dapat bersaing di tingkat juara manusia secara real time dalam acara kuis TV
Amerika, Jeopardy! Cakupan tantangan ini termasuk menurunkan kontestan otomatis
secara real-time di acara tersebut, yang mampu mendengarkan, memahami, dan
merespons-bukan sekadar latihan di laboratorium.
klasifikasi, penguraian pertanyaan, akuisisi dan evaluasi sumber otomatis, deteksi entitas
dan relasi, pembuatan bentuk logis, serta representasi pengetahuan dan penalaran. Menang
di Jeopardy! membutuhkan keyakinan komputasi yang akurat atas jawaban Anda.
Pertanyaan dan kontennya ambigu dan berisik, dan tidak ada satu pun algoritme yang
sempurna. Oleh karena itu, setiap komponen harus menghasilkan keyakinan pada
keluarannya, dan keyakinan komponen individual harus digabungkan untuk menghitung
keyakinan keseluruhan dari jawaban akhir. Keyakinan akhir digunakan untuk menentukan
apakah sistem komputer harus mengambil risiko dengan memilih jawaban yang salah.
Dalam istilah Jeopardy!, keyakinan ini digunakan untuk menentukan apakah komputer
akan "membunyikan" atau "mendengung" untuk sebuah pertanyaan. Keyakinan harus
dihitung selama pertanyaan dibacakan dan sebelum ada kesempatan untuk menjawab.
Kira-kira antara 1 hingga 6 detik dengan rata-rata sekitar 3 detik.
Kesimpulan
Tantangan Jeopardy! membantu IBM memenuhi persyaratan yang mengarah pada desain
arsitektur DeepQA dan implementasi Watson. Setelah 3 tahun penelitian dan
pengembangan yang intens oleh tim inti yang terdiri dari sekitar 20 peneliti, Watson tampil
pada level ahli manusia dalam hal ketepatan, kepercayaan diri, dan kecepatan di acara kuis
Jeopardy!
IBM mengklaim telah mengembangkan banyak algoritme komputasi dan linguistik
Bab 5 - Analisis Prediktif II: A n a l i s i s Teks, Web, dan Media Sosial 277
untuk mengatasi berbagai jenis masalah dan persyaratan dalam QA. Meskipun bagian
dalam dari algoritme ini tidak diketahui, namun sangat penting untuk memanfaatkan
analisis teks dan penggalian teks secara maksimal. Saat ini IBM sedang mengerjakan versi
Watson untuk mengatasi masalah-masalah yang dapat diatasi dalam bidang kesehatan dan
kedokteran (Feldman et al., 2012).
278 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
Sumber Sumber
jawaban bukti
Pertanya
an (dalam Utama Kandidat Penilaia
bahasa Dukungan n bukti
alami) pencarian generasi mendala
pengam m 5
bilan
bukti 34
12
Pertanyaan
Analisis Peny Penilaian Sintesis Penggabung
(terjemaha Hipotesis 1
(penguraian) aringan bukti (penggabun an dan
n ke
lembut gan) pemeringk
digital)
atan
Peny Penilaian
Hipotesis 2
aringan bukti
lembut Jawaban
... ... ... dan
kepercayaa
Peny Penilaian n diri
Hipotesis n
aringan bukti
lembut
ANALISIS TEKS
Pencocokan Penambangan
Dokumen Konten Web
Analisis Penambangan
Pencarian Penambang Web
Tautan
Informasi Struktur Web
Mesin Pencari an Teks Pertambangan
"Penemuan
Penambangan
Pengetahua Penggunaan Web
n dalam
Penandaan POS Pemrosesa Data Klasifikasi
n Bahasa Tekstual" Pena
Lemmatisasi Alami mbang Pengelom
an pokan
Disambiguasi Kata Data Asosiasi
GAMBAR 5.2 Analisis Teks, Area Aplikasi Terkait, dan Disiplin Ilmu yang Memungkinkan.
282 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
dari area aplikasi yang semakin populer ini. Berdasarkan definisi text analytics dan text
mining ini, kita dapat dengan mudah merumuskan perbedaan antara keduanya sebagai
berikut:
Dibandingkan dengan penambangan teks, analisis teks adalah istilah yang relatif
baru. Dengan penekanan baru-baru ini pada analitik, seperti yang terjadi di banyak area
aplikasi teknis terkait lainnya (misalnya, analitik konsumen, a n a l i t i k lengkap,
a n a l i t i k visual, analitik sosial), bidang teks juga ingin ikut serta dalam kereta analitik.
Meskipun istilah analisis teks lebih sering digunakan dalam konteks aplikasi bisnis,
penambangan teks sering digunakan dalam lingkaran penelitian akademis. Meskipun
terkadang keduanya didefinisikan secara berbeda, text analytics dan text mining biasanya
digunakan secara sinonim, dan kami (penulis buku ini) setuju dengan hal ini.
Penggalian teks (juga dikenal sebagai penggalian data teks atau penemuan
pengetahuan dalam basis data tekstual) adalah proses semi-otomatis untuk mengekstraksi
pola (informasi dan pengetahuan yang berguna) dari sumber data yang tidak terstruktur
dalam jumlah besar. Ingatlah bahwa data mining adalah proses mengidentifikasi pola yang
valid, baru, berpotensi berguna, dan pada akhirnya dapat dimengerti dalam data yang
disimpan dalam basis data terstruktur, di mana data diatur dalam catatan yang terstruktur
oleh variabel kategorikal, ordinal, atau kontinu. Penambangan teks sama dengan
penambangan data karena memiliki tujuan yang sama dan menggunakan proses yang
sama, tetapi dengan p e n a m b a n g a n teks, input untuk prosesnya adalah kumpulan file
data yang tidak terstruktur (atau kurang terstruktur) seperti dokumen Word, file PDF,
kutipan teks, file XML, dan sebagainya. Pada intinya, text mining dapat dianggap sebagai
sebuah proses (dengan dua langkah utama) yang dimulai dengan memberikan struktur pada
sumber data berbasis teks yang diikuti dengan penggalian informasi dan pengetahuan yang
relevan dari data berbasis teks yang terstruktur ini dengan menggunakan teknik dan alat
data mining.
Manfaat dari text mining terlihat jelas di bidang-bidang yang menghasilkan data
tekstual dalam jumlah yang sangat besar, seperti hukum (perintah pengadilan), penelitian
akademis (artikel penelitian), keuangan (laporan kuartalan), kedokteran (ringkasan hasil
pengobatan), biologi (interaksi molekuler), teknologi (berkas paten), dan pemasaran
(komentar pelanggan). Sebagai contoh, interaksi berbasis teks bebas dengan pelanggan
dalam bentuk keluhan (atau pujian) dan klaim garansi dapat digunakan untuk
mengidentifikasi secara objektif karakteristik produk dan layanan yang dianggap kurang
sempurna dan dapat digunakan sebagai masukan untuk pengembangan produk dan alokasi
layanan yang lebih baik. Demikian juga, program penjangkauan pasar dan kelompok fokus
menghasilkan data dalam jumlah besar. Dengan tidak membatasi umpan balik produk atau
layanan dalam bentuk yang sudah dikodifikasi, pelanggan dapat menyampaikan, dengan
kata-kata mereka sendiri, apa yang mereka pikirkan tentang produk dan layanan
perusahaan. Area lain di mana pemrosesan otomatis teks yang tidak terstruktur memiliki
banyak dampak adalah dalam komunikasi elektronik dan e-mail. Penambangan teks tidak
hanya dapat digunakan untuk mengklasifikasikan dan menyaring email sampah, tetapi juga
dapat digunakan untuk memprioritaskan email secara otomatis berdasarkan tingkat
kepentingan serta menghasilkan tanggapan otomatis (Weng & Liu, 2004). Berikut ini
adalah beberapa area aplikasi yang paling populer dari text mining:
• Ekstraksi informasi. Identifikasi frasa kunci dan hubungan dalam teks dengan
mencari objek dan urutan yang telah ditentukan sebelumnya dalam teks melalui
pencocokan pola.
Bab 5 - Analisis Prediktif II: A n a l i s i s Teks, Web, dan Media Sosial 283
• Pelacakan topik. Berdasarkan profil pengguna dan dokumen yang dilihat
pengguna, penggalian teks dapat memprediksi dokumen lain yang menarik bagi
pengguna.
• Peringkasan. Meringkas dokumen untuk menghemat waktu pembaca.
• Kategorisasi. Mengidentifikasi tema utama dari sebuah dokumen dan kemudian
menempatkan dokumen tersebut ke dalam serangkaian kategori yang telah ditentukan
berdasarkan tema tersebut.
284 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
• Matriks istilah per dokumen (matriks kemunculan). Skema representasi umum dari
hubungan berbasis frekuensi antara istilah dan dokumen dalam format tabel di mana istilah
dicantumkan dalam kolom, dokumen dicantumkan dalam baris, dan frekuensi antara istilah dan
dokumen dicantumkan dalam sel sebagai nilai bilangan bulat.
• Dekomposisi nilai tunggal (pengindeksan semantik laten). Metode pengurangan
dimensi yang digunakan untuk mengubah matriks istilah per dokumen menjadi ukuran yang
dapat dikelola dengan menghasilkan representasi perantara frekuensi menggunakan metode
manipulasi matriks yang mirip dengan analisis komponen utama.
Pengobatan berbasis bukti adalah menggabungkan temuan penelitian terbaik yang tersedia
ke dalam proses pengambilan keputusan klinis, yang melibatkan penilaian terhadap
informasi yang dikumpulkan dari media cetak untuk validitas dan relevansinya. Beberapa
peneliti dari University of Maryland mengembangkan model penilaian bukti dengan
menggunakan metode kantong kata (Lin & Demner-Fushman, 2005). Mereka
menggunakan metode pembelajaran mesin yang populer bersama dengan lebih dari
setengah juta artikel penelitian yang dikumpulkan dari MEDLINE (Medical Literature
Analysis and Retrieval System Online). Dalam model mereka, mereka merepresentasikan
setiap abstrak s e b a g a i bag-of-words, di mana setiap istilah yang di-stem
merepresentasikan sebuah fitur. Meskipun menggunakan metode klasifikasi populer
dengan metodologi desain eksperimental yang telah terbukti, hasil prediksi mereka tidak
jauh lebih baik daripada tebakan sederhana, yang mungkin mengindikasikan bahwa bag-
of-kata tidak menghasilkan representasi yang cukup baik dari artikel penelitian dalam
domain ini; oleh karena itu, teknik yang lebih canggih seperti NLP diperlukan.
Pemrosesan bahasa alami (NLP) adalah komponen penting d a l a m pemrosesan
teks dan merupakan subbidang dari kecerdasan buatan dan linguistik komputasi. NLP
mempelajari masalah "memahami" bahasa alami manusia, dengan tujuan untuk mengubah
penggambaran bahasa manusia (seperti dokumen tekstual) menjadi representasi yang lebih
formal (dalam bentuk data numerik dan simbolik) yang lebih mudah dimanipulasi oleh
program komputer. Tujuan dari NLP adalah untuk bergerak di luar manipulasi teks yang
digerakkan oleh sintaksis (yang sering disebut "penghitungan kata") menuju pemahaman
dan pemrosesan bahasa alami yang sebenarnya yang mempertimbangkan batasan tata
bahasa dan semantik serta konteks.
Definisi dan cakupan pemahaman kata adalah salah satu topik diskusi utama dalam
NLP. Mengingat bahwa bahasa alami manusia tidak jelas dan bahwa pemahaman makna
yang benar membutuhkan pengetahuan yang luas tentang suatu topik (di luar apa yang ada
di d a l a m kata, kalimat, dan paragraf), akankah komputer dapat memahami bahasa alami
dengan cara yang sama dan dengan keakuratan yang sama seperti yang dilakukan oleh
manusia? Mungkin tidak! NLP telah berkembang pesat sejak zaman penghitungan kata
sederhana, tetapi masih ada jalan panjang untuk benar-benar memahami bahasa alami
manusia. Berikut ini adalah beberapa tantangan yang umumnya terkait dengan penerapan
NLP:
• Penandaan bagian dari ucapan. Sulit untuk menandai istilah dalam teks yang
sesuai dengan bagian kata tertentu (seperti kata benda, kata kerja, kata sifat, atau kata
keterangan) karena bagian kata tidak hanya bergantung pada definisi istilah tersebut,
tetapi juga pada konteks penggunaannya.
• Segmentasi teks. Beberapa bahasa tertulis, seperti bahasa Mandarin, Jepang, dan
Thailand, tidak memiliki batas kata tunggal. Dalam h a l ini, tugas penguraian teks
memerlukan identifikasi batas kata, yang sering kali merupakan tugas yang sulit.
Tantangan serupa dalam segmentasi ucapan muncul ketika menganalisis bahasa lisan
karena suara yang mewakili huruf dan kata yang berurutan berbaur satu sama lain.
• Disambiguasi arti kata. Banyak kata yang memiliki lebih dari satu arti. Memilih
arti yang paling masuk akal hanya dapat dilakukan dengan mempertimbangkan
konteks penggunaan kata tersebut.
• Ambiguitas sintaksis. Tata bahasa untuk bahasa alami bersifat ambigu; artinya,
beberapa kemungkinan struktur kalimat sering kali perlu dipertimbangkan. Memilih
struktur y a n g paling tepat biasanya membutuhkan perpaduan informasi semantik
dan kontekstual.
• Masukan yang tidak sempurna atau tidak teratur. Aksen asing atau regional
dan hambatan vokal dalam berbicara serta kesalahan ketik atau tata b a h a s a
dalam teks membuat pemrosesan bahasa menjadi tugas yang lebih sulit.
• Tindak tutur. Sebuah kalimat sering kali dapat dianggap sebagai sebuah tindakan
oleh pembicara. Struktur kalimatnya saja mungkin tidak mengandung informasi yang
Bab 5 - Analisis Prediktif II: A n a l i s i s Teks, Web, dan Media Sosial 291
cukup untuk mendefinisikan tindakan ini. Misalnya, "Dapatkah Anda lulus kelas?"
meminta jawaban sederhana ya/tidak, sedangkan "Dapatkah Anda mengambil
garam?" adalah permintaan untuk melakukan tindakan fisik.
292 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
Sudah menjadi impian lama komunitas kecerdasan buatan untuk memiliki algoritma
yang mampu membaca dan mendapatkan pengetahuan dari teks secara otomatis. Dengan
menerapkan algoritme pembelajaran pada teks yang diurai, para peneliti dari laboratorium
NLP Universitas Stanford telah mengembangkan metode yang secara otomatis dapat
mengidentifikasi konsep dan hubungan di antara konsep-konsep dalam teks. Dengan
menerapkan prosedur unik pada teks dalam jumlah besar, algoritme mereka secara
otomatis mendapatkan ratusan ribu item pengetahuan dunia dan menggunakannya untuk
menghasilkan repositori yang disempurnakan secara signifikan untuk WordNet. WordNet
adalah basis data yang dikodekan dengan susah payah untuk kata-kata bahasa Inggris,
definisinya, kumpulan sinonim, dan berbagai hubungan semantik di antara kumpulan
sinonim. Ini adalah sumber daya utama untuk aplikasi NLP, tetapi telah terbukti sangat
mahal untuk dibangun dan dipelihara secara manual. Dengan secara otomatis memasukkan
pengetahuan ke dalam WordNet, ada potensi untuk menjadikan WordNet sebagai sumber
daya yang lebih besar dan lebih komprehensif untuk NLP dengan biaya yang lebih murah.
Salah satu area yang menonjol di mana manfaat NLP dan WordNet telah dipanen adalah
dalam manajemen hubungan pelanggan (CRM). Secara garis besar, tujuan dari CRM
adalah untuk memaksimalkan nilai pelanggan dengan lebih memahami dan secara efektif
menanggapi kebutuhan mereka yang sebenarnya dan yang dirasakan. Area penting dalam
CRM, di mana NLP memberikan dampak yang signifikan, adalah analisis sentimen.
Analisis sentimen adalah teknik yang digunakan untuk mendeteksi opini yang
menguntungkan dan tidak menguntungkan terhadap produk dan layanan tertentu dengan
menggunakan sejumlah besar sumber data tekstual (umpan balik pelanggan dalam bentuk
posting Web). Cakupan terperinci mengenai analisis sentimen dan WordNet diberikan di
Bagian 5.6.
Analisis secara umum dan analisis teks serta penggalian teks secara khusus dapat
digunakan dalam industri penyiaran. Kasus Aplikasi 5.2 memberikan contoh di mana
berbagai kemampuan analitik digunakan untuk menjaring pemirsa baru, memprediksi
peringkat, dan menambah nilai bisnis bagi perusahaan penyiaran.
NLP telah berhasil diterapkan pada berbagai domain untuk berbagai m a c a m tugas
melalui program komputer untuk secara otomatis memproses bahasa alami manusia yang
sebelumnya hanya dapat dilakukan oleh manusia. Berikut ini adalah beberapa tugas yang
paling populer:
• Menjawab pertanyaan. Tugas untuk menjawab pertanyaan yang diajukan dalam
bahasa alami secara otomatis; yaitu, menghasilkan jawaban dalam bahasa manusia
ketika diberikan pertanyaan dalam bahasa manusia. Untuk menemukan jawaban dari
sebuah pertanyaan, program komputer dapat menggunakan basis data yang telah
terstruktur atau kumpulan dokumen bahasa alami (korpus teks seperti World Wide
Web).
• Peringkasan otomatis. Pembuatan versi singkat dari dokumen tekstual oleh
program komputer yang berisi poin-poin terpenting dari dokumen asli.
• Pembuatan bahasa alami. Sistem mengubah informasi dari basis data komputer
menjadi bahasa manusia yang dapat dibaca.
• Pemahaman bahasa alami. Sistem mengubah sampel dari bahasa manusia
menjadi representasi yang lebih formal yang lebih mudah dimanipulasi oleh program
komputer.
• Terjemahan mesin. Terjemahan otomatis dari satu bahasa manusia ke bahasa lainnya.
• Membaca bahasa asing. Program komputer yang membantu penutur bahasa
asing untuk membaca bahasa asing dengan pengucapan dan aksen yang benar pada
bagian kata yang berbeda.
• Penulisan bahasa asing. Program komputer yang membantu pengguna bahasa
asing dalam menulis dalam bahasa asing.
• Pengenalan ucapan. Mengubah kata-kata yang diucapkan menjadi input yang
dapat dibaca oleh mesin. Dengan diberikan klip suara seseorang yang sedang
berbicara, sistem akan menghasilkan dikte teks.
• Teks-ke-ucapan. Juga disebut sintesis ucapan, program komputer secara otomatis
mengubah teks bahasa normal menjadi ucapan manusia.
• Pemeriksaan teks. Program komputer membaca salinan bukti teks untuk
mendeteksi dan mengoreksi kesalahan.
• Pengenalan karakter optik. Penerjemahan otomatis gambar teks yang ditulis
tangan, diketik, atau dicetak (biasanya ditangkap oleh pemindai) ke dalam dokumen
tekstual yang dapat diedit oleh mesin.
Keberhasilan dan popularitas penambangan teks sangat bergantung pada kemajuan
dalam NLP baik dalam generasi maupun pemahaman bahasa manusia. NLP
memungkinkan ekstraksi fitur dari teks yang tidak terstruktur sehingga berbagai macam
Bab 5 - Analisis Prediktif II: A n a l i s i s Teks, Web, dan Media Sosial 287
teknik penggalian data
288 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
dapat digunakan untuk mengekstrak pengetahuan (pola dan hubungan yang baru dan
berguna) darinya. Dalam hal ini, secara sederhana, text mining adalah kombinasi dari NLP
dan data mining.
Aplikasi Pemasaran
Penambangan teks dapat digunakan untuk meningkatkan penjualan silang dan penjualan
naik dengan menganalisis data yang tidak terstruktur yang dihasilkan oleh pusat panggilan.
Teks yang dihasilkan oleh catatan call center serta transkripsi percakapan suara dengan
pelanggan dapat dianalisis dengan algoritme penambangan teks untuk mengekstrak
informasi baru yang dapat ditindaklanjuti tentang persepsi pelanggan terhadap produk dan
layanan perusahaan. Selain itu, blog, ulasan pengguna tentang produk di situs Web yang
sedang berjalan, dan posting papan diskusi adalah tambang emas dari sentimen pelanggan.
Kumpulan informasi yang kaya ini, setelah dianalisis dengan benar, dapat digunakan untuk
meningkatkan kepuasan dan nilai keseluruhan seumur hidup pelanggan (Coussement &
Van den Poel, 2008). Penambangan teks telah menjadi sangat berharga untuk CRM.
Perusahaan dapat menggunakan text mining untuk menganalisis kumpulan data teks yang
tidak terstruktur, dikombinasikan dengan data terstruktur yang relevan yang diekstrak dari
database organisasi, untuk memprediksi persepsi pelanggan dan perilaku pembelian
selanjutnya. Coussement dan Van den Poel (2009) berhasil menerapkan penambangan teks
untuk secara signifikan meningkatkan kemampuan model untuk memprediksi perputaran
pelanggan (yaitu, gesekan pelanggan) sehingga pelanggan yang diidentifikasi sebagai yang
paling mungkin meninggalkan perusahaan adalah
diidentifikasi secara akurat untuk taktik retensi.
Ghani dkk. (2006) menggunakan penggalian teks untuk mengembangkan sistem yang
mampu menyimpulkan atribut implisit dan eksplisit dari produk untuk meningkatkan
kemampuan peritel dalam menganalisis basis data produk. Memperlakukan produk sebagai
kumpulan pasangan atribut-nilai daripada sebagai entitas atom dapat berpotensi
meningkatkan efektivitas banyak aplikasi bisnis, termasuk peramalan permintaan,
pengoptimalan bermacam-macam produk, rekomendasi produk, perbandingan bermacam-
macam produk di seluruh peritel dan produsen, dan pemilihan pemasok produk. Sistem
yang diusulkan memungkinkan bisnis untuk merepresentasikan produknya dalam hal
atribut dan nilai atribut tanpa banyak usaha manual. Sistem mempelajari atribut-atribut ini
dengan menerapkan teknik pembelajaran yang diawasi dan semisupervisi pada deskripsi
produk yang ditemukan di situs Web pengecer.
Bab 5 - Analisis Prediktif II: A n a l i s i s Teks, Web, dan Media Sosial 289
Aplikasi Keamanan
Salah satu aplikasi penambangan teks terbesar dan paling menonjol dalam domain
keamanan mungkin adalah sistem pengawasan ECHELON yang sangat rahasia. Seperti
yang dikabarkan, ECHELON diasumsikan mampu mengidentifikasi konten panggilan
telepon, faks, email, dan
290 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
jenis data lainnya, menyadap informasi yang dikirim melalui satelit, jaringan telepon yang
dialihkan ke publik, dan sambungan gelombang mikro.
Pada tahun 2007, EUROPOL mengembangkan sebuah sistem terintegrasi yang
mampu mengakses, menyimpan, dan menganalisis sumber data terstruktur dan tidak
terstruktur dalam jumlah yang sangat besar untuk melacak kejahatan transnasional
terorganisir. Disebut Sistem Analisis Keseluruhan untuk Dukungan Intelijen (OASIS),
sistem ini bertujuan untuk mengintegrasikan data paling canggih dan teknologi
penambangan teks yang tersedia di pasar saat ini. Sistem ini telah memungkinkan
EUROPOL untuk membuat kemajuan yang signifikan dalam mendukung tujuan
penegakan hukum di tingkat internasional (EUROPOL, 2007).
Biro Investigasi Federal AS (FBI) dan Badan Intelijen Pusat (CIA), di bawah arahan
Departemen Keamanan Dalam Negeri, bersama-sama mengembangkan sistem
penambangan data dan teks superkomputer. Sistem ini diharapkan dapat menciptakan
gudang data raksasa bersama dengan berbagai modul data dan penambangan teks untuk
memenuhi kebutuhan penemuan pengetahuan dari lembaga penegak hukum federal, negara
bagian, dan lokal. Sebelum proyek ini, FBI dan CIA masing-masing memiliki basis data
yang terpisah, dengan sedikit atau tanpa interkoneksi.
Aplikasi lain yang berhubungan dengan keamanan dari text mining adalah di bidang
deteksi penipuan. Menerapkan penambangan teks pada sekumpulan besar pernyataan
kriminal (orang yang berkepentingan) di dunia nyata, Fuller, Biros, dan Delen (2008)
mengembangkan model prediksi untuk membedakan pernyataan yang menipu dengan
pernyataan yang jujur. Dengan menggunakan sekumpulan isyarat yang diekstrak dari
pernyataan tekstual, model ini memprediksi sampel yang ditahan dengan akurasi 70%,
yang diyakini sebagai keberhasilan yang signifikan mengingat isyarat tersebut diekstrak
hanya dari pernyataan tekstual (tidak ada isyarat verbal atau visual). Selain itu,
dibandingkan dengan teknik pendeteksian penipuan lainnya, seperti poligraf, metode ini
tidak mengganggu dan dapat diterapkan secara luas tidak hanya pada data tekstual, tetapi
juga (berpotensi) pada transkripsi rekaman suara. Penjelasan lebih rinci tentang deteksi
penipuan berbasis teks disediakan dalam Kasus Aplikasi 5.3.
Laporan yang
Ditranskrip untuk
Diproses
Isyarat
Terkuantifikasi yang
Dihasilkan
Perangkat Lunak
Pemrosesan Teks
GAMBAR 5.3 Proses Pendeteksian PenipuanBab 5 - Analisis
Berbasis PrediktifFuller,
Teks. Sumber: II: A CM,
n a lBiros,
i s i sD.,Teks, Web,D.dan
& Delen, Media
(2008, 293
SosialEksplorasi
Januari).
pemilihan fitur dan model klasifikasi tingkat lanjut untuk deteksi penipuan berisiko tinggi. Prosiding Konferensi Internasional Hawaii Tahunan ke-41
tentang Ilmu Sistem (HICSS), Big Island, HI: IEEE Press, 80-99.
(Lanjutan)
294 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
PERTANYAAN UNTUK DISKUSI Sumber: Fuller, C. M., Biros, D., & Delen, D. (2008). Eksplorasi
pemilihan fitur dan model klasifikasi tingkat lanjut untuk deteksi
1. Mengapa sulit untuk mendeteksi penipuan? penipuan berisiko tinggi. Prosiding Konferensi Internasional
2. Bagaimana penggalian teks/data dapat Tahunan Hawaii ke-41 tentang Ilmu Sistem (HICSS), Big Island, HI:
digunakan untuk mendeteksi penipuan IEEE Press, 80-99; Bond CF, & DePaulo, BM (2006). Keakuratan
dalam teks? penilaian penipuan. Laporan Psikologi Kepribadian dan Sosial,
10(3), 214-234.
3. Menurut Anda, apa tantangan utama untuk
sistem otomatis semacam itu?
Aplikasi Biomedis
Penambangan teks memiliki potensi besar untuk bidang medis pada umumnya dan
biomedis pada khususnya karena beberapa alasan. Pertama, literatur yang diterbitkan dan
outlet publikasi (terutama dengan munculnya jurnal sumber terbuka) di bidang ini
berkembang dengan kecepatan eksponensial. Kedua, dibandingkan dengan sebagian besar
bidang lain, literatur medis lebih terstandarisasi dan teratur, menjadikannya sumber
informasi yang lebih "mudah ditelusuri". Terakhir, terminologi yang digunakan dalam
literatur ini relatif konstan, memiliki ontologi yang cukup standar. Berikut ini adalah
beberapa contoh studi di mana teknik text mining berhasil digunakan dalam mengekstraksi
pola baru dari literatur biomedis.
Teknik-teknik eksperimental seperti analisis microarray DNA, analisis serial ekspresi
gen (SAGE), dan proteomik spektrometri massa, di antaranya, menghasilkan data dalam
jumlah besar yang terkait dengan gen dan protein. Seperti pada pendekatan eksperimental
lainnya, data yang sangat banyak ini perlu dianalisis dalam konteks informasi yang telah
diketahui sebelumnya tentang entitas biologis yang diteliti. Literatur merupakan sumber
informasi yang sangat berharga untuk validasi dan interpretasi eksperimen. Oleh karena
itu, pengembangan alat penggalian teks otomatis untuk membantu interpretasi tersebut
merupakan salah satu tantangan utama dalam penelitian bioinformatika saat ini.
Mengetahui lokasi protein dalam sel dapat membantu menjelaskan perannya dalam
proses biologis dan menentukan potensinya sebagai target obat. Banyak sistem prediksi
lokasi dijelaskan dalam literatur; beberapa fokus pada organisme tertentu, sedangkan yang
lain mencoba untuk menganalisis berbagai macam organisme. Shatkay dkk. (2007)
Bab 5 - Analisis Prediktif II: A n a l i s i s Teks, Web, dan Media Sosial 295
mengusulkan sebuah sistem komprehensif yang menggunakan beberapa jenis fitur berbasis
sekuens dan teks untuk memprediksi lokasi protein. Kebaruan utama dari sistem mereka
terletak pada cara sistem ini memilih sumber teks dan fitur-fiturnya serta
mengintegrasikannya dengan fitur-fitur berbasis urutan. Mereka menguji sistem ini pada
kumpulan data yang telah digunakan sebelumnya dan pada kumpulan data baru yang
dirancang khusus untuk menguji kekuatan prediktifnya. Hasilnya menunjukkan bahwa
sistem mereka secara konsisten mengalahkan hasil yang dilaporkan sebelumnya.
Chun dkk. (2006) menggambarkan sebuah sistem yang mengekstrak hubungan
penyakit-gen dari literatur yang diakses melalui MEDLINE. Mereka membuat kamus
untuk nama penyakit dan gen dari enam database publik dan mengekstrak kandidat
hubungan dengan pencocokan kamus. Karena pencocokan kamus menghasilkan sejumlah
besar positif palsu, mereka mengembangkan metode pengenalan entitas bernama (NER)
berbasis pembelajaran mesin untuk menyaring pengenalan nama penyakit/gen yang salah.
Mereka menemukan bahwa keberhasilan ekstraksi relasi sangat bergantung pada kinerja
pemfilteran NER dan pemfilteran tersebut meningkatkan ketepatan ekstraksi relasi sebesar
26,7%, dengan sedikit penurunan dalam recall.
Gambar 5.4 menunjukkan penggambaran yang disederhanakan dari proses analisis
teks bertingkat untuk hubungan gen-protein yang tidak tercakup (atau interaksi protein-
protein) dalam literatur biomedis (Nakov dkk., 2005). Seperti yang dapat dilihat pada contoh
yang disederhanakan ini yang menggunakan kalimat sederhana dari teks biomedis, pertama-
tama (pada tiga tingkat terbawah) teks diberi tanda menggunakan penandaan bagian dari
ucapan dan penguraian dangkal. Istilah-istilah (kata-kata) yang telah ditandai
kemudian dicocokkan (dan ditafsirkan) dengan representasi hirarkis dari ontologi
domain untuk mendapatkan hubungan gen-protein. Penerapan metode ini (dan/atau beberapa
variasinya) pada literatur biomedis menawarkan potensi besar untuk memecahkan
kompleksitas dalam Proyek Genom Manusia.
D007962
D016923
Ontologi
D001773
... Ekspresi Bcl-2 berkorelasi dengan kematian sel darah putih yang tidak mencukupi dan aktivasi
p53.
185 8 51112 9 23017 27 5874 2791 8952 1623 5632 17 8252 8 2523
Kata
NN IN NN VBZ M JJ JJ NN NN NN CC NN IN NN
MASUK A
POS
S
U
K
NP PP NP NP PP NP NP PP NP
Dangkal
Pengur
aian
GAMBAR 5.4 Analisis Bertingkat Teks untuk Identifikasi Interaksi Gen/Protein. Sumber: Berdasarkan Nakov, P., Schwartz, A., Wolf, B., & Hearst,
M. A. (2005). Lapisan anotasi pendukung untuk pemrosesan bahasa alami. Prosiding Association for Computational Linguistics (ACL), Poster Interaktif dan Sesi
Demonstrasi, Ann Arbor, MI. Association for Computational Linguistics, 65-68.
296 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
Aplikasi Akademik
Masalah penambangan teks sangat penting bagi penerbit yang memiliki basis data
informasi besar yang membutuhkan pengindeksan untuk pencarian yang lebih baik. Hal ini
terutama terjadi pada disiplin ilmu pengetahuan, di mana informasi yang sangat spesifik
sering kali terkandung dalam teks tertulis. Berbagai inisiatif telah diluncurkan, seperti
proposal Nature untuk Antarmuka Penambangan Teks Terbuka dan Definisi Jenis
Dokumen Penerbitan Jurnal Umum National Institutes of Health, yang akan memberikan
isyarat semantik kepada mesin untuk menjawab pertanyaan spesifik yang terkandung
dalam teks tanpa menghilangkan hambatan penerbit terhadap akses publik.
Institusi akademis juga telah meluncurkan inisiatif penambangan teks. Sebagai
contoh, National Centre for Text Mining, sebuah upaya kolaboratif antara Universitas
Manchester dan Liverpool, menyediakan alat yang disesuaikan, fasilitas penelitian, dan
saran m e n g e n a i text mining untuk komunitas akademis. Dengan fokus awal pada
penambangan teks dalam ilmu biologi dan biomedis, penelitian ini kemudian meluas ke
dalam ilmu sosial. Di Amerika Serikat, School of Information di University of California,
Berkeley, mengembangkan program yang disebut BioText untuk membantu para peneliti
biosains dalam penggalian dan analisis teks. Seperti yang dijelaskan di bagian ini,
penggalian teks memiliki berbagai macam aplikasi d i sejumlah disiplin ilmu yang
berbeda. Lihat Kasus Aplikasi 5.4 untuk contoh bagaimana produsen produk komputasi
terkemuka menggunakan penggalian teks untuk lebih memahami kebutuhan dan keinginan
pelanggan saat ini dan calon pelanggan yang terkait dengan kualitas produk dan desain
produk.
Keterbatasan perangkat
lunak/perangkat keras
Masalah privasi
Keterbatasan
linguistik
A0
Keahlian domain
Alat dan teknik
GAMBAR 5.5 Diagram Konteks untuk Proses Penambangan Teks.
Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial 295
Masukan untuk proses Keluaran dari Tugas 1 Keluaran dari Tugas 2 Keluaran dari Tugas 3
adalah berbagai macam dokumen yang relevan relevan, adalah sebuah file datar adalah sejumlah
termasuk berbagai koleksi dokumen dalam format tidak yang disebut matriks istilah- klasifikasi, asosiasi, model
terstruktur (dan semi beberapa format digital dokumen di mana sel-selnya pengelompokan, dan
untuk sumber data terstruktur) sepertiteks pemrosesan diisi dengan frekuensi istilah visualisasi yang spesifik
komputer, XML, HTML, dll. untuk masalah tertentu
GAMBAR 5.6 Proses Penambangan Teks Tiga Langkah/Tugas.
Pada tingkat yang sangat tinggi, proses text mining dapat dipecah menjadi tiga tugas
yang saling berhubungan, yang masing-masing memiliki input spesifik untuk
menghasilkan output tertentu (lihat Gambar 5.6). Jika, karena suatu alasan, output dari
suatu tugas tidak sesuai dengan yang diharapkan, maka diperlukan pengalihan kembali ke
eksekusi tugas sebelumnya.