Bab 5 Hal 1 Id

Subscribe to DeepL Pro to translate larger documents.
Visit www.DeepL.com/pro for more information.
CHAPTER
/
Analisis Prediktif II: Analisis Teks,
Web, dan Media Sosial
TUJUAN PEMBELAJARAN
■ Menjelaskan analisis teks dan ■ Menjelaskan analisis sentimen
memahami kebutuhan akan ■ Kembangkan keakraban dengan
penambangan teks aplikasi analisis sentimen yang
■ Membedakan antara analisis teks, populer
penggalian teks, dan penggalian ■ Pelajari metode umum untuk analisis
data sentimen
■ Memahami berbagai area aplikasi ■ Membiasakan diri dengan analisis
yang berbeda untuk penggalian teks ucapan yang berkaitan dengan
■ Mengetahui proses pelaksanaan analisis sentimen
proyek text mining
■ Mengapresiasi berbagai metode untuk
memperkenalkan struktur pada data
berbasis teks
T Bab ini memberikan gambaran umum yang komprehensif tentang

analisis/penambangan teks dan analisis/penambangan Web beserta area aplikasi
populernya seperti mesin pencari, analisis sentimen, dan analisis jaringan
sosial/media. Seperti yang telah kita saksikan
alam beberapa tahun terakhir, data tak terstruktur yang dihasilkan melalui Internet of
Things (Web, jaringan sensor, sistem rantai pasokan berkemampuan identifikasi frekuensi
radio [RFID], jaringan pengawasan, d a n l a i n - l a i n ) meningkat dengan kecepatan yang
eksponensial, dan tidak ada indikasi akan melambat. Perubahan sifat data ini memaksa
organisasi untuk menjadikan analisis teks dan Web sebagai bagian penting dari
infrastruktur intelijen/analisis bisnis mereka.
/.1 Sketsa Pembuka: Mesin versus Manusia dalam Bahaya!: Kisah Watson 274
/.2 Analisis Teks dan Gambaran Umum Penambangan Teks 277
/.3 Pemrosesan Bahasa Alami (NLP) 281
/.& Aplikasi Penambangan Teks 287
/./ Proses Penambangan Teks 294
/.6 Analisis Sentimen 302
/.5 Gambaran Umum Penambangan Web 313
273
274 Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial
/.8 Mesin Pencari 317

/.9 Penambangan Penggunaan Web (Analisis Web) 324
/.10 Analisis Sosial 330
5.1 PEMBUKAAN VIGNETTE: Mesin versus Manusia dalam

Bahaya!: Kisah Watson
Dapatkah sebuah mesin mengalahkan manusia dalam hal yang seharusnya menjadi
keahlian manusia? Ternyata, ya, dan nama mesin itu adalah Watson. Watson adalah sistem
komputer yang luar biasa (kombinasi baru antara perangkat keras dan perangkat lunak
canggih) yang dirancang untuk menjawab pertanyaan yang diajukan dalam bahasa alami
manusia. Sistem ini dikembangkan pada tahun 2010 oleh tim Riset IBM sebagai bagian
dari proyek DeepQA dan dinamai sesuai dengan nama presiden pertama IBM, Thomas J.
Watson.
Latar Belakang
Sekitar 3 tahun yang lalu, IBM Research mencari tantangan penelitian besar untuk
menyaingi ketertarikan ilmiah dan populer dari Deep Blue, sang juara catur komputer,
yang juga memiliki relevansi yang jelas dengan kepentingan bisnis IBM. Tujuannya adalah
untuk memajukan ilmu komputer dengan mengeksplorasi cara-cara baru bagi teknologi
komputer untuk mempengaruhi ilmu pengetahuan, bisnis, dan masyarakat. Oleh karena itu,
IBM Research melakukan sebuah tantangan untuk membangun sebuah sistem komputer
yang dapat bersaing di tingkat juara manusia secara real time dalam acara kuis TV
Amerika, Jeopardy! Cakupan tantangan ini termasuk menurunkan kontestan otomatis
secara real-time di acara tersebut, yang mampu mendengarkan, memahami, dan
merespons-bukan sekadar latihan di laboratorium.
Bersaing dengan yang Terbaik

Pada tahun 2011, sebagai ujian atas kemampuannya, Watson berkompetisi dalam acara
kuis Jeopardy! yang merupakan pertandingan manusia melawan mesin untuk pertama
kalinya dalam acara tersebut. Dalam pertandingan dua pertandingan, pertandingan poin
gabungan (disiarkan dalam tiga episode Jeopardy! selama 14-16 Februari), Watson
mengalahkan Brad Rutter, pemenang uang terbesar sepanjang masa di Jeopardy!, dan Ken
Jennings, pemegang rekor kejuaraan beruntun terpanjang (75 hari). Dalam episode-episode
ini, Watson secara konsisten mengungguli lawan-lawannya yang terdiri dari manusia pada
perangkat sinyal permainan, tetapi mengalami kesulitan dalam merespons beberapa
kategori, terutama kategori yang memiliki petunjuk singkat yang hanya terdiri dari
beberapa kata. Watson memiliki akses ke 200 juta halaman konten terstruktur dan tidak
terstruktur yang menghabiskan 4 terabyte penyimpanan disk. Selama permainan
Bab 5 - Analisis Prediktif II: A n a l i s i s Teks, Web, dan Media Sosial 275
berlangsung, Watson tidak terhubung ke Internet.
Menghadapi Bahaya! Tantangan yang diperlukan untuk memajukan dan
menggabungkan berbagai teknologi QA (penambangan teks dan pemrosesan bahasa
alami), termasuk penguraian, pertanyaan
klasifikasi, penguraian pertanyaan, akuisisi dan evaluasi sumber otomatis, deteksi entitas
dan relasi, pembuatan bentuk logis, serta representasi pengetahuan dan penalaran. Menang
di Jeopardy! membutuhkan keyakinan komputasi yang akurat atas jawaban Anda.
Pertanyaan dan kontennya ambigu dan berisik, dan tidak ada satu pun algoritme yang
sempurna. Oleh karena itu, setiap komponen harus menghasilkan keyakinan pada
keluarannya, dan keyakinan komponen individual harus digabungkan untuk menghitung
keyakinan keseluruhan dari jawaban akhir. Keyakinan akhir digunakan untuk menentukan
apakah sistem komputer harus mengambil risiko dengan memilih jawaban yang salah.
Dalam istilah Jeopardy!, keyakinan ini digunakan untuk menentukan apakah komputer
akan "membunyikan" atau "mendengung" untuk sebuah pertanyaan. Keyakinan harus
dihitung selama pertanyaan dibacakan dan sebelum ada kesempatan untuk menjawab.
Kira-kira antara 1 hingga 6 detik dengan rata-rata sekitar 3 detik.
Bagaimana Watson Melakukannya?

Sistem di balik Watson, yang disebut DeepQA, adalah arsitektur komputasi berbasis bukti
probabilistik yang paralel dan berfokus pada teks secara masif. Untuk Jeopardy!
Challenge, Watson menggunakan lebih dari 100 teknik yang berbeda untuk menganalisis
bahasa alami, mengidentifikasi sumber, menemukan dan membuat hipotesis, menemukan
dan menilai bukti, serta menggabungkan dan memberi peringkat hipotesis. Yang jauh lebih
penting daripada teknik tertentu yang mereka gunakan adalah bagaimana mereka
menggabungkannya dalam DeepQA sehingga pendekatan yang tumpang tindih dapat
memberikan kekuatan mereka dan berkontribusi pada peningkatan akurasi, kepercayaan
diri, dan kecepatan.
DeepQA adalah sebuah arsitektur dengan metodologi yang menyertainya, yang tidak
khusus untuk Jeopardy! Challenge. Prinsip-prinsip menyeluruh dalam DeepQA adalah
paralelisme yang masif, banyak ahli, estimasi kepercayaan yang meluas, dan integrasi
analitik teks terbaru dan terbaik.
• Paralelisme yang masif: Memanfaatkan paralelisme masif dalam pertimbangan
interpretasi dan hipotesis yang beragam.
• Banyak ahli: Memfasilitasi integrasi, aplikasi, dan evaluasi kontekstual dari
berbagai macam pertanyaan probabilistik yang digabungkan secara longgar dan
analisis konten.
• Estimasi kepercayaan yang meresap: Tidak ada komponen yang berkomitmen
pada sebuah jawaban; semua komponen menghasilkan fitur dan keyakinan yang
terkait, memberikan skor untuk interpretasi pertanyaan dan konten yang berbeda.
Substrat pemrosesan keyakinan yang mendasari mempelajari cara menumpuk dan
menggabungkan skor.
• Mengintegrasikan pengetahuan yang dangkal dan mendalam:
Menyeimbangkan penggunaan semantik yang ketat dan semantik yang dangkal,
dengan memanfaatkan banyak ontologi yang dibentuk secara longgar.
Gambar 5.1 mengilustrasikan arsitektur DeepQA pada tingkat yang sangat tinggi.
Rincian lebih teknis tentang berbagai komponen arsitektur dan peran serta kemampuan
spesifiknya dapat ditemukan di Ferrucci dkk. (2010).
Kesimpulan
Tantangan Jeopardy! membantu IBM memenuhi persyaratan yang mengarah pada desain
arsitektur DeepQA dan implementasi Watson. Setelah 3 tahun penelitian dan
pengembangan yang intens oleh tim inti yang terdiri dari sekitar 20 peneliti, Watson tampil
pada level ahli manusia dalam hal ketepatan, kepercayaan diri, dan kecepatan di acara kuis
Jeopardy!
IBM mengklaim telah mengembangkan banyak algoritme komputasi dan linguistik
untuk mengatasi berbagai jenis masalah dan persyaratan dalam QA. Meskipun bagian
dalam dari algoritme ini tidak diketahui, namun sangat penting untuk memanfaatkan
analisis teks dan penggalian teks secara maksimal. Saat ini IBM sedang mengerjakan versi
Watson untuk mengatasi masalah-masalah yang dapat diatasi dalam bidang kesehatan dan
kedokteran (Feldman et al., 2012).
Sumber Sumber
jawaban bukti
Pertanya
an (dalam Utama Kandidat Penilaia
bahasa Dukungan n bukti
alami) pencarian generasi mendala
pengam m 5
bilan
bukti 34
12
Pertanyaan
Analisis Peny Penilaian Sintesis Penggabung
(terjemaha Hipotesis 1
(penguraian) aringan bukti (penggabun an dan
n ke
lembut gan) pemeringk
digital)
atan
Peny Penilaian
Hipotesis 2
aringan bukti
lembut Jawaban
... ... ... dan
kepercayaa
Peny Penilaian n diri
Hipotesis n
aringan bukti
lembut
GAMBAR 5.1 Penggambaran Tingkat Tinggi Arsitektur DeepQA.
PERTANYAAN UNTUK SKETSA PEMBUKA

1. Apa itu Watson? Apa yang istimewa tentangnya?
2. Teknologi apa yang digunakan dalam membangun Watson (baik perangkat keras maupun
perangkat lunak)?
3. Apa saja karakteristik inovatif dari arsitektur DeepQA yang membuat Watson lebih
unggul?
&. Mengapa IBM menghabiskan banyak waktu dan uang untuk membangun Watson?
Di mana laba atas investasi (ROI)?
Apa yang Dapat Kita Pelajari dari Sketsa Ini

Dapat dikatakan bahwa teknologi komputer, baik dari sisi perangkat keras maupun
perangkat lunak, berkembang lebih cepat daripada apa pun dalam 50 tahun terakhir. Hal-
hal yang tadinya terlalu besar, terlalu rumit, dan mustahil untuk dipecahkan, sekarang
sudah berada dalam jangkauan teknologi informasi. Salah satu teknologi yang
memungkinkan adalah analisis teks/penambangan teks. Kami menciptakan basis data
untuk menyusun data sehingga dapat diproses oleh komputer. Teks, di sisi lain, selalu
dimaksudkan untuk diproses oleh manusia. Dapatkah mesin melakukan hal-hal yang
membutuhkan kreativitas dan kecerdasan manusia, dan pada awalnya tidak dirancang
untuk mesin? Ternyata, ya! Watson adalah contoh yang bagus tentang jarak yang telah kita
tempuh dalam mengatasi hal yang mustahil. Komputer sekarang cukup cerdas untuk
menghadapi manusia dalam hal yang menurut kita merupakan keahlian manusia.
Memahami pertanyaan yang diajukan dalam bahasa manusia, memproses dan
mencernanya, mencari jawaban, dan menjawabnya dalam beberapa detik adalah sesuatu
yang tidak dapat kita bayangkan sebelum Watson melakukannya. Dalam bab ini, Anda
akan mempelajari alat dan teknik yang disematkan pada Watson dan banyak mesin pintar
lainnya untuk menciptakan keajaiban dalam mengatasi masalah yang dulunya diyakini
tidak mungkin dipecahkan.
Sumber: Ferrucci, D., Brown, E., Chu-Carroll, J., Fan, J., Gondek, D., Kalyanpur, A. A., . . . Welty, C. (2010).
Membangun Watson: Gambaran umum Proyek DeepQA. Majalah AI, 31(3); DeepQA. Proyek DeepQA: FAQ,
IBM Corporation (2011). research.ibm.com/deepqa/faq.shtml (diakses Januari 2013); Feldman, S., Hanover, J.,
Burghard, C., & Schubmehl, D. (2012). Membuka kekuatan data yang tidak terstruktur. Buku putih IBM. www-
01.ibm
.com/software/ebusiness/jstart/downloads/unlockingUnstructuredData.pdf (diakses Februari 2013).
5.2 Ikhtisar Analisis Teks dan Penambangan Teks

Era informasi yang kita jalani saat ini ditandai dengan pertumbuhan yang cepat dalam
jumlah data dan informasi yang dikumpulkan, disimpan, dan tersedia dalam format
elektronik. Sebagian besar data bisnis disimpan dalam dokumen teks yang hampir tidak
terstruktur. Menurut sebuah studi yang dilakukan oleh Merrill Lynch dan Gartner, 85%
dari seluruh data perusahaan dikapitalisasi dan disimpan dalam bentuk yang tidak
terstruktur (McKnight, 2005). Studi yang sama juga menyatakan bahwa data yang tidak
terstruktur ini bertambah dua kali lipat setiap 18 bulan. Karena pengetahuan adalah
kekuatan dalam dunia bisnis saat ini, dan pengetahuan berasal dari data dan informasi,
bisnis yang secara efektif dan efisien memanfaatkan sumber data teks mereka akan
memiliki pengetahuan yang diperlukan untuk membuat keputusan yang lebih baik, yang
mengarah pada keunggulan kompetitif dibandingkan bisnis yang tertinggal. Di sinilah
kebutuhan akan analisis teks dan penggalian teks sesuai dengan gambaran besar bisnis saat
ini.
Meskipun tujuan utama dari analisis teks dan text mining adalah mengubah data
tekstual yang tidak terstruktur menjadi informasi yang dapat ditindaklanjuti melalui
penerapan pemrosesan bahasa alami (natural language processing/NLP) dan analitik,
namun definisi keduanya agak berbeda, setidaknya bagi sebagian ahli di bidangnya.
Menurut mereka, analitik teks adalah konsep yang lebih luas yang mencakup pencarian
informasi (misalnya, mencari dan mengidentifikasi dokumen yang relevan untuk
sekumpulan istilah kunci tertentu), serta ekstraksi informasi, penambangan data, dan
penambangan Web, sedangkan penambangan teks terutama difokuskan untuk menemukan
pengetahuan baru dan berguna dari sumber data tekstual. Gambar 5.2 mengilustrasikan
hubungan antara analisis teks dan penambangan teks bersama dengan area aplikasi terkait
lainnya. Bagian bawah Gambar 5.2 mencantumkan daftar disiplin ilmu utama (fondasi
rumah) yang memainkan peran penting dalam pengembangan
ANALISIS TEKS
Pencocokan Penambangan
Dokumen Konten Web
Analisis Penambangan
Pencarian Penambang Web
Tautan
Informasi Struktur Web
Mesin Pencari an Teks Pertambangan
"Penemuan
Penambangan
Pengetahua Penggunaan Web
n dalam
Penandaan POS Pemrosesa Data Klasifikasi
n Bahasa Tekstual" Pena
Lemmatisasi Alami mbang Pengelom
an pokan
Disambiguasi Kata Data Asosiasi
Statistik Pembelajaran Ilmu Manajemen

Mesin
Kecerdasan Buatan Ilmu Komputer Disiplin Ilmu
Lainnya
GAMBAR 5.2 Analisis Teks, Area Aplikasi Terkait, dan Disiplin Ilmu yang Memungkinkan.
dari area aplikasi yang semakin populer ini. Berdasarkan definisi text analytics dan text
mining ini, kita dapat dengan mudah merumuskan perbedaan antara keduanya sebagai
berikut:
Analisis Teks = Pengambilan Informasi + Ekstraksi Informasi + Penambangan Data

+ Penambangan Web,
atau hanya
Analisis Teks = Pencarian Informasi + Penambangan Teks
Dibandingkan dengan penambangan teks, analisis teks adalah istilah yang relatif
baru. Dengan penekanan baru-baru ini pada analitik, seperti yang terjadi di banyak area
aplikasi teknis terkait lainnya (misalnya, analitik konsumen, a n a l i t i k lengkap,
a n a l i t i k visual, analitik sosial), bidang teks juga ingin ikut serta dalam kereta analitik.
Meskipun istilah analisis teks lebih sering digunakan dalam konteks aplikasi bisnis,
penambangan teks sering digunakan dalam lingkaran penelitian akademis. Meskipun
terkadang keduanya didefinisikan secara berbeda, text analytics dan text mining biasanya
digunakan secara sinonim, dan kami (penulis buku ini) setuju dengan hal ini.
Penggalian teks (juga dikenal sebagai penggalian data teks atau penemuan
pengetahuan dalam basis data tekstual) adalah proses semi-otomatis untuk mengekstraksi
pola (informasi dan pengetahuan yang berguna) dari sumber data yang tidak terstruktur
dalam jumlah besar. Ingatlah bahwa data mining adalah proses mengidentifikasi pola yang
valid, baru, berpotensi berguna, dan pada akhirnya dapat dimengerti dalam data yang
disimpan dalam basis data terstruktur, di mana data diatur dalam catatan yang terstruktur
oleh variabel kategorikal, ordinal, atau kontinu. Penambangan teks sama dengan
penambangan data karena memiliki tujuan yang sama dan menggunakan proses yang
sama, tetapi dengan p e n a m b a n g a n teks, input untuk prosesnya adalah kumpulan file
data yang tidak terstruktur (atau kurang terstruktur) seperti dokumen Word, file PDF,
kutipan teks, file XML, dan sebagainya. Pada intinya, text mining dapat dianggap sebagai
sebuah proses (dengan dua langkah utama) yang dimulai dengan memberikan struktur pada
sumber data berbasis teks yang diikuti dengan penggalian informasi dan pengetahuan yang
relevan dari data berbasis teks yang terstruktur ini dengan menggunakan teknik dan alat
data mining.
Manfaat dari text mining terlihat jelas di bidang-bidang yang menghasilkan data
tekstual dalam jumlah yang sangat besar, seperti hukum (perintah pengadilan), penelitian
akademis (artikel penelitian), keuangan (laporan kuartalan), kedokteran (ringkasan hasil
pengobatan), biologi (interaksi molekuler), teknologi (berkas paten), dan pemasaran
(komentar pelanggan). Sebagai contoh, interaksi berbasis teks bebas dengan pelanggan
dalam bentuk keluhan (atau pujian) dan klaim garansi dapat digunakan untuk
mengidentifikasi secara objektif karakteristik produk dan layanan yang dianggap kurang
sempurna dan dapat digunakan sebagai masukan untuk pengembangan produk dan alokasi
layanan yang lebih baik. Demikian juga, program penjangkauan pasar dan kelompok fokus
menghasilkan data dalam jumlah besar. Dengan tidak membatasi umpan balik produk atau
layanan dalam bentuk yang sudah dikodifikasi, pelanggan dapat menyampaikan, dengan
kata-kata mereka sendiri, apa yang mereka pikirkan tentang produk dan layanan
perusahaan. Area lain di mana pemrosesan otomatis teks yang tidak terstruktur memiliki
banyak dampak adalah dalam komunikasi elektronik dan e-mail. Penambangan teks tidak
hanya dapat digunakan untuk mengklasifikasikan dan menyaring email sampah, tetapi juga
dapat digunakan untuk memprioritaskan email secara otomatis berdasarkan tingkat
kepentingan serta menghasilkan tanggapan otomatis (Weng & Liu, 2004). Berikut ini
adalah beberapa area aplikasi yang paling populer dari text mining:
• Ekstraksi informasi. Identifikasi frasa kunci dan hubungan dalam teks dengan
mencari objek dan urutan yang telah ditentukan sebelumnya dalam teks melalui
pencocokan pola.
• Pelacakan topik. Berdasarkan profil pengguna dan dokumen yang dilihat
pengguna, penggalian teks dapat memprediksi dokumen lain yang menarik bagi
pengguna.
• Peringkasan. Meringkas dokumen untuk menghemat waktu pembaca.
• Kategorisasi. Mengidentifikasi tema utama dari sebuah dokumen dan kemudian
menempatkan dokumen tersebut ke dalam serangkaian kategori yang telah ditentukan
berdasarkan tema tersebut.
• Pengelompokan. Mengelompokkan dokumen yang serupa tanpa memiliki

seperangkat kategori yang telah ditentukan sebelumnya.
• Menghubungkan konsep. Menghubungkan dokumen terkait dengan
mengidentifikasi konsep yang sama dan, dengan demikian, membantu pengguna
menemukan informasi yang mungkin tidak d a p a t mereka temukan dengan
metode pencarian tradisional.
• Menjawab pertanyaan. Menemukan jawaban terbaik untuk pertanyaan yang
diberikan melalui pencocokan pola berbasis pengetahuan.
Lihat Wawasan Teknologi 5.1 untuk penjelasan beberapa istilah dan konsep yang
digunakan dalam text mining. Kasus Aplikasi 5.1 menjelaskan penggunaan text mining
dalam industri asuransi.
WAWASAN TEKNOLOGI 5.1

Terminologi Penambangan Teks
Daftar berikut ini menjelaskan beberapa istilah text mining yang umum digunakan:
• Data tidak terstruktur (versus data terstruktur). Data terstruktur memiliki format yang
sudah ditentukan sebelumnya. Biasanya diorganisasikan ke dalam catatan dengan nilai data
sederhana (variabel kategorikal, ordinal, dan kontinu) dan disimpan dalam database. Sebaliknya, data
tidak terstruktur tidak memiliki format yang telah ditentukan dan disimpan dalam bentuk dokumen
tekstual. Pada intinya, data terstruktur adalah untuk diproses oleh komputer, sedangkan data tidak
terstruktur adalah untuk diproses dan dipahami oleh manusia.
• Korpus. Dalam linguistik, korpus (jamak dari corpora) adalah sekumpulan teks yang besar dan
terstruktur (sekarang biasanya disimpan dan diproses secara elektronik) yang dipersiapkan untuk
tujuan penemuan pengetahuan.
• Istilah. Istilah adalah kata tunggal atau frasa multi-kata yang diekstrak langsung dari korpus
domain tertentu melalui metode NLP.
• Konsep. Konsep adalah fitur yang dihasilkan dari kumpulan dokumen dengan menggunakan
metodologi kategorisasi manual, statistik, berbasis aturan, atau hibrida. Dibandingkan dengan
istilah, konsep adalah hasil abstraksi tingkat yang lebih tinggi.
• Pemangkasan. Stemming adalah proses mengurangi kata berimbuhan ke bentuk dasar
(atau akar). Misalnya, stemmer, stemming, stemmed, semuanya didasarkan pada kata dasar.
• Menghentikan kata-kata. Stop words (atau noise words) adalah kata-kata yang disaring
sebelum atau sesudah pemrosesan data bahasa alami (yaitu teks). Meskipun tidak ada daftar stop
words yang diterima secara universal, sebagian besar alat NLP menggunakan daftar yang mencakup
artikel (a, am, the, of, dll.), kata kerja bantu (is, are, was, were, dll.), dan kata-kata khusus konteks
yang dianggap tidak memiliki nilai pembeda.
• Sinonim dan polisemi. Sinonim adalah kata-kata yang berbeda secara sintaksis (yaitu, dieja
secara berbeda) dengan makna yang identik atau setidaknya mirip (misalnya, film, film, dan film).
Sebaliknya, polisemi, yang juga disebut homonim, adalah kata-kata yang secara sintaksis identik (yaitu
dieja persis sama) dengan makna yang berbeda (misalnya, busur dapat berarti "membungkuk ke
depan", "bagian depan kapal", "senjata yang menembakkan anak panah", atau "semacam
pita yang diikat").
• Pembuatan token. Token adalah blok teks yang dikategorikan dalam sebuah kalimat. Blok
teks yang berhubungan dengan token dikategorikan sesuai dengan fungsi yang dijalankannya,
pemberian makna pada blok teks ini dikenal sebagai tokenisasi. Token dapat terlihat seperti apa
saja; token hanya perlu menjadi bagian yang berguna dari teks terstruktur.
• Kamus istilah. Kumpulan istilah khusus untuk bidang sempit yang dapat digunakan untuk
membatasi istilah yang diekstrak dalam korpus.
• Frekuensi kata. Berapa kali sebuah kata ditemukan dalam dokumen tertentu.
• Penandaan bagian dari ucapan. Proses menandai kata-kata dalam teks yang sesuai
dengan bagian ucapan tertentu (seperti kata benda, kata kerja, kata sifat, kata keterangan, dll.)
berdasarkan definisi kata dan konteks penggunaannya.
• Morfologi. Cabang dari bidang linguistik dan bagian dari NLP yang mempelajari struktur internal
kata (pola pembentukan kata dalam suatu bahasa atau lintas bahasa).
• Matriks istilah per dokumen (matriks kemunculan). Skema representasi umum dari
hubungan berbasis frekuensi antara istilah dan dokumen dalam format tabel di mana istilah
dicantumkan dalam kolom, dokumen dicantumkan dalam baris, dan frekuensi antara istilah dan
dokumen dicantumkan dalam sel sebagai nilai bilangan bulat.
• Dekomposisi nilai tunggal (pengindeksan semantik laten). Metode pengurangan
dimensi yang digunakan untuk mengubah matriks istilah per dokumen menjadi ukuran yang
dapat dikelola dengan menghasilkan representasi perantara frekuensi menggunakan metode
manipulasi matriks yang mirip dengan analisis komponen utama.
Kasus Aplikasi 5.1

Grup Asuransi Memperkuat Manajemen Risiko dengan Solusi Text Mining
Ketika ditanya mengenai tantangan terbesar yang intuitif dan mudah digunakan yang dapat diakses bahkan
dihadapi industri asuransi mobil di Ceko, Peter oleh nonanalis.
Jedlicˇka, PhD, tidak ragu-ragu. "Klaim cedera tubuh
tumbuh secara tidak proporsional dibandingkan
dengan klaim kerusakan kendaraan," kata Jedlicˇka,
pemimpin tim layanan aktuaria untuk Biro Asuransi
Ceko (CIB). CIB adalah organisasi profesional
perusahaan asuransi di Republik Ceko yang
menangani klaim yang tidak diasuransikan,
internasional, dan tidak terlacak untuk apa yang
dikenal sebagai tanggung jawab pihak ketiga.
"Kerusakan akibat cedera tubuh saat ini mewakili
sekitar 45% dari klaim yang diajukan kepada
anggota kami, dan porsi tersebut akan terus
meningkat karena adanya perubahan undang-undang
baru-baru ini."
Salah satu kesulitan yang ditimbulkan oleh
klaim cedera tubuh bagi perusahaan asuransi adalah
bahwa tingkat cedera tidak selalu dapat diprediksi
segera setelah kecelakaan kendaraan. Cedera yang
pada awalnya tidak terlihat jelas dapat menjadi akut
di kemudian hari, dan cedera yang tampaknya ringan
dapat berubah menjadi kondisi kronis. Semakin dini
perusahaan asuransi dapat secara akurat
memperkirakan tanggung jawab mereka atas
kerusakan medis, semakin tepat mereka dapat
mengelola risiko dan mengatur sumber daya mereka.
Namun, karena informasi yang dibutuhkan terdapat
dalam dokumen yang tidak terstruktur seperti laporan
kecelakaan dan pernyataan saksi, maka akan sangat
memakan waktu bagi karyawan perorangan untuk
melakukan analisis yang dibutuhkan.
Untuk memperluas dan mengotomatiskan
analisis laporan kecelakaan yang tidak terstruktur,
pernyataan saksi, dan narasi klaim, CIB menerapkan
solusi analisis data berdasarkan Dell Statistica Data
Miner dan ekstensi Statistica Text Miner. Statistica
Data Miner menawarkan seperangkat alat yang
Solusi ini membaca dan menulis data
dari hampir semua format file standar dan
menawarkan alat pembersih data yang kuat
dan canggih. Solusi ini juga mendukung
pengguna pemula dengan query wizard, yang
disebut Data Mining Recipes, yang membantu
mereka mendapatkan jawaban yang mereka
butuhkan dengan lebih cepat.
Dengan ekstensi Statistica Text Miner,
pengguna memiliki akses ke alat ekstraksi dan
seleksi yang dapat digunakan untuk
mengindeks, mengklasifikasikan, dan
mengelompokkan informasi dari koleksi besar
data teks yang tidak terstruktur, seperti narasi
klaim asuransi. Selain menggunakan solusi
Statistica untuk membuat prediksi tentang
klaim kerusakan medis di masa depan, CIB
juga dapat menggunakannya untuk
menemukan pola yang mengindikasikan upaya
penipuan atau untuk mengidentifikasi
peningkatan keselamatan jalan yang
diperlukan.
Meningkatkan Akurasi Estimasi Kewajiban

Jedlicˇka berharap solusi Statistica dapat
meningkatkan kemampuan CIB untuk
memprediksi total klaim medis yang mungkin
timbul dari suatu kasus. "Kemampuan
penggalian data dan penggalian teks dari
solusi Statistica telah membantu kami
mengungkap karakteristik risiko tambahan,
sehingga memungkinkan kami untuk
memprediksi klaim medis yang serius pada
tahap awal investigasi," katanya. "Dengan
solusi Statistica, kami dapat membuat
perkiraan total kerusakan yang jauh lebih
akurat dan membuat rencana yang sesuai."
Memperluas Penawaran Layanan kepada

Anggota
Jedlicˇka juga senang karena solusi Statistica
membantu CIB menawarkan layanan
tambahan kepada perusahaan-perusahaan
anggotanya. "Kami berada dalam bisnis yang
digerakkan oleh data," ujarnya.
mengatakan. "Dengan Statistica, kami dapat PERTANYAAN UNTUK DISKUSI

memberikan analisis yang terperinci mengenai klaim 1. Bagaimana analisis teks dan penambangan dapat
dan tren pasar kepada para anggota kami. Statistica digunakan untuk mengikuti perubahan kebutuhan
juga membantu kami memberikan rekomendasi yang bisnis perusahaan asuransi?
lebih kuat mengenai cadangan klaim." 2. Apa saja tantangan yang dihadapi, solusi yang
diusulkan, dan hasil yang diperoleh?
Intuitif untuk Pengguna Bisnis 3. Dapatkah Anda memikirkan penggunaan lain dari
Alat bantu Statistica yang intuitif dapat diakses analisis teks dan penambangan teks untuk
bahkan oleh pengguna non-teknis. "Hasil analisis perusahaan asuransi?
Statistica kami mudah dipahami oleh pengguna
bisnis," ujar Jedlicˇka. "Pengguna bisnis kami juga Sumber: Studi Kasus Dell Statistica. Grup asuransi memperkuat
manajemen risiko dengan solusi text mining. https://software.dell
menemukan bahwa hasil analisis sesuai dengan .com/casestudy/czech-insurers-bureau-insurance-group-strengthens-
pengalaman dan rekomendasi mereka sendiri, risk-management-with875134/ (diakses pada bulan Juni 2016).
sehingga mereka dapat dengan mudah melihat nilai Digunakan dengan izin dari Dell.
d a r i solusi Statistica."
BAGIAN 5.2 PERTANYAAN TINJAUAN

1. Apa yang dimaksud dengan analisis teks? Apa bedanya dengan penambangan teks?
2. Apa yang dimaksud dengan penggalian teks? Apa bedanya dengan p e n g g a l i a n data?
3. Mengapa popularitas text mining sebagai alat analisis semakin meningkat?
&. Apa saja area aplikasi yang paling populer dari text mining?
5.3 Pemrosesan Bahasa Alami (NLP)

Beberapa aplikasi penambangan teks awal menggunakan representasi yang disederhanakan
yang disebut bag-of-words ketika memperkenalkan struktur pada kumpulan dokumen
berbasis teks untuk mengklasifikasikannya ke dalam dua atau lebih kelas yang telah
ditentukan sebelumnya atau mengelompokkannya ke dalam pengelompokan alami. Dalam
model bag-of-words, teks, seperti kalimat, paragraf, atau dokumen lengkap,
direpresentasikan sebagai kumpulan kata, tanpa menghiraukan tata bahasa atau urutan
kemunculan kata-kata tersebut. Model bag-of-words masih digunakan dalam beberapa alat
klasifikasi dokumen sederhana. Sebagai contoh, dalam penyaringan spam, sebuah pesan
email dapat dimodelkan sebagai kumpulan kata yang tidak berurutan (kantong kata) yang
dibandingkan dengan dua kantong yang sudah ditentukan sebelumnya. Satu kantong diisi
dengan kata-kata yang ditemukan dalam pesan spam dan kantong lainnya diisi dengan
kata-kata yang ditemukan dalam email yang sah. Meskipun beberapa kata kemungkinan
besar akan ditemukan di kedua kantong, kantong "spam" akan berisi kata-kata yang
berhubungan dengan spam seperti stock, Viagra, dan buy jauh lebih sering daripada
kantong yang sah, yang akan berisi lebih banyak kata yang berhubungan dengan teman
atau tempat kerja pengguna. Tingkat kecocokan antara kantong kata dari email tertentu
dengan dua kantong yang berisi deskriptor menentukan apakah email tersebut termasuk
spam atau sah.
Secara alami, kita (manusia) tidak menggunakan kata-kata tanpa urutan atau struktur.
Kita menggunakan kata-kata dalam kalimat, yang memiliki struktur semantik dan juga
sintaksis. Oleh karena itu, teknik otomatis (seperti text mining) perlu mencari cara untuk
melampaui interpretasi kantong kata dan memasukkan lebih banyak struktur semantik ke
dalam operasinya. Tren saat ini dalam text mining adalah untuk memasukkan banyak fitur-
fitur canggih yang dapat diperoleh dengan menggunakan NLP.
Bab 5 - Analisis mungkin
Telah ditunjukkan bahwa metode bag-of-words Prediktif II:tidak
A n amenghasilkan
l i s i s Teks, Web, dan Media Sosial 289
konten
informasi yang cukup baik untuk tugas-tugas penggalian teks (misalnya, klasifikasi,
pengelompokan, asosiasi). Contoh yang baik dari hal ini dapat ditemukan dalam
kedokteran berbasis bukti. Komponen penting dari
Pengobatan berbasis bukti adalah menggabungkan temuan penelitian terbaik yang tersedia
ke dalam proses pengambilan keputusan klinis, yang melibatkan penilaian terhadap
informasi yang dikumpulkan dari media cetak untuk validitas dan relevansinya. Beberapa
peneliti dari University of Maryland mengembangkan model penilaian bukti dengan
menggunakan metode kantong kata (Lin & Demner-Fushman, 2005). Mereka
menggunakan metode pembelajaran mesin yang populer bersama dengan lebih dari
setengah juta artikel penelitian yang dikumpulkan dari MEDLINE (Medical Literature
Analysis and Retrieval System Online). Dalam model mereka, mereka merepresentasikan
setiap abstrak s e b a g a i bag-of-words, di mana setiap istilah yang di-stem
merepresentasikan sebuah fitur. Meskipun menggunakan metode klasifikasi populer
dengan metodologi desain eksperimental yang telah terbukti, hasil prediksi mereka tidak
jauh lebih baik daripada tebakan sederhana, yang mungkin mengindikasikan bahwa bag-
of-kata tidak menghasilkan representasi yang cukup baik dari artikel penelitian dalam
domain ini; oleh karena itu, teknik yang lebih canggih seperti NLP diperlukan.
Pemrosesan bahasa alami (NLP) adalah komponen penting d a l a m pemrosesan
teks dan merupakan subbidang dari kecerdasan buatan dan linguistik komputasi. NLP
mempelajari masalah "memahami" bahasa alami manusia, dengan tujuan untuk mengubah
penggambaran bahasa manusia (seperti dokumen tekstual) menjadi representasi yang lebih
formal (dalam bentuk data numerik dan simbolik) yang lebih mudah dimanipulasi oleh
program komputer. Tujuan dari NLP adalah untuk bergerak di luar manipulasi teks yang
digerakkan oleh sintaksis (yang sering disebut "penghitungan kata") menuju pemahaman
dan pemrosesan bahasa alami yang sebenarnya yang mempertimbangkan batasan tata
bahasa dan semantik serta konteks.
Definisi dan cakupan pemahaman kata adalah salah satu topik diskusi utama dalam
NLP. Mengingat bahwa bahasa alami manusia tidak jelas dan bahwa pemahaman makna
yang benar membutuhkan pengetahuan yang luas tentang suatu topik (di luar apa yang ada
di d a l a m kata, kalimat, dan paragraf), akankah komputer dapat memahami bahasa alami
dengan cara yang sama dan dengan keakuratan yang sama seperti yang dilakukan oleh
manusia? Mungkin tidak! NLP telah berkembang pesat sejak zaman penghitungan kata
sederhana, tetapi masih ada jalan panjang untuk benar-benar memahami bahasa alami
manusia. Berikut ini adalah beberapa tantangan yang umumnya terkait dengan penerapan
NLP:
• Penandaan bagian dari ucapan. Sulit untuk menandai istilah dalam teks yang
sesuai dengan bagian kata tertentu (seperti kata benda, kata kerja, kata sifat, atau kata
keterangan) karena bagian kata tidak hanya bergantung pada definisi istilah tersebut,
tetapi juga pada konteks penggunaannya.
• Segmentasi teks. Beberapa bahasa tertulis, seperti bahasa Mandarin, Jepang, dan
Thailand, tidak memiliki batas kata tunggal. Dalam h a l ini, tugas penguraian teks
memerlukan identifikasi batas kata, yang sering kali merupakan tugas yang sulit.
Tantangan serupa dalam segmentasi ucapan muncul ketika menganalisis bahasa lisan
karena suara yang mewakili huruf dan kata yang berurutan berbaur satu sama lain.
• Disambiguasi arti kata. Banyak kata yang memiliki lebih dari satu arti. Memilih
arti yang paling masuk akal hanya dapat dilakukan dengan mempertimbangkan
konteks penggunaan kata tersebut.
• Ambiguitas sintaksis. Tata bahasa untuk bahasa alami bersifat ambigu; artinya,
beberapa kemungkinan struktur kalimat sering kali perlu dipertimbangkan. Memilih
struktur y a n g paling tepat biasanya membutuhkan perpaduan informasi semantik
dan kontekstual.
• Masukan yang tidak sempurna atau tidak teratur. Aksen asing atau regional
dan hambatan vokal dalam berbicara serta kesalahan ketik atau tata b a h a s a
dalam teks membuat pemrosesan bahasa menjadi tugas yang lebih sulit.
• Tindak tutur. Sebuah kalimat sering kali dapat dianggap sebagai sebuah tindakan
oleh pembicara. Struktur kalimatnya saja mungkin tidak mengandung informasi yang
cukup untuk mendefinisikan tindakan ini. Misalnya, "Dapatkah Anda lulus kelas?"
meminta jawaban sederhana ya/tidak, sedangkan "Dapatkah Anda mengambil
garam?" adalah permintaan untuk melakukan tindakan fisik.
Sudah menjadi impian lama komunitas kecerdasan buatan untuk memiliki algoritma
yang mampu membaca dan mendapatkan pengetahuan dari teks secara otomatis. Dengan
menerapkan algoritme pembelajaran pada teks yang diurai, para peneliti dari laboratorium
NLP Universitas Stanford telah mengembangkan metode yang secara otomatis dapat
mengidentifikasi konsep dan hubungan di antara konsep-konsep dalam teks. Dengan
menerapkan prosedur unik pada teks dalam jumlah besar, algoritme mereka secara
otomatis mendapatkan ratusan ribu item pengetahuan dunia dan menggunakannya untuk
menghasilkan repositori yang disempurnakan secara signifikan untuk WordNet. WordNet
adalah basis data yang dikodekan dengan susah payah untuk kata-kata bahasa Inggris,
definisinya, kumpulan sinonim, dan berbagai hubungan semantik di antara kumpulan
sinonim. Ini adalah sumber daya utama untuk aplikasi NLP, tetapi telah terbukti sangat
mahal untuk dibangun dan dipelihara secara manual. Dengan secara otomatis memasukkan
pengetahuan ke dalam WordNet, ada potensi untuk menjadikan WordNet sebagai sumber
daya yang lebih besar dan lebih komprehensif untuk NLP dengan biaya yang lebih murah.
Salah satu area yang menonjol di mana manfaat NLP dan WordNet telah dipanen adalah
dalam manajemen hubungan pelanggan (CRM). Secara garis besar, tujuan dari CRM
adalah untuk memaksimalkan nilai pelanggan dengan lebih memahami dan secara efektif
menanggapi kebutuhan mereka yang sebenarnya dan yang dirasakan. Area penting dalam
CRM, di mana NLP memberikan dampak yang signifikan, adalah analisis sentimen.
Analisis sentimen adalah teknik yang digunakan untuk mendeteksi opini yang
menguntungkan dan tidak menguntungkan terhadap produk dan layanan tertentu dengan
menggunakan sejumlah besar sumber data tekstual (umpan balik pelanggan dalam bentuk
posting Web). Cakupan terperinci mengenai analisis sentimen dan WordNet diberikan di
Bagian 5.6.
Analisis secara umum dan analisis teks serta penggalian teks secara khusus dapat
digunakan dalam industri penyiaran. Kasus Aplikasi 5.2 memberikan contoh di mana
berbagai kemampuan analitik digunakan untuk menjaring pemirsa baru, memprediksi
peringkat, dan menambah nilai bisnis bagi perusahaan penyiaran.
Kasus Aplikasi 5.2

AMC Networks Menggunakan Analitik untuk Menangkap Pemirsa Baru,
Memprediksi Rating, dan Menambah Nilai bagi Pengiklan di Dunia
Multichannel
Selama 10 tahun terakhir, sektor televisi kabel di
Menjadi yang Terdepan dalam
Amerika Serikat telah menikmati periode
pertumbuhan yang memungkinkan kreativitas
Permainan
yang belum pernah terjadi sebelumnya dalam Terlepas dari kesuksesannya, perusahaan ini tidak
pembuatan konten berkualitas tinggi. AMC Networks berencana untuk berpuas diri. Seperti yang
telah menjadi yang terdepan dalam masa keemasan dijelaskan oleh Vitaly Tsivin, SVP Business
baru dalam dunia pertelevisian ini, dengan Intelligence: "Kami tidak tertarik untuk berdiam
memproduksi serangkaian acara yang sukses dan diri. Meskipun sebagian besar bisnis kami
mendapat banyak pujian seperti Breaking Bad,
Mad Men, dan The Walking Dead.
Berdedikasi untuk memproduksi program dan
konten film berkualitas selama lebih dari 30 tahun,
AMC Networks Inc. memiliki dan mengoperasikan
beberapa merek yang paling populer dan
memenangkan penghargaan di bidang televisi kabel,
memproduksi dan memberikan konten yang khas,
menarik, dan relevan secara budaya yang melibatkan
pemirsa di berbagai platform.
masih berupa TV kabel linier, kita perlu menarik
generasi baru milenial yang mengonsumsi konten
dengan cara yang sangat berbeda.
"TV telah berevolusi menjadi bisnis multisaluran,
bisnis multi-saluran, dan jaringan kabel h a r u s
menjadi lebih pintar dalam memasarkan dan
berhubungan dengan pemirsa di semua saluran
tersebut. Mengandalkan data rating tradisional dan
penyedia analisis pihak ketiga akan menjadi strategi
yang kalah: Anda perlu mengambil alih kepemilikan
data Anda, dan menggunakannya untuk mendapatkan
gambaran y a n g lebih kaya tentang siapa pemirsa
Anda, apa yang mereka inginkan, dan bagaimana Anda
dapat mempertahankan perhatian mereka di pasar
hiburan yang semakin ramai."
Zonasi pada Penampil
Tantangannya adalah banyaknya informasi yang
tersedia-ratusan miliar deretan data dari penyedia data
industri seperti Nielsen dan com-Score, dari saluran-
saluran seperti streaming Web langsung TV
Everywhere milik AMC dan layanan video sesuai
permintaan,
(Lanjutan)
Kasus Aplikasi 5.2 (Lanjutan)

PERTANYAAN UNTUK DISKUSI Menurut Anda, apakah ada potensi penggunaan lain dari
1. Apa saja tantangan umum yang dihadapi aplikasi penggalian teks dalam industri penyiaran?
perusahaan penyiaran saat ini? Bagaimana
Sumber: Studi Kasus Pelanggan IBM. Menggunakan analitik
analisis dapat membantu meringankan tantangan-
untuk menjaring pemirsa baru, memprediksi peringkat, dan
tantangan ini? menambah nilai bagi pengiklan di dunia multisaluran. http://www-
2. Bagaimana AMC memanfaatkan analitik untuk 03.ibm.com/software/busi-
meningkatkan kinerja bisnis mereka? nesscasestudies/us/en/corp?synkey=A023603A76220M60
(diakses pada bulan Juli 2016); www.ibm.com; www.amcnetworks
3. Apa saja jenis analisis teks dan solusi mini teks .com.
yang dikembangkan oleh jaringan AMC? Bisa
NLP telah berhasil diterapkan pada berbagai domain untuk berbagai m a c a m tugas
melalui program komputer untuk secara otomatis memproses bahasa alami manusia yang
sebelumnya hanya dapat dilakukan oleh manusia. Berikut ini adalah beberapa tugas yang
paling populer:
• Menjawab pertanyaan. Tugas untuk menjawab pertanyaan yang diajukan dalam
bahasa alami secara otomatis; yaitu, menghasilkan jawaban dalam bahasa manusia
ketika diberikan pertanyaan dalam bahasa manusia. Untuk menemukan jawaban dari
sebuah pertanyaan, program komputer dapat menggunakan basis data yang telah
terstruktur atau kumpulan dokumen bahasa alami (korpus teks seperti World Wide
Web).
• Peringkasan otomatis. Pembuatan versi singkat dari dokumen tekstual oleh
program komputer yang berisi poin-poin terpenting dari dokumen asli.
• Pembuatan bahasa alami. Sistem mengubah informasi dari basis data komputer
menjadi bahasa manusia yang dapat dibaca.
• Pemahaman bahasa alami. Sistem mengubah sampel dari bahasa manusia
menjadi representasi yang lebih formal yang lebih mudah dimanipulasi oleh program
komputer.
• Terjemahan mesin. Terjemahan otomatis dari satu bahasa manusia ke bahasa lainnya.
• Membaca bahasa asing. Program komputer yang membantu penutur bahasa
asing untuk membaca bahasa asing dengan pengucapan dan aksen yang benar pada
bagian kata yang berbeda.
• Penulisan bahasa asing. Program komputer yang membantu pengguna bahasa
asing dalam menulis dalam bahasa asing.
• Pengenalan ucapan. Mengubah kata-kata yang diucapkan menjadi input yang
dapat dibaca oleh mesin. Dengan diberikan klip suara seseorang yang sedang
berbicara, sistem akan menghasilkan dikte teks.
• Teks-ke-ucapan. Juga disebut sintesis ucapan, program komputer secara otomatis
mengubah teks bahasa normal menjadi ucapan manusia.
• Pemeriksaan teks. Program komputer membaca salinan bukti teks untuk
mendeteksi dan mengoreksi kesalahan.
• Pengenalan karakter optik. Penerjemahan otomatis gambar teks yang ditulis
tangan, diketik, atau dicetak (biasanya ditangkap oleh pemindai) ke dalam dokumen
tekstual yang dapat diedit oleh mesin.
Keberhasilan dan popularitas penambangan teks sangat bergantung pada kemajuan
dalam NLP baik dalam generasi maupun pemahaman bahasa manusia. NLP
memungkinkan ekstraksi fitur dari teks yang tidak terstruktur sehingga berbagai macam
teknik penggalian data
dapat digunakan untuk mengekstrak pengetahuan (pola dan hubungan yang baru dan
berguna) darinya. Dalam hal ini, secara sederhana, text mining adalah kombinasi dari NLP
dan data mining.

1. Apa itu NLP?
2. Bagaimana NLP berhubungan dengan penambangan teks?
3. Apa saja manfaat dan tantangan dari NLP?
&. Tugas apa yang paling umum ditangani oleh NLP?
5.4 Aplikasi Penambangan Teks

Seiring dengan meningkatnya jumlah data tidak terstruktur yang dikumpulkan oleh
organisasi, begitu pula d e n g a n proposisi nilai dan popularitas alat text mining. Banyak
organisasi sekarang menyadari pentingnya mengekstraksi pengetahuan dari repositori data
berbasis dokumen mereka melalui penggunaan alat penambangan teks. Berikut ini hanya
sebagian kecil dari kategori aplikasi contoh dari text mining.
Aplikasi Pemasaran
Penambangan teks dapat digunakan untuk meningkatkan penjualan silang dan penjualan
naik dengan menganalisis data yang tidak terstruktur yang dihasilkan oleh pusat panggilan.
Teks yang dihasilkan oleh catatan call center serta transkripsi percakapan suara dengan
pelanggan dapat dianalisis dengan algoritme penambangan teks untuk mengekstrak
informasi baru yang dapat ditindaklanjuti tentang persepsi pelanggan terhadap produk dan
layanan perusahaan. Selain itu, blog, ulasan pengguna tentang produk di situs Web yang
sedang berjalan, dan posting papan diskusi adalah tambang emas dari sentimen pelanggan.
Kumpulan informasi yang kaya ini, setelah dianalisis dengan benar, dapat digunakan untuk
meningkatkan kepuasan dan nilai keseluruhan seumur hidup pelanggan (Coussement &
Van den Poel, 2008). Penambangan teks telah menjadi sangat berharga untuk CRM.
Perusahaan dapat menggunakan text mining untuk menganalisis kumpulan data teks yang
tidak terstruktur, dikombinasikan dengan data terstruktur yang relevan yang diekstrak dari
database organisasi, untuk memprediksi persepsi pelanggan dan perilaku pembelian
selanjutnya. Coussement dan Van den Poel (2009) berhasil menerapkan penambangan teks
untuk secara signifikan meningkatkan kemampuan model untuk memprediksi perputaran
pelanggan (yaitu, gesekan pelanggan) sehingga pelanggan yang diidentifikasi sebagai yang
paling mungkin meninggalkan perusahaan adalah
diidentifikasi secara akurat untuk taktik retensi.
Ghani dkk. (2006) menggunakan penggalian teks untuk mengembangkan sistem yang
mampu menyimpulkan atribut implisit dan eksplisit dari produk untuk meningkatkan
kemampuan peritel dalam menganalisis basis data produk. Memperlakukan produk sebagai
kumpulan pasangan atribut-nilai daripada sebagai entitas atom dapat berpotensi
meningkatkan efektivitas banyak aplikasi bisnis, termasuk peramalan permintaan,
pengoptimalan bermacam-macam produk, rekomendasi produk, perbandingan bermacam-
macam produk di seluruh peritel dan produsen, dan pemilihan pemasok produk. Sistem
yang diusulkan memungkinkan bisnis untuk merepresentasikan produknya dalam hal
atribut dan nilai atribut tanpa banyak usaha manual. Sistem mempelajari atribut-atribut ini
dengan menerapkan teknik pembelajaran yang diawasi dan semisupervisi pada deskripsi
produk yang ditemukan di situs Web pengecer.
Aplikasi Keamanan
Salah satu aplikasi penambangan teks terbesar dan paling menonjol dalam domain
keamanan mungkin adalah sistem pengawasan ECHELON yang sangat rahasia. Seperti
yang dikabarkan, ECHELON diasumsikan mampu mengidentifikasi konten panggilan
telepon, faks, email, dan
jenis data lainnya, menyadap informasi yang dikirim melalui satelit, jaringan telepon yang
dialihkan ke publik, dan sambungan gelombang mikro.
Pada tahun 2007, EUROPOL mengembangkan sebuah sistem terintegrasi yang
mampu mengakses, menyimpan, dan menganalisis sumber data terstruktur dan tidak
terstruktur dalam jumlah yang sangat besar untuk melacak kejahatan transnasional
terorganisir. Disebut Sistem Analisis Keseluruhan untuk Dukungan Intelijen (OASIS),
sistem ini bertujuan untuk mengintegrasikan data paling canggih dan teknologi
penambangan teks yang tersedia di pasar saat ini. Sistem ini telah memungkinkan
EUROPOL untuk membuat kemajuan yang signifikan dalam mendukung tujuan
penegakan hukum di tingkat internasional (EUROPOL, 2007).
Biro Investigasi Federal AS (FBI) dan Badan Intelijen Pusat (CIA), di bawah arahan
Departemen Keamanan Dalam Negeri, bersama-sama mengembangkan sistem
penambangan data dan teks superkomputer. Sistem ini diharapkan dapat menciptakan
gudang data raksasa bersama dengan berbagai modul data dan penambangan teks untuk
memenuhi kebutuhan penemuan pengetahuan dari lembaga penegak hukum federal, negara
bagian, dan lokal. Sebelum proyek ini, FBI dan CIA masing-masing memiliki basis data
yang terpisah, dengan sedikit atau tanpa interkoneksi.
Aplikasi lain yang berhubungan dengan keamanan dari text mining adalah di bidang
deteksi penipuan. Menerapkan penambangan teks pada sekumpulan besar pernyataan
kriminal (orang yang berkepentingan) di dunia nyata, Fuller, Biros, dan Delen (2008)
mengembangkan model prediksi untuk membedakan pernyataan yang menipu dengan
pernyataan yang jujur. Dengan menggunakan sekumpulan isyarat yang diekstrak dari
pernyataan tekstual, model ini memprediksi sampel yang ditahan dengan akurasi 70%,
yang diyakini sebagai keberhasilan yang signifikan mengingat isyarat tersebut diekstrak
hanya dari pernyataan tekstual (tidak ada isyarat verbal atau visual). Selain itu,
dibandingkan dengan teknik pendeteksian penipuan lainnya, seperti poligraf, metode ini
tidak mengganggu dan dapat diterapkan secara luas tidak hanya pada data tekstual, tetapi
juga (berpotensi) pada transkripsi rekaman suara. Penjelasan lebih rinci tentang deteksi
penipuan berbasis teks disediakan dalam Kasus Aplikasi 5.3.
penipuan (juga dikenal sebagai penilaian kredibilitas)

Kasus Aplikasi 5.3 melibatkan pertemuan tatap muka dan wawancara. Namun,
Menambang Kebohongan dengan berkembangnya komunikasi berbasis teks,
Didorong oleh kemajuan teknologi informasi

berbasis Web dan meningkatnya globalisasi,
komunikasi yang dimediasi oleh komputer terus
menyaring ke dalam kehidupan sehari-hari,
membawa serta tempat baru untuk penipuan. Volume
obrolan berbasis teks, pesan instan, pesan teks, dan
teks yang dihasilkan oleh komunitas praktik online
meningkat dengan cepat. Bahkan email terus
berkembang dalam penggunaannya. Dengan
pertumbuhan besar-besaran komunikasi berbasis
teks, potensi orang untuk menipu orang lain melalui
komunikasi yang dimediasi komputer juga
meningkat, dan penipuan semacam itu bisa berakibat
buruk.
Sayangnya, secara umum, manusia cenderung
berkinerja buruk dalam tugas pendeteksian penipuan.
Fenomena ini diperburuk dalam komunikasi berbasis
teks. Sebagian besar penelitian tentang deteksi
teknik deteksi penipuan berbasis teks sangat

penting.
Teknik-teknik untuk berhasil mendeteksi
penipuan-yaitu kebohongan-memiliki
penerapan yang luas. Penegak hukum dapat
menggunakan alat dan teknik pendukung
keputusan untuk menyelidiki kejahatan,
melakukan pemeriksaan keamanan di bandara,
dan memantau komunikasi tersangka teroris.
Profesi sumber daya manusia dapat
menggunakan alat pendeteksi kebohongan
untuk menyaring pelamar. Alat dan teknik ini
juga berpotensi untuk menyaring email untuk
mengungkap penipuan atau kesalahan lain
yang dilakukan oleh pejabat perusahaan.
Meskipun beberapa orang percaya bahwa
mereka dapat dengan mudah mengidentifikasi
mereka yang tidak jujur, sebuah ringkasan
penelitian tentang penipuan menunjukkan
bahwa, rata-rata, orang hanya 54% akurat
dalam melakukan deteksi penipuan (Bond &
DePaulo, 2006). Angka ini sebenarnya bisa
lebih buruk ketika manusia mencoba
mendeteksi penipuan dalam teks.
Dengan menggunakan kombinasi teknik mengidentifikasi 31 fitur yang mewakili kategori

penggalian teks dan penggalian data, Fuller dkk. atau jenis bahasa yang relatif tidak bergantung pada
(2008) menganalisis pernyataan-pernyataan orang konten teks dan dapat dengan mudah dianalisis
yang berkepentingan yang diisi oleh orang-orang dengan cara otomatis. Sebagai contoh, kata ganti
yang terlibat dalam kejahatan di pangkalan militer. orang pertama seperti saya atau aku dapat
Dalam kondisi ini, tersangka dan saksi diminta untuk diidentifikasi tanpa analisis teks di sekitarnya. Tabel
menulis ingatan mereka tentang kejadian tersebut 5.1 berisi daftar kategori dan contoh daftar fitur yang
dengan kata-kata mereka sendiri. Personel penegak digunakan dalam penelitian ini.
hukum militer mencari data arsip untuk mencari Fitur-fitur tersebut diekstraksi dari pernyataan
pernyataan yang dapat mereka identifikasi sebagai tekstual dan dimasukkan ke dalam file datar untuk
pernyataan yang jujur atau bohong. Keputusan ini diproses lebih lanjut. Dengan menggunakan beberapa
dibuat berdasarkan bukti-bukti yang menguatkan dan metode pemilihan fitur bersama dengan validasi
penyelesaian kasus. Setelah diberi label jujur atau silang 10 kali lipat, para peneliti membandingkan
bohong, aparat penegak hukum menghapus informasi akurasi prediksi dari tiga metode penambangan data
pengenal dan memberikan pernyataan-pernyataan yang populer. Hasil penelitian mereka menunjukkan
t e r s e b u t kepada tim peneliti. Secara keseluruhan, bahwa model jaringan syaraf memiliki performa
371 pernyataan yang dapat digunakan diterima untuk terbaik, dengan akurasi pra-diksi 73,46% pada
dianalisis. Metode pendeteksian penipuan berbasis sampel data uji; pohon keputusan berada di urutan
teks yang digunakan oleh Fuller dkk. (2008) kedua, dengan akurasi 71,60%; dan regresi logistik
didasarkan pada proses yang dikenal sebagai berada di urutan terakhir, dengan akurasi 65,28%.
penambangan fitur pesan, yang mengandalkan Hasil penelitian menunjukkan bahwa deteksi
elemen data dan teknik penambangan teks. penipuan berbasis teks otomatis memiliki potensi
Penggambaran proses yang disederhanakan untuk membantu mereka yang harus mencoba
disediakan pada Gambar 5.3. mendeteksi kebohongan dalam teks dan dapat
Pertama, para peneliti menyiapkan data untuk diterapkan dengan sukses pada data dunia nyata.
diolah. Pernyataan tulisan tangan asli harus Keakuratan teknik ini melebihi keakuratan sebagian
ditranskripsikan ke dalam file pengolah kata. Kedua, besar teknik pendeteksian penipuan lainnya,
fitur-fitur (yaitu i s y a r a t ) diidentifikasi. Para peneliti meskipun terbatas pada isyarat tekstual.
Laporan yang
Ditranskrip untuk
Diproses
Pernyataan yang Diberi

Isyarat yang
Label Jujur atau
Diekstrak &
Menipu oleh Penegak
Dipilih
Hukum
Model Klasifikasi Perangkat Lunak

Dilatih dan Diuji Pemrosesan Teks-
pada Isyarat Identifikasi Isyarat
Terkuantifikasi dalam Laporan
Isyarat
Terkuantifikasi yang
Dihasilkan
Perangkat Lunak
Pemrosesan Teks
GAMBAR 5.3 Proses Pendeteksian PenipuanBab 5 - Analisis
Berbasis PrediktifFuller,
Teks. Sumber: II: A CM,
n a lBiros,
i s i sD.,Teks, Web,D.dan
& Delen, Media
(2008, 293
SosialEksplorasi
Januari).
pemilihan fitur dan model klasifikasi tingkat lanjut untuk deteksi penipuan berisiko tinggi. Prosiding Konferensi Internasional Hawaii Tahunan ke-41
tentang Ilmu Sistem (HICSS), Big Island, HI: IEEE Press, 80-99.
(Lanjutan)
Kasus Aplikasi 5.3 (Lanjutan)

TABEL 5.1 Kategori dan Contoh Fitur Linguistik yang Digunakan dalam Deteksi Penipuan
Nomor Membangun (Kategori) Contoh Isyarat

1 Kuantitas Jumlah kata kerja, jumlah frasa kata benda, dll.
2 Kompleksitas Jumlah rata-rata klausa, panjang kalimat rata-rata, dll.
3 Ketidakpastian Pengubah, kata kerja modal, dll.
4 Tidak segera K a l i m a t pasif, objektifikasi, dll.
5 Ekspresi Emosionalitas
6 Keanekaragaman Keragaman leksikal, redundansi, dll.
7 Informalitas Rasio kesalahan ketik
8 Kekhususan Informasi spatiotemporal, informasi perseptual, dll.
9 Mempengaruhi Pengaruh positif, pengaruh negatif, dll.
PERTANYAAN UNTUK DISKUSI Sumber: Fuller, C. M., Biros, D., & Delen, D. (2008). Eksplorasi
pemilihan fitur dan model klasifikasi tingkat lanjut untuk deteksi
1. Mengapa sulit untuk mendeteksi penipuan? penipuan berisiko tinggi. Prosiding Konferensi Internasional
2. Bagaimana penggalian teks/data dapat Tahunan Hawaii ke-41 tentang Ilmu Sistem (HICSS), Big Island, HI:
digunakan untuk mendeteksi penipuan IEEE Press, 80-99; Bond CF, & DePaulo, BM (2006). Keakuratan
dalam teks? penilaian penipuan. Laporan Psikologi Kepribadian dan Sosial,
10(3), 214-234.
3. Menurut Anda, apa tantangan utama untuk
sistem otomatis semacam itu?
Aplikasi Biomedis
Penambangan teks memiliki potensi besar untuk bidang medis pada umumnya dan
biomedis pada khususnya karena beberapa alasan. Pertama, literatur yang diterbitkan dan
outlet publikasi (terutama dengan munculnya jurnal sumber terbuka) di bidang ini
berkembang dengan kecepatan eksponensial. Kedua, dibandingkan dengan sebagian besar
bidang lain, literatur medis lebih terstandarisasi dan teratur, menjadikannya sumber
informasi yang lebih "mudah ditelusuri". Terakhir, terminologi yang digunakan dalam
literatur ini relatif konstan, memiliki ontologi yang cukup standar. Berikut ini adalah
beberapa contoh studi di mana teknik text mining berhasil digunakan dalam mengekstraksi
pola baru dari literatur biomedis.
Teknik-teknik eksperimental seperti analisis microarray DNA, analisis serial ekspresi
gen (SAGE), dan proteomik spektrometri massa, di antaranya, menghasilkan data dalam
jumlah besar yang terkait dengan gen dan protein. Seperti pada pendekatan eksperimental
lainnya, data yang sangat banyak ini perlu dianalisis dalam konteks informasi yang telah
diketahui sebelumnya tentang entitas biologis yang diteliti. Literatur merupakan sumber
informasi yang sangat berharga untuk validasi dan interpretasi eksperimen. Oleh karena
itu, pengembangan alat penggalian teks otomatis untuk membantu interpretasi tersebut
merupakan salah satu tantangan utama dalam penelitian bioinformatika saat ini.
Mengetahui lokasi protein dalam sel dapat membantu menjelaskan perannya dalam
proses biologis dan menentukan potensinya sebagai target obat. Banyak sistem prediksi
lokasi dijelaskan dalam literatur; beberapa fokus pada organisme tertentu, sedangkan yang
lain mencoba untuk menganalisis berbagai macam organisme. Shatkay dkk. (2007)
mengusulkan sebuah sistem komprehensif yang menggunakan beberapa jenis fitur berbasis
sekuens dan teks untuk memprediksi lokasi protein. Kebaruan utama dari sistem mereka
terletak pada cara sistem ini memilih sumber teks dan fitur-fiturnya serta
mengintegrasikannya dengan fitur-fitur berbasis urutan. Mereka menguji sistem ini pada
kumpulan data yang telah digunakan sebelumnya dan pada kumpulan data baru yang
dirancang khusus untuk menguji kekuatan prediktifnya. Hasilnya menunjukkan bahwa
sistem mereka secara konsisten mengalahkan hasil yang dilaporkan sebelumnya.
Chun dkk. (2006) menggambarkan sebuah sistem yang mengekstrak hubungan
penyakit-gen dari literatur yang diakses melalui MEDLINE. Mereka membuat kamus
untuk nama penyakit dan gen dari enam database publik dan mengekstrak kandidat
hubungan dengan pencocokan kamus. Karena pencocokan kamus menghasilkan sejumlah
besar positif palsu, mereka mengembangkan metode pengenalan entitas bernama (NER)
berbasis pembelajaran mesin untuk menyaring pengenalan nama penyakit/gen yang salah.
Mereka menemukan bahwa keberhasilan ekstraksi relasi sangat bergantung pada kinerja
pemfilteran NER dan pemfilteran tersebut meningkatkan ketepatan ekstraksi relasi sebesar
26,7%, dengan sedikit penurunan dalam recall.
Gambar 5.4 menunjukkan penggambaran yang disederhanakan dari proses analisis
teks bertingkat untuk hubungan gen-protein yang tidak tercakup (atau interaksi protein-
protein) dalam literatur biomedis (Nakov dkk., 2005). Seperti yang dapat dilihat pada contoh
yang disederhanakan ini yang menggunakan kalimat sederhana dari teks biomedis, pertama-
tama (pada tiga tingkat terbawah) teks diberi tanda menggunakan penandaan bagian dari
ucapan dan penguraian dangkal. Istilah-istilah (kata-kata) yang telah ditandai
kemudian dicocokkan (dan ditafsirkan) dengan representasi hirarkis dari ontologi
domain untuk mendapatkan hubungan gen-protein. Penerapan metode ini (dan/atau beberapa
variasinya) pada literatur biomedis menawarkan potensi besar untuk memecahkan
kompleksitas dalam Proyek Genom Manusia.
596 12043 24224 281020 42722 397276

Gen/Pr
otein
D007962
D016923
Ontologi
D001773
D019254 D044465 D001769 D002477 D003643 D016158
... Ekspresi Bcl-2 berkorelasi dengan kematian sel darah putih yang tidak mencukupi dan aktivasi
p53.
185 8 51112 9 23017 27 5874 2791 8952 1623 5632 17 8252 8 2523
Kata
NN IN NN VBZ M JJ JJ NN NN NN CC NN IN NN
MASUK A
POS
S
U
K
NP PP NP NP PP NP NP PP NP
Dangkal
Pengur
aian
GAMBAR 5.4 Analisis Bertingkat Teks untuk Identifikasi Interaksi Gen/Protein. Sumber: Berdasarkan Nakov, P., Schwartz, A., Wolf, B., & Hearst,
M. A. (2005). Lapisan anotasi pendukung untuk pemrosesan bahasa alami. Prosiding Association for Computational Linguistics (ACL), Poster Interaktif dan Sesi
Demonstrasi, Ann Arbor, MI. Association for Computational Linguistics, 65-68.
Aplikasi Akademik
Masalah penambangan teks sangat penting bagi penerbit yang memiliki basis data
informasi besar yang membutuhkan pengindeksan untuk pencarian yang lebih baik. Hal ini
terutama terjadi pada disiplin ilmu pengetahuan, di mana informasi yang sangat spesifik
sering kali terkandung dalam teks tertulis. Berbagai inisiatif telah diluncurkan, seperti
proposal Nature untuk Antarmuka Penambangan Teks Terbuka dan Definisi Jenis
Dokumen Penerbitan Jurnal Umum National Institutes of Health, yang akan memberikan
isyarat semantik kepada mesin untuk menjawab pertanyaan spesifik yang terkandung
dalam teks tanpa menghilangkan hambatan penerbit terhadap akses publik.
Institusi akademis juga telah meluncurkan inisiatif penambangan teks. Sebagai
contoh, National Centre for Text Mining, sebuah upaya kolaboratif antara Universitas
Manchester dan Liverpool, menyediakan alat yang disesuaikan, fasilitas penelitian, dan
saran m e n g e n a i text mining untuk komunitas akademis. Dengan fokus awal pada
penambangan teks dalam ilmu biologi dan biomedis, penelitian ini kemudian meluas ke
dalam ilmu sosial. Di Amerika Serikat, School of Information di University of California,
Berkeley, mengembangkan program yang disebut BioText untuk membantu para peneliti
biosains dalam penggalian dan analisis teks. Seperti yang dijelaskan di bagian ini,
penggalian teks memiliki berbagai macam aplikasi d i sejumlah disiplin ilmu yang
berbeda. Lihat Kasus Aplikasi 5.4 untuk contoh bagaimana produsen produk komputasi
terkemuka menggunakan penggalian teks untuk lebih memahami kebutuhan dan keinginan
pelanggan saat ini dan calon pelanggan yang terkait dengan kualitas produk dan desain
produk.
Kasus Aplikasi 5.4

Membawa Pelanggan ke dalam Persamaan Kualitas: Lenovo Menggunakan Analisis untuk Memikirkan Kembali
Desain Ulangnya
Penemuan ini merupakan jenis penemuan yang
Lenovo hampir memperkuat komitmen Lenovo terhadap sistem Lenovo
menyelesaikan desain Early Detection (LED), dan hasil kerja Chaara dan tim
akhir pada pembaruan analisis korporatnya.
tata letak keyboard
salah satu yang paling
populer
PC ketika melihat komunitas gamer online yang
kecil, namun signifikan, yang sangat mendukung
desain keyboard saat ini. Mengubah desain mungkin
telah menyebabkan pemberontakan massal dari
sebagian besar segmen basis pelanggan Lenovo-
pengembang dan gamer lepas.
Unit Corporate Analytics menggunakan SAS
sebagai bagian dari proyek kualitas persepsi.
Merayapi Web, menyaring data teks untuk
perusahaan Lenovo, analisis ini menemukan
sebuah forum yang sebelumnya tidak dikenal, di
mana seorang pelanggan yang sudah ada telah
menulis ulasan enam halaman yang sangat bagus
tentang desain saat ini, khususnya keyboard. Ulasan
tersebut menarik 2.000 komentar! "Hal ini bukanlah
sesuatu yang akan kami temukan dalam ulasan
desain praproduksi tradisional," ujar Mohammed
Chaara, Direktur Wawasan Pelanggan & Analisis
VOC.
Lenovo, produsen PC dan tablet global
terbesar, tidak bermaksud untuk mengukur
sentimen di sekitar blogger yang tidak jelas
atau menemukan forum baru. Perusahaan ini
ingin menginformasikan kualitas,
pengembangan produk, dan inovasi produk
dengan mempelajari data yang dimilikinya
dan data dari luar. "Kami terutama berfokus
pada optimalisasi rantai pasokan, peluang
penjualan silang/up-sell, serta penetapan harga
dan p e n g e m a s a n layanan. Setiap
perbaikan yang kami lakukan di area-area ini
didasarkan pada mendengarkan pelanggan,"
kata Chaara. SAS menyediakan kerangka
kerja untuk "mengelola jumlah data yang
sangat besar" yang dihasilkan.
Keberhasilan proyek ini telah menyebar
dengan cepat di dalam organisasi. Lenovo
awalnya merencanakan sekitar 15 pengguna,
tetapi dari mulut ke mulut, 300 pengguna telah
mendaftar untuk masuk ke dasbor LED untuk
mendapatkan presentasi visual tentang
sentimen pelanggan, garansi, dan analisis
pusat panggilan.
Hasilnya Sangat Mengesankan

• Lebih dari 50% pengurangan waktu deteksi
masalah.
• Pengurangan biaya garansi sebesar 10
hingga 15% u n t u k cacat yang tidak
normal.
• Pengurangan 30 hingga 50% panggilan
informasi umum ke pusat kontak.
294 Analisis Teks,
298 Bab 5 - Analisis Prediktif II: Analisis Teks, Web,
Web, dan
dan Media
Media Sosial
Sosial

1. Sebutkan dan diskusikan secara singkat beberapa aplikasi text mining dalam pemasaran.
2. Bagaimana penambangan teks dapat digunakan dalam keamanan dan kontraterorisme?
3. Apa saja aplikasi penambangan teks yang menjanjikan dalam biomedis?
5.5 Proses Penambangan Teks

Agar berhasil, penelitian penggalian teks harus mengikuti metodologi yang baik
berdasarkan praktik-praktik terbaik. Sebuah model proses standar diperlukan seperti Cross-
Industry Standard Process for Data Mining (CRISP-DM), yang merupakan standar industri
untuk proyek-proyek data mining (lihat Bab 4). Meskipun sebagian besar bagian dari
CRISP-DM juga dapat diterapkan pada proyek penggalian teks, model proses khusus untuk
penggalian teks akan mencakup aktivitas prapemrosesan data yang jauh lebih rumit.
Gambar 5.5 menggambarkan diagram konteks tingkat tinggi dari proses text mining yang
umum (Delen & Crossland, 2008). Diagram konteks ini menyajikan ruang lingkup proses,
menekankan antarmuka dengan lingkungan yang lebih besar. Pada intinya, diagram ini
menarik batas-batas di sekitar proses spesifik untuk secara eksplisit mengidentifikasi apa
yang termasuk dalam (dan dikecualikan dari) proses text mining.
Seperti yang ditunjukkan oleh diagram konteks, input (koneksi ke dalam ke tepi kiri
kotak) ke dalam proses penemuan pengetahuan berbasis teks adalah data yang tidak
terstruktur dan terstruktur yang dikumpulkan, disimpan, dan disediakan untuk proses
tersebut. Keluaran (bagian luar dari tepi kanan kotak) dari proses tersebut adalah pengetahuan
spesifik konteks yang dapat digunakan untuk pengambilan keputusan. Kontrol, juga disebut
kendala (koneksi ke dalam ke tepi atas kotak), dari proses tersebut termasuk keterbatasan
perangkat lunak dan perangkat keras, masalah privasi, dan kesulitan yang terkait dengan
pemrosesan teks yang disajikan dalam bentuk bahasa alami. Mekanisme (hubungan ke
dalam ke tepi bawah kotak) dari proses ini meliputi teknik yang tepat, perangkat lunak, dan
keahlian domain. Tujuan utama dari text mining (dalam konteks penemuan pengetahuan)
adalah untuk memproses data yang tidak terstruktur (tekstual) (bersama dengan data
terstruktur, jika relevan dengan masalah yang sedang ditangani dan tersedia) untuk
mengekstrak pola yang bermakna dan dapat ditindaklanjuti untuk pengambilan
keputusan yang lebih baik.
Keterbatasan perangkat
lunak/perangkat keras
Masalah privasi
Keterbatasan
linguistik
Data tidak terstruktur Pengetahuan yang sesuai

Mengekstrak
(teks) dengan konteks
pengetahuan
dari sumber
Data terstruktur (basis data) data yang
tersedia
A0
Keahlian domain
Alat dan teknik
GAMBAR 5.5 Diagram Konteks untuk Proses Penambangan Teks.
Bab 5 - Analisis Prediktif II: Analisis Teks, Web, dan Media Sosial 295
Tugas 1 Tugas 2 Tugas 3

Membangun Korpus: Buatlah Matriks Ekstrak
Mengumpulkan dan Istilah-Dokumen: Pengetahuan:
DTaetax mengatur data tidak Memperkenalkan Temukan pola-pola 5
4
t terstruktur khusus struktur pada baru dari 12
3
domain korpus Matriks T-D Pengetahu

Umpan Umpan an
balik balik
Masukan untuk proses Keluaran dari Tugas 1 Keluaran dari Tugas 2 Keluaran dari Tugas 3
adalah berbagai macam dokumen yang relevan relevan, adalah sebuah file datar adalah sejumlah
termasuk berbagai koleksi dokumen dalam format tidak yang disebut matriks istilah- klasifikasi, asosiasi, model
terstruktur (dan semi beberapa format digital dokumen di mana sel-selnya pengelompokan, dan
untuk sumber data terstruktur) sepertiteks pemrosesan diisi dengan frekuensi istilah visualisasi yang spesifik
komputer, XML, HTML, dll. untuk masalah tertentu
GAMBAR 5.6 Proses Penambangan Teks Tiga Langkah/Tugas.
Pada tingkat yang sangat tinggi, proses text mining dapat dipecah menjadi tiga tugas
yang saling berhubungan, yang masing-masing memiliki input spesifik untuk
menghasilkan output tertentu (lihat Gambar 5.6). Jika, karena suatu alasan, output dari
suatu tugas tidak sesuai dengan yang diharapkan, maka diperlukan pengalihan kembali ke
eksekusi tugas sebelumnya.
Tugas 1: Membangun Korpus

Tujuan utama dari aktivitas tugas pertama adalah untuk mengumpulkan semua dokumen
yang terkait dengan konteks (domain yang diminati) yang sedang dipelajari. Koleksi ini
dapat berupa dokumen tekstual, file XML, email, halaman Web, dan catatan singkat.
Selain data tekstual yang sudah tersedia, rekaman suara juga dapat ditranskrip
menggunakan algoritma pengenalan suara dan dijadikan bagian dari koleksi teks.
Setelah dikumpulkan, dokumen teks diubah dan diatur sedemikian rupa sehingga
semuanya berada dalam bentuk representasi yang sama (misalnya, file teks ASCII) untuk
pemrosesan komputer. Pengorganisasian dokumen dapat sesederhana kumpulan kutipan
teks digital yang disimpan dalam folder file atau bisa juga berupa daftar tautan ke
kumpulan halaman Web dalam domain tertentu. Banyak perangkat lunak text mining yang
tersedia secara komersial dapat menerima ini sebagai input dan mengubahnya menjadi file
datar untuk diproses. Sebagai alternatif, file datar dapat disiapkan di luar perangkat lunak
penambangan teks dan kemudian disajikan sebagai input ke aplikasi penambangan teks.
Tugas 2: Buatlah Matriks Istilah-Dokumen

Dalam tugas ini, dokumen yang telah didigitalkan dan diorganisasikan (korpus)
digunakan untuk membuat matriks istilah-dokumen (TDM). Dalam TDM, baris mewakili
dokumen dan kolom mewakili istilah. Hubungan antara istilah dan dokumen ditandai dengan
indeks (yaitu, ukuran relasional yang dapat sesederhana jumlah kemunculan istilah
dalam dokumen masing-masing). Gambar 5.7 adalah contoh umum dari TDM.
Tujuannya adalah untuk mengubah daftar dokumen yang terorganisir (korpus)
menjadi TDM di mana sel-selnya diisi dengan indeks yang paling sesuai. Asumsinya
adalah bahwa esensi dari sebuah dokumen dapat diwakili dengan daftar dan frekuensi
istilah yang digunakan dalam dokumen tersebut. Namun, apakah semua istilah penting
ketika mengkarakterisasi dokumen? Jelas, jawabannya adalah "tidak." Beberapa istilah,
seperti artikel, kata kerja bantu, dan istilah yang digunakan di hampir semua dokumen
dalam korpus, tidak memiliki daya pembeda dan, oleh karena itu, harus dikeluarkan dari
proses pengindeksan. Daftar istilah ini, yang biasa disebut stop term atau stop words,
adalah khusus untuk domain studi dan harus diidentifikasi oleh pakar domain. Di sisi lain,
seseorang dapat memilih sekumpulan istilah yang telah ditentukan sebelumnya di mana
dokumen-dokumen tersebut akan diindeks (daftar istilah ini biasa disebut istilah tambahan
atau kamus). Selain itu, sinonim (pasangan istilah yang diperlakukan sama) dan frasa
tertentu (misalnya, "Menara Eiffel") juga dapat disediakan agar entri indeks lebih akurat.

Bab 5 Hal 1 Id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 5 Hal 1 Id

Diunggah oleh

Hak Cipta:

Format Tersedia

Subscribe to DeepL Pro to translate larger documents.

Visit www.DeepL.com/pro for more information.

T Bab ini memberikan gambaran umum yang komprehensif tentang

/.8 Mesin Pencari 317

5.1 PEMBUKAAN VIGNETTE: Mesin versus Manusia dalam

Bersaing dengan yang Terbaik

Bagaimana Watson Melakukannya?

GAMBAR 5.1 Penggambaran Tingkat Tinggi Arsitektur DeepQA.

PERTANYAAN UNTUK SKETSA PEMBUKA

Apa yang Dapat Kita Pelajari dari Sketsa Ini

5.2 Ikhtisar Analisis Teks dan Penambangan Teks

Statistik Pembelajaran Ilmu Manajemen

Analisis Teks = Pengambilan Informasi + Ekstraksi Informasi + Penambangan Data

• Pengelompokan. Mengelompokkan dokumen yang serupa tanpa memiliki

WAWASAN TEKNOLOGI 5.1

Kasus Aplikasi 5.1

Meningkatkan Akurasi Estimasi Kewajiban

Memperluas Penawaran Layanan kepada

mengatakan. "Dengan Statistica, kami dapat PERTANYAAN UNTUK DISKUSI

BAGIAN 5.2 PERTANYAAN TINJAUAN

5.3 Pemrosesan Bahasa Alami (NLP)

Kasus Aplikasi 5.2

Kasus Aplikasi 5.2 (Lanjutan)

BAGIAN 5.3 PERTANYAAN TINJAUAN

5.4 Aplikasi Penambangan Teks

penipuan (juga dikenal sebagai penilaian kredibilitas)

Didorong oleh kemajuan teknologi informasi

teknik deteksi penipuan berbasis teks sangat

Dengan menggunakan kombinasi teknik mengidentifikasi 31 fitur yang mewakili kategori

Pernyataan yang Diberi

Model Klasifikasi Perangkat Lunak

Kasus Aplikasi 5.3 (Lanjutan)

Nomor Membangun (Kategori) Contoh Isyarat

596 12043 24224 281020 42722 397276

D019254 D044465 D001769 D002477 D003643 D016158

Kasus Aplikasi 5.4

Hasilnya Sangat Mengesankan

BAGIAN 5.4 PERTANYAAN TINJAUAN

5.5 Proses Penambangan Teks

Data tidak terstruktur Pengetahuan yang sesuai

Tugas 1 Tugas 2 Tugas 3

domain korpus Matriks T-D Pengetahu

Tugas 1: Membangun Korpus

Tugas 2: Buatlah Matriks Istilah-Dokumen

Anda mungkin juga menyukai