Anda di halaman 1dari 9

BAB 8 TEXT MINING

Pendahuluan
Kebanyakan studi tentang data mining dipusatkan pada data terstruktur,
seperti data relasional, transaksional dan warehouse. Namun, dalam kenyataannya
terdapat banyak informasi yang tersimpan dalam basisdata teks atau basisdata
dokumen, yang berisi sejumlah besar koleksi dokumen dari berbagai sumber
seperti artikel berita, paper riset, buku, perpustakaan digital, pesan e-mail dan
halaman web. Basisdata teks berkembang dengan pesat karena meningkatnya
jumlah informasi yang tersedia dalam bentuk elektronik seperti publikasi
elektronik, CD-ROM dan World-Wide-Web (WWW sebenarnya juga dapat
dipandang sebagai basisdata teks yang sangat besar, saling terkoneksi dan
dinamis)
Data yang disimpan dalam basisdata teks disebut data semi-terstruktur
(semi-structured data) yang bukan tidak terstruktur dan juga bukan sangat
terstruktur.Sebagai contoh, sebuah dokumen mungkin mengandung sedikit field
yang terstruktur seperti judul, penulis, tanggal publikasi, panjang, kategori dan
sebagainya, namun juga mengandung sejumlah besar komponen teks yang tidak
terstruktur seperti abstrak dan isi. Sudah banyak studi tentang pemodelan dan
penerapan data semi-terstruktur dalam riset basisdata saat ini. Terlebih lagi, teknik
temu-kembali informasi (information retrieval) seperti metode pembuatan indeks
teks, telah dikembangkan untuk menangani dokumen tidak terstruktur.
Teknik temu-kembali informasi tradisional menjadi tidak mencukupi bagi
data teks yang besar dan terus bertambah. Biasanya, hanya sebagian kecil dari
banyak dokumen yang tersedia yang relevan untuk orang atau individu tertentu.
Tanpa pengetahuan tentang apa yang mungkin ada dalam dokumen, sukar untuk
merumuskan query yang efektif untuk melakukan analisis data dan ekstraksi
informasi yang bermanfaat. Pengguna memerlukan perangkat untuk
membandingkan dokumen yang berbeda, membuat peringkat berdasarkan tingkat
kepentingan dan relevansi dokumen, atau menemukan pola dan trend dari
beberapa dokumen. Oleh karena itu, text mining menjadi semakin populer dan
menjadi tema penting dalam data mining.
8.1 Analisis Data Teks dan Temu-Kembali Informasi
Apakah temu-kembali informasi (information retrieval) ?
Temu-kembali informasi adalah bidang yang telah berkembang secara
paralel bersama sistem basisdata selama beberapa tahun. Tidak seperti bidang
sistem basisdata, yang fokus pada query dan pengolahan transaksi dari data
terstruktur, temu-kembali informasi menekuni organisasi dan temu-kembali
informasi dari sejumlah besar dokumen berbasis teks. Masalah yang umum pada
temu-kembali informasi adalah menemukan dokumen yang relevan berdasarkan
masukan dari pengguna, seperti kata kunci atau dokumen contoh. Contoh sistem
temu-kembali informasi adalah sistem katalog perpustakaan on-line dan sistem
manajemen dokumen on-line.
Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

146

Karena temu-kembali informasi dan sistem basisdata masing-masing


menangani jenis data yang berbeda, maka terdapat beberapa masalah dalam sistem
basisdata yang umumnya tidak muncul dalam sistem temu-kembali informasi,
seperti kendali konkurensi, recovery, manajemen transaksi dan update. Terdapat
pula masalah yang umum pada temu-kembali informasi yang biasanya tidak
muncul pada sistem basisdata tradisional seperti dokumen tidak-terstruktur,
pendekatan pencarian berdasarkan kata kunci dan ukuran relevansi
8.2 Ukuran dasar bagi Temu-Kembali Teks
Seandainya sistem temu-kembali informasi menerima sejumlah dokumen
berdasarkan masukan yang diberikan melalui query. Dapatkah kita memeriksa
seberapa akurat atau benar sistem tersebut ?
Misal himpunan dokumen yang relevan dengan query disebut {relevan},
dan himpunan dokumen yang terambil disebut {retrieved}. Maka himpunan
dokumen yang terambil dan relevan dinyatakan dengan {relevan} {retrieved},
seperti ditunjukkan dalam diagram Venn di Gambar 8.1.

Gambar 8.1. Hubungan antar dokumen yang terambil dengan yang relevan
Terdapat dua ukuran dasar untuk memeriksa kualitas dari temu-kembali
teks:

Precision : persentase dokumen yang terambil yang memang relevan dengan


query (yaitu memberikan respon yang benar). Secara formal didefinisikan
sebagai
precision =

| {Relevant} {Retrieved} |
| {Retrieved} |

Recall : persentase dari dokumen yang relevan dengan kuery dan memang
terambil. Secara formal didefinisikan sebagai

Temu-Kembali berdasarkan kata kunci dan kesamaan


Metode apa yang tersedia untuk temu-kembali informasi ?
Kebanyakan sistem temu-kembali informasi mendukung
berdasarkan kata kunci (keyword) dan/atau kesamaan (similarity).

Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

retrieval

147

Dalam sistem temu-kembali berbasis kata kunci, dokumen direpresentasikan


oleh string, yang dapat di-identifikasikan oleh himpunan dari kata. Pengguna
memberikan kata kunci atau ekspresi yang tersusun dari himpunan kata kunci
seperti car and repair shop, tea or coffe atau database system but not
Oracle. Sistem temu-kembali informasi yang baik seharusnya dapat
mempertimbangkan sinonim kata ketika menjawab query seperti di atas.
Misalnya, diberikan kata kunci car, sinonin seperti automobile dan vehicle
seharusnya juga dipertimbangkan dalam pencarian. Retrieval berbasis kata
kunci merupakan model sederhana yang dapat mengalami dua kesulitan
utama.
o Masalah Sinonim : sebuah kata kunci, seperti software product,
mungkin tidak muncul dimanapun dalam dokumen, meskipun
sebenarnya dokumen tersebut terkait erat dengan software product
o Masalah Polisemi : kata kunci yang sama, misalnya mining, mungkin
bermakna hal yang berbeda dalam konteks yang lain.

Sistem temu-kembali informasi berdasarkan kesamaan mencari dokumen yang


mirip berdasarkan himpunan kata kunci yang umum. Keluaran dari sistem ini
didasarkan pada degree of relevance, dimana relevansi diukur berdasarkan
kedekatan dokumen dengan kata kunci, frekuensi relatif kata kunci, dan
sebagainya. Perhatikan bahwa pada banyak kasus, sukar untuk memberikan
ukuran yang teliti dari degree of relevance diantara himpunan kata kunci,
seperti jarak antara data mining dengan data analysis.

Bagaimana sistem temu kembali informasi berdasarkan kata kunci dan


berdasarkan kesamaan bekerja ?
Sistem temu kembali teks sering mengasosiasikan stop list dengan
himpunan dokumen. Stop list adalah himpunan kata-kata yang dianggap
irrelevan. Misalnya , a, the, of, for, with dan sebagainya merupakan stop word
meskipun kata-kata tersebut sering muncul. Stop list dapat bervariasi ketika
himpunan dokumen bervariasi. Misalnya database system merupakan kata kunci
yang penting dalam basisdata. Namun, database system dapat dipertimbangkan
sebagai stop word dalam himpunan paper riset yang disajikan dalam konferensi
tentang sistem basisdata.
Grup kata-kata yang berbeda juga dapat berbagi akar kata (word stem)
yang sama. Sistem temu kembali perlu melakukan identifikasi grup kata dimana
kata-kata dalam grup tersebut memiliki variasi sintak (syntactic variants) yang
kecil, dan mengumpulkan hanya akar kata yang umum per grup. Sebagai contoh,
grup kata drug, drugged dan drugs berbagi akar kata yang sama yaitu drug dan
dapat dilihat sebagai kemunculan yang berbeda dari kata yang sama
Bagaimana kita dapat memodelkan dokumen untuk memfasilitasi temu kembali
informasi ?
Diawali dengan himpunan d dokumen dan himpunan t term, kita dapat
memodelkan masing-masing dokumen sebagai vektor v dalam ruang t dimensi Rt.
Koordinat ke-j dari v adalah bilangan yang mengukur asosiasi term ke-j dengan
dokumen yang diberikan; biasanya didefinisikan sebagai 0 jika dokumen tidak
mengandung term tersebut, dan bukan 0 untuk kondisi selainnya.Terdapat banyak
Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

148

cara untuk mendefinisikan term-weighting untuk entri bukan 0 dalam vektor


tersebut. Sebagai contoh, kita dapat dengan mudah mendefinisikan vj = 1 selama
term ke-j muncul dalam dokumen, atau tetapkan vj sebagai term frequency, yaitu
jumlah kemunculan term tj, atau sebagai relative term frequency yaitu term
frequency dibagi jumlah total kemunculan seluruh term dalam dokumen. Tabel 1.
adalah contoh term frequency matrix
dimana masing-masing baris
merepresentasikan term, kolom merepresentasikan vektor dokumen, dan setiap
entry frequency_matrix(i,j) mencatat jumlah kemunculan term ti dalam dokumen
dj
Tabel 8.1. Term Frequency Matrix
Term/dokumen
t1
t2
t3
t4
t5

d1
321
354
15
22
74

d2
48
91
32
143
87

d3
31
71
167
72
85

d4
68
56
46
203
92

d5
72
82
289
51
25

d6
15
6
225
15
54

d7
430
392
17
54
121

Bagaimana kita dapat menentukan jika dua dokumen adalah sama ?


Karena dokumen yang sama diharapkan untuk memiliki relative tem
frequencies yang sama, kita dapat mengukur kesamaan diantara himpunan
dokumen atau atara dokumen dengan query (sering didefinisikan sebagai
himpunan kata kunci) berdasarkan kemunculan term yang sama secara relatif
dalam tabel frekuensi.
Alternatif lain, banyak ukuran yang telah diusulkan untuk mengukur
kesamaan dokumen. Ukuran yang representatif adalah cosine measure,
didefinisikan sebagai berikut. Ditetapkan v1 dan v2 adalah dua vektor dokumen,
cosine similarity mereka adalah
sim (v1 , v 2 ) =

v1 v 2
| v1 || v 2 |

dimana inner product v1 v2 adalah standard vector dot product, didefinisikan


sebagai

v v dan norm |v1| =

i =1 1i 2 i

v1 v1 . Visualisasi sudut kosinus untuk vektor

tiga dimensi terlihat pada Gambar 8.2.

Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

149

Gambar 8.2. Cosine Similarity


Bagaimana kita dapat menggunakan ukuran kesamaan?
Dengan menggunakan ukuran kesamaan numerik untuk dokumen, kita
dapat membangun indek berdasarkan kesamaan untuk dokumen tersebut. Query
berbasis teks dapat dinyatakan sebagai vektor, yang dapat digunakan untuk
mencari tetangga terdekatnya dalam koleksi dokumen. Namun, bagi basisdata
dokumen non-trivial, jumlah term T dan jumlah dokumen D bisa jadi sangat
besar. Dimensi yang tinggi menyebabkan masalah komputasi yang tidak efisien,
karena tabel frekuensi yang dihasilkan akan berukuran TxD. Lebih jauh, dimensi
yang tinggi menyebabkan vektor yang sangat jarang (very sparse vectors) dan
meningkatkan kesulitan untuk mendeteksi dan mengeksploitasi relasi antar term
(misal sinonim). Untuk mengatasi masalah-masalah tersebut, dikembangkan
latent semantic indexing yang secara efektif mengurangi ukuran tabel frekuensi
yang akan dianalisis.
Latent Semantic Indexing
Bagaimana latent semantic indexing mengurangi ukuran matriks frekuensi term
?
Metode Latent Semantic Indexing menggunakan singular value
decomposition (SVD), sebuah teknik yang telah dikenal dengan baik dalam teori
matriks, untuk mengurangi ukuran matriks frekuensi term. Diberikan matriks
frekuensi term berukuran TxD yang merepresentasikan T term dan D dokumen,
metode SVD menghapus baris dan kolom untuk mengurangi dimensi matriks
menjadi KxK, biasanya K bernilai beberapa ratus (misal 200) untuk koleksi
dokumen yang besar.Untuk meminimalkan jumlah informasi yang hilang, hanya
bagian yang signifikan dari matriks frekuensi yang dipertahankan.
Metode transformasi matriks dengan SVD tidak dibahas dalam modul ini. Namun
tersedia paket perangkat lunak seperti MATLAB (www.mathworks.com) dan
LAPACK (www.netlib.org/lapack++).

Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

150

Secara umum metode latent semantic indexing mengandung langkah-langkah


dasar berikut:
1. Buat matriks frekuensi term, frequency_matrix
2. Hitung dekomposisi nilai singular dari frequency_matrix dengan membagi
matriks ke dalam tiga matriks yang lebih kecil , U, S,V dimana U dan V
merupakan matriks ortogonal (yakni UTU=I ) dan S adalah matriks
diagonal dari nilai singular. Matriks S berukuran KxK dan merupakan
versi yang diperkecil dari matriks frekuensi asli
3. Untuk setiap dokumen d, ganti vektor dokumen asli dengan nilai yang
baru tanpa term yang telah dihilangkan selama SVD
4. Simpan seluruh vektor, dan buat indeks untuk vektor-vektor tersebut
menggunakan teknik indeks multi-dimensional lanjutan.
Melalui dekomposisi nilai singular dan indeks multi-dimensional, vektor
dokumen hasil transformasi dapat digunakan untuk membandingkan kesamaan
diantara dua dokumen atau untuk mencari N dokumen teratas yang sesuai dengan
query.
Teknik Temu-Kembali Teks lainnya
Terdapat beberapa teknik indexing temu kembali teks yang telah diadopsi
secara luas termasuk inverted indices dan signature files.

Inverted index adalah struktur indeks yang mengelola dua tabel indeks hash
atau B+-tree, yaitu document_table dan term_table dimana
o document_table terdiri dari himpunan record dokumen, setiap record
mengandung dua field yaitu doc_id dan posting_list dimana
posting_list adalah daftar term (atau pointer ke term) yang muncul
dalam dokumen, diurutkan menurut ukuran relevansi tertentu
o term_table terdiri dari himpunan record term, masing-masing
mengandung dua field yaitu term_id dan posting_list yang memuat
daftar identifier dokumen yang mengandung term tertentu.
Dengan pengorganisasian seperti di atas, maka mudah untuk menjawab query
seperti Cari seluruh term yang berasosiasi dengan himpunan dokumen yang
diberikan Sebagai contoh, untuk mencari seluruh dokumen yang berasosiasi
dengan himpunan term, pertama kita dapat mencari daftar identifier dokumen
dalam term_table untuk setiap term, kemudian dicari perpotongannya
(intersection) untuk memperoleh himpunan dokumen yang relevan. Inverted
indices digunakan secara luas di industri. Meskipun inverted indices mudah
diterapkan, namun tidak memuaskan saat menangani sinonim dan polisemi.
Posting_list bisa
jadi sangat panjang, sehingga membutuhkan ruang
penyimpanan yang besar

Signature files
Signature file adalah file yang menyimpan record signature untuk setiap
dokumen dalam basisdata. Setiap signature memiliki ukuran yang tetap b bit
merepresentasikan term.Skema pengkodean dilakukan sebagai berikut:

Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

151

o Setiap bit pada signature file di-inisialisasi dengan nilai 0


o Sebuah bit di-set 1 jika term yang direpresentasikannya muncul dalam
dokumen
o Signature S1 sepadan dengan signature lainnya S2 jika setiap bit yang
bernilai 1 dalam S2 juga bernilai 1 dalam S1.
o Karena biasanya jumlah term lebih banyak dari jumlah bit yang
tersedia, mungkin beberapa term dipetakan ke dalam bit yang sama.
Pemetaan multiple-to-one membuat pencarian menjadi lama karena
dokumen yang cocok dengan signature yang dijadikan query belum
tentu berisi hinpunan kunci yang diinginkan. Dokumen harus diambil,
di-parsing, di-stem dan di-periksa. Untuk mempercepat pencarian,
pertama dapat dilakukan analisis frekuensi, stemming, dan filter stop
word, kemudian menggunakan teknik hashing dan superimposed
coding untuk mengkodekan daftar term dalam representasi bit. Namun,
tetap ada masalah pemetaan multiple-to-one, yang menjadi masalah
utama dalam pendekatan ini
1. Text Mining : Asosiasi berbasis kata kunci dan Klasifikasi Dokumen
Bagaimana dengan mining association dalam basisdata teks? Dapatkah kita
membangkitkan skema klasifikasi dokumen?
Analisis Asosiasi berdasarkan kata kunci
Apakah analisis asosiasi berdasarkan kata kunci? Yaitu analisis yang
mengumpulkan himpunan kata kunci atau term yang sering muncul bersamaan
and menemukan hubungan asosiasi atau korelasi diantara mereka.
Seperti analisis basisdata teks lainnya, analisis asosiasi pertama melakukan
pengolahan awal (pre-processing) data teks dengan parsing, stemming, removing
stop word dan sebagainya, baru kemudian menjalankan algoritma association
mining. Dalam basisdata dokumen, masing-masing dokumen dapat dipandang
sebagai transaksi, dengan kata kunci dalam dokumen dapat dianggap sebagai item
dalam transaksi tersebut. Dengan demikian basisdata dapat memiliki format
{document_id, a_set_of_keyword}
Dengan format basisdata seperti di atas, masalah association mining kata kunci
dalam basisdata dokumen dapat dipetakan kepada association mining item dalam
basisdata traksaksi, dimana banyak metode menarik sedang dikembangkan.
Perhatikan bahwa himpunan kata kunci yang sering muncul bersamaan atau
letaknya berdekatan dapat membentuk term atau phrase. Proses association
mining dapat membantu mendeteksi compound association, yaitu term atau frasa
yang tergantung pada domain (domain-dependent) seperti {Stanford,University}
atau {U.S., president, Bill, Clinton} atau non-compound-association seperti
{dollars, shares, exchange, total, commision,stake,securities}
Mining berdasarkan pada asosiasi ini disebut term level association mining
(kebalikan dari mining kata secara individual). Term recognition dan term level
association mining mendapatkan dua keuntungan dari analisis teks

Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

152

Term dan frasa secara otomatis diberi tag, sehingga tidak diperlukan
orang untuk memberikan tag secara manual ke dalam dokumen

Jumlah hasil yang tidak memiliki makna banyak dikurangi, demikian


pula waktu eksekusi algoritma mining

Analisis Klasifikasi Dokumen


Klasifikasi dokumen secara otomatis merupakan pekerjaan data mining
yang penting, dengan banyaknya jumlah dokumen on-line, maka semakin penting
untuk dapat mengorganisasikan dokumen tersebut secara otomatis ke dalam
kelas-kelas sehingga dapat memfasilitasi temu kembali dokumen dan analisis
selanjutnya.
Bagaimana melakukan klasifikasi dokumen secara otomatis?
Prosedur umum adalah sebagai berikut
1. Himpunan dokumen yang telah diklasifikasi (preclassified document)
digunakan sebagai training set
2. Training set dianalisis untuk mendapatkan skema klasifikasi. Skema
klasifikasi ini sering perlu diperbaiki melalui proses pengujian.
3. Skema klasifikasi yang dihasilkan digunakan untuk melakukan klasifikasi
pada dokumen on-line lainnya.
Proses di atas mirip dengan klasifikasi pada data relasional. Namun,
terdapat perbedaan yang mendasar.
o Data relasional merupakan data yang terstruktur dengan baik, yaitu setiap
tupel didefinisikan oleh beberapa pasang atribut-value. Misal, pada tupel
{sunny, warm, dry,not_windy,play_tennis} nilai sunny berkoresponden
dengan atribut weather_outlook, nilai warm berkoresponden dengan
atribut temperature dan sebagainya. Analisis klasifikasi memutuskan
pasangan attribut-value mana yang memiliki daya pembeda (discriminating
power) terbesar untuk menentukan apakah seseorang akan bermain tenis atau
tidak.
o Pada sisi lain, basisdata dokumen tidak terstruktur menurut pasangan
attribute-value. Himpunan kata kunci yang berasosiasi dengan himpunan
dokumen tidak diatur dalam himpunan atribut atau dimensi yang tetap.
Sehingga, metode klasifikasi yang umum digunakan pada data relasional
seperti analisis pohon keputusan, tidak dapat digunakan untuk klasifikasi
basisdata dokumen.
Metode yang efektif untuk klasifikasi dokumen adalah dengan klasifikasi
berbasis asosiasi (association-based classification). Metode klasifikasi berbasis
asosiasi akan membuat klasifikasi dokumen berdasarkan pola teks yang
berasosiasi dan sering terjadi. Berikut langkah yang dilakukan
1. Kata kunci dan term dapat di-ekstrak melalui teknik temu-kembali informasi
dan analsis asosiasi sederhana

Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

153

2. Hirarki konsep bagi kata kunci dan term dapat diperoleh menggunakan kelaskelas term yang telah ada, seperti WordNet atau mengandalkan pengetahuan
pakar, atau sistem klasifikasi kata kunci. Dokumen dalam training set juga
dapat diklasifikasi ke dalam kelas hirarki.
3. Metode term association mining kemudian dijalankan untuk menemukan
himpunan term yang berasosiasi sehingga dapat digunakan untuk
memaksimalkan pembeda antara satu kelas dokumen dengan lainnya. Metode
ini akan menghasilkan himpunan association rule yang berasosiasi dengan
masing-masing kelas dokumen
4. Aturan klasifikasi yang ditemukan dapat diurutkan berdasarkan frekuensi
kemunculannya dan daya pembeda-nya (discriminative power), dan digunakan
untuk melakukan klasifikasi dokumen baru.
Aturan klasifikasi dokumen (document classifier) yang berdasarkan pada
asosiasi telah terbukti efektif. Untuk klasifikasi dokumen web, informasi link dari
halaman web dapat digunakan untuk membantu identifikasi kelas dokumen.
Metode analisis link web akan dibahas pada bagian lain.

Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB

154

Anda mungkin juga menyukai