Pendahuluan
Kebanyakan studi tentang data mining dipusatkan pada data terstruktur,
seperti data relasional, transaksional dan warehouse. Namun, dalam kenyataannya
terdapat banyak informasi yang tersimpan dalam basisdata teks atau basisdata
dokumen, yang berisi sejumlah besar koleksi dokumen dari berbagai sumber
seperti artikel berita, paper riset, buku, perpustakaan digital, pesan e-mail dan
halaman web. Basisdata teks berkembang dengan pesat karena meningkatnya
jumlah informasi yang tersedia dalam bentuk elektronik seperti publikasi
elektronik, CD-ROM dan World-Wide-Web (WWW sebenarnya juga dapat
dipandang sebagai basisdata teks yang sangat besar, saling terkoneksi dan
dinamis)
Data yang disimpan dalam basisdata teks disebut data semi-terstruktur
(semi-structured data) yang bukan tidak terstruktur dan juga bukan sangat
terstruktur.Sebagai contoh, sebuah dokumen mungkin mengandung sedikit field
yang terstruktur seperti judul, penulis, tanggal publikasi, panjang, kategori dan
sebagainya, namun juga mengandung sejumlah besar komponen teks yang tidak
terstruktur seperti abstrak dan isi. Sudah banyak studi tentang pemodelan dan
penerapan data semi-terstruktur dalam riset basisdata saat ini. Terlebih lagi, teknik
temu-kembali informasi (information retrieval) seperti metode pembuatan indeks
teks, telah dikembangkan untuk menangani dokumen tidak terstruktur.
Teknik temu-kembali informasi tradisional menjadi tidak mencukupi bagi
data teks yang besar dan terus bertambah. Biasanya, hanya sebagian kecil dari
banyak dokumen yang tersedia yang relevan untuk orang atau individu tertentu.
Tanpa pengetahuan tentang apa yang mungkin ada dalam dokumen, sukar untuk
merumuskan query yang efektif untuk melakukan analisis data dan ekstraksi
informasi yang bermanfaat. Pengguna memerlukan perangkat untuk
membandingkan dokumen yang berbeda, membuat peringkat berdasarkan tingkat
kepentingan dan relevansi dokumen, atau menemukan pola dan trend dari
beberapa dokumen. Oleh karena itu, text mining menjadi semakin populer dan
menjadi tema penting dalam data mining.
8.1 Analisis Data Teks dan Temu-Kembali Informasi
Apakah temu-kembali informasi (information retrieval) ?
Temu-kembali informasi adalah bidang yang telah berkembang secara
paralel bersama sistem basisdata selama beberapa tahun. Tidak seperti bidang
sistem basisdata, yang fokus pada query dan pengolahan transaksi dari data
terstruktur, temu-kembali informasi menekuni organisasi dan temu-kembali
informasi dari sejumlah besar dokumen berbasis teks. Masalah yang umum pada
temu-kembali informasi adalah menemukan dokumen yang relevan berdasarkan
masukan dari pengguna, seperti kata kunci atau dokumen contoh. Contoh sistem
temu-kembali informasi adalah sistem katalog perpustakaan on-line dan sistem
manajemen dokumen on-line.
Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB
146
Gambar 8.1. Hubungan antar dokumen yang terambil dengan yang relevan
Terdapat dua ukuran dasar untuk memeriksa kualitas dari temu-kembali
teks:
| {Relevant} {Retrieved} |
| {Retrieved} |
Recall : persentase dari dokumen yang relevan dengan kuery dan memang
terambil. Secara formal didefinisikan sebagai
retrieval
147
148
d1
321
354
15
22
74
d2
48
91
32
143
87
d3
31
71
167
72
85
d4
68
56
46
203
92
d5
72
82
289
51
25
d6
15
6
225
15
54
d7
430
392
17
54
121
v1 v 2
| v1 || v 2 |
i =1 1i 2 i
149
150
Inverted index adalah struktur indeks yang mengelola dua tabel indeks hash
atau B+-tree, yaitu document_table dan term_table dimana
o document_table terdiri dari himpunan record dokumen, setiap record
mengandung dua field yaitu doc_id dan posting_list dimana
posting_list adalah daftar term (atau pointer ke term) yang muncul
dalam dokumen, diurutkan menurut ukuran relevansi tertentu
o term_table terdiri dari himpunan record term, masing-masing
mengandung dua field yaitu term_id dan posting_list yang memuat
daftar identifier dokumen yang mengandung term tertentu.
Dengan pengorganisasian seperti di atas, maka mudah untuk menjawab query
seperti Cari seluruh term yang berasosiasi dengan himpunan dokumen yang
diberikan Sebagai contoh, untuk mencari seluruh dokumen yang berasosiasi
dengan himpunan term, pertama kita dapat mencari daftar identifier dokumen
dalam term_table untuk setiap term, kemudian dicari perpotongannya
(intersection) untuk memperoleh himpunan dokumen yang relevan. Inverted
indices digunakan secara luas di industri. Meskipun inverted indices mudah
diterapkan, namun tidak memuaskan saat menangani sinonim dan polisemi.
Posting_list bisa
jadi sangat panjang, sehingga membutuhkan ruang
penyimpanan yang besar
Signature files
Signature file adalah file yang menyimpan record signature untuk setiap
dokumen dalam basisdata. Setiap signature memiliki ukuran yang tetap b bit
merepresentasikan term.Skema pengkodean dilakukan sebagai berikut:
151
152
Term dan frasa secara otomatis diberi tag, sehingga tidak diperlukan
orang untuk memberikan tag secara manual ke dalam dokumen
153
2. Hirarki konsep bagi kata kunci dan term dapat diperoleh menggunakan kelaskelas term yang telah ada, seperti WordNet atau mengandalkan pengetahuan
pakar, atau sistem klasifikasi kata kunci. Dokumen dalam training set juga
dapat diklasifikasi ke dalam kelas hirarki.
3. Metode term association mining kemudian dijalankan untuk menemukan
himpunan term yang berasosiasi sehingga dapat digunakan untuk
memaksimalkan pembeda antara satu kelas dokumen dengan lainnya. Metode
ini akan menghasilkan himpunan association rule yang berasosiasi dengan
masing-masing kelas dokumen
4. Aturan klasifikasi yang ditemukan dapat diurutkan berdasarkan frekuensi
kemunculannya dan daya pembeda-nya (discriminative power), dan digunakan
untuk melakukan klasifikasi dokumen baru.
Aturan klasifikasi dokumen (document classifier) yang berdasarkan pada
asosiasi telah terbukti efektif. Untuk klasifikasi dokumen web, informasi link dari
halaman web dapat digunakan untuk membantu identifikasi kelas dokumen.
Metode analisis link web akan dibahas pada bagian lain.
154