UTS DataMining
UTS DataMining
Oleh :
Ni Wayan Eka Ayuningsih
1208605001
1208605027
1208605049
2015
1. JUDUL
Text Document Classification : An Approach Based on Indexing. Diambil dari
International Journal of Data Mining & Knowledge Management Process (IJDKP)
Vol.2, No.1, January 2012
2. PROBLEM UMUM :
Klasifikasi teks menyajikan banyak tantangan dan kesulitan. Beberapa diantaranya
adalah berdimensi tinggi (ribuan fitur), kehilangan korelasi antar kata-kata ataupun
istilah dan memahami semantic kompleks dalam dokumen.
3. PROBLEM KHUSUS :
Untuk mengatasi permasalahan yang muncul dalam mengklasifikasikan teks, maka
dalam jurnal ini diusulkanlah sebuah metode baru dalam mengklasifikasikan
dokumen teks.
Urutan terjadinya kata-kata dalam teks memainkan peran utama dalam memahami
dokumen teks. Namun, sebagian besar dari metode yang ada tidak mempertahankan
urutan terjadinya kata-kata. Metode tersebut menganggap bahwa terjadi atau
munculnya kata bersifat independen dari reperesentasi teks. Dengan tujuan untuk
menjaga urutan terjadinya kata dalam dokumen, maka diusulkanlah menggunakan
metode atau konsep status matriks. Dimana metode yang diusulkan juga diharapkan
dapat membantu dalam meningkatkan akurasi klasifikasi.
Dalam representasi indeks urutan data maupun kelas, diperlukan waktu pencarian.
Dalam rangka untuk mempercepat klasifikasi dan membuat skema representasi yang
dapat mendukung secara dinamis dan penghapusan dokumen, maka untuk indeks
dokumen digunakan struktur data pengindeksan yang telah ada seperti pohon biner
multidimensi, G-Tree, KDB Tree, dan BD Tree. Namun, masing-masing struktur
tersebut mempunyai keterbatasan dalam keterkaitannya dengan penanganan data dan
metode penyimpanan. Maka dalam jurnal ini dipilihlah struktur B-Tree. Struktur BTree digunakan karena ketersediaan, kesederhanaan, dan sifatnya yang tidak terlalu
kompleks yang memicu keseimbangan. Selain itu, sistem dari B-Tree yang diusulkan
dapat dengan mudah diperluas terhadap database yang dinamis karena sangat mudah
untuk memasukkan dokumen baru.
4. METODE
Dalam jurnal ini memperkenalkan dua metode baru dalam mengklasifikasikan
dokumen teks. Metode yang diusulkan ialah metode Status Matriks dan B-Tree.
a. B-Tree
Seluruh term dalam dokumen akan di index dalam bentuk B-Tree. Setiap term
atau istilah dalam B-Tree berkaitan dengan label kelas dari setiap dokumen.
Dengan B-Tree sistem dapat dengan mudah diperluas, karena proses untuk
memasukan atau mengindeks dokumen baru sangat mudah.
Untuk memasukkan term T yang sesuai dengan dokumen yang akan
dimasukkan, B-tree diakses untuk mengetahui lokasi T di B-tree. Jika T sudah
ada dalam database, maka list dari term akan diambil dan selanjutnya
diperbaharui dengan menambahkan indeks dokumen baru. Jika term T tidak
ada dalam database maka term T akan ditambahkan pada B-Tree tepatnya pada
simpul U. Jika U mengandung kurang dari (r -1) term (r adalah urutan B-tree),
term T dimasukkan ke dalam simpul U dan diurutkan. Jika tidak, maka pada
jurnal disarankan untuk melihat tetangga dari simpul jika ada lokasi yang
bebas, maka term T ditampung di simpul U sendiri tanpa membagi dua node
akhir
seperti
pada
penyisipan
B-Tress
konvensional.
Kompleksitas
Berikut ialah tabel indeks yang berisi semua term untuk masing-masing
dokumen yang akan disimpan dalam B-Tree
b. Status Matriks
Status
matriks
merupakan
struktur
data
yang
digunakan
untuk
Dengan asumsi setiap baris dari matriks statusnya sebagai string biner, kita
kemudian mencari baris dengan substring terpanjang hanya berisi 1s. Kelas
sesuai dengan baris yang dinyatakan sebagai kelas dokumen uji. Sebagai
ilustrasi, mari kita perhatikan paragraph berikut sebagai query dari dokumen
dq.
Text categorization is not a trivial problem. The complexity of the problem
lies in how to define a similarity metric between the documents, and then how
to implement a computationally efficient algorithm to solve the problem given
this similarity metric.
Dalam rangka untuk mengklasifikasikan dokumen ini terlebih dahulu kita
menghilangkan stop words yang ada di dalamnya, yang menghasilkan term
sebagai berikut: {text, categorization, trivial, problem, complexity, similarity,
metric, documents, implement, computationally, efficient, algorithms,
similarity, metric}.
Query dokumen terdiri dari 14 term. Terdapat 4 kelas dan 14 term, maka dari
itu dapat dibentuk status matriks berukuran 4x14 seperti yang ditunjukkan
pada tabel dibawah ini:
T
T1
T1
T1
T1
T1
1
K
2
K
3
K
5. HASIL
6. KESIMPULAN