UTS DataMining

DATA MINING
Review Journal Text Document Classification : An Approach Based on

Indexing
Oleh :
Ni Wayan Eka Ayuningsih
1208605001
Luh Eka Kusumayanti
1208605027
Ni Made Krista Kurnia Dewi
1208605049
PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS UDAYANA
2015
1. JUDUL
Text Document Classification : An Approach Based on Indexing. Diambil dari
International Journal of Data Mining & Knowledge Management Process (IJDKP)
Vol.2, No.1, January 2012
2. PROBLEM UMUM :
Klasifikasi teks menyajikan banyak tantangan dan kesulitan. Beberapa diantaranya
adalah berdimensi tinggi (ribuan fitur), kehilangan korelasi antar kata-kata ataupun
istilah dan memahami semantic kompleks dalam dokumen.
3. PROBLEM KHUSUS :
Untuk mengatasi permasalahan yang muncul dalam mengklasifikasikan teks, maka
dalam jurnal ini diusulkanlah sebuah metode baru dalam mengklasifikasikan
dokumen teks.
Urutan terjadinya kata-kata dalam teks memainkan peran utama dalam memahami
dokumen teks. Namun, sebagian besar dari metode yang ada tidak mempertahankan
urutan terjadinya kata-kata. Metode tersebut menganggap bahwa terjadi atau
munculnya kata bersifat independen dari reperesentasi teks. Dengan tujuan untuk
menjaga urutan terjadinya kata dalam dokumen, maka diusulkanlah menggunakan
metode atau konsep status matriks. Dimana metode yang diusulkan juga diharapkan
dapat membantu dalam meningkatkan akurasi klasifikasi.
Dalam representasi indeks urutan data maupun kelas, diperlukan waktu pencarian.
Dalam rangka untuk mempercepat klasifikasi dan membuat skema representasi yang
dapat mendukung secara dinamis dan penghapusan dokumen, maka untuk indeks
dokumen digunakan struktur data pengindeksan yang telah ada seperti pohon biner
multidimensi, G-Tree, KDB Tree, dan BD Tree. Namun, masing-masing struktur
tersebut mempunyai keterbatasan dalam keterkaitannya dengan penanganan data dan
metode penyimpanan. Maka dalam jurnal ini dipilihlah struktur B-Tree. Struktur BTree digunakan karena ketersediaan, kesederhanaan, dan sifatnya yang tidak terlalu
kompleks yang memicu keseimbangan. Selain itu, sistem dari B-Tree yang diusulkan
dapat dengan mudah diperluas terhadap database yang dinamis karena sangat mudah
untuk memasukkan dokumen baru.
4. METODE
Dalam jurnal ini memperkenalkan dua metode baru dalam mengklasifikasikan
dokumen teks. Metode yang diusulkan ialah metode Status Matriks dan B-Tree.
a. B-Tree
Seluruh term dalam dokumen akan di index dalam bentuk B-Tree. Setiap term
atau istilah dalam B-Tree berkaitan dengan label kelas dari setiap dokumen.
Dengan B-Tree sistem dapat dengan mudah diperluas, karena proses untuk
memasukan atau mengindeks dokumen baru sangat mudah.
Untuk memasukkan term T yang sesuai dengan dokumen yang akan
dimasukkan, B-tree diakses untuk mengetahui lokasi T di B-tree. Jika T sudah
ada dalam database, maka list dari term akan diambil dan selanjutnya
diperbaharui dengan menambahkan indeks dokumen baru. Jika term T tidak
ada dalam database maka term T akan ditambahkan pada B-Tree tepatnya pada
simpul U. Jika U mengandung kurang dari (r -1) term (r adalah urutan B-tree),
term T dimasukkan ke dalam simpul U dan diurutkan. Jika tidak, maka pada
jurnal disarankan untuk melihat tetangga dari simpul jika ada lokasi yang
bebas, maka term T ditampung di simpul U sendiri tanpa membagi dua node
akhir
seperti
pada
penyisipan
B-Tress
konvensional.
Kompleksitas
menggunakan B-tree adalah (log) r O t, dimana t adalah istilah nomor yang

tersimpan dalam B-tree dan r adalah urutan B-tree.
Untuk tujuan yang ilustratif, dipertimbangkan empat kelas yang berbeda dari
dokumen. Untuk setiap kelas telah dibuat basis pengetahuan sebagai berikut
yaitu diberikan satu set dokumen pelatihan untuk setiap kelas, stopwords dari
setiap dokumen pelatihan dieliminasi dan term dikumpulkan untuk
membentuk basis pengetahuan. Basis pengetahuan yang diperoleh untuk
empat kelas yang berbeda yakni:
K1: categorization,documents,implement,metric,similarity,text
K2: algorithms,categorization,mining,similarity,video
K3: algorithms,efficient,enhancements,filter,image
K4: algorithms,congestion,networks,protocols,routing
Sebuah B-tree dengan r = 3 dibangun untuk menyimpan istilah yang berbeda
dan masing-masing term dalam B-tree terpasang dengan list dari masingmasing indeks kelas. Berikut ialah B-Tree yang telah dibangun:
Berikut ialah tabel indeks yang berisi semua term untuk masing-masing
dokumen yang akan disimpan dalam B-Tree
b. Status Matriks
Status
matriks
merupakan
struktur
data
yang
digunakan
untuk
mempertahankan urutan kemunculan term atau istilah dalam sebuah dokumen.

Apabila terdapat k kelas dan dokumen query permintaan mengandung tq term,
maka kompleksitas dari proses pembuatan matriks status ukuran M adalah
O(tq logr t). Status matriks adalah matriks biner dengan nilai 0 atau 1. Status
matriks memiliki dimensi k x tq dimana k adalah jumlah kelas, dan qt adalah
jumlah term dalam dokumen teks query setelah tahap preprocessing.
B-tree diakses dengan mencari setiap term dan daftar indeks dokumen sesuai
dengan istilah yang diambil dari database. Jika term yang pertama dari term Ti
dokumen hadir dalam basis pengetahuan dari Cj, maka entri yang sesuai
dengan deretan Cj dan kolom Ti dalam matriks statusnya diset 1, jika tidak
diset 0. Artinya, jika M adalah matriks status, kemudian, M diberikan oleh:
Dengan asumsi setiap baris dari matriks statusnya sebagai string biner, kita
kemudian mencari baris dengan substring terpanjang hanya berisi 1s. Kelas
sesuai dengan baris yang dinyatakan sebagai kelas dokumen uji. Sebagai
ilustrasi, mari kita perhatikan paragraph berikut sebagai query dari dokumen
dq.
Text categorization is not a trivial problem. The complexity of the problem
lies in how to define a similarity metric between the documents, and then how
to implement a computationally efficient algorithm to solve the problem given
this similarity metric.
Dalam rangka untuk mengklasifikasikan dokumen ini terlebih dahulu kita
menghilangkan stop words yang ada di dalamnya, yang menghasilkan term
sebagai berikut: {text, categorization, trivial, problem, complexity, similarity,
metric, documents, implement, computationally, efficient, algorithms,
similarity, metric}.
Query dokumen terdiri dari 14 term. Terdapat 4 kelas dan 14 term, maka dari
itu dapat dibentuk status matriks berukuran 4x14 seperti yang ditunjukkan
pada tabel dibawah ini:
T
T1
T1
T1
T1
T1
1
K
2
K
3
K
5. HASIL
6. KESIMPULAN

UTS DataMining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

UTS DataMining

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA MINING

Review Journal Text Document Classification : An Approach Based on

Luh Eka Kusumayanti

Ni Made Krista Kurnia Dewi

PROGRAM STUDI TEKNIK INFORMATIKA

menggunakan B-tree adalah (log) r O t, dimana t adalah istilah nomor yang

mempertahankan urutan kemunculan term atau istilah dalam sebuah dokumen.

Anda mungkin juga menyukai