Anda di halaman 1dari 5

Klasifikasi Dokumen Teks

PENGANTAR
World Wide Web (WWW) didistribusikan secara luas dan galeri informasi dinamis Perkiraan
pesimis adalah bahwa, Pada paruh terakhir tahun 1996, www terdiri dari lebih dari 60 orang
juta dokumen pada 12 juta host dan 600.000 server, naik dari 9 juta host dan 250.000 server di
awal tahun ini, dan angka-angka ini meningkat setiap hari. Dokumen Web ini berisi informasi
tekstual yang kaya, namun Pertumbuhan pesat internet telah membuatnya semakin meningkat
Sulit bagi pengguna untuk mencari informasi yang relevan dengan cepat di web. Hal ini
menyebabkan banyak minat mengembangkan alat dan perangkat lunak yang berguna dan efisien
untuk membantu pengguna dalam mencari di Web.
Mesin pencari dirancang untuk mengurangi usaha dan informasi yang berlebihan di
Web Pencarian komersial mesin, seperti Yahoo, HotBot, InfoSeek, WebCrawler dan Lycos, dll
adalah contoh alat yang membangun indeks dan cari informasi yang diminta oleh pengguna
Namun, tidak Biasanya query mesin pencari sering mengembalikan beberapa situs yang tidak
ada hubungannya dengan kepentingan pengguna. Hal ini menyebabkan pengembangan agen
cerdas yang sedang bermain Peran penting dalam membuat internet lebih bermanfaat [1, 2, 3].
Pengambilan dokumen [4], kategorisasi [5], perutean [6] dan sistem penyaringan (agen)
[1, 2] sering didasarkan pada teks klasifikasi. Masalah klasifikasi yang khas dapat dinyatakan
sebagai berikut: diberi satu set contoh berlabel milik Dua atau lebih kelas (data pelatihan), kita
mengklasifikasikan tes baru sampel ke kelas dengan kesamaan tertinggi. Dokumenpengambilan,
perutean dan sistem penyaringan, seringkali dapat dilihat sebagai masalah klasifikasi dua kelas
dimana dokumen berada berlabel relevan atau tidak relevan. Umpan balik pengguna
menyediakan satu set contoh pelatihan dengan label positif dan negatif. Dokumen disajikan
kepada pengguna jika diklasifikasikan sebagai kelas yang relevan Dalam kategorisasi dokumen,
yaitu topik klasifikasi kelompok berita USENET [5], kami sudah memiliki data pelatihan
terindeks manusia yang tersedia.
SEBUAH classifier digunakan untuk secara otomatis menentukan newsgroup mana
dokumen baru harus diposkan Klasifikasi teks menyajikan banyak tantangan dan
kesulitan.Pertama, sulit untuk menangkap tingkat tinggi semantik dan konsep abstrak bahasa
alam hanya dari beberapa kata kunci Misalnya, ada banyak cara untuk mewakili
konsep serupa (misalnya agen, softbot, robot, atau bot) dan kata yang sama bisa mewakili arti
yang berbeda (misalnya bank Bisa jadi terkait dengan masalah keuangan atau sungai).
Selanjutnya, analisis semantik, yang merupakan langkah besar dalam merancang sistem
pencarian informasi bahasa alami, tidak dipahami dengan baik, meski ada beberapa teknik
yang telah berhasil diterapkan pada domain terbatas [7]. Kedua, dimensi tinggi (ribuan fitur) dan
Panjang variabel, isi dan kualitas adalah karakteristik sejumlah besar dokumen di Web. Tempat
ini keduanyatuntutan efisiensi dan akurasi pada sistem klasifikasi.
Sejumlah metode telah dibahas dalam literatur untuk klasifikasi dokumen Ini termasuk
naïf Peneliti Bayes [8], pohon keputusan [9], tetangga terdekatclassifier [5], analisis diskriminan
linier (LDA) [6], logistik
regresi [10] dan jaringan saraf [10]. Lewis dan Ringutte [9] membandingkan metode ProBayes
mereka dan sebuah keputusan classifier pohon (menggunakan paket IND) pada dua kumpulan
data (Reuters tolok ukur Newswire dan MUC-3) dengan nomor yang berbeda dari fitur. Mereka
menunjukkan bahwa efektivitasnya maksimal tercapai untuk kedua algoritma saat istilah (fitur)
Pemilihan didasarkan pada frekuensi koleksi dan saling informasi. Pazzani dkk. [11]
mengembangkan sebuah perangkat lunak agen yang belajar untuk menilai halaman di www
berdasarkan penilaian pengguna Mereka juga membandingkan tiga hal yang berbeda algoritma:
klasifikasi Bayesian, pohon keputusan (ID3) dan tetangga terdekat dengan vektor fitur biner pada
dua kategori preferensi pengguna (daftar panas dan daftar dingin). Percobaan mereka hanya
menggunakan sejumlah kecil (20 sampai 120) contoh pelatihan. Hasil empiris ditunjukkan
ID3 itu tidak sesuai dengan masalah mereka dan yang terdekat pengklasifikasi tetangga bekerja
dengan baik dibandingkan metode lain saat disajikan dengan sejumlah besar contoh. Schutze dkk
Al. [10] telah menganalisis secara empiris bagaimana pemilihan fitur mempengaruhi tiga teknik
klasifikasi statistik (LDA, regresi logistik dan jaringan syaraf tiruan) untuk perutean (twoclass)
masalah. Mereka menggunakan pemilihan istilah yang optimal (χ2 ukuran) dan laten semantic
indexing (LSI) untuk mengurangi jumlah fitur Hasil eksperimen mereka menunjukkan hal itu
Fitur berbasis LSI lebih efektif untuk teknik seperti itu sebagai LDA dan regresi logistik,
sedangkan jaringan syaraf tiruan klasifikasi berbasis berkinerja baik dengan kedua fitur tersebut
metode seleksi

2. REPRESENTASI FITUR
Kami mengadopsi dokumen 'bag-of-words' 12 yang umum digunakan
skema representasi (model ruang vektor), di mana kita mengabaikan struktur dokumen dan
urutannya kata dalam dokumen Vektor fitur mewakili kata-kata yang teramati dalam dokumen.
Daftar kata W = (w1, ..., wd) dalam set pelatihan terdiri dari semua Kata yang berbeda (juga
disebut istilah) yang muncul dalam pelatihan contoh setelah menghapus kata kunci [13] (kata-
kata itu yang tidak membantu untuk pencarian, seperti 'the', 'some' dan 'dari') dan kata-kata
frekuensi rendah (yang hanya terjadi sekali dalam contoh pelatihan). Biasanya, bisa ada ribuan
fitur dalam klasifikasi dokumen (nomornya Kata-kata bahasa Inggris yang umum digunakan
adalah sekitar 50.000). Diberikan sebuah dokumen D, fitur (istilah) vektornya ditunjukkan oleh
T = (t1, ..., td) dibangun dari W. Nilai Setiap komponen T bisa berupa biner (nilai 1
menunjukkan apakah kata yang sesuai muncul di dokumen) atau bilangan bulat yang mewakili
jumlah waktu kata yang sesuai diamati Dalam tulisan ini kita gunakan representasi biner
Frekuensi representasi juga digunakan di classifier tetangga terdekat dan metode subruang
classifier untuk menghitung berat untuk setiap istilah. Satu pelatihancontoh kelompok berita
bisnis setelah dokumen Web penguraian dan pemberhentian kata kunci dan frekuensi rendah
adalah juga ditunjukkan pada Lampiran A. Nilai d (jumlah total Istilah yang berbeda) adalah
fungsi dari data pelatihan. Untuk kita data pelatihan, d = 4724.

3. ALGORITMA KLASIFIKASI
Pada bagian berikut, kami secara singkat menggambarkan naifnya Pengelompokan
Bayes, tetangga terdekat dan pohon keputusan metode klasifikasi yang digunakan dalam
penelitian kami dan mengenalkan kami penggunaan metode subruang untuk klasifikasi
dokumen.

3.1. Pengklasifikasi Naive Bayes


Pengelompokan naif Bayes [12] telah berhasil digunakan dalam sistem klasifikasi teks Rainbow
[8]. Membiarkan C = (c1, ..., cm) menjadi kelas dokumen m. Diberikan yang baru dokumen yang
tidak berlabel D dan daftar kata yang sesuai W¯ = (w1, ..., wd0) (didefinisikan dengan cara yang
sama seperti wordlist untuk set pelatihan), pendekatan Bayes naif menugaskan D ke kelas c *
NB sebagai berikut:

dimana P (c j) adalah probabilitas a priori kelas c j dan P (wi | c j) adalah probabilitas bersyarat
dari kata wi yang diberikan kelas c j. Asumsi dasar Bayes naïf Pendekatannya adalah bahwa
untuk kelas tertentu, probabilitas dari kata-kata yang terjadi dalam sebuah dokumen tidak
tergantung pada masing-masing lain.
Bila ukuran set pelatihan kecil, relative perkiraan frekuensi probabilitas, P (wi | c j),
tidak akanmasuk akal; jika sebuah kata tidak pernah muncul dalam pelatihan yang diberikan
data, estimasi frekuensi relatifnya akan menjadi nol. Sebagai gantinya,Kami menerapkan hukum
sukses Laplace [14] untuk memperkirakan P(wi|c j).
Estimasi probabilitas P (wi | cj) diberikan sebagai:

(2) di mana nj adalah jumlah kata dalam kelas cj, nij adalah jumlah kejadian kata wi di kelas cj
dan kj adalah ukuran kosakata kelas cj. Ini adalah hasil estimasi Bayesian dengan asumsi
sebelumnya yang seragam, yaitu probabilitas terjadinya kata-kata yang muncul di kelas c j sama-
sama mungkin.

3.2. Pengklasifikasi tetangga terdekat

Aturan keputusan tetangga terdekat menugaskan yang baru dokumen tidak berlabel D ke kelas
dokumen c j jika Pola latihan yang paling dekat dengan D berasal dari kelas c j. Kami
menggunakan TF-IDF (TF adalah istilah frekuensi dalam dokumen dan IDF adalah skema
frekuensi terbalik) dan skema pembobotan gunakan persamaan kosinus [15] dan bukan jarak
Euclidean untuk mengukur kesamaan kedua dokumen tersebut. Diberi dua dokumen D1 dan D2,
fitur bobotnya yang sesuai vektor adalah
Dimana δki adalah berat kata wi dalam dokumen k (TF-
IDF). Itu Kesamaan antara D1 dan D2 kemudian didefinisikan sebagai:

dimana || · ||denotes norma vector


3.3. Pengklasifikasian pohon keputusan

Pohon keputusan adalah salah satu induktif yang paling banyak digunakan metode pembelajaran.
Ketangguhan mereka terhadap data berisik dan kemampuan mereka Kemampuan untuk
mempelajari ekspresi disjungtif nampaknya cocok untuk klasifikasi dokumen Salah satu yang
paling terkenal Algoritma decision tree adalah ID3 [16] dan penggantinya C4.5 [17] dan C5.1 Ini
adalah metode top-down yang manasecara rekursif membuat klasifikasi pohon keputusan. Pada
setiap tingkat dari pohon, ID3 memilih atribut yang paling tinggi keuntungan informasi [12].
Untuk eksperimen kami, kami memilih C5 paket pohon keputusan karena memiliki banyak fitur
baguspendahulu ID3 dan C4.5. Misalnya, rulesets yang digunakan di C5 lebih akurat, lebih cepat
dan membutuhkan lebih sedikit memori Selanjutnya, dorongan adaptif [18] digabungkan ke
dalam perangkat lunak. Ide dasar untuk meningkatkan adalah menghasilkan n (n> 1,
n ditentukan oleh pengguna) pengklasifikasi (baik pohon keputusan atau aturan set) bukan satu.
Klasifikasi ith dibangun dengan memeriksa kesalahan yang dilakukan oleh pengklasifikasi (i -
1). Kapan sebuah dokumen baru harus diklasifikasikan, skema pemungutan suara berbasis
pada n classifier digunakan untuk menentukan kelas akhir dari dokumen.

3.4. Metode subruang

Model subruang [19] membusuk ruang fitur yang diberikan ke dalam subregional m dimensi
yang lebih rendah (subruang), dimana masing-masing wilayah merupakan ruang fitur yang
representative kelas pola yang sesuai ci, i = 1, ..., m. SEBUAH Dokumen uji diklasifikasikan
berdasarkan perbandingan representasi terkompresi di setiap ruang fitur dengan itu kelas yang
berbeda Kami menerapkan model ini untuk mendokumentasikan klasifikasi sebagai berikut.
Misalkan kita memiliki kelas dokumen m
Kelas ck Diwakili oleh subruang Lk kardinalitas dk. Biarkan T = menunjukkan istilah-
vektor dalam dimensi awal ruang fitur, sesuai dengan daftar kata dari pelatihan atur W = (wi) d
i = 1. Biarkan daftar kata dari subruang Lk menjadi dilambangkan dengan Wk = (wki) dk
i = 1, dimana wk Aku adalah kata-kata yang teramatidi kelas ck. Dengan adanya vektor T di
ruang fitur aslinya, proyeksi tertimbang 5k dari vektor T pada subruang Lk didefinisikan sebagai:

dimana Hk = (hij) dk × d adalah matriks (dk × d) dan baris ke-I sesuai


dengan komponen dari daftar kata Wk di subruang Lk, sedangkan kolom jth adalah komponen
jth dari daftar kata W di ruang fitur aslinya. Elemen-elemen hij dihitung sebagai berikut:

ketika istilah wk saya adalah sama dengan istilah wj , jika tidak, dimana δkj adalah berat istilah
wk j di subruang Lk. Kami mendefinisikan δk j sebagai:

dimana CLASSFREQjk menunjukkan rasio jumlah dokumen dimana istilah wj terjadi di ck ke


jumlah dokumen dalam ck dan DOCFREQj mewakili rasio jumlah dokumen di semua kelas di
mana Istilah wj terjadi pada ukuran sampel pelatihan.
Norma vektor Euclidean dari Untuk D dokumen baru, aturan
keputusan subruang mengklasifikasikan D ke kelas yang subspace nya term-vector T memiliki
yang terbesar proyeksi dalam hal norma vektor Euclidean.

4. KOMBINASI KLASSIFIERS GANDA

(CMC) Sejumlah peneliti telah menunjukkan bahwa penggabungannya berbeda classifier dapat
meningkatkan akurasi klasifikasi [20, 21, 22]. Larkey dan Croft [21] menerapkan linear
tertimbang kombinasi pengklasifikasi yang berbeda dengan dokumen medis domain, dimana
bobotnya ditetapkan oleh pengguna. Pendekatan CMC lainnya adalah pemilihan classifier yang
dinamis (DCS) [20, 22], di mana satu classifier dipilih yang mana memiliki keakuratan lokal
tertinggi di wilayah fitur kecil ruang di sekitar sampel uji disajikan ke sistem. Kami menyelidiki
tiga pendekatan kombinasi yang berbeda: voting sederhana, DCS dan pendekatan adaptif kita
sendiri kombinasi classifier (ACCESS).

Anda mungkin juga menyukai