Anda di halaman 1dari 14

PEMROSESAN TEKS

DASAR KLASIFIKASI TEKS


KLASIFIKASI TEKS: APA ITU?

 Klasifikasi teks sering dinamakan juga kategorisasi teks.


 Klasifikasi adalah proses pembelajaran yang terbimbing
(supervised learning).
 Supervised vs unsupervised learning.

2
KLASIFIKASI TEKS: APA ITU? (CONT)

 Training merupakan proses induksi (generalisasi), dan testing merupakan deduksi proses
(prediksi/hipotesis)

Sumber: http://www.davidkhurst.com/
KLASIFIKASI TEKS: APA ITU?

4
PRAPROSES

 Langkah2 praproses secara garis besar sebagai berikut:


 Lakukan tokenisasi kata (word tokenize) untuk setiap teks ( misalnya artikel
berita).
 Lakukan lowercasing untuk setiap kata.
 Stopword difilter (semua kata yang ada dlm daftar stopword tdk diikutkan dlm
proses berikutnya).
 Lakukan stemming atau lematisasi.

5
PRAPROSES (CONT)

 Buat vocabulary unt koleksi teks (korpus), yaitu daftar kata (setelah distemming) yang
unik (agar mendapatkan daftar yang unik misal disimpan sebagai set).
 Catatan: vocabulary tsb (daftar kata yang unik yang sdh distemming pada korpus)
merupakan himpunan atribut.
 Hitung nilai IDF untuk setiap kata dalam vocabulary yang sdh dibuat tsb.
 Untuk setiap teks, hitung nilai TF untuk setiap kata dalam vocabulary yang sdh dibuat
tsb.

6
7
HIMPUNAN FITUR DAN IDF

 Himpunan fitur kata (vocabulary) dan pembobotan berdasarkan koleksi


(IDF) hanya dilakukan pada fase latih (traning phase).
 Untuk proses pada fase pengujian (testing phase) himpunan fitur dan
bobot IDF didapat dari hasil proses fase latih.
 Untuk melakukan pemilihan fitur bisa dirangking berdasarkan DF.

8
ALGORITMA KLASIFIKASI

 Banyak algoritma klasifikasi, al:


 Pohon keputusan (decision tree).
 Berdasarkan aturan (rules based).
 Jaringan syaraf tiruan (artificial neural network / ANN).

9
AGORITMA KLASIFIKASI (CONT)

<

 Decision tree

10
AGORITMA KLASIFIKASI (CONT)

 Rule

11
AGORITMA KLASIFIKASI (CONT)

 Multi Layer
Perceptron
(MLP)

12
KLASIFIKASI TEKS: EVALUASI
Iteration

1 Test Training

2 Test Training
 Unt pembagian data training dan testing,
salah satu alternatif: cross validation 3 Training Test Training

4 Training Test

5 Training Test
13

Dari: Jurafsky & Manning “Intro NLP course”, Stanford Univ


THANK YOU
MOCH ARIF BIJAKSANA