Anda di halaman 1dari 15

Text Mining Kategorisasi Teks Nave Bayes

IF5031 Pembelajaran Mesin Masayu Leylia Khodra IF-ITB

Text Mining
Pendahuluan Latar Belakang Tahapan Operasi

MLK/IF5031

Text Mining: Pendahuluan


Proses analisis teks untuk menemukan informasi baru (unknown information) dari sekumpulan teks berbahasa alami yang tidak terstruktur Pencarian pola pada teks

MLK/IF5031

Text Mining: Latar Belakang


Information overload susah diakses


80% data online dalam format text (unstructured format) mayoritas data tanpa metadata tidak ada cara standar untuk pengaksesan

Jumlah data meningkat vs kemampuan manusia memproses informasi konstan muncul kebutuhan untuk ekstraksi informasi secara otomatis dari kumpulan data tekstual yang besar Potensi komersial tinggi

MLK/IF5031

Text Mining: Pendahuluan (2)


Istilah lain: text data mining, document mining, Knowledge discovery in text (KDT) Pendekatan: pembelajaran mesin, pengolahan bahasa alami, dan information retrieval

MLK/IF5031

Text Mining: Tahapan


Tahapan utama:
Information Retrieval Preprocessing Documents Pattern Discovery Pattern & evaluation

Jika ada asumsi dokumen sudah relevan tahap information retrieval dihilangkan

MLK/IF5031

Tahap Preproses Dokumen


Analisis sintaktik dan semantik teks: Part Of Speech (PoS) Tagging: kelompok kata Word Sense Disambiguation: context-based Pembangkitan parse tree untuk setiap kalimat Representasi Dokumen: Bag-of-word:

kata dan frekuensi Analogi tabel relasi: kata-atribut, frekuensi-nilai atribut, dokumen-record Dokumen: vektor multi dimensi Kesamaan: sudut antar vektor

Vectorial document representation:


Pengurangan dimensi:

Case folding Stemming dan penghilangan stopwords Pilih kata yang relevant Hapus kata yang muncul paling sedikit dan paling banyak

Representasi ke IF
MLK/IF5031 7

Tahap Pattern Discovery


Operasi text mining:


Categorization/classification/supervised Clustering/unsupervised Visualization Summarization Trends

learning

learning

analysis

Teknik Text mining berdasarkan operasi yang akan dilakukan Evaluasi


MLK/IF5031 8

Kategorisasi Teks Otomatis

MLK/IF5031

Definisi formal kategorisasi teks


aktifitas memperkirakan fungsi target yang tidak diketahui :DxC{T,F} dengan menggunakan fungsi :DxC{T,F} sehingga fungsi dan dapat semirip mungkin
D:

domain dokumen C: himpunan kategori yang telah didefinisikan.


: classifier, hipotesis atau model


MLK/IF5031 10

Kategorisasi Teks

aktifitas pemberian label ke teks-teks bahasa alami dengan kategori-kategori topik dari himpunan yang telah didefinisikan sebelumnya (5) aktifitas memberikan nilai boolean ke setiap tuple <dj,ci>DxC aktifitas supervised learning, yang didefinisikan sebagai pemberian label kategori yang telah didefinisikan sebelumnya ke dokumen-dokumen baru berdasarkan kemungkinan yang diusulkan oleh data latih berupa dokumen berlabel (8)
MLK/IF5031 11

Perkembangan kategorisasi teks


1960-an:
Empirically-based,

mathematically derived classification system

1980-an:
Knowledge

engineering automatic categorizers sistem pakar klasifikasi dengan akuisisi pengetahuan secara manual
MLK/IF5031 12

Perkembangan kategorisasi teks


1990-an:
Machine

learning Membangun text classifier dengan pembelajaran


Saat ini:
Gabungan

antara machine learning dan information retrieval, information extraction from text, dan text mining
MLK/IF5031 13

Aplikasi Kategorisasi Teks


Document indexing based on a controlled vocabulary Penyaringan teks dan Routing teks Wordsense disambiguation (WSD) Kategorisasi hirarki dari web page berdasarkan kategori yang dimiliki portal internet.

MLK/IF5031 14

Text Classifier

Task:
Learning:

belajar dari data latihan Classify: memprediksi kategori dari dokumen teks yang lain

Pembangunan:
1. 2. Train-and test k-fold cross validation
MLK/IF5031 15

Kelompok Text Classifier


Numeric/quantitative classifier:
probabilistic

classifier, linear classifier, SVM, regression, artificial neural network tree classifier, decision rule classifier Neighbour
MLK/IF5031 16

Nonnumeric/symbolic classifier:
decision

Example-based classifier:
k-Nearest

Contoh: Klasifikasi Berita


Klasifikasi berita: Sebuah proses pemberian label kategori pada suatu berita
Kategori Teknologi
Para astronot AS akan kembali meluncur ke ruang angkasa . Kedengarannya sepele, cuma soal membungkuk. Tapi kalau caranya salah .

Kategori Kesehatan

MLK/IF5031

17

Proses Pelatihan dan Klasifikasi


Pelatihan
Para astronot AS akan kembali meluncur ke ruang angkasa . Kedengarannya sepele, cuma soal membungkuk. Tapi kalau caranya salah .

Kategori Teknologi

Kategori Kesehatan

Klasifikasi
Administrator NASA Michael Griffin, hari Kamis sore kemarin (30/6), mengumumkan bahwa pesawat ulang alik

???

MLK/IF5031

18

Nave Bayes

MLK/IF5031

19

Nave Bayes Classifier (NBC)


Mengapa NBC ? : Sederhana, Cepat, Contoh Input: Akurasi Tinggi Administrator NASA (1) v = arg max P (v | a a ...a )
MAP v j V j 1, 2 n

Mencari probabilitas maksimum dari P(teknologi | adminstrator,NASA,Michael ) P(kesehatan | adminstrator,NASA,Michael )

Michael Griffin, hari Kamis sore kemarin mengumumkan bahwa pesawat ulang alik

MLK/IF5031

20

NBC
Teorema Bayes:

P( B | A) =

P( A | B) P( B) P( A)

(2)

Persamaan (1) dapat ditulis

vMAP = arg max


v j V

P (a1, a2 ...an | v J ) P (v j ) P (a1, a2 ...an )

(3)

P(a1, a2 ...an ) konstan, sehingga dapat dihilangkan

vMAP = arg max P(a1, a2 ...an | v J ) P(v j )


V j V

(4)

P ( a1, a 2 ... a n | v j ) sulit dihitung!, asumsikan setiap kata tidak


terkait maka:

P ( a 1 , a 2 ... a n | v J ) =

P (ai | v j )
MLK/IF5031

(5)

21

NBC
Nave Bayes Classifier:

v MAP = arg max P(v j )i P( ai | v j )


V j V

(6)

Mencari probabilitas maksimum dari: P(teknologi) x P(adminstrator | teknologi) x P(NASA | teknologi) x P(kesehatan) x P(adminstrator | kesehatan) x P(NASA | kesehatan) x.

P (v j ) =

| docs j | | Contoh |
nk + 1 n + | kosakata |

(7) (8)

P ( wk | v j ) =

MLK/IF5031

22

Algoritma Nave Bayes


Data latihan

Learning: 1. Bentuk Vocabulary 2. Untuk setiap kategori: a. Hitung P(vj) b. Bentuk Textj c. Hitung P(wk|vj) untuk setiap kata wk pada vocabulary

Model probabilistik

Dokumen, model probabilistik

Classify: 1. Hitung P(vj) P(ai|vj) untuk setiap kategori 2. Tentukan kategori dengan nilai P(vj) P(ai|vj) maksimal

Kategori dokumen

MLK/IF5031

23

Learn_Nave_Bayes_Text(Examples,V)

MLK/IF5031

24

Classify_Nave_Bayes_Text(Doc) nilai_target

MLK/IF5031

25

Hasil Eksperimen
Sumber data: www.kompas.com, (29 Juni 05 15 Juli 05). Berjumlah 582 dokumen dengan 6 kategori. Dokumen dibagi menjadi dua. Dokumen contoh untuk pelatihan dan dokumen untuk ujicoba.

MLK/IF5031

26

Hasil Eksperimen

MLK/IF5031

27

Contoh Kasus

MLK/IF5031

28

Hasil Training: Model Probabilistik

MLK/IF5031

29

Proses Klasifikasi

MLK/IF5031

30

Anda mungkin juga menyukai