Anda di halaman 1dari 34

CSH4H3 Text Mining

Semester: 2019-1

2 Praproses

Moch Arif Bijaksana

1
Materi
• Representasi teks, praproses
• Tokenisasi
– Token, tipe, term-kata (normalisasi)
• Identifikasi/segmentasi kalimat
• “Pengelompokan” kata: stemming dan
lematisasi
• Himpunan fitur

2
Materi (cont)
• Bobot fitur: document-based dan collection-
based
• Penghapusan stop word
• Pemilihan fitur, ekstraksi fitur
• Model keranjang kata-kata
• Model ruang vektor dan kesamaan teks

3
Representasi Teks, Praproses
• Teks masukan bisa mempunyai satuan yang
berbeda, tergantung
aplikasi/permasalahannya.

4
Representasi Teks, Praproses (cont)
• Teks: tidak terstruktur atau semi terstruktur.
• Contoh teks

5
Representasi Teks, Praproses (cont)
• Bentuk terstruktur: matriks/tabel.
• Field, bisa beberapa jenis (biner, skor nilai,
string, diskret).

6
Representasi Teks, Praproses (cont)
• Himpunan field: data isian field
merepresentasikan masing2 obyek.
• Memungkinan adanya field yang tidak bisa
diisi pada obyek tertentu. Misalnya
“pekerjaan” untuk seorang bayi.

7
Representasi Teks, Praproses (cont)
• Memungkinan adanya field yang tidak bisa
diisi pada obyek tertentu. Misalnya
“pekerjaan” untuk seorang bayi.

8
Representasi Teks, Praproses (cont)
• Fitur atau Atribut, kadang disebut juga
/Variabel/Prediktor.

9
Representasi Teks, Praproses (cont)

10
Representasi Teks, Praproses (cont)

11
Representasi Teks, Praproses (cont)
• Atribut bisa berupa, al:
– teks atau non teks.
– data dari pemrosesan
morfologis, sintaksis, dan
semantik
• Contoh unt pelabelan
peran semantik, salah satu
atributnya adalah jalur dari
teks ke predikatnya. Unt
teks The lecturer, jalurnya:

12
Representasi Teks, Praproses (cont)
• Salah satu jenis atribut yang penting adalah
kata yang ada dalam koleksi teks.
• Salah satu efeknya, matriks lebih banyak berisi
nol (matriks yang jarang / sparse).

13
Teks panjang vs teks pendek
• Pada teks panjang (misal paper di jurnal)
umumnya tataran semantis (misalnya
sinonim) tdk diperhatikan.
• Pada teks pendek (misal twit), tataran
semantis biasanya perlu.

14
Stemming, Lematisasi
• Untuk bbrp kasus, kalimat perlu di
identifikasikan; sedangkan unt bbrp kasus yg
lain tdk.
• Salah satu jenis atribut yang penting adalah
kata yang ada dalam koleksi teks.

15
Stemming, Lematisasi (cont)
• Jumlah kata (kata entri kamus) dalam sebuah
himpunan atribut biasanya sangat banyak,
hingga ribuan.
• Bila semua turunan kata menjadi atribut
tersendiri,
– Matriks semakin sparse
– Unt banyak permasahanan, utamanya pada
dokumen yang panjang, perlu pengelompokan
kata.
16
Stemming, Lematisasi (cont)
• Pengelompokan kata, contoh paling sederhana: semua
dibuat menjadi huruf kecil.
• Pengelompokan yang penting:
– Stemming: pemotongan dengan cara yang kasar
– Lematisasi: mencari kata dasarnya
• Kata otomatisasi, otomatik
– Stemming, misal menjadi otomati
– Lematisasi, menjadi otomatis
• Stemming vs. Lematisasi
– Kesederhanaan proses
– Keperluan diproses lebih lanjut (misal hendak
menggunakan WordNet)

17
Himpunan Fitur
• Fitur/Atribut/Variabel/Field/Prediktor.
• Jenis-jenis atribut.

18
• Concept-
based: doc-
concept
matrix

Dari: (Shehata et.al, 2007)

19
Bobot Atribut (cont)
• Document-based, collection-based
– Document-based, misal TF (term frequency) wd,t
– Collection-based, misal IDF (inverse document
frequency) wt

20
Bobot Atribut (cont)
• TF bobot kata harga:
– Unt Berita1: wBerita1, harga
– Unt Berita2: wBerita2, harga
– Unt Berita3: wBerita3, harga

21
Bobot Atribut (cont)
• IDF bobot kata harga: wharga
– Unt Berita1: wharga
– Unt Berita2: wharga
– Unt Berita3: wharga

22
Bobot Atribut (cont)
• Biasanya digabungkan antara document-based
dan collection-based.
– Salah satu penggabungan yg populer dengan
perkalian TF x IDF.
– Unt penulisan beragam, al. TF-IDF.
• Normalisasi, al. berdasarkan panjang
dokumen

23
Bobot Atribut (cont)
• Unsupervised vs. supervised
– Unsupervised: tdk menggunakan informasi
kategori.
– Supervised: menggunakan informasi kategori. Bisa
menggunakan krn mempunyai.

24
Bobot Atribut (cont)
• a: jml dok dlm
kategori POS yg
mengandung
term tsb
• b: jml dok dlm
kategori POS yg
tdk mengandung
term tsb
• N: jml total dok

25
Bobot Atribut (cont)
• Unsupervised

• Supervised

26
Penghapusan Stop Word
• Bobot atribut saya vs negara.
• Stopword:
– Bobot sangat kecil
– Yang artinya juga makna tidak mempengaruhi
• Proses: lebih efisien dihapus/difilter tanpa
diikutkan dalam proses pembobotan.

27
Pemilihan Fitur, Ekstraksi Fitur
• Yaitu pengurangan jumlah fitur.
• Mengapa diperlukan:
• Supaya lebih efektif, efisien, kutukan dimensi (yg
tinggi)
• Pemilihan vs ekstraksi
• Pemilihan: memilih dari daftar yg ada
• Salah satu cara sederhana namun ckp efektif dengan
meranking dg DF.
• Ekstraksi: “memeras” dari daftar yg ada
• Jenis2 berdasarkan proses, al: filter, wrapper,
embedded.

28
Model Keranjang Kata-Kata
• Informasi urutan kata tidak diperhatikan.
• Sederhana.
• Dalam banyak permasalahan, sdh ckp efektif.

Dari: http://www.python-course.eu/

29
Model Ruang Vektor
• Sebuah teks dinyatakan dalam sebuah vektor.
– Komponen vektor adalah atribut (sebagai
dimensi).
• Contoh visualisasi dengan sangat
penyederhaan: hanya dua dimensi.
• Panjang: bobot.
• Apa perbedaan
d1 dan d2?

30
Model Ruang Vektor (cont)
• Apa persamaan dan perbedaan d1 dan d3?

31
Model Ruang Vektor (cont)
• Mana yg lbh mirip dg d4: d3 atau d5?

32
Model Ruang Vektor (cont)
• Model ruang vektor al. digunakan unt.
kesamaan teks.
• Kesamaan teks, al. pada QA, peringkasan teks,
klusterisasi dan klasifikasi (utamanya kNN).
• Pemilihan vs perankingan dokumen.
• Mirip, relevan.

33
Terima Kasih

34