Anda di halaman 1dari 8

PRAKTIKUM TEKS MINING

Natural Language Processing

LABORATORIUM ILMU KOMPUTER UNIVERSITAS PAKUAN


TEXT PROCESSING SECARA UMUM

Stemming &
Document Weighting
Lemmatization

Pharse
Parsing Indexing
Detection

Lexical Stopword
Analysis Removal
KENALI DULU
Token Types Terms

Kebalikan dari token.


Kata yang dipisah dari teks asli Teks yang sudah di normalisasi
Memperhitungkan duplikasi
tanpa memikirkan duplikat ( stemming dsb)
data

Contoh
Teks Token Types Terms
“apa”,
“apakah culo “apakah”, “culo”, “apakah”, “culo”, “culo”,
dan boyo “dan”, “boyo”, “dan”, “boyo”, “boyo”,
bermain bola di “bermain”, “bola”, “bermain”, “bola”, “main”,
depan rumah “di”, “depan”, “di”, “depan”, “bola”,
boyo?” “rumah”, “boyo” “rumah” “depan”,
“rumah”)
PARSING
Memecah dokumen
Kita bisa memecah teks tersebut
menjadi dokumen yang banyak.
Ambil per satu kalimat dari teks.
Berapa yang kamu dapat ?
1 kalimat ditandai dengan garis
merah.

Boy Chandra – Sebuah Usaha Melupakan


Lexical Analysis / Tokenization
Biasa disebut tokenisasi. adalah proses pemotongan string input berdasarkan
tiap kata penyusunnya. Tokenizing adalah proses pemisahan teks menjadi
potongan-potongan yang disebut
sebagai token untuk kemudian di analisa. Kata, angka, simbol, tanda baca dan
entitas penting
lainnya dapat dianggap sebagai token

Contoh
Document : Biarlah semuanya Tokenized : ‘Biarlah’, ‘semuanya’, ‘tentang’,
tentang kita berlalu, tertinggal, ‘kita’, ‘berlalu’, ‘tertinggal’, ‘dan’, ‘tanggal’
dan tanggal.
Lexical Analysis – Case Folding
Dalam proses tokenisasi ini ada proses lagi yaitu case folding. Untuk merubah
dokumen atau teks ke huruf kecil (lowercase). Ada pula cleaning. Yaitu proses
membersihkan dokumen dari komponenkomponen yang tidak memiliki
hubungan dengan informasi yang ada pada
dokumen, seperti tag html, link, dan script.

Contoh
Case Folded : biarlah semuanya tentang kita
Document : Biarlah semuanya
berlalu tertinggal dan tanggal
tentang kita berlalu, tertinggal,
dan tanggal.
Tokenized : ‘Biarlah’, ‘semuanya’, ‘tentang’,
twitter.com/boychandra
‘kita’, ‘berlalu’, ‘tertinggal’, ‘dan’, ‘tanggal’
Cleaned : Biarlah semuanya
tentang kita berlalu, tertinggal,
dan tanggal.
Stopword Removal
adalah tahap pengambilan dari hasil token, yaitu kata-kata apa saja yang akan
digunakan untuk merepresentasikan suatu dokumen.

• Fitur ini berguna untuk menghapus stopwords dari teks


Stopwords (misalnya menghapus kata konjungsi seperti “dan”, “serta”,
“lagipula” dan lain-lain)

• Regexp berguna untuk menghapus kata-kata yang cocok


Regex dengan ekspresi reguler.
• Regexp secara bawaan diatur untuk menghapus tanda baca

Document • Frekuensi dokumen berguna untuk menyimpan token yang


muncul tidak kurang dari dan tidak lebih dari angka atau
Frequency persentase dokumen yang ditentukan
Stemming
adalah proses pengubahan bentuk kata menjadi kata dasar atau
tahap mencari root kata dari tiap kata hasil filtering. Dengan dilakukanya proses
stemming setiap kata berimbuhan akan berubah menjadi kata dasar, dengan
demikian dapat lebih mengoptimalkan proses teks mining

Kata Stemmed

merubah rubah

melihat lihat

mengetik ketik

Anda mungkin juga menyukai