Stemming &
Document Weighting
Lemmatization
Pharse
Parsing Indexing
Detection
Lexical Stopword
Analysis Removal
KENALI DULU
Token Types Terms
Contoh
Teks Token Types Terms
“apa”,
“apakah culo “apakah”, “culo”, “apakah”, “culo”, “culo”,
dan boyo “dan”, “boyo”, “dan”, “boyo”, “boyo”,
bermain bola di “bermain”, “bola”, “bermain”, “bola”, “main”,
depan rumah “di”, “depan”, “di”, “depan”, “bola”,
boyo?” “rumah”, “boyo” “rumah” “depan”,
“rumah”)
PARSING
Memecah dokumen
Kita bisa memecah teks tersebut
menjadi dokumen yang banyak.
Ambil per satu kalimat dari teks.
Berapa yang kamu dapat ?
1 kalimat ditandai dengan garis
merah.
Contoh
Document : Biarlah semuanya Tokenized : ‘Biarlah’, ‘semuanya’, ‘tentang’,
tentang kita berlalu, tertinggal, ‘kita’, ‘berlalu’, ‘tertinggal’, ‘dan’, ‘tanggal’
dan tanggal.
Lexical Analysis – Case Folding
Dalam proses tokenisasi ini ada proses lagi yaitu case folding. Untuk merubah
dokumen atau teks ke huruf kecil (lowercase). Ada pula cleaning. Yaitu proses
membersihkan dokumen dari komponenkomponen yang tidak memiliki
hubungan dengan informasi yang ada pada
dokumen, seperti tag html, link, dan script.
Contoh
Case Folded : biarlah semuanya tentang kita
Document : Biarlah semuanya
berlalu tertinggal dan tanggal
tentang kita berlalu, tertinggal,
dan tanggal.
Tokenized : ‘Biarlah’, ‘semuanya’, ‘tentang’,
twitter.com/boychandra
‘kita’, ‘berlalu’, ‘tertinggal’, ‘dan’, ‘tanggal’
Cleaned : Biarlah semuanya
tentang kita berlalu, tertinggal,
dan tanggal.
Stopword Removal
adalah tahap pengambilan dari hasil token, yaitu kata-kata apa saja yang akan
digunakan untuk merepresentasikan suatu dokumen.
Kata Stemmed
merubah rubah
melihat lihat
mengetik ketik