1
Isi Korpus Tokenisasi
Media: teks, audio, transkripsi, video Tokenisasi adalah suatu tahap
pemrosesan di mana teks input dibagi
Anotasi menjadi unit-unit yang disebut token yg
merupakan suatu kata atau suatu angka
Tokenisasi, struktur dokumen
atau suatu tanda baca.
Anotasi linguistik, format (markup language)
Perlu mengenali unit secara otomatis
Apakah kata itu?
Apakah suatu kata itu?
Karakter alfanumerik yang bersambungan Bagaimana dengan kata yang bukan bahasa Inggris?
Bahasa-bahasa di Asia Timur (Jepang, Cina), bahasa daerah
yang dipisahkan oleh whitespace. Indonesia (Jawa, Bali), tidak memecah kata dengan whitespace
ありがとう
Whitespace: spasi, tab, newline
Hard disk, harddisk
Bagaimana dengan p2p, amazon.com, Kata gabungan dalam bhs Jerman:
Micro$oft? Lebensversicherungsgesellschaftsangestellter (pegawai
perusahaan asuransi jiwa)
Bagaimana dengan John’s, isn’t, Jum’at?
Meskipun tokenisasi sederhana tidak terlepas dari
Bagaimana dengan pro-aktif? kesalahan
Tanda sambung pada akhir baris?
Menjadi topik dari ekstraksi informasi Dalam bidang IR, stemming dapat
mempengaruhi dokumen yang diperoleh
2
Apakah Kalimat itu? Mendeteksi Batas Kalimat
Suatu string kata yang diakhiri dengan Hipotesakan bahwa batas kalimat sesudah . ? !
dengan suatu tanda berhenti sepenuhnya, Pindahkan batas kalimat sesudah tanda petik, bukan
setelah titik.
tanda tanya atau tanda seru (90% tepat) “Jangan ambil buku itu,” kata ibu kepada Ani.
Akhir dari baris. Jangan gunakan titik jika:
Akhir dari suatu cerita! Sebelumnya adalah singkatan yg umum yg biasanya bukan
akhir kalimat, tp biasanya diikuti oleh nama dengan huruf besar:
Apakah kamu sudah bosan? Prof.
Ia kehilangan uangnya di travel.com Didahului oleh singkatan yang umum dan tidak diikuti oleh kata
dengan huruf besar: Jr.
Dr. Iwan pergi ke Surabaya.
Dia mengatakan “Bohong!” Jangan kenali sebagai batas jika ada ! atau ? yang
diikuti oleh huruf kecil
3
Pemberian Tagging Otomatis Apakah Pemberian Tagging itu Sukar?
Tugas: beri tanda setiap kata pada kalimat Banyak kata yang mempunyai beberapa
dengan part of speech yang sesuai (Penn
tagger)
kategori
Input: Our enemies are innovative and resourceful,
and so are we.
Output:Our/PRP enemies/NNS are/VBP innovative/JJ
Tapi kebanyakan kata hanya punya satu
and/CC resourceful/JJ ./, and/CC so/RB are/VB kategori
we/PRP ./. Apakah cukup baik?
Program tagger yang ada mencapai ketepatan
Mis. GATE- General Architecture for Text lebih dari 90% (untuk bahasa Inggris)
Engineering (http://www.gate.ac.uk)
Anotasi (Sintaks)
S
NP VP
VB NP
PRP
They NP PP
saw
DT NN IN NP
DT NN
the president of
the company