Anda di halaman 1dari 4

KORPUS Korpus

Masalah pada perancangan korpus


Ukuran
Jenis

Penelusuran Informasi Bahasa


Register

Bab 4 : Manning & Schutze


Tokenisasi pada korpus
Anotasi pada korpus

Korpus Korpus Brown


Korpus adalah badan dari teks yang Korpus awal yang terkenal
muncul secara alami, biasanya dipilih Dibuat oleh Nelson Francis & Henry
dengan cara tertentu.
Kucera di Universitas Brown tahun 1960-
an
Korpus yang seimbang mencoba mewakili
semua bahasa atau suatu domain. Merupakan korpus seimbang yang ditulis
dalam bahasa Inggris Amerika
Terdiri dari sejuta kata
Apakah baik untuk mempunyai korpus
yang seimbang?

Korpus Lainnya Isi Korpus


Jenis bahasa:
Korpus Domain Bahasa
Teks : artikel, berita kawat, buku
British National Corpus Seimbang British English Pidato spontan: pembicaraan (dialog), siaran
Newswires Corpus Newswire Am. English
UN atau EU proceed hukum 10 bahasa
Broadcast News Corpus ujaran 7 bahasa
Jenis
Novel bahasa Inggris pada abad 18
Teks suratkabar, laporan berita kawat
Pembicaraan pemesanan penerbangan

1
Isi Korpus Tokenisasi
Media: teks, audio, transkripsi, video Tokenisasi adalah suatu tahap
pemrosesan di mana teks input dibagi
Anotasi menjadi unit-unit yang disebut token yg
merupakan suatu kata atau suatu angka
Tokenisasi, struktur dokumen
atau suatu tanda baca.
Anotasi linguistik, format (markup language)
Perlu mengenali unit secara otomatis
Apakah kata itu?
Apakah suatu kata itu?

Apakah Kata itu? Segmentasi Kata

Karakter alfanumerik yang bersambungan Bagaimana dengan kata yang bukan bahasa Inggris?
Bahasa-bahasa di Asia Timur (Jepang, Cina), bahasa daerah
yang dipisahkan oleh whitespace. Indonesia (Jawa, Bali), tidak memecah kata dengan whitespace
ありがとう
Whitespace: spasi, tab, newline
Hard disk, harddisk
Bagaimana dengan p2p, amazon.com, Kata gabungan dalam bhs Jerman:
Micro$oft? Lebensversicherungsgesellschaftsangestellter (pegawai
perusahaan asuransi jiwa)
Bagaimana dengan John’s, isn’t, Jum’at?
Meskipun tokenisasi sederhana tidak terlepas dari
Bagaimana dengan pro-aktif? kesalahan
Tanda sambung pada akhir baris?

Segmentasi Kata Morfologi


Contoh lain Kata dalam bentuk dasar?
Frase: tusuk jarum, keras kepala makan, dimakan, makanan → makan
Jurusan Surabaya - Jakarta Proses stemming (lemmatization): proses
untuk menghilangkan imbuhan pada kata
No telpon (021) 786 3419, +62 21 7863419,
Ambigu: lying → lie
- lay atau lie
- lied
+62
- 21- 786
- 3419
Business → busy

Menjadi topik dari ekstraksi informasi Dalam bidang IR, stemming dapat
mempengaruhi dokumen yang diperoleh

2
Apakah Kalimat itu? Mendeteksi Batas Kalimat

Suatu string kata yang diakhiri dengan Hipotesakan bahwa batas kalimat sesudah . ? !
dengan suatu tanda berhenti sepenuhnya, Pindahkan batas kalimat sesudah tanda petik, bukan
setelah titik.
tanda tanya atau tanda seru (90% tepat) “Jangan ambil buku itu,” kata ibu kepada Ani.
Akhir dari baris. Jangan gunakan titik jika:
Akhir dari suatu cerita! Sebelumnya adalah singkatan yg umum yg biasanya bukan
akhir kalimat, tp biasanya diikuti oleh nama dengan huruf besar:
Apakah kamu sudah bosan? Prof.
Ia kehilangan uangnya di travel.com Didahului oleh singkatan yang umum dan tidak diikuti oleh kata
dengan huruf besar: Jr.
Dr. Iwan pergi ke Surabaya.
Dia mengatakan “Bohong!” Jangan kenali sebagai batas jika ada ! atau ? yang
diikuti oleh huruf kecil

Penandaan pada Teks Anotasi Korpus


Teks dapat diberi tambahan anotasi Anotasi adalah penambahan informasi
Standard Generalised Markup Language (SGML) pada korpus yang secara eksplisit tidak
adalah suatu tata-bahasa dari teks
ada disana (memberi tambahan nilai
kegunaan pada korpus).
SGML secara eksplisit memberi tanda pada
kalimat, paragraf dsb.
Jenis-jenis anotasi:
Part-of-speech tags (sudah umum)
<p><s>Ini adalah kalimat.,</s> <s>Dan satu lagi.</s>
<s>Dan satu lagi.</s></p>
Struktur sintaksis

Anotasi (POSTAG) POS TAG


Sebagian teks diberi anotasi Part- of- speech
Kategori Contoh Brown Penn
(POS) tagging
Noun aircraft,data NN NN
Noun singular woman, book NN NN
Postag memberi tanda fungsi- fungsi tata bahasa Noun plural women, books NNS NNS
yang sederhana Adjective happy, bad JJ JJ
Adverb often, badly RB RB

Mis: Penn tag set (45), Brown tag set (87)


Biasanya tagging dilakukan secara otomatis

3
Pemberian Tagging Otomatis Apakah Pemberian Tagging itu Sukar?

Tugas: beri tanda setiap kata pada kalimat Banyak kata yang mempunyai beberapa
dengan part of speech yang sesuai (Penn
tagger)
kategori
Input: Our enemies are innovative and resourceful,
and so are we.
Output:Our/PRP enemies/NNS are/VBP innovative/JJ
Tapi kebanyakan kata hanya punya satu
and/CC resourceful/JJ ./, and/CC so/RB are/VB kategori
we/PRP ./. Apakah cukup baik?
Program tagger yang ada mencapai ketepatan
Mis. GATE- General Architecture for Text lebih dari 90% (untuk bahasa Inggris)
Engineering (http://www.gate.ac.uk)

Anotasi (Sintaks) Anotasi (Sintaks)


Analisa sintaksis: bagaimana menentukan PRP VB DT NN IN DT NN
arti kalimat berdasarkan arti kata-kata.
They saw the president of the company
Siapa yang melakukan apa kepada siapa

Korpus berisi kalimat yg diberi tanda


dengan parse trees

Anotasi (Sintaks)
S

NP VP

VB NP
PRP

They NP PP
saw

DT NN IN NP

DT NN
the president of
the company

Anda mungkin juga menyukai