Anda di halaman 1dari 2

Tugas Laporan “Bagaimana melakukan tokenization, Part of Speech (POS), chunking,

parsing, dan Named Entity Recognition (NER) dalam bahasa Indonesia?”


Vincent Mulyadi / K3520077/ Teks Mining

Tokenization adalah proses memecah teks menjadi unit-unit yang lebih kecil, disebut
dengan token, yang kemudian dapat diolah oleh program komputer. Token biasanya berupa kata-
kata, tanda baca, atau angka, tergantung pada tujuan pemrosesan teks yang dilakukan. Tujuan
utama tokenisasi dalam pemrosesan bahasa alami (NLP) adalah untuk memudahkan analisis teks
dan pemodelan bahasa, sehingga memungkinkan mesin untuk memahami makna dari setiap
bagian dalam teks tersebut.
Contohnya, jika kita ingin menganalisis frekuensi kata dalam sebuah teks, maka
tokenisasi akan memecah teks tersebut menjadi token-token berupa kata-kata.

Chunking adalah proses dalam pemrosesan bahasa alami (NLP) untuk mengidentifikasi
dan mengekstraksi frasa atau bagian dari kalimat yang memiliki makna tertentu. Chunking dapat
membantu dalam analisis teks dengan memungkinkan mesin untuk memahami konteks dan
struktur kalimat yang lebih kompleks daripada hanya memproses kata per kata.
Contohnya, dalam kalimat "Tono memakan apel tadi pagi", proses chunking dapat
menghasilkan dua frasa: "apel" dan "pagi", yang masing-masing memiliki makna tertentu dalam
kalimat tersebut.

Part-of-speech (POS) adalah klasifikasi setiap kata dalam suatu teks menjadi kategori
gramatikal tertentu, seperti kata benda, kata kerja, kata sifat, kata keterangan, dan lainnya.
Tujuan dari POS dalam pemrosesan bahasa alami (NLP) adalah untuk membantu mesin
memahami makna suatu kalimat dan mengidentifikasi bagian kalimat yang relevan dalam
analisis teks. POS tagging dilakukan dengan menggunakan model statistik atau aturan-aturan
gramatikal untuk mengidentifikasi kata-kata dan menetapkan label POS yang sesuai.
Contohnya, dalam kalimat "Ayah pergi ke kantor", kata "Ayah" diberi label POS kata
benda, kata "pergi" diberi label kata kerja, dan kata "ke" diberi label kata depan, sehingga mesin
dapat memahami hubungan antara kata-kata tersebut dan bagaimana mereka berkontribusi pada
makna keseluruhan kalimat.

Parsing adalah proses analisis sintaktis dalam pemrosesan bahasa alami (NLP) yang
mengurai suatu teks atau kalimat menjadi struktur gramatikal yang terorganisir dengan benar.
Parsing melibatkan penggunaan aturan-aturan sintaksis untuk memahami hubungan antara kata-
kata dalam kalimat dan menghasilkan representasi struktural yang dapat dipahami oleh mesin.
Tujuan dari parsing adalah untuk memahami makna kalimat secara lebih rinci dan
mengidentifikasi bagian-bagian kalimat yang penting dalam analisis teks, seperti subjek,
predikat, objek, dan lainnya.
Contohnya, dalam kalimat "Ibu pergi ke pasar", parsing akan menghasilkan struktur
sintaktis seperti "NP (Ibu) VP (pergi) PP (ke pasar)", yang menunjukkan subjek (Ibu), predikat
(pergi), dan objek preposisi (ke pasar) dalam kalimat tersebut.

Named Entity Recognition (NER) adalah proses pemrosesan bahasa alami (NLP) untuk
mengenali dan mengekstraksi entitas tertentu dari teks, seperti orang, tempat, organisasi, tanggal,
dan lainnya. Tujuan dari NER adalah untuk membantu mesin memahami konteks dan makna
teks yang lebih kompleks dengan mengidentifikasi entitas penting yang terlibat dalam teks
tersebut. NER biasanya dilakukan dengan menggunakan model statistik atau pembelajaran mesin
yang dilatih dengan dataset teks yang besar dan terdiversifikasi. Proses NER melibatkan
identifikasi entitas dalam teks dan memberikan label yang sesuai, seperti "ORGANIZATION"
untuk entitas organisasi atau "DATE" untuk entitas tanggal.
Contohnya, dalam kalimat "Bima bekerja di Tokopedia sejak 2017", NER akan
mengenali entitas "Bima" sebagai orang, "Tokopedia" sebagai organisasi, dan "2017" sebagai
tanggal, sehingga mesin dapat memahami hubungan antara entitas tersebut dalam teks tersebut.

Anda mungkin juga menyukai