Anda di halaman 1dari 15

03

NATURAL LANGUAGE
PROCESSING
PRE-PROCESSING

Fakultas
AFIYATI SSi., MT.
FAKULTAS ILMU
KOMPUTER

Program Studi
INFORMATIKA
MATERI
1. Pengenalan NLP
2. Pre-processing
3. Word Embedding
4. Klasifikasi teks dengan perceptron
5. Pemodelan bahasa (dasar dan lanjut)
6. Part-of-speech tagging (HMM)
7. Context Free Grammar dan Parsing
8. Neural Network (NN) / Recurrent Neural Network (RNN)
9. Named Entity Recognition (NER)
10.Text Summarization
11.Long Short-Term Memory (LSTM)
12.Presentasi Final Project  
PENGENALAN NLP

• Kualitas data
• Membersihkan data
• Dasar-dasar pemrosesan data teks
• Implementasi pemrosesan data teks
KUALITAS DATA (1)
Sebuah data dikatakan berkualitas jika,
• Akurat : menggambarkan Proses Dan hasil akhir Pelayanan
yang diukur secara benar
• Lengkap : mencangkup seluruh kekhususan pasien Dan sistem
yang dibutuhkan dalam analisis hasil ukuran
• Terpercaya : dapat digunakan dalam Berbagai kepentingan
• Valid (sah) : sesuai dengan gambaran proses atau produk hasil
akhir yang diukur
• Tepat waktu , dikaitkan dengan episode Pelayanan yang
terjadi.
• Dapat digunakan untuk kajian , Analisis dan pengambilan
keputusan.
KUALITAS DATA (2)
• Seragam : batasan Sebutan tentang elemen data yang
dibakukan Dan konsisten penggunaannya di dalam Maupun di
luar organisasi.
• Dapat dibandingkan dengan standar yang ditetapkan.
• Terjamin kerahasiaannya.
• Mudah diperoleh melalui sistem komunikasi antar yang
berwewenang
CONTOH DATA

• Data Identitas pasien : nama , umur, alamat,


jenis kelamin, nomor registrasi
• Data Sosial : pekerjaan, tanggungan
• Data Medis : tensi , nadi , suhu , pernafasan,
diagnosa utama, diagnosa tindakan, pasien
baru , pasien lama, kasus baru, kasus lama,
bayar, asuransi, data kunjungan poliklinik
INFORMASI
• Burch dan Strater menyatakan bahwa informasi adalah
pengumpulan atau pengolahan data untuk memberikan
pengetahuan atau keterangan

• George R. Terry berpendapat bahwa informasi adalah data


yang penting yang memberikan pengetahuan yang
bermanfaat.
CONTOH INFORMASI

• Jumlah pasien baru bulan/tahun


• Jumlah pasien lama bulan/tahun
• Jumlah % kunjungan pasien perpoliklinik
• Total kunjungan kasus baru/lama
• Alamat pasien berdasarkan
kelurahan/kecamatan.
• Total kunjungan pasien berdasarkan cara bayar.
PRE-PROCESSING

• Pre-processing
PEMROSESAN DATA TEKS

• Salah satu proses pada data teks adalah Pre-


processing, yaitu proses mempersiapkan data
sebelum diolah lebih lanjut.
PRE-PROCESSING
Analisa Leksikal (Lexical Analysis)
• Membaca karakter input dan menghasilkan output berupa token
(kata / term) dan membuang komentar, spasi, tab, newline dan
karakter-karakter lain yang ‘tak berguna’.
• Membuang angka karena biasanya kurang bermakna dan jarang di-
indeks.
• Membuang hyphens, state-of-the-art → state of the art Bagaimana
dengan B-1? Penghilangan hyphen menjadi B 1 (bermakna lain).
Oleh karena itu harus dibuat aturan (rule) kasus per kasus.
• Menghilangkan tanda baca

Seluruhnya: 10B.C → 10BC

val.id → valid (bermakna lain…?) Diperlukan adanya daftar kata-


kata pengecualian
• Mengubah huruf besar dan kecil (case folding)
PRE-PROCESSING
Stopwords
• Stopword adalah kata-kata yang sering muncul dalam teks
tetapi tidak begitu bermakna. Contoh: ini, itu, dan, pun, lah,
yang, akan, bahwa, yaitu, oleh, karena, dan lain-lain.

• Jumlah stopwords berbahasa Indonesia sekitar 300 sd 400


kata.
• Daftar stopword dapat ditentukan dengan mengekstrak kata-
kata dalam corpus dan menghitung frekuensi kemunculan
kata tersebut dalam teks. Pada umumnya, kata-kata yang
tergolong stopword memiliki frekuensi yang tinggi
• Penghilangan stopword dapat memperkecil ukuran indeks
lebih kurang 20 – 30 %
PRE-PROCESSING
Stemming
• Stemming adalah proses mengembalikan kata-kata menjadi
dalam bentuk kata dasar.
• Contoh: berlari -> lari, mengajarkan
-> ajar, keraguan -> ragu, dan lain-lain

• Stemming juga dapat memperkecil ukuran indeks dan kamus


(thesaurus) sd 40-50%
• Meningkatkan relevancy dalam IR
• Algoritma stemming dapat dibangun menggunakan aturan
(rule-based) dengan memperhatikan pola dalam awalan,
sisipan dan akhiran.
• Jiwa Malem, Taufik Abidin, Perancangan Algoritma Stemming
untuk Bahasa Indonesia, SNETE 2011.
PRE-PROCESSING
Membuat Kamus (Thesaurus)
Daftar kata-kata penting dari domain tertentu. Kamus
dapat juga berisi daftar kata-kata synonim.
Kata-kata dalam kamus dapat berupa single word (one-
gram), bi-grams dan three-grams.
Kamus dapat digunakan dalam membangun fitur untuk
merepresentasikan entity (dokumen, halaman web,
abstrak, paragraf)
Terima Kasih
AFIYATI SSi., MT.

Anda mungkin juga menyukai