Natural Language Processing 3

03
NATURAL LANGUAGE
PROCESSING
PRE-PROCESSING
Fakultas
AFIYATI SSi., MT.
FAKULTAS ILMU
KOMPUTER
Program Studi
INFORMATIKA
MATERI
1. Pengenalan NLP
2. Pre-processing
3. Word Embedding
4. Klasifikasi teks dengan perceptron
5. Pemodelan bahasa (dasar dan lanjut)
6. Part-of-speech tagging (HMM)
7. Context Free Grammar dan Parsing
8. Neural Network (NN) / Recurrent Neural Network (RNN)
9. Named Entity Recognition (NER)
10.Text Summarization
11.Long Short-Term Memory (LSTM)
12.Presentasi Final Project
PENGENALAN NLP
• Kualitas data
• Membersihkan data
• Dasar-dasar pemrosesan data teks
• Implementasi pemrosesan data teks
KUALITAS DATA (1)
Sebuah data dikatakan berkualitas jika,
• Akurat : menggambarkan Proses Dan hasil akhir Pelayanan
yang diukur secara benar
• Lengkap : mencangkup seluruh kekhususan pasien Dan sistem
yang dibutuhkan dalam analisis hasil ukuran
• Terpercaya : dapat digunakan dalam Berbagai kepentingan
• Valid (sah) : sesuai dengan gambaran proses atau produk hasil
akhir yang diukur
• Tepat waktu , dikaitkan dengan episode Pelayanan yang
terjadi.
• Dapat digunakan untuk kajian , Analisis dan pengambilan
keputusan.
KUALITAS DATA (2)
• Seragam : batasan Sebutan tentang elemen data yang
dibakukan Dan konsisten penggunaannya di dalam Maupun di
luar organisasi.
• Dapat dibandingkan dengan standar yang ditetapkan.
• Terjamin kerahasiaannya.
• Mudah diperoleh melalui sistem komunikasi antar yang
berwewenang
CONTOH DATA
• Data Identitas pasien : nama , umur, alamat,

jenis kelamin, nomor registrasi
• Data Sosial : pekerjaan, tanggungan
• Data Medis : tensi , nadi , suhu , pernafasan,
diagnosa utama, diagnosa tindakan, pasien
baru , pasien lama, kasus baru, kasus lama,
bayar, asuransi, data kunjungan poliklinik
INFORMASI
• Burch dan Strater menyatakan bahwa informasi adalah
pengumpulan atau pengolahan data untuk memberikan
pengetahuan atau keterangan
• George R. Terry berpendapat bahwa informasi adalah data

yang penting yang memberikan pengetahuan yang
bermanfaat.
CONTOH INFORMASI
• Jumlah pasien baru bulan/tahun

• Jumlah pasien lama bulan/tahun
• Jumlah % kunjungan pasien perpoliklinik
• Total kunjungan kasus baru/lama
• Alamat pasien berdasarkan
kelurahan/kecamatan.
• Total kunjungan pasien berdasarkan cara bayar.
PRE-PROCESSING
• Pre-processing
PEMROSESAN DATA TEKS
• Salah satu proses pada data teks adalah Pre-

processing, yaitu proses mempersiapkan data
sebelum diolah lebih lanjut.
PRE-PROCESSING
Analisa Leksikal (Lexical Analysis)
• Membaca karakter input dan menghasilkan output berupa token
(kata / term) dan membuang komentar, spasi, tab, newline dan
karakter-karakter lain yang ‘tak berguna’.
• Membuang angka karena biasanya kurang bermakna dan jarang di-
indeks.
• Membuang hyphens, state-of-the-art → state of the art Bagaimana
dengan B-1? Penghilangan hyphen menjadi B 1 (bermakna lain).
Oleh karena itu harus dibuat aturan (rule) kasus per kasus.
• Menghilangkan tanda baca
Seluruhnya: 10B.C → 10BC
val.id → valid (bermakna lain…?) Diperlukan adanya daftar kata-

kata pengecualian
• Mengubah huruf besar dan kecil (case folding)
PRE-PROCESSING
Stopwords
• Stopword adalah kata-kata yang sering muncul dalam teks
tetapi tidak begitu bermakna. Contoh: ini, itu, dan, pun, lah,
yang, akan, bahwa, yaitu, oleh, karena, dan lain-lain.
• Jumlah stopwords berbahasa Indonesia sekitar 300 sd 400

kata.
• Daftar stopword dapat ditentukan dengan mengekstrak kata-
kata dalam corpus dan menghitung frekuensi kemunculan
kata tersebut dalam teks. Pada umumnya, kata-kata yang
tergolong stopword memiliki frekuensi yang tinggi
• Penghilangan stopword dapat memperkecil ukuran indeks
lebih kurang 20 – 30 %
PRE-PROCESSING
Stemming
• Stemming adalah proses mengembalikan kata-kata menjadi
dalam bentuk kata dasar.
• Contoh: berlari -> lari, mengajarkan
-> ajar, keraguan -> ragu, dan lain-lain
• Stemming juga dapat memperkecil ukuran indeks dan kamus

(thesaurus) sd 40-50%
• Meningkatkan relevancy dalam IR
• Algoritma stemming dapat dibangun menggunakan aturan
(rule-based) dengan memperhatikan pola dalam awalan,
sisipan dan akhiran.
• Jiwa Malem, Taufik Abidin, Perancangan Algoritma Stemming
untuk Bahasa Indonesia, SNETE 2011.
PRE-PROCESSING
Membuat Kamus (Thesaurus)
Daftar kata-kata penting dari domain tertentu. Kamus
dapat juga berisi daftar kata-kata synonim.
Kata-kata dalam kamus dapat berupa single word (one-
gram), bi-grams dan three-grams.
Kamus dapat digunakan dalam membangun fitur untuk
merepresentasikan entity (dokumen, halaman web,
abstrak, paragraf)
Terima Kasih
AFIYATI SSi., MT.

Natural Language Processing 3

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Natural Language Processing 3

Diunggah oleh

Hak Cipta:

Format Tersedia

03

• Data Identitas pasien : nama , umur, alamat,

• George R. Terry berpendapat bahwa informasi adalah data

• Jumlah pasien baru bulan/tahun

• Salah satu proses pada data teks adalah Pre-

Seluruhnya: 10B.C → 10BC

val.id → valid (bermakna lain…?) Diperlukan adanya daftar kata-

• Jumlah stopwords berbahasa Indonesia sekitar 300 sd 400

• Stemming juga dapat memperkecil ukuran indeks dan kamus

Anda mungkin juga menyukai