1. Preprocessing adalah teknik awal data mining untuk mengubah raw data (data mentah)
menjadi format dan informasi yang lebih efisien dan bermanfaat. Format pada raw data
yang diambil dari berbagai macam sumber seringkali mengalami error, missing value, dan
tidak konsisten. Sehingga, perlu dilakukan pembenahan format agar hasil data mining tepat
dan akurat.
Stopword adalah prosespembuangan term yang tidak memiliki arti atau tidak
relevan. Term yangdiperoleh dari tahap tokenisasi dicek dalam suatu daftar
stopword, apabila sebuahkata masuk di dalam daftar stopword maka kata tersebut
tidak akan diproses lebihlanjut.
Stemming merupakan sebuah proses yang bertujuan untuk mereduksi jumlah variasi
dalam representasi dari sebuah kata.
4. Named-Entity Recognition (NER) merupakan bagian dari riset Natural Language Processing
(NLP) yang digunakan untuk mengekstrak informasi seperti nama orang, organisasi, lokasi,
dan waktu. NER bertujuan untuk menemukan dan menentukan jenis named entity pada
teks. NER dapat digunakan untuk mengetahui relasi antar named entity dan question
answering system. Tugas utama NER adalah untuk mencari named entiy dan menentukan
tipe named entity. Cara dasar untuk mengenali named entity adalah dengan mencari jenis
dari setiap kata pada teks menggunakan kamus. Namun penggunaan kamus dalam
menentukan named entity memiliki beberapa permasalahan, salah satunya yaitu
ambiguitas.
Contoh :
“Suparto, supir saya bertanya mengapa saya lebih senang diundang acara di desa daripada
undangan acara elit saya karena warga desa sering terabaikan mereka butuh disapa juga
karena saya butuh memahami kondisi warga di lapisan terbawah indonesia tapi yang tidak
kalah penting”.
Suparto = person
Supir saya = person
Desa = place
Warga desa = person
Lapisan terbawah Indonesia = place.