Anda di halaman 1dari 4

Kelpin

A11.2013.07912

Text Preprocessing

A. Text Mining
Proses menganalisis data yang berupa teks guna mencari kata kata yang dapat mewakili isi
dari dokumen. Berdasarkan ketidakteraturannya struktur data teks, maka text mining
memerlukan tahapan awal, yaitu tahap text preprocessing guna mengubah teks lebih
terstruktur.

B. Proses Text Mining

C. Tahap Preprocessing

Case Folding

Tokenizing

Filtering

Steamming

a. Case Folding
Mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (huruf
kecil / lowercase).
Kata Case Folding
Kelpin
A11.2013.07912

KOMPUTER komputer
KOMPOTER komputer
KomPUter komputer
Computer komputer

Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf


dihilangkan dan dianggap delimiter.
b. Tokenizing
Memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata.
Teks Token
Kota malang adalah penghasil buah kota
terbesar di Indonesia malang
adalah
penghasil
buah
terbesar
di
indonesia

Karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata.
Namun untuk karakter petik tunggal (), titik (.), semikolon (;), titk dua (:) atau lainnya,
dapat memiliki peran yang cukup banyak sebagai pemisah kata.

c. Filtering
Tahap mengambil kata kata penting dari hasil token. Kata yang, di, dari, dan
seterusnya. Beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan
hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini
dapat mengurangi ukuran index dan waktu pemrosesan.
Token Filtering
kota kota
Kelpin
A11.2013.07912

malang malang
adalah
penghasil penghasil
buah buah
terbesar terbesar
di
indonesia indonesia

d. Steamming
Pengelompokkan kata-kata lain yang memiliki kata dasar
Filtering Steamming
kota kota
malang malang
penghasil hasil
buah buah
terbesar besar
indonesia indonesia
Kelpin
A11.2013.07912

Sumber

1. Text Mining Budi Santoso Teknik Informatika UKDW Jogjakarta


2. https://informatikalogi.com/text-preprocessing/ by informatikalogi dipublikasi November
27, 2016
3. https://sis.binus.ac.id/2016/12/15/teori-text-mining-dan-web-mining/ dipublikasi 15
December 2016

Anda mungkin juga menyukai