Anda di halaman 1dari 3

Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti dalam Proses Text

Mining

Latar Belakang Masalah


Dengan berkembangnya teknologi yang semakin pesat maka kebutuhan akan penyajian
informasi yang cepat serta akurat sangat dibutuhkan. Semakin besarnya data yang beredar
dan terus bertambah besar secara pesat. Dan pengolahan data awal atau preprocessing
text dalam proses text mining diharapkan dapat mengurangi dengan menghilangkan kata-
kata atau teks yang tidak perlu atau tidak mempunyai arti database teks atau dokumen,
dengan berkurangnya teks ini diharapkan dapat meringankan proses selanjutnya dan
dapat menghasilkan informasi yang berguna tanpa mengurangi arti dan informasi dalam
teks. Dalam penelitian ini, penulis menerapkan text prepocessing untuk data yang akan
digunakan dalam proses Analisa sentimen, dimana data yang kita proses akan kita ambil
informasi yang terkandung didalamnya.

Rumusan Masalah

Adapun rumusan masalah dari jurnal ini adalah:

• Menerapkan text preprocessing dalam proses text mining untuk data yang akan
digunakan dalam proses Analisa sentimen dengan dengan experiment dan
pengujian menggunakan tools rapid miner yang memiliki fitur pemrosesan
diantaranya; transform case, filter stop word (Indonesia), Filter tokenize.
• Mengimplementasikan proses pembentukan vector kalimat dengan menggunakan
TF-IDF (term frequency-inverse document frequency) Matrix.

Signifikasi Penelitian

Pada penelelitian ini penulis mengembangkan informasi atau text mining dengan
menggunakan pengolahan sumber data yang baik dan terstruktur dengan proses awal atau
preprocessing text yang berguna untuk mengolah data awal yang masih bermacam macam
untuk menjadi sebuah data yang teratur dan dapat dikenai atau diterapkan beberapa
metode text mining yang ada. Dengan pengujian menggunakan tools rapidminer yang
memiliki fitur pemprosesan diantaranya:
1. Transform case
2. Filter stop word (Indonesia)
3. Filter tokenize

Untuk dapat diolah atau diproses ke algoritma selanjutnya maka data awal diperlukan
transformasi data dari teks kedalam sebuah matrix yang berisi numerik pada penelitian
ini penulis menggunkan proses pembentukan vector kalimat menggunakan TF-IDF
(Term frequency-inverse document frequency) matrix. Adapun proses text mining dan
alur preprocessing text sebagai berikut:

Mengandung unsur/ teori baru

Adapun hasil yang didapat dalam penelitian ini adalah:

1. Pada tahap pemrosesan awal data dengan menggunakan transform cases ini
mengubah semua huruf kedalam huruf kecil semua, namun jika teks sudah dalam
huruf kecil maka tidak di ubah. Dari dataset refiew aplikasi android berbahasa
indonesia ini ada beberapa teks atau huruf yang yang dirubah dari huruf besar kedalam
huruf kecil seperti yang ada pada tabel 4.
2. Pada tahapan ini menyeleksi fitur atau kata kata yang bukan merupakan kata, dalam
hal ini peneliti mengambil menghilangkan semua tanda baca dan segala sesuatu yang
bukan huruf jadi teks menjadi bersih dari tanda baca dan angka ataupun apapun yang
bukan huruf.
3. Pada tahapan ini filter stopword berfungsi untuk mengurangi atau menghilangkan
beberapa kata yang tidak memiliki hubungan terhadap sentimen, yaitu kata kata yang
tidak berpengaruh terhadap hasil sentimen pada review tersebut.

Penggunaan Referensi

Pada penulisan jurnal penelitian ini penulis menggunakan 7 sumber lain untuk dijadikan
referensi, dan penulis menggunakan semua sumber yang digunakan sebagai referensi.

Kajian Hasil Riset Sebelumnya yang Berkaitan

Pada penulisan jurnal penelitian ini, penulis tidak melampirkan penelitian terdahulu
terkait dengan penelitian yang penulis lakukan.

Ketepatan Penggunaan Metode

Dalam penelitian ini, penulis mengusulkan selanjutnya mungkin dapat di gunakan


berbagai kombinasi penggurangan kata, maupun stopword dengan bahasa yang lain atau
campuran, karena banyak kata kata bahasa asing atau bahasa gaul yang di gunakan.
Sehingga jika semakin kompleks stopword yang digunakan diharapkan dapat menambah
pengurangan kata yang tidak berarti tanpa mengurangi sentimen yang ada dalam kalimat
atau kata tersebut.

Anda mungkin juga menyukai