Anda di halaman 1dari 2

PERTEMUAN 12

Tugas

Buatlah pertanyaan masalah dari tugas pertemuan 10 ?

1.Sebutkan dan jelaskan tahapan-tahapan dalam text_preprocessing atau cleaning data pada
analisis sentiment baik data yang di ambil dari twitter ataupun facebook ?

Jawaban :

Text Preprocessing adalah tahapan dimana kita melakukan seleksi data agar data yang akan
kita olah menjadi lebih terstruktur.

Tahapan-tahapan dalam text_preprocessing atau cleaning data sebagai berikut :

A. Case folding adalah proses untuk mengubah huruf dalam teks menjadi huruf standar atau
huruf kecil. Data yang diterima pada case folding hanya huruf 'a' sampai 'z', karakter selain
huruf-huruf tersebut dihilangkan dan hanya dianggap delimiter.

Contoh : KoMputer menjadi komputer (merubah huruf menjadi kecil semua).

B. Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang
menyusunnya.

Contoh : Solo spirit of central djava 

Solo

spirit

of

Central

Djava

C. Frequency Distribution adalah tahapan untuk mengetahui jumlah suatu kata dalam satu
kalimat.

Contoh : Sebelum km pergi,biarkan dia yg pergi

Sebelum(1),km(1),pergi(2),biarkan(1),dia(1),yg(1)

D. Filtering adalah tahap mengambil kata-kata penting dari hasil token.


Contoh : Sebelum km pergi,biarkan dia yg pergi

Sebelum

Km

Pergi

Biarkan

yg

Dia

Pergi

E. Normalization adalah tahap untuk menyeragamkan kata yang memiliki makna yang sama
namun penulisan berbeda.

Contoh : Sebelum km pergi,biarkan dia yg pergi

Sebelum Sebelum

Km  kamu

Pergi  pergi

Biarkan  biarkan

Dia  dia

Yg  yang

Pergi  pergi

F. Stemming adalah tahap dimana mencari kata dasar.

Contoh : Sebelum kamu pergi,biarkan dia yang pergi

Sebelum  belum

Kamu  kamu

Pergi  pergi

Biarkan  biar

Dia  dia

Yang  yang

Pergi  pergi

Anda mungkin juga menyukai