Anda di halaman 1dari 15

BIG DATA

Dedi Dwi Saputra, MKom


dedi.eis@nusamandiri.ac.id
0878-8496-8597

1
BIG Data

Dedi Dwi Saputra, M,Kom


HP : 087884968597
EMAIL : dedi.eis@nusamandiri.ac.id
BIG Data

• Praktikum Pre-Processing Text Mining - Part I


• Labelling pada Text Mining
• Cleansing pada Text Mining Berbahasa Indonesia
• Tugas Pertemuan 9

3/15 Dedi Dwi Saputra, M,Kom


1. Labelling pada Text Mining

4/15 5
Dedi Dwi Saputra, M,Kom
Step 1 – Labelling pada Text Mining

Setelah kita mengambil data pada twitter, maka langkah


selanjutnya ialah melakukan proses “Labelling”. Fungsi
“Labelling” ialah untuk mengklasifikasikan sebuah Text pada
sebuah label. Dalam contoh ini menggunakan label dengan
“Complaint & Not Complaint”.

NB :

Perlu diingat, bahwa untuk melakukan proses labelling


seorang peneliti tidak boleh melakukan proses labelling
terhadap datanya sendiri. Karena dapat menimbulkan
“Sentiment Pribadi” terhadap sebuah objek yang sedang di
teliti.

5/15 Dedi Dwi Saputra, M,Kom


2. Cleansing pada Text Mining Berbahasa
Indonesia

6/15 5
Dedi Dwi Saputra, M,Kom
Step 2 – Cleansing pada Text Mining

Pada tahap ke-2 ini yaitu mempersiapkan data untuk melakukan langkah-langkah yang disebut dengan text-
cleansing, dengan menggunakan aplikasi preprocessing. Pertama menggunakan Gataframework yang dapat
diakses melalui link http://www.gataframework.com/textmining/ berikut adalah tahapannya

• Annotation Removal
• Transformation Remove URL
• Tokenize Regular Expression (Regexp)
• Indonesian Stemming
• Indonesian Stopword Removal

7/15 Dedi Dwi Saputra, M,Kom


Step 2 – Cleansing pada Text Mining

• Annotation Removal

Sebuah proses untuk mengurai text berdasarkan “White Space”, dalam proses ini semua anotasi yang
terkandung dalam sebuah “tweet” akan dihilangkan dan mengubah seluruh huruf kapital menjadi huruf kecil.

8/15 Dedi Dwi Saputra, M,Kom


Step 2 – Cleansing pada Text Mining

• Transformation Remove URL

Hasil dari @anotation removal akan di lanjutkan ke proses Transformation Remove URL, dalam proses ini link
atau URL yang terkandung pada tweet akan dihilangkan.

9/15 Dedi Dwi Saputra, M,Kom


Step 2 – Cleansing pada Text Mining

• Tokenize Regular Expression (Regexp)

Hasil dari Transformation Remove URL dilanjutkan oleh proses Tokenization (Regexp) yaitu semua kata yang ada
didalam tiap dokumen dikumpulkan dan dihilangkan tanda baca, serta dihilangkan jika terdapat simbol, karakter
khusus atau apapun yang bukan huruf.

10/15 Dedi Dwi Saputra, M,Kom


Step 2 – Cleansing pada Text Mining

• Indonesian Stemming

Hasil dari Tokenize Regular Expression (Regexp) akan dilakukan proses stemming yaitu mengubah kata
berimbuhan menjadi kata dasar menggunakan indonesian stemming untuk tweet berbahasa Indonesia.

11/15 Dedi Dwi Saputra, M,Kom


Step 2 – Cleansing pada Text Mining

• Indonesian Stopword Removal

Hasil dari indonesian stemming akan di lanjutkan ke proses Indonesian stopword removal, dalam proses ini kata-
kata yang tidak relevan akan dihapus, seperti kata tetapi, untuk, dengan, yang dimana kata yang tidak
mempunyai makna tersendiri jika dipisahkan dengan kata yang lain dan tidak terkait dengan kata sifat yang
berhubungan dengan sentiment.

12/15 Dedi Dwi Saputra, M,Kom


3. Tugas Praktikum

13/15 5
Dedi Dwi Saputra, M,Kom
Tugas Praktikum

14/15 Dedi Dwi Saputra, M,Kom


SEKIAN
&
TERIMAKASIH

15/15 33
Dedi Dwi Saputra, M,Kom

Anda mungkin juga menyukai