DATA MINING
“Data Preprocessing”
Oleh
MUHAMMAD ZULFAN
Nim : 1657301066
Kelas : TI 4.3
Program Studi : Teknik Informatika
No. Praktikum : 01 / PDM/ TI/ 2019
Dosen Pembimbing : Muhammad Arhami,S.Si.,M.Kom
2019
LEMBARAN PENGESAHAN
NIM : 1657301066
ii
DAFTAR ISI
iii
BAB 1
PENDAHULUAN
1.1 Tujuan
1. Mahasiswa mampu menyebutkan tipe-tipe data yang digunakan dalam
data mining.
2. Mahasiswa mampu menjelaskan permasalahan kualitas data dan
penyelesaiannya.
3. Mahasiswa mampu melakukan data preprocessing
1
informasi baru dengan mencari pola atau aturan tertendu dari sejumlah data
yang sangat besar.
2
BAB 1I
LANDASAN TEORI
1) Case Folding
Case folding merupakan tahapan yang mengubah semua huruf
dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan
‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap
delimiter (pembatas)(Triawati, 2009)
2) Tokenizing
Tahap tokenizing / parsing adalah tahap pemotongan string input
berdasarkan tiap kata yang menyusunnya(Triawati, 2009). Selain
itu, spasi digunakan untuk memisahkan antar kata tersebut.
3
3) Filtering
Tahap filtering adalah tahap mengambil kata - kata penting dari
hasil tokenizing. Proses filtering dapat menggunakan algoritma
stoplist (membuang kata yang kurang penting) atau wordlist
(menyimpan kata penting). Stoplist / stopword adalah kata-kata
yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-
words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain
– lain.(Triawati, 2009).
4) Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem
IR yang mentransformasi kata-kata yang terdapat dalam suatu
dokumen ke kata-kata akarnya (root word) dengan menggunakan
aturan-aturan tertentu (Agusta, 2009). Stemming kebanyakan
digunakan pada teks berbahasa inggris dikarenakan teks berbahasa
inggris memiliki struktur imbuhan yang tetap dan mudah untuk
diolah
4
BAB III
PERCOBAAN
5
c. Ketik nama relasi di sebelah @relation.
d. Ketik nama atribut dan tipe data masing-masing atribut @atribut
sesuai jumlah atribut yang digunakan.
e. Ketik nilai data dibawah @data untuk tiap baris table sesuai dengan
atributnya dipisah menggunakan tanda koma.
6
b. Pilih menu Explore sehingga akan muncul jendela Weka Explore
c. Pilih tombol Open File untuk membuka file ARFF yang telah dibuat.
Klik Open.
7
Berikut ini gambar grafik untuk contoh data yang bertipe real.
8
Output :
All Attribute
9
Analisa :
10
Output :
All Atribte
11
Analisa :
12
Output :
All Atribute
13
Analisa :
14
Output :
15
All Atribute
Analisa :
16
BAB IV
PENUTUP
4.1 Kesimpulan
Jadi dapat di simpulkan :
1) Data mining adalah ekstraksi pola yang menarik dari data dalam
jumlah besar.
2) Data preprocessing adalah jenis pemrosesan yang dapat mengubah
data menjadi informasi atau pengetahuan. Pemrosesan data ini
sering menggunakan komputer sehingga bisa berjalan secara
otomatis.
3) Alasan utama mengapa data mining sangat menarik perhatian
industri informasi dalam beberapa tahun belakangan ini adalah
karena tersedianya data dalam jumlah yang besar dan semakin
besarnya kebutuhan untuk mengubah data tersebut menjadi
informasi dan pengetahuan yang berguna karena sesuai fokus bidang
ilmu
4) Tahapan preprocessing berdasarkan (Triawati, 2009) , yaitu: case
folding, tokenizing / parsing, filtering, stemming.
17
DAFTAR PUSTAKA
https://www.slideshare.net/RismaludinMilika/inilah-pengertian-data-mining-menurut-
para-ahli, diakses pada tanggal 02 oktober 2019
https://andyku.wordpress.com/2008/11/21/melakukan-preprocessing-data/, diakses
pada tanggal 02 okteber 2019