Anda di halaman 1dari 21

LAPORAN PRAKTIKUM 1

DATA MINING

“Data Preprocessing”

Oleh

MUHAMMAD ZULFAN

Nim : 1657301066
Kelas : TI 4.3
Program Studi : Teknik Informatika
No. Praktikum : 01 / PDM/ TI/ 2019
Dosen Pembimbing : Muhammad Arhami,S.Si.,M.Kom

KEMENTRIAN RISET DAN KEMENTRIAN TINGGI

POLITEKNIK NEGERI LHOKSEUMAWE

2019
LEMBARAN PENGESAHAN

No. Praktikum : 01/ PDM/ TI/ 2019

Judul Praktikum : Data Preprocessing

Nama : Muhammad Zulfan

NIM : 1657301066

Jurusan : Teknologi Informasi dan Komputer

Program Studi : Teknik Informatika

Tanggal Percobaan : 27 September 2019

Tanggal Penyerahan : 04 Oktober 2019

Dosen Pembimbing : Muhammad Arhami,S.Si.,M.Kom

Buket Rata, 14 Maret 2019


Mahasiswa Dosen pembimbing

Muhammad Zulfan Muhammad Arhami,S.Si.,M.Kom


NIM 1657301054 NIP 19741029 200003 1 001

ii
DAFTAR ISI

BAB 1 PENDAHULUAN ..................................................................................... 1


1.1 Tujuan ..................................................................................................... 1
1.2 Latar Belakang ....................................................................................... 1
BAB 1I LANDASAN TEORI .......................................................................... 3
2.1 Definisi Data Preprocessing ................................................................... 3
2.2 Tahapan Preprocessing .......................................................................... 3
2.3 Metode Yang Digunakan Dalam Preprocessing .................................. 4
BAB III PERCOBAAN......................................................................................... 5
3.1 Alat Dan Bahan....................................................................................... 5
3.2 Langkah Percobaan................................................................................ 5
3.2.1 Membuat Format Data ARFF (Atribute Relation File Format) ........ 5
3.2.2 Menggunakan File ARFF degan Weka ............................................. 6
3.3 PERCOBAAN, HASIL DAN ANALISA PROGRAM........................ 8
3.3.1 Kemungkinan Seseorang Akan Bermain tenis .................................. 8
3.3.2 Lama studi Mahasiswa .................................................................... 10
3.3.3 Rekomendasi Pegawai .................................................................... 12
3.3.4 Pemilihan Jenis Lensa Seseorang.................................................... 14
BAB IV PENUTUP ............................................................................................. 17
4.1 Kesimpulan ........................................................................................... 17
DAFTAR PUSTAKA ..............................................................................................

iii
BAB 1
PENDAHULUAN

1.1 Tujuan
1. Mahasiswa mampu menyebutkan tipe-tipe data yang digunakan dalam
data mining.
2. Mahasiswa mampu menjelaskan permasalahan kualitas data dan
penyelesaiannya.
3. Mahasiswa mampu melakukan data preprocessing

1.2 Latar Belakang


Perkembangan yang pesat di bidang pengumpulan data dan teknologi
penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau
besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu
panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang
katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari
intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu data mining ini.

Menurut, Wikipedia data mining adalah ekstraksi pola yang menarik


dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola
tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola
yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan
diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data
memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti
KDD (knowledge discovery in database), analisis pola, arkeologi data,
pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat
data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem
basis data perusahaan, e-commerce, data saham, dan data bioinformatika),
tetapi tidak tahu pola apa yang bisa didapatkan. Sedangkan menurut, Davies
(2004) Secara sederhana data mining adalah penambangan atau penmuan

1
informasi baru dengan mencari pola atau aturan tertendu dari sejumlah data
yang sangat besar.

Alasan utama mengapa data mining sangat menarik perhatian industri


informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data
dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah
data tersebut menjadi informasi dan pengetahuan yang berguna karena sesuai
fokus bidang ilmu ini yaitu melakukan kegiatan mengekstraksi atau
menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi
inilah yang nantinya sangat berguna untuk pengembangan. berikut langkah-
langkah dalam data mining :

1) Data cleaning (untuk menghilangkan noise data yang tidak konsisten)


2) Data integration (di mana sumber data yang terpecah dapat disatukan).
3) Data selection (di mana data yang relevan dengan tugas analisis
dikembalikan ke dalam database).
4) Data transformation (di mana data berubah atau bersatu menjadi bentuk
yang tepat untuk menambang dengan ringkasan performa atau operasi
agresi).
5) Knowledge Discovery (proses esensial di mana metode yang intelejen
digunakan untuk mengekstrak pola data).
6) Pattern evolution (untuk mengidentifikasi pola yang benar-benar
menarik yang mewakili pengetahuan berdasarkan atas beberapa
tindakan yang menarik).
7) Knowledge presentation (di mana gambaran teknik visualisasi dan
pengetahuan digunakan untuk memberikan pengetahuan yang telah
ditambang kepada user).

2
BAB 1I
LANDASAN TEORI

2.1 Definisi Data Preprocessing


Menurut, Wikipedia data preprocessing adalah jenis pemrosesan yang
dapat mengubah data menjadi informasi atau pengetahuan. Pemrosesan data ini
sering menggunakan komputer sehingga bisa berjalan secara otomatis. Setelah
diolah, data ini biasanya mempunyai nilai yang informatif jika dinyatakan dan
dikemas secara terorganisir dan rapi, maka istilah pemrosesan data sering
dikatakan sebagai sistem informasi. Kedua istilah ini mempunyai arti yang
hampir sama, pemrosesan data mengolah dan memanipulasi data mentah
menjadi informasi (hasil pengolahan), sedangkan sistem informasi memakai
data sebagai bahan masukan dan menghasilkan informasi sebagai produk
keluaran.. Preprocessing text dilakukan untuk tujuan penyeragaman dan
kemudahan pembacaan serta proses LSA selanjutnya (Aji P., Baizal SSi. and
Firdaus S.T., 2011).

2.2 Tahapan Preprocessing


Tahapan preprocessing berdasarkan (Triawati, 2009) , yaitu: case
folding, tokenizing / parsing, filtering, stemming. Berikut penjelasan empat
tahapan dalam proses preprocessing adalah sebagai berikut.

1) Case Folding
Case folding merupakan tahapan yang mengubah semua huruf
dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan
‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap
delimiter (pembatas)(Triawati, 2009)
2) Tokenizing
Tahap tokenizing / parsing adalah tahap pemotongan string input
berdasarkan tiap kata yang menyusunnya(Triawati, 2009). Selain
itu, spasi digunakan untuk memisahkan antar kata tersebut.
3
3) Filtering
Tahap filtering adalah tahap mengambil kata - kata penting dari
hasil tokenizing. Proses filtering dapat menggunakan algoritma
stoplist (membuang kata yang kurang penting) atau wordlist
(menyimpan kata penting). Stoplist / stopword adalah kata-kata
yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-
words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain
– lain.(Triawati, 2009).
4) Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem
IR yang mentransformasi kata-kata yang terdapat dalam suatu
dokumen ke kata-kata akarnya (root word) dengan menggunakan
aturan-aturan tertentu (Agusta, 2009). Stemming kebanyakan
digunakan pada teks berbahasa inggris dikarenakan teks berbahasa
inggris memiliki struktur imbuhan yang tetap dan mudah untuk
diolah

2.3 Metode Yang Digunakan Dalam Preprocessing


Teknik atau metode yang digunakan dalam data preprocessing,
diantaranya:
1) Data cleaning: Menghilangkan nilai-nilai data yang salah, memperbaiki
kekacauan data dan memeriksa data yang tidak konsisten.
2) Data integrasi: Menggabungkan data dari beberapa sumber (database,
data cube, atau file) ke dalam penyimpanan data yang sesuai.
3) Data transformasi: Normalisasi dan pengumpulan data sehingga
menjadi sama.
4) Data reduksi: Menguraikan data ke dalam bentuk yang lebih kecil
ukurannya tetapi tetap menghasilkan hasil analitis yang sama.
5) Data diskretisasi: Bagian dari data reduksi tetapi memiliki arti penting
tersendiri, terutama untuk data numerik.

4
BAB III
PERCOBAAN

3.1 Alat Dan Bahan


1. Komputer dengan system operasi windows.
2. Program aplikasi Notepad++ / Notepad.
3. Program aplikasi Weka.
4. Modul Pratikum Data Warehousing dan Data Mining

3.2 Langkah Percobaan


3.2.1 Membuat Format Data ARFF (Atribute Relation File Format)
a. Buka aplikasi Notepad++

b. Ketikkan 3 komponen utam dalam format file ARFF yaitu


@relation, @attribute, dan @data pada jendela code editor anda.

5
c. Ketik nama relasi di sebelah @relation.
d. Ketik nama atribut dan tipe data masing-masing atribut @atribut
sesuai jumlah atribut yang digunakan.
e. Ketik nilai data dibawah @data untuk tiap baris table sesuai dengan
atributnya dipisah menggunakan tanda koma.

f. Simpan file dengan nama sesuai relasi dan ektensi arff.

3.2.2 Menggunakan File ARFF degan Weka


a. Buka Aplikasi Weka.

6
b. Pilih menu Explore sehingga akan muncul jendela Weka Explore

c. Pilih tombol Open File untuk membuka file ARFF yang telah dibuat.
Klik Open.

d. Sehingga dalam Weka Explore akan tampak grafik statistik masing-


masing attribute pada table Cuaca.
Berikut adalah grafik untuk contoh data yang bertipe binomial atau
polynomial.

7
Berikut ini gambar grafik untuk contoh data yang bertipe real.

3.3 PERCOBAAN, HASIL DAN ANALISA PROGRAM


3.3.1 Kemungkinan Seseorang Akan Bermain tenis
Input :

8
Output :

 All Attribute

9
Analisa :

Dari perceboaan diatas dapat disimpulkan:

a. Grafik warna biru menandakan seseorang akan bermain


tenis dan warna merah tidak akan bermain tenis.
b. Atribute cuaca termasuk kedalam attribute bertipe
polynomial, pada saat cuaca cerah yaitu 4 orang akan
bermain tenis, diikuti cucaca hujam 3 orang, dan cerah 2
orang.
c. Atribute Suhu termasuk kedalam atribute real. Ketika suhu
diantara 64-74.5 derjat maka 5 orang akan bermain
tenis,suhu diantara 74.5 – 85 derjat 4 orang akan bermain
tenis.
d. Atribute kelembaban Udara termasuk kedalam atribute real.
Ketika Kelembaban udara diantara 65-80.5 maka 6 orang
akan bermain tenis, Kelembaban udara diantara 80.5 – 96 3
orang akan bermain tenis.
e. Atribute berangin termasuk kedalam attribute bertipe
binomial, pada saat berangin = ya 3 orang akan bermain
tenis, berangin = tidak 6 orang akan bermain tenis,.
f. Atribute berangin termasuk kedalam attribute bertipe
binomial, dapat disipulkan dari 14 orang 9 orang akan
bermain tenis dan 5 nya tidak.

3.3.2 Lama studi Mahasiswa


Input :

10
Output :

 All Atribte

11
Analisa :

Dari perceboaan diatas dapat disimpulkan:

g. Grafik warna biru menandakan seseorang akan tepat


menyelesaikan studi dan warna merah terlambat
menyelesaikan studi.
h. Atribute Jurusan_SMA termasuk kedalam attribute bertipe
polynomial, jurusan SMA banyak yang tepat menyelesaikan
studi yaitu 7 orang, diikuti IPS 3 orang, dan lainnya 2 orang.
i. Atribute Gender termasuk kedalam atribute binomial. 9
orang dari 14 pria tepat menyelesaikan studi, sedangkan 4
orang dari 5 wanita tepat menyelesakan studi.
j. Atribute Asal_Sekolah termasuk kedalam atribute binomial.
9 orang dari 14 asal sekolah surakarta tepat menyelesaikan
studi, sedangkan 4 orang dari 6 sekolah diluar surakarta
tepat menyelesakan studi.
k. Atribute Rerata_SKS termasuk kedalam atribute real. 3
orang akan menyelesaikan studi dengan rerata sks 16-18.33.
7 orang akan menyelesaikan studi dengan rerata sks 18.33-
20.667, dan 3 orang akan menyelesaikan studi dengan rerata
sks 20.667-23.
l. Atribute Asisten termasuk kedalam atribute binomial. 5
orang dari 5 yang merupakan asisten tepat menyelesaikan
studi, sedangkan 8 orang dari 14 yang bukan asisten tepat
menyelesakan studi.
m. Atribute lama studi termasuk kedalam attribute bertipe
binomial, dapat disipulkan dari 19 orang, 12 orang tepat
menyelesaikan studi.

3.3.3 Rekomendasi Pegawai


Input :

12
Output :

 All Atribute

13
Analisa :

Dari perceboaan diatas dapat disimpulkan:

a. Grafik warna biru menandakan pegawai tersebut akan di


rekomendasi dan warna merah tidak akan direkomendasi.
b. Atribute Gender termasuk kedalam atribute binomial. 9
orang dari 14 pria tepat menyelesaikan studi, sedangkan 4
orang dari 5 wanita tepat menyelesakan studi.
c. Atribute lingkungan termasuk kedalam atribute binomial. 9
orang dari 11 orang yang peduli direkomendasikan,
sedangkan yang kurangpeduli tidak ada yang
direkomendasikan.
d. Atribute Kerjasama termasuk kedalam atribute binomial. 6
orang dari 18 orang yang mampu direkmondasikan,
sedangkan 3 orang dari 6 yang tidak mampu
direkomendasikan.
e. Atribute Prakasa termasuk kedalam attribute bertipe
polynomial, yang inisiatif banyak yang direkomendasikan
yaitu 7 orang, diikuti IPS 3 orang, tidak inisiatif dan kurang
inisiatif sama - sama hanya 1 orang yang
direkomendasakina
f. Atribute lama studi termasuk kedalam attribute bertipe
binomial, dapat disimpulkan dari 14 orang, 9 orang
direkomendasikan

3.3.4 Pemilihan Jenis Lensa Seseorang


Input :

14
Output :

15
 All Atribute

Analisa :

Dari perceboaan diatas dapat disimpulkan:

a. Grafik warna biru menandakan seseorang tidak perlu


menggunakan lensa,warna merah menggunakan lensa soft,
dan warna cian menggunakan lensa hard.
b. Dari semua atribut dapat disimpulkan 14 orang tidak perlu
menggunakan lensa, 5 orang menggunakan soft dan 4 orang
menggunakan hard.

16
BAB IV
PENUTUP

4.1 Kesimpulan
Jadi dapat di simpulkan :

1) Data mining adalah ekstraksi pola yang menarik dari data dalam
jumlah besar.
2) Data preprocessing adalah jenis pemrosesan yang dapat mengubah
data menjadi informasi atau pengetahuan. Pemrosesan data ini
sering menggunakan komputer sehingga bisa berjalan secara
otomatis.
3) Alasan utama mengapa data mining sangat menarik perhatian
industri informasi dalam beberapa tahun belakangan ini adalah
karena tersedianya data dalam jumlah yang besar dan semakin
besarnya kebutuhan untuk mengubah data tersebut menjadi
informasi dan pengetahuan yang berguna karena sesuai fokus bidang
ilmu
4) Tahapan preprocessing berdasarkan (Triawati, 2009) , yaitu: case
folding, tokenizing / parsing, filtering, stemming.

17
DAFTAR PUSTAKA

http://muhammadshiddiq-aa.blogspot.com/2017/01/data-mining.html, diakses pada


tanggal 02 oktober 2019

https://gsbipb.com/?p=821, diakses pada tanggal 02 oktebor 2019

https://www.slideshare.net/RismaludinMilika/inilah-pengertian-data-mining-menurut-
para-ahli, diakses pada tanggal 02 oktober 2019

https://id.wikipedia.org/wiki/Pemrosesan_data, diakses pada tanggal 02 oktober 2019

https://id.wikipedia.org/wiki/Penggalian_data, diakses pada tanggal 02 oktober 2019

http://tugasakhirkami.blogspot.com/2012/04/preprocessing.html, diakses pada tanggal


02 okteber 2019

https://andyku.wordpress.com/2008/11/21/melakukan-preprocessing-data/, diakses
pada tanggal 02 okteber 2019

Anda mungkin juga menyukai