Anda di halaman 1dari 20

Data PreProcessing

Data Mining

Mardhiya hayaty, S.T, M.Kom

Fakultas Ilmu Komputer 1


Introduction to Data Preprocessing
Data PreProcessing

• Peningkatan jumlah data  Big data


• E-commerce, e-government, social media 
milyaran data yang tidak teratur : jutaan simbol,
singkatan, bahasa gaul.

Fakultas Ilmu Komputer 2


Introduction to Data Preprocessing
Data PreProcessing

Data Mining = menambang data


Vs
Menambang emas

Apakah langsung mendapatkan bongkahan emas


?
Kira-kira apa yang di dapatkan
?

Fakultas Ilmu Komputer 3


Data Preprocessing Goals
Data PreProcessing

1. Mempermudah memahami data


2. Meningkatkan kualitas data
3. Memudahkan prses penambangan data

Fakultas Ilmu Komputer 4


Data Preprocessing Techniques
Data PreProcessing

1. Data Preparation :
- data cleaning
- data transformation
- data integration
- data normalization
- missing data imputation
- noise identification
2. Data Reduction

Salvador Garcia, Julian Luengo, Herrera F, “Data Preprocessing in Data Mining”, Springer, 2015

Fakultas Ilmu Komputer 5


Forms of data preparation
Data PreProcessing

Salvador Garcia, Julian Luengo, Herrera F, “Data Preprocessing in Data Mining”, Springer, 2015

Fakultas Ilmu Komputer 6


Data Cleaning
Data PreProcessing

• Dirty data  data cleaning

• Jika data terdapat nilai kosong dan atau data


derau dan atau pencilan dan atau inkonsistensi

Dr. Suyanto, “Data Mining untuk klasifikasi dan Klaterisasi data”, informatika, 2019

Fakultas Ilmu Komputer 7


Data Cleaning
Data PreProcessing

Membersihkan nilai kosong :


1. Abaikan tupple tersebut
2. Isi atribut kosong secara manual
3. Gunakan sebuah konstanta global (“tak
dikenal”,”-’)
4. Isi dengan nilai tendensi sentral (rata-rata atau
median)

Fakultas Ilmu Komputer 8


Data Cleaning
Data PreProcessing

Contoh , mengabaikan tupple tersebut

Fakultas Ilmu Komputer 9


Data Cleaning
Data PreProcessing

• Data Derau : Adanya nilai yang jauh lebih kecil


atau lebih besar dari sebuah himpunan data
yang bervariasi

• Untuk mengatasinya harus dilakukan smoothing


(dengan memperhatikan nilai-nilai tetangga)

Fakultas Ilmu Komputer 10


Data Cleaning
Data PreProcessing

Data derau  Binning for Smoothing

Nama Internet($) 1. Urutkan data


Lala 150 2. Partisi data tersebut ke dalam bin
3. Tentukan teknik Smoothing :
Budi 300 - by mean
Hani 100 - by boundaries
Dio 200
Dedi 400
Fenita 380
Jono 70
Nada 250
Yani 270

Fakultas Ilmu Komputer 11


Data Cleaning
Data PreProcessing

1. Urutkan data
70,100,150,200,250,270,300,380,400

2. Misalnya jumlah bin 3

Bin 1 : 70,100,150
Bin 2 : 200,250,270
Bin 3 : 300,380,400

Fakultas Ilmu Komputer 12


Data Cleaning
Data ProProcessing

Teknik Smoothing  by Mean By mean :


Bin 1 : 70,100,150 Bin 1 : 107,107,107
Bin 2 : 200,250,270 Bin 2 : 240,240,240
Bin 3 : 300,380,400 Bin 3 : 360,360,360

Nama Internet($) Nama Internet($)


Lala 150 Lala 107
Budi 300 Budi 360
Hani 100 Hani 107
Dio 200 Dio 240
Dedi 400 Dedi 360
Fenita 380 Fenita 360
Jono 70 Jono 107
Nada 250 Nada 240
Yani 270 Yani 240

Fakultas Ilmu Komputer 13


Data Cleaning
Data PreProcessing

Teknik Smoothing  by Boundaries By Boundaries :


Bin 1 : 70,100,150 Bin 1 : 70,70,150
Bin 2 : 200,250,270 Bin 2 : 200,270,270
Bin 3 : 300,380,400 Bin 3 : 300,400,400
Nama Internet($) Nama Internet($)
Lala 150 Lala 150
Budi 300 Budi 300
Hani 100 Hani 70
Dio 200 Dio 200
Dedi 400 Dedi 400
Fenita 380 Fenita 400
Jono 70 Jono 70
Nada 250 Nada 270
Yani 270 Yani 270

Fakultas Ilmu Komputer 14


Data Cleaning
Data PreProcessing

• Data pencilan : data yang menyimpang dari data


yang lainnya

• Data pencilan dalam statistik disebut data


“outlier”

Fakultas Ilmu Komputer 15


Data Cleaning
Data PreProcessing

• Contoh kasus data pencilan pada proses Cluster

• data pencilan boleh dibuang/diabaikan, jumlah


data pencilan umumnya tidak banyak, hanya
sekitar 2% dari jumlah data

Fakultas Ilmu Komputer 16


Data Integration
Data PreProcessing

• Latar Belakang :
Database yang heterogen dari diperoleh dari
sumber yang berbeda  schema yang berbeda,
tipe data yang berbeda, representasi data yang
berbeda
• Mengatasi hal tersebut lakukan metadata
Segala hal yang menjelaskan tentang data,
misalnya nama atribut, arti semantic dari atribut,
tipe data, rentang nilai dll.

Fakultas Ilmu Komputer 17


Data Integration
Data PreProcessing

Sumber data 1 Sumber data 2


Nama Gender Menikah Nama JenisKelamin Menikah
Lala Wanita 1 Fenita W Ya
Budi Pria 1 Jono P Tidak
Hani Wanita 0 Nada W Tidak
Dio Pria 0 Yani W Ya

Cari perbedaan …..?

Apakah bisa digabungkan data tersebut ke dalam satu database ?

Rancang metadata…?

Fakultas Ilmu Komputer 18


Data Integration
Data PreProcessing

Sumber data 1 Data Integration


Nama Gender Menikah Nama JenisKela Menikah
min
Lala Wanita 1
Lala W Ya
Budi Pria 1
Budi P Ya
Hani Wanita 0
Hani W Tidak
Dio Pria 0
Dio P Tidak
Sumber data 2
Fenita W Ya
Nama JenisKelamin Menikah
Jono P Tidak
Fenita W Ya
Nada W Tidak
Jono P Tidak
Yani W Ya
Nada W Tidak
Yani W Ya

Fakultas Ilmu Komputer 19


Tugas
Data PreProcessing

• Buat makalah tentang Scrapping , Crawling


• Lakukan data collection dari social media/web
content menggunakan teknik tersebut*

*) data apa yang Anda butuhkan, terserah Anda

Fakultas Ilmu Komputer 20

Anda mungkin juga menyukai