Anda di halaman 1dari 27

Data Mining

Data Preprocessing

Tutik Khotimah, S.Kom, M.Kom


Materi Hari ini

Data Preprocessing

Tutik Khotimah, S.Kom, M.Kom 2


1 Data dan Variabel
Memberi penjelasan tentang konsep data dan variabel

2 Data Preprocessing
Memberi ilustrasi pentingnya data preprocessing

3 Data Cleaning
Tujuan Instruksio Memberi gambaran tentang data cleaning

nal 4 Data Integration


Memberi gambaran tentang data integration

5 Data Transformation
Memberi gambaran tentang data transformation

6 Data Reduction
Memberi gambaran tentang data reduction

Tutik Khotimah, S.Kom, M.Kom 3


1

Data dan Variabel


Data & Variabel

Data
Dapat berupa hasil pengukuran (numerik) a
tau penghitungan (kategori)

Variabel

Berfungsi sebagai placeholder untuk data

Tutik Khotimah, S.Kom, M.Kom 5


Macam-macam Variabel

Variabel
Interval Numerik Variabel Kategori
Variabel berbentuk angka Variabel non angka

1. Interval 1. Nominal
2. Ordinal
2. Rasio
Tutik Khotimah, S.Kom, M.Kom 6
Macam-macam Variabel

Interval Nominal
Variabel yang nilainya bisa diurutkan dan diukur de Variabel yang nilainya berupa simbol tetapi tidak d
ngan tetap dan nilai yang sama. apat diurutkan atau diukur jaraknya.

Nilai nol tidak didefinisikan secara mutlak Contoh: jenis kelamin: pria dan wanita

Contoh: temperatur

Rasio Ordinal
Variabel yang mempunyai nilai nol yang mutlak Variabel yang nilainya berupa simbol tetapi dapat d
iurutkan atau diukur jaraknya.
Semua operasi matematika dapat dilakukan pada v
ariabel ini Contoh: jarak (dekat, sedang, jauh)

Contoh: jarak

Tutik Khotimah, S.Kom, M.Kom 7


Data Set
Dataset adalah kumpulan data yang bi
asanya disajikan dalam bentuk tabel
Columns, Fields, Attributes, Variables,
Fiturs
Rows, Records, Objects, Cases, Instanc
es, Examples, Vectors
Values, Data

Tutik Khotimah, S.Kom, M.Kom 8


2

Data Preprocessing
Data Preprocess
Disebut juga Data Preparation
ing Langkah yang dilakukan agar data ment
ah menjadi data yang berkualitas

Tutik Khotimah, S.Kom, M.Kom 10


Perlunya Data Preprocessing
 Raw data banyak yang tidak lengkap (incomplete), terdapa
t missing values, redudansi, mengandung nois, inconsiste
nt
 Untuk meminimalisasi data sampah
 Untuk mempercepat proses mining data

Tutik Khotimah, S.Kom, M.Kom 11


Data Preprocessing
Macam-macam Data Preprocessing

1 Data Cleaning
Membersihkan data

2 Data Integration
Menggabungkan data

3 Data Transformation
Mengubah data

4 Data Reduction
Mereduksi data

Tutik Khotimah, S.Kom, M.Kom 12


3

Data Cleaning
Data Cleaning

Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value, mengi
dentifikasi outlier, menangani data noise, mengoreksi data yang tidak konsisten, dan
menyelesaikan masalah redudansi data akibat integrasi data.

Tutik Khotimah, S.Kom, M.Kom 14


Data Cleaning
Missing Values

 Menghapus record
 Mengisi data yang kosong secara manual
 Menggunakan konstanta global
 Menggunakan atribut rata-rata

Tutik Khotimah, S.Kom, M.Kom 15


4

Data Integration
Data Integration

Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data integr
ation hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari
1 tempat). Langkah yang dilakukan antara lain mengintegrasikan skema, mengidentifikasi masalah enti
tas, dan mendeteksi sekaligus menyelesaikan konflik pada nilai data.
Tutik Khotimah, S.Kom, M.Kom 17
5

Data Transformation
Data Transformation

Data transformation yaitu mengubah suatu data supaya diperoleh data y


ang lebih berkualitas. Yang akan dilakukan antara lain meng-agregasi dat
a, binerisasi, diskritisasi, normalisasi
Tutik Khotimah, S.Kom, M.Kom 19
Agregation

Mengkombinasi 2 atau lebih objek ke dalam obj


ek tunggal
Cabang IDT Tanggal Total
Gresik 102 18-09-2018 250.000 Agregasi yang dapat dilakukan: sum (jumlah), a
verage (rata-rata), min (terkecil), max (terbesar)
Gresik 103 18-09-2018 300.000
Surabaya 201 18-09-2018 500.000
Surabaya 202 18-09-2018 450.000
Surabaya 203 18-09-2018 350.000

Cabang Tanggal Total


Gresik 18-09-2018 550.000
Surabaya 18-09-2018 1.300.000 Tutik Khotimah, S.Kom, M.Kom 20
Binarization

Nilai Kategori x1 x2 x3 x4 X5
Rusak 1 0 0 0 0
Jelek 0 1 0 0 0
Sedang 0 0 1 0 0
Bagus 0 0 0 1 0
Sempurna 0 0 0 0 1

Mengubah data dari tipe kategori ke atribut biner

Tutik Khotimah, S.Kom, M.Kom 21


Discretization Mengubah data dari tipe numerik ke atribut kategori

Tutik Khotimah, S.Kom, M.Kom 22


0.10
Close BB Close
1289.12 0.90
0.22
Min-Max Normalizati
1285.33
BA
0.10 on
1307.28 0.77  BA = Batas Atas
1309.93 0.85  BB = Batas Bawah
1311.46 1285.33 0.90  Xmax = nilai maksimum
1311.28 Xmin 0.89  Xmin = nilai minimum

1311.46
Xmax
Tutik Khotimah, S.Kom, M.Kom 23
6

Data Reduction
Data Reduction

Web Designer Writer Photographer

Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun j


umlah data.

facebook.com twitter.com plus.google.com


Life can only be understood backwards;
but it must be lived forwards.
Terima Kasih

Tutik Khotimah, S.Kom, M.Kom

Anda mungkin juga menyukai