02 - Data Preprocessing
02 - Data Preprocessing
Data Preprocessing
Data Preprocessing
2 Data Preprocessing
Memberi ilustrasi pentingnya data preprocessing
3 Data Cleaning
Tujuan Instruksio Memberi gambaran tentang data cleaning
5 Data Transformation
Memberi gambaran tentang data transformation
6 Data Reduction
Memberi gambaran tentang data reduction
Data
Dapat berupa hasil pengukuran (numerik) a
tau penghitungan (kategori)
Variabel
Variabel
Interval Numerik Variabel Kategori
Variabel berbentuk angka Variabel non angka
1. Interval 1. Nominal
2. Ordinal
2. Rasio
Tutik Khotimah, S.Kom, M.Kom 6
Macam-macam Variabel
Interval Nominal
Variabel yang nilainya bisa diurutkan dan diukur de Variabel yang nilainya berupa simbol tetapi tidak d
ngan tetap dan nilai yang sama. apat diurutkan atau diukur jaraknya.
Nilai nol tidak didefinisikan secara mutlak Contoh: jenis kelamin: pria dan wanita
Contoh: temperatur
Rasio Ordinal
Variabel yang mempunyai nilai nol yang mutlak Variabel yang nilainya berupa simbol tetapi dapat d
iurutkan atau diukur jaraknya.
Semua operasi matematika dapat dilakukan pada v
ariabel ini Contoh: jarak (dekat, sedang, jauh)
Contoh: jarak
Data Preprocessing
Data Preprocess
Disebut juga Data Preparation
ing Langkah yang dilakukan agar data ment
ah menjadi data yang berkualitas
1 Data Cleaning
Membersihkan data
2 Data Integration
Menggabungkan data
3 Data Transformation
Mengubah data
4 Data Reduction
Mereduksi data
Data Cleaning
Data Cleaning
Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value, mengi
dentifikasi outlier, menangani data noise, mengoreksi data yang tidak konsisten, dan
menyelesaikan masalah redudansi data akibat integrasi data.
Menghapus record
Mengisi data yang kosong secara manual
Menggunakan konstanta global
Menggunakan atribut rata-rata
Data Integration
Data Integration
Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data integr
ation hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari
1 tempat). Langkah yang dilakukan antara lain mengintegrasikan skema, mengidentifikasi masalah enti
tas, dan mendeteksi sekaligus menyelesaikan konflik pada nilai data.
Tutik Khotimah, S.Kom, M.Kom 17
5
Data Transformation
Data Transformation
Nilai Kategori x1 x2 x3 x4 X5
Rusak 1 0 0 0 0
Jelek 0 1 0 0 0
Sedang 0 0 1 0 0
Bagus 0 0 0 1 0
Sempurna 0 0 0 0 1
1311.46
Xmax
Tutik Khotimah, S.Kom, M.Kom 23
6
Data Reduction
Data Reduction