Data Preprocessing
for Machine Learning
(with Python)
Quote of the Day
Kita disini!
Tujuannya, supaya:
● Data bisa digunakan untuk melatih model
● Meningkatkan efisiensi model
● Meningkatkan performa model
a. Fitur Nominal
Fitur nominal yang sering juga disebut skala kualitatif adalah skala data yang
berfungsi hanya untuk membedakan dan tidak ada tingkatan diantaranya.
Contoh : Gender, Warna Rambut, Warna Mata
b. Fitur Ordinal
Fitur Ordinal atau skala kualitatif di mana data dikelompokkan menjadi orde
atau tingkatan-tingkatan.
Contoh : Jenjang Pendidikan, Kepuasan Pelanggan
a. Fitur Discrete
Data diskrit mewakili item yang dapat dihitung. Daftar nilai yang mungkin ada
batasnya (juga disebut finite); atau mungkin berubah dari 0, 1, 2, hingga tak
terhingga (membuatnya menjadi infinite).
(Contoh : Jumlah Siswa, Jumlah Kendaraan, dll)
b. Fitur Continuous
Data kontinu mewakili pengukuran; kemungkinan nilainya tidak dapat dihitung
dan hanya dapat dijelaskan menggunakan interval pada garis bilangan real.
(Contoh: Tinggi, Suhu, Kecepatan, dll)
1. Missing Value
2. Duplicated Data
3. Inconsistent Data
Categoric
● Mengisi dengan kategori paling banyak
● Mengisi dengan “other”
Numeric
● Mengisi dengan rata-rata/median
● Mengisi dengan nilai 0
Dampaknya
● Model tidak akan berjalan (error)
● Performa model menjadi berkurang
Ciri-ciri inconsistencyvalue
● Missing value diisi dengan ‘?’ atau ‘-’ atau karakter lainnya
● Adanya data dengan tipe kategorik di fitur umur
● Beda karakter dan standard penulisan
Cara Mengatasi
● Tiap kasus berbeda-beda
Gunakan standardization bila model yang kita pakai punya sensitive tentang
asumsi tentang normalitas (e.g. regresi linear)
u = mean
s = deviation
https://colab.research.google.com/drive/14b6pP6ftJA6G_sm7h4_6h52dSX8ZVogr?usp=sharing