DATA CLEANSING
Data Imputation Dengan Default Value
Hai, jumpa lagi di kursus analisis data untuk bisnis, bersama saya Arfika. Di bagian
sebelumnya kita telah mempraktikkan cara mengatasi duplicated data di Excel, di bagian ini
kita akan mempraktekkan cara mengatasi missing values, dengan mengaplikasikan data
imputation.
Topik ini terdiri dari dua sub topik, di mana kita akan belajar dua teknik yang berbeda, di
subtopik pertama kita akan belajar data imputation dan dengan menggunakan default value
dan di subtopik kedua, kita akan belajar menggunakan data imputation dengan
menggunakan average value. Setelah mempelajari bagian ini, anda diharapkan telah
mampu untuk menjelaskan permasalahan missing value dalam data dan melakukan data
Ketika mengecek data, kita sering menemukan data tidak lengkap atau bolong-bolong,
Penyebab umum yang pertama adalah memang pada dasarnya tidak ada data untuk
atribut dari record tersebut alias memang sudah seharusnya tidak lengkap dari sananya.
Sebagai contoh, jika anda masih ingat skenario review film yang saya jelaskan sebelumnya,
seorang user bisa saja memasukkan nilai review untuk film A, tetapi tidak untuk film B,
karena memang belum menonton film B, sedangkan user lain bisa jadi memasukkan nilai
review untuk film B, tetapi tidak untuk film A, karena memang belum menonton film A, data
yang seperti ini disebut space data alias data yang banyak kosong.
Penyebab yang kedua bisa jadi data entry-nya terlewat untuk atribut tersebut, data seperti
ini yang sebenarnya lebih mudah untuk dibersihkan. Contohnya sebagai berikut, jika kita
merujuk kepada daftar work order yang sudah kita gunakan sebelumnya, kita bisa lihat
untuk beberapa record data mekanisnya masih kosong, tidak seperti kasus sebelumnya
mengenai review film, data ini seharusnya tidak kosong bisa jadi terlewat, karena tidak
sempat dicatat.
TRANSKRIP – 1704DSE03
Selain kedua penyebab tersebut, ada kalanya data hilang ketika migrasi atau import data,
tetapi dengan perkembangan teknologi database yang ada, semakin kesini sudah semakin
jarang terjadi.
Sekarang pertanyaannya adalah bagaimana cara mengatasi anti values dari contoh kasus
barusan, solusinya adalah data imputation. Apa itu data imputation? Data imputation adalah
mengisi atau menggantikan data yang kosong atau hilang dengan nilai tertentu. Data
imputation sangat bermanfaat bagi data analis, karena data yang awalnya tidak lengkap
dan menjadi susah dianalisis pada akhirnya bisa menjadi lebih mudah untuk di analisis.
Data apa saja yang diinputasi biasanya ada categorical data berupa teks atau numerical
data berupa angka, nilai apa yang dipakai untuk menggantikan missing value tersebut. Ada
beberapa alternatif juga, ada menggunakan default value. Contoh, untuk numerical data
digunakan angka nol atau untuk categorical data digunakan unknown atau not available,
bisa juga untuk numerical data diganti dengan average value atau rata-rata dari data yang
ada, bisa juga dengan yang sedikit lebih canggih menggunakan regression value, tergantung
kebutuhan.
Untuk praktik data imputation ini, kita masih akan menggunakan dataset yang sebelumnya
yaitu mechanics work order, seperti yang sudah kita lihat ada beberapa record yang nama
mekaniknya masih kosong, kita akan mencoba menggantinya dengan default value
unknown atau tidak diketahui namanya, kita buka dulu dataset yang tadi pertama untuk
mengecek apakah ada data yang kosong? Ada dua cara kita bisa gunakan conditional
formatting, seperti sebelumnya atau bisa juga gunakan control+G, klik special, pilih blank,
Jika menggunakan conditional formatting, caranya masih sama. Pertama highlight dahulu
range data yang ingin dicari missing value-nya gunakan ctrl+a kemudian seperti biasa dari
tab home, klik conditional formatting, kemudian pilih new rule, kemudian klik format only
cells that contain dan untuk rows description-nya pilih blanks, sekarang masih belum ada
TRANSKRIP – 1704DSE03
format jadi kita harus specify formatnya misalkan akan kita highlight dengan warna kuning,
klik oke, oke. Otomatis blank values akan diberi warna kuning.
Sekarang, bagaimana cara mengatasi missing valuesnya? Kita bisa gunakan formula if,
masukan if kemudian logical testnya, kemudian nilai jika benar dan nilai jika salah, jadi
disini kita bisa ketik = if (kemudian logical testnya adalah mechanic = kosong, jika dia benar-
benar kosong kita isi dengan unknown, jika dia memang ada isinya kita biarkan dia memiliki
isi yang asli, lalu tutup, enter dan untuk meneruskannya untuk data yang lain tinggal double
click, seperti yang anda bisa lihat untuk yang di highlight kuning sekarang sudah diganti
dengan unknown, data ini bisa kita copy, control+C, kemudian disini kita gunakan pace
value setelah itu F bisa kita hapus, mudah bukan kita sekarang kita sudah memiliki seluruh
Di bagian ini, kita telah belajar mengenai permasalahan missing values ketika menganalisis
data dan mempraktikkan data imputation dengan default value. Di latihan ini kita
menggunakan default value berupa teks, tetapi Anda bisa memutuskan sendiri default value
Di bagian selanjutnya, kita akan berlatih melakukan data imputation dengan average value.