Anda di halaman 1dari 3

TRANSKRIP – 1704DSE03

DATA CLEANSING
Data Imputation Dengan Default Value

Hai, jumpa lagi di kursus analisis data untuk bisnis, bersama saya Arfika. Di bagian

sebelumnya kita telah mempraktikkan cara mengatasi duplicated data di Excel, di bagian ini

kita akan mempraktekkan cara mengatasi missing values, dengan mengaplikasikan data

imputation.

Topik ini terdiri dari dua sub topik, di mana kita akan belajar dua teknik yang berbeda, di

subtopik pertama kita akan belajar data imputation dan dengan menggunakan default value

dan di subtopik kedua, kita akan belajar menggunakan data imputation dengan

menggunakan average value. Setelah mempelajari bagian ini, anda diharapkan telah

mampu untuk menjelaskan permasalahan missing value dalam data dan melakukan data

imputation di Excel dengan menggunakan default value.

Ketika mengecek data, kita sering menemukan data tidak lengkap atau bolong-bolong,

penyebabnya bisa bermacam-macam.

Penyebab umum yang pertama adalah memang pada dasarnya tidak ada data untuk

atribut dari record tersebut alias memang sudah seharusnya tidak lengkap dari sananya.

Sebagai contoh, jika anda masih ingat skenario review film yang saya jelaskan sebelumnya,

seorang user bisa saja memasukkan nilai review untuk film A, tetapi tidak untuk film B,

karena memang belum menonton film B, sedangkan user lain bisa jadi memasukkan nilai

review untuk film B, tetapi tidak untuk film A, karena memang belum menonton film A, data

yang seperti ini disebut space data alias data yang banyak kosong.

Penyebab yang kedua bisa jadi data entry-nya terlewat untuk atribut tersebut, data seperti

ini yang sebenarnya lebih mudah untuk dibersihkan. Contohnya sebagai berikut, jika kita

merujuk kepada daftar work order yang sudah kita gunakan sebelumnya, kita bisa lihat

untuk beberapa record data mekanisnya masih kosong, tidak seperti kasus sebelumnya

mengenai review film, data ini seharusnya tidak kosong bisa jadi terlewat, karena tidak

sempat dicatat.
TRANSKRIP – 1704DSE03

Selain kedua penyebab tersebut, ada kalanya data hilang ketika migrasi atau import data,

tetapi dengan perkembangan teknologi database yang ada, semakin kesini sudah semakin

jarang terjadi.

Sekarang pertanyaannya adalah bagaimana cara mengatasi anti values dari contoh kasus

barusan, solusinya adalah data imputation. Apa itu data imputation? Data imputation adalah

mengisi atau menggantikan data yang kosong atau hilang dengan nilai tertentu. Data

imputation sangat bermanfaat bagi data analis, karena data yang awalnya tidak lengkap

dan menjadi susah dianalisis pada akhirnya bisa menjadi lebih mudah untuk di analisis.

Data apa saja yang diinputasi biasanya ada categorical data berupa teks atau numerical

data berupa angka, nilai apa yang dipakai untuk menggantikan missing value tersebut. Ada

beberapa alternatif juga, ada menggunakan default value. Contoh, untuk numerical data

digunakan angka nol atau untuk categorical data digunakan unknown atau not available,

bisa juga untuk numerical data diganti dengan average value atau rata-rata dari data yang

ada, bisa juga dengan yang sedikit lebih canggih menggunakan regression value, tergantung

kebutuhan.

Untuk praktik data imputation ini, kita masih akan menggunakan dataset yang sebelumnya

yaitu mechanics work order, seperti yang sudah kita lihat ada beberapa record yang nama

mekaniknya masih kosong, kita akan mencoba menggantinya dengan default value

unknown atau tidak diketahui namanya, kita buka dulu dataset yang tadi pertama untuk

mengecek apakah ada data yang kosong? Ada dua cara kita bisa gunakan conditional

formatting, seperti sebelumnya atau bisa juga gunakan control+G, klik special, pilih blank,

oke, otomatis bagian yang kosong akan ter-highlight.

Jika menggunakan conditional formatting, caranya masih sama. Pertama highlight dahulu

range data yang ingin dicari missing value-nya gunakan ctrl+a kemudian seperti biasa dari

tab home, klik conditional formatting, kemudian pilih new rule, kemudian klik format only

cells that contain dan untuk rows description-nya pilih blanks, sekarang masih belum ada
TRANSKRIP – 1704DSE03

format jadi kita harus specify formatnya misalkan akan kita highlight dengan warna kuning,

klik oke, oke. Otomatis blank values akan diberi warna kuning.

Sekarang, bagaimana cara mengatasi missing valuesnya? Kita bisa gunakan formula if,

formula if memiliki format sebagai berikut:

masukan if kemudian logical testnya, kemudian nilai jika benar dan nilai jika salah, jadi

disini kita bisa ketik = if (kemudian logical testnya adalah mechanic = kosong, jika dia benar-

benar kosong kita isi dengan unknown, jika dia memang ada isinya kita biarkan dia memiliki

isi yang asli, lalu tutup, enter dan untuk meneruskannya untuk data yang lain tinggal double

click, seperti yang anda bisa lihat untuk yang di highlight kuning sekarang sudah diganti

dengan unknown, data ini bisa kita copy, control+C, kemudian disini kita gunakan pace

value setelah itu F bisa kita hapus, mudah bukan kita sekarang kita sudah memiliki seluruh

data untuk data mekanik.

Di bagian ini, kita telah belajar mengenai permasalahan missing values ketika menganalisis

data dan mempraktikkan data imputation dengan default value. Di latihan ini kita

menggunakan default value berupa teks, tetapi Anda bisa memutuskan sendiri default value

seperti apa yang cocok untuk data Anda.

Di bagian selanjutnya, kita akan berlatih melakukan data imputation dengan average value.

Terima kasih dan sampai jumpa di bagian berikutnya.

Anda mungkin juga menyukai