DATA CLEANSING
Hai, jumpa lagi di kursus analisis data untuk bisnis, bersama saya Arfika. Di bagian
sebelumnya kita telah belajar bagaimana mengkonversi data format mengikuti format codes
tertentu, kita juga telah menggabungkan data dari tabel yang berbeda dengan menggunakan
vlookup.
Di sub topik yang kedua ini, kita akan membersihkan data teks dari typo dan merapikan
spasi. Kadang-kadang kita menemukan data teks yang masih mengandung typo, typo ini bisa
macam-macam, ada yang karena spelling Errors, ada yang masalah penulisan huruf besar
atau kecilnya saja, ada juga yang tidak sesuai dengan pengkategorian data yang sudah
didefinisikan sebelumnya.
Untuk mencoba membetulkan typo, mari kita ganti tulisan filter dan Tires di dataset kita
menjadi salah, misal di sini oil atau filter kita ganti menjadi falter atau Tires menjadi tiris,
untuk solusi yang pertama, yaitu untuk kondisi spelling Errors kita bisa melakukan F7, not
conditionery falter, falter. Bagaimana yang Tires? F7, dia bisa Tires kemudian kita ganti dan
spell check-nya diperbaiki otomatis, itu cara yang pertama untuk Tires, tetapi masih gagal
untuk oil/falter, jika anda lihat price, perubahan disini menyebabkan tidak ditemukannya
Bagaimana cara membetulkannya? Sekali lagi kita perlu gunakan vlookup ke master table, kita
insert, kemudian misalkan di sini sama dengan vlookup datanya ini, kemudian rangenya dari
sini kita F4 kan supaya $ signnya otomatis keluar, di sini kolam index number-nya, kita
masukkan kolom yang pertama, karena kita ingin membetulkan data yang pertama ini, range
lookup, pilih false, enter. Di sini kita bisa mengidentifikasi, ternyata tidak matching, lalu
mengecek secara manual, ternyata maksudnya oil atau filter. Jadi di sini kita bisa ganti,
control dan page value, angkanya menjadi kembali normal, itu cara yang kedua.
Bagaiman jika anda memiliki masalah penulisan huruf besar ke huruf kecilnya? Ada tiga
fungsi yang bisa digunakan, pertama fungsi upper, artinya mengubah semua kata menjadi
Halaman | 1
TRANSKRIP – 1704DSE03
upper case, yang kedua adalah lower, yang artinya mengubah semuanya menjadi lower case
atau huruf kecil, yang ketiga adalah proper, yang artinya huruf pertama adalah kapital dan
dilanjutkan oleh huruf kecil seperti ini. Jadi jika anda memiliki problem dengan penulisan
yang tidak seragam, huruf besar semua atau huruf kecil semua, anda bisa gunakan
Sekarang bagaimana dengan spasi? Kadang-kadang kita menemukan teks data yang memiliki
masalah spasi, contohnya adalah impor dari xml file, mengenai katalog buku yang pernah
kita impor di sesi 2, ketika dibuka di excel, text review masih ada masalah spasi seperti ini.
Masih ingat caranya? klik power query, from file, from xml, kemudian klik books, ok, power
query akan otomatis mencoba mengimpor, kemudian kita coba preview, jika sudah cocok,
klick load to, kemudian table, new worksheet, note, ini adalah table yang berisi informasi dari
Di sini bisa kita lihat bahwa ketika dalam text description ada garis baru atau new line, seperti
antara applications dengan wive, atau antara koma dengan an evil atau disini nanotechnology
dengan Society, di dalam table excel dia akan terlihat spasi tambahan, bagaimana cara
merapikannya? Cara mudah, klik Insert untuk memasukkan kolom baru, kemudian di sini
gunakan formula TRIM, kemudian pilih description asal kolom asal, kurung tutup, enter. Di
sini kalau saya perkecil view-nya, kita bisa langsung membandingkan bahwa, spasi tambahan
Menarik untuk kita perhatikan, bahwa ketika kita melakukan function atau formula ketika
sudah di dalam bentuk data model, seperti yang tampil di power query ini, dia akan
mengarah kepada judulnya atau at description, judul kolomnya bukan ke alamat selnya,
sebelumnya kita gunakan F1, F2, F3, F4, tapi kalau di sini dia menggunakan at description,
jadi langsung me-refer ke kolamnya, dengan begini selesailah sudah praktek bagaimana
merapikan spasi.
Jadi, di bagian ini kita telah belajar bagaimana membersihkan data dari typo dan spasi yang
tidak teratur. Sudah lengkap seluruh sesi 3 kita tentang data cleansing. Membersihkan data
Halaman | 2
TRANSKRIP – 1704DSE03
secara manual mengetik satu per satu sangat memakan waktu. Semoga sekarang teman-
Terima kasih dan sampai jumpa di sesi berikutnya mengenai predictive analytics.
Halaman | 3