Anda di halaman 1dari 3

TRANSKRIP – 1704DSE03

DATA CLEANSING

Typo Dan Spasi

Hai, jumpa lagi di kursus analisis data untuk bisnis, bersama saya Arfika. Di bagian

sebelumnya kita telah belajar bagaimana mengkonversi data format mengikuti format codes

tertentu, kita juga telah menggabungkan data dari tabel yang berbeda dengan menggunakan

vlookup.

Di sub topik yang kedua ini, kita akan membersihkan data teks dari typo dan merapikan

spasi. Kadang-kadang kita menemukan data teks yang masih mengandung typo, typo ini bisa

macam-macam, ada yang karena spelling Errors, ada yang masalah penulisan huruf besar

atau kecilnya saja, ada juga yang tidak sesuai dengan pengkategorian data yang sudah

didefinisikan sebelumnya.

Untuk mencoba membetulkan typo, mari kita ganti tulisan filter dan Tires di dataset kita

menjadi salah, misal di sini oil atau filter kita ganti menjadi falter atau Tires menjadi tiris,

untuk solusi yang pertama, yaitu untuk kondisi spelling Errors kita bisa melakukan F7, not

conditionery falter, falter. Bagaimana yang Tires? F7, dia bisa Tires kemudian kita ganti dan

spell check-nya diperbaiki otomatis, itu cara yang pertama untuk Tires, tetapi masih gagal

untuk oil/falter, jika anda lihat price, perubahan disini menyebabkan tidak ditemukannya

matching data di worksheet nomor 3, jadi keluarnya adalah not applicable.

Bagaimana cara membetulkannya? Sekali lagi kita perlu gunakan vlookup ke master table, kita

insert, kemudian misalkan di sini sama dengan vlookup datanya ini, kemudian rangenya dari

sini kita F4 kan supaya $ signnya otomatis keluar, di sini kolam index number-nya, kita

masukkan kolom yang pertama, karena kita ingin membetulkan data yang pertama ini, range

lookup, pilih false, enter. Di sini kita bisa mengidentifikasi, ternyata tidak matching, lalu

mengecek secara manual, ternyata maksudnya oil atau filter. Jadi di sini kita bisa ganti,

control dan page value, angkanya menjadi kembali normal, itu cara yang kedua.

Bagaiman jika anda memiliki masalah penulisan huruf besar ke huruf kecilnya? Ada tiga

fungsi yang bisa digunakan, pertama fungsi upper, artinya mengubah semua kata menjadi

Halaman | 1
TRANSKRIP – 1704DSE03
upper case, yang kedua adalah lower, yang artinya mengubah semuanya menjadi lower case

atau huruf kecil, yang ketiga adalah proper, yang artinya huruf pertama adalah kapital dan

dilanjutkan oleh huruf kecil seperti ini. Jadi jika anda memiliki problem dengan penulisan

yang tidak seragam, huruf besar semua atau huruf kecil semua, anda bisa gunakan

transformasi barusan upper, lower atau proper.

Sekarang bagaimana dengan spasi? Kadang-kadang kita menemukan teks data yang memiliki

masalah spasi, contohnya adalah impor dari xml file, mengenai katalog buku yang pernah

kita impor di sesi 2, ketika dibuka di excel, text review masih ada masalah spasi seperti ini.

untuk membuktikannya mari kita import lagi.

Masih ingat caranya? klik power query, from file, from xml, kemudian klik books, ok, power

query akan otomatis mencoba mengimpor, kemudian kita coba preview, jika sudah cocok,

klick load to, kemudian table, new worksheet, note, ini adalah table yang berisi informasi dari

xml file barusan.

Di sini bisa kita lihat bahwa ketika dalam text description ada garis baru atau new line, seperti

antara applications dengan wive, atau antara koma dengan an evil atau disini nanotechnology

dengan Society, di dalam table excel dia akan terlihat spasi tambahan, bagaimana cara

merapikannya? Cara mudah, klik Insert untuk memasukkan kolom baru, kemudian di sini

gunakan formula TRIM, kemudian pilih description asal kolom asal, kurung tutup, enter. Di

sini kalau saya perkecil view-nya, kita bisa langsung membandingkan bahwa, spasi tambahan

di sini sudah hilang di versi TRIM.

Menarik untuk kita perhatikan, bahwa ketika kita melakukan function atau formula ketika

sudah di dalam bentuk data model, seperti yang tampil di power query ini, dia akan

mengarah kepada judulnya atau at description, judul kolomnya bukan ke alamat selnya,

sebelumnya kita gunakan F1, F2, F3, F4, tapi kalau di sini dia menggunakan at description,

jadi langsung me-refer ke kolamnya, dengan begini selesailah sudah praktek bagaimana

merapikan spasi.

Jadi, di bagian ini kita telah belajar bagaimana membersihkan data dari typo dan spasi yang

tidak teratur. Sudah lengkap seluruh sesi 3 kita tentang data cleansing. Membersihkan data

Halaman | 2
TRANSKRIP – 1704DSE03
secara manual mengetik satu per satu sangat memakan waktu. Semoga sekarang teman-

teman bisa membersihkan data di Excel dengan cepat dan efektif.

Terima kasih dan sampai jumpa di sesi berikutnya mengenai predictive analytics.

Halaman | 3

Anda mungkin juga menyukai