FAKULTAS TEKNIK UNIVERSITAS UDAYANA 2019 Data cleaning adalah proses analisa kualitas dari suatu data dengan cara mengubah, mengoreksi, atau menghapus data-data yang salah, tidak lengkap, tidak akurat, atau memiliki format yang salah dalam basis data guna menghasilkan data berkualitas tinggi. Data cleaning juga biasa disebut data cleaning atau data scrubbing. Terdapat beberapa langkah dalam mempraktikan data cleaning, antara lain: 1. Audit data Data diaudit dengan menggunakan metode statistika dan metode basis data agar anomali dan kontradiksi dalam basis data terdeteksi. Proses ini menentukan penggunaan paket perangkat lunak dan bahasa pemrograman yang akan digunakan untuk membangun basis data yang tepat. 2. Spesifikasi alur kerja Penghapusan anomali dan kontradiksi dalam basis data dilakukan pada proses ini. Spesifikasi alur kerja ditentukan setelah proses audit data dilakukan dan proses ini sangat penting dalam menentukan hasil akhir berkualitas tinggi. 3. Eksekusi alur kerja Merupakan proses yang dilakukan setelah spesifikasi alur kerja telah lengkap dan kebenarannya diverifikasi. Pelaksanaan eksekusi alur kerja harus efektif dan efisien. 4. Pengendalian dan proses pasca-eksekusi alur kerja Proses pengendalian dan pasca-eksekusi alur kerja dilakukan untuk menilai dan mengevaluasi rangkaian proses yang telah dilakukan. Data yang tidak dapat diperbaiki selama pengeksekusian alur kerja dikoreksi secara manual jika memungkinkan. Hasilnya adalah siklus baru dalam proses data cleaning sehingga data tersebut masuk kembali ke proses awal data cleaning. Langkah-langkah cleaning data
Gambar 1 Instalasi Packages Library
Gambar 1 merupakan tahap pertama dalam proses cleaning data. Proses pertama yang harus dilakukan yaitu melakukan meng-install packages library yang diperlukan untuk mendukung proses cleaning data tweet yang telah di ambil datanya dari twitter.
Gambar 2 Pemanggilan Packages Library
Gambar 2 merupakan proses pemanggilan packages library. Pemanggilan packages library ini dilakukan setelah packages library diinstall. Pemanggilan packages library ini diperlukan agar fungsi-fungsi yang terdapat pada packages library dapat digunakan pada proses cleaning data.
Gambar 3 Setting Direktori Penyimpanan
Gambar 3 merupakan tampilan selanjutnya, yaitu merupakan kode yang harus dijalankan untuk melakukan set lokasi pengambilan data yang akan di cleaning dan menyimpan hasil dari proses cleaning. Setelah melakukan set lokasi langkah selanjutnya yaitu memanggil file dari tempat penyimpanan, file yang digunakan disini yaitu hasil dari pengambilan data twitter pada bagian text (isi dari tweet) nya saja. Data awal ini berupa file CSV dan dapat dilihat pada menggunkan Microsoft Excel seperti pada Gambar 4. Gambar 4 Data Awal Gambar 4 merupakan data awal sebelum proses cleaning dilakukan. Pada data awal dalam text masih terdapat kata yang tidak diperluakan seperti mention, angka, dan masih banyak terdapat kata yang tidak baku.
Gambar 5 Mengubah data menjadi karakter
Gambar 5 merupakan langkah pertama setelah pengambilan data dari file Data2.csv yaitu mengubah data text menjadi berbentuk karakter dan dapat dilihat pada console bahwa text telah berubah menjadi karakter.
1 2 3 4 5
Gambar 6 Proses Cleaning Data
Gambar 6 merupakan proses dari cleaning data. Pada proses ini terdapat 5 langkah- langkah yaitu : 1. Proses pertama yaitu proses menghilangkan enter sehingga data tweet akan lebih mudah dibaca. 2. Proses kedua yaitu proses menghilangkan RT(Retweet) dan mengubahnya menjadi blank. Proses ini dilakukan karena RT dianggap tidak diperlukan dalam data. 3. Proses ketiga yaitu menghilangkan HTML dan URL yang terdapat dalam tweet. 4. Proses keempat yaitu proses menggantikan username serta hashtag dengan blank sehingga nantinya yang diolah hanya isi dari tweet tersebut 5. Proses kelima yaitu menghilangkan angka karena tidak diperlukan. Gambar 7 Hasil dari cleaning data Langkah selanjutnya adalah menampilkan tweet yang telah di cleaning dengan source code View(tweets) maka tampilan RStudio akan seperti pada gambar, pada bagian source akan menampilkan data yang telah didapatkan dalam bentuk tabel. Langkah selanjutnya yaitu melakukan penyimpanan data dalam bentuk CSV.
Gambar 8 Penyimpanan Data ke Format CSV
Gambar 8 merupakan source code untuk melakukan penyimpanan data ke bentuk CSV maka setelah source code berhasil dijalankan data akan tersimpan dalam bentuk CSV ke direktori yang telah di set sebelumnya di awal.
Gambar 9 File Data pada Direktori Penyimpanan
Gambar 9 merupakan tampilan folder sesuai dengan yang telah di set pada RStudio sebagai penyimpanan, benar file data yang disimpan sebelumnya akan tersimpan sesuai dengan direktori yang telah di setting.
Gambar 10 Tampilan Data Dalam Format CSV
Gambar 10 merupakan tampilan data yang telah disimpan ke format CSV setelah dibuka menggunakan Microsoft Excel. Pada Gambar 10 dapat dilihat perbedaannya dengan data awal sebelum dilakukan proses cleaning data yaitu pada data ini kata-kata yang tidak diperlukan sudah dihilangkan sehingga lebih mudah digunakan untuk proses selanjutnya.