Anda di halaman 1dari 9

PROSES CLEANING DATA KEMACETAN

TEKNOLOGI BIG DATA

Oleh:

Cokorda Istri Cahya Hindrayani


1705551107

PROGRAM STUDI TEKNOLOGI INFORMASI


FAKULTAS TEKNIK
UNIVERSITAS UDAYANA
2019
Data cleaning adalah proses analisa kualitas dari suatu data dengan cara mengubah,
mengoreksi, atau menghapus data-data yang salah, tidak lengkap, tidak akurat, atau memiliki
format yang salah dalam basis data guna menghasilkan data berkualitas tinggi. Data cleaning
juga biasa disebut data cleaning atau data scrubbing.
Terdapat beberapa langkah dalam mempraktikan data cleaning, antara lain:
1. Audit data
Data diaudit dengan menggunakan metode statistika dan metode basis data agar
anomali dan kontradiksi dalam basis data terdeteksi. Proses ini menentukan penggunaan paket
perangkat lunak dan bahasa pemrograman yang akan digunakan untuk membangun basis data
yang tepat.
2. Spesifikasi alur kerja
Penghapusan anomali dan kontradiksi dalam basis data dilakukan pada proses ini.
Spesifikasi alur kerja ditentukan setelah proses audit data dilakukan dan proses ini sangat
penting dalam menentukan hasil akhir berkualitas tinggi.
3. Eksekusi alur kerja
Merupakan proses yang dilakukan setelah spesifikasi alur kerja telah lengkap dan
kebenarannya diverifikasi. Pelaksanaan eksekusi alur kerja harus efektif dan efisien.
4. Pengendalian dan proses pasca-eksekusi alur kerja
Proses pengendalian dan pasca-eksekusi alur kerja dilakukan untuk menilai dan
mengevaluasi rangkaian proses yang telah dilakukan. Data yang tidak dapat diperbaiki selama
pengeksekusian alur kerja dikoreksi secara manual jika memungkinkan. Hasilnya adalah
siklus baru dalam proses data cleaning sehingga data tersebut masuk kembali ke proses awal
data cleaning.
Langkah-langkah cleaning data

Gambar 1 Instalasi Packages Library


Gambar 1 merupakan tahap pertama dalam proses cleaning data. Proses pertama yang
harus dilakukan yaitu melakukan meng-install packages library yang diperlukan untuk
mendukung proses cleaning data tweet yang telah di ambil datanya dari twitter.

Gambar 2 Pemanggilan Packages Library


Gambar 2 merupakan proses pemanggilan packages library. Pemanggilan packages
library ini dilakukan setelah packages library diinstall. Pemanggilan packages library ini
diperlukan agar fungsi-fungsi yang terdapat pada packages library dapat digunakan pada
proses cleaning data.

Gambar 3 Setting Direktori Penyimpanan


Gambar 3 merupakan tampilan selanjutnya, yaitu merupakan kode yang harus
dijalankan untuk melakukan set lokasi pengambilan data yang akan di cleaning dan
menyimpan hasil dari proses cleaning. Setelah melakukan set lokasi langkah selanjutnya yaitu
memanggil file dari tempat penyimpanan, file yang digunakan disini yaitu hasil dari
pengambilan data twitter pada bagian text (isi dari tweet) nya saja. Data awal ini berupa file
CSV dan dapat dilihat pada menggunkan Microsoft Excel seperti pada Gambar 4.
Gambar 4 Data Awal
Gambar 4 merupakan data awal sebelum proses cleaning dilakukan. Pada data awal
dalam text masih terdapat kata yang tidak diperluakan seperti mention, angka, dan masih
banyak terdapat kata yang tidak baku.

Gambar 5 Mengubah data menjadi karakter


Gambar 5 merupakan langkah pertama setelah pengambilan data dari file Data2.csv
yaitu mengubah data text menjadi berbentuk karakter dan dapat dilihat pada console bahwa
text telah berubah menjadi karakter.

1
2
3
4
5

Gambar 6 Proses Cleaning Data


Gambar 6 merupakan proses dari cleaning data. Pada proses ini terdapat 5 langkah-
langkah yaitu :
1. Proses pertama yaitu proses menghilangkan enter sehingga data tweet akan lebih
mudah dibaca.
2. Proses kedua yaitu proses menghilangkan RT(Retweet) dan mengubahnya menjadi
blank. Proses ini dilakukan karena RT dianggap tidak diperlukan dalam data.
3. Proses ketiga yaitu menghilangkan HTML dan URL yang terdapat dalam tweet.
4. Proses keempat yaitu proses menggantikan username serta hashtag dengan blank
sehingga nantinya yang diolah hanya isi dari tweet tersebut
5. Proses kelima yaitu menghilangkan angka karena tidak diperlukan.
Gambar 7 Hasil dari cleaning data
Langkah selanjutnya adalah menampilkan tweet yang telah di cleaning dengan source
code View(tweets) maka tampilan RStudio akan seperti pada gambar, pada bagian source
akan menampilkan data yang telah didapatkan dalam bentuk tabel. Langkah selanjutnya yaitu
melakukan penyimpanan data dalam bentuk CSV.

Gambar 8 Penyimpanan Data ke Format CSV


Gambar 8 merupakan source code untuk melakukan penyimpanan data ke bentuk CSV
maka setelah source code berhasil dijalankan data akan tersimpan dalam bentuk CSV ke
direktori yang telah di set sebelumnya di awal.

Gambar 9 File Data pada Direktori Penyimpanan


Gambar 9 merupakan tampilan folder sesuai dengan yang telah di set pada RStudio
sebagai penyimpanan, benar file data yang disimpan sebelumnya akan tersimpan sesuai
dengan direktori yang telah di setting.

Gambar 10 Tampilan Data Dalam Format CSV


Gambar 10 merupakan tampilan data yang telah disimpan ke format CSV setelah
dibuka menggunakan Microsoft Excel. Pada Gambar 10 dapat dilihat perbedaannya dengan
data awal sebelum dilakukan proses cleaning data yaitu pada data ini kata-kata yang tidak
diperlukan sudah dihilangkan sehingga lebih mudah digunakan untuk proses selanjutnya.

Anda mungkin juga menyukai