Anda di halaman 1dari 4

KONSEP DATA WRANGLING

Data wrangling adalah proses cleaning dan unifying kumpulan data (data set) yang
komplek dan messy untuk memudahkan akses dan analisis. Data wrangling juga bisa
diartikan sebagai proses berulang yang melibatkan eksplorasi, transformasi, validasi data
dan membuatnya menjadi data yang kredibel dan berguna dalam analisis. Dengan jumlah
data dan sumber data yang tumbuh dan berkembang dengan cepat, maka penting bagi
sejumlah besar data yang tersedia untuk diorganisasikan agar bisa analisis. Proses ini
biasanya mencakup pengubahan / pemetaan data secara manual dari satu bentuk mentah ke
format lain untuk memungkinkan konsumsi dan pengorganisasian data yang lebih nyaman.

Data wrangling meliputi pekerjaan-pekerjaan seperti :

 Menyatukan kumpulan data agar menjadi satu database


 Menemukan data-data yang hilang sehingga menjadi lengkap
 Menghilangkan data yang tidak perlu.

Proses tersebut dapat dilakukan baik secara manual. Ataupun menggunakan


pemodelan otomatis dengan bantuan aplikasi software pada komputer.

Dalam perusahaan, data wrangling memiliki peran dan manfaatnya sendiri. Yaitu
memungkinkan untuk mendapatkan hasil akhir yang akurat dengan cara yang efisien.
Dengan melakukan proses ini, keakuratan dan kualitas data akan jauh lebih maksimal. Jika
data yang diolah dan disusun dilakukan dengan proses yang akurat, data tersebut akan
lebih mudah untuk diinterpretasikan dan dibuat dalam data visualization. Tentu dengan
beberapa manfaat berikut, data analyst akan jauh lebih mudah ketika mengolah suatu data
dalam jumlah yang besar, dan proses pun menjadi jauh lebih singkat.

TAHAPAN MELAKUKAN DATA WRANGLING

Data wrangling memiliki 4 tahapan proses yang terlibat, diantaranya yaitu:


discovery, transformation, validation, dan publishing.

1. Discovery
 Menguji dan memahami data sesuai dengan kasus yang ingin diselesaikan.
 Membuat rencana pembersihan, penstrukturan, pengorganisiran, dan pemetaan
data.

2. Transformation
Transformasi data melibatkan pekerjaan-pekerjaan yang mengubah data, seperti
penstrukturan (structuring), normalisasi (normalizing), denormalisasi (denormalizing),
pembersihan (cleaning), dan pemerkayaan (enriching) data.
a. Structuring
Melibatkan eksekusi yang mengubah bentuk dan skema dari data. Data
yang masuk bisa dalam bentuk berbagai format. Contohnya yaitu ada data yang
berasal dari RDBMS dan ada data yang dari Web APIs. Supaya bisa digabung, kita
butuh mengubah format dan skema datanya.
Fitur join dan union adalah transformasi struktur yang paling banyak
digunakan untuk mengkombinasikan data dari satu atau lebih tabel. Join
menggabungkan kolom. Jika dua tabel digabungkan, kolom dari tabel sumber
pertama digabungkan dengan kolom dari tabel sumber kedua di baris yang sama.
Jadi, setiap baris dalam tabel resultan berisi kolom dari kedua tabel tersebut.
Sedangkan unions menggabungkan baris. Baris data dari tabel sumber
pertama digabungkan dengan baris data tabel sumber kedua kedalam satu tabel
gabungan saja. Masing-masing baris dalam tabel resultan adalah dari satu tabel
sumber atau lainnya.

b. Normalizing
Normalisasi data mencakup : membersihkan data yang tidak digunakan,
mengurangi redundensi, dan mengurangi inkonsistensi. Contohnya yaitu data
berasal dari sistem transaksi dimana operasi insert, update, dan delete yang
dilakukan secara berkelanjutan, sangat dinormalisasi datanya.
c. Denormalizing
Denormalisasi data yaitu mencakup gabungan data dari berbagai tabel
menjadi satu tabel supaya proses querying data lebih cepat untuk pelaporan dan
analisis. Misalnya, data yang sudah dinormalisasi yang berasal dari sistem
transaksional biasanya dilakukan denormalisasi sebelum menjalankan query untuk
pelaporan dan analisis.
d. Cleaning
Pembersihan data atau cleaning adalah operasi yang memperbaiki
ketidakteraturan dalam data untuk menghasilkan analisis yang kredibel dan akurat.
Data yang tidak akurat, hilang, atau tidak lengkap dapat mengganggu hasil analisis
dan perlu dipertimbangkan. Bisa juga karena datanya bias, atau memiliki nilai null
di field tertentu, atau memiliki pencilan data.
e. Enriching
Enriching data adalah tipe transformasi keempat ketika kita
mempertimbangkan data yang kita punya, melihat data tambahan lain yang
mungkin bisa memperkaya hasil analisis supaya hasilnya menjadi lebih bermakna.
Data tambahan bisa kita peroleh dari sistem penyimpanan data lain atau data
publik yang tersedia.

3. Validation
Tahap ini merupakan tahapan dimana kita mengecek kualitas data setelah proses
transformasi data structuring, normalizing, cleaning, enriching. Aturan validasi data
berkaitan dengan tahap pemrograman berulang yang digunakan untuk memverifikasi
konsistensi, kualitas, dan keamanan data yang kita punya.

4. Publishing
Tahap setelah validasi dilakukan adalah publishing. Publishing melibatkan
pengiriman data output ke proyek yang membutuhkan. Apa yang dikirim merupakan
dataset input versi yang telah ditransformasi dan divalidasi bersamaan dengan
metadata terkait dataset tersebut.

Anda mungkin juga menyukai