Anda di halaman 1dari 11

Modul Pelatihan Keterampilan Mengolah Data

Open Data Lab Jakarta

Daftar Isi
Daftar Isi
Ekstraksi Data
Data HTML
Data PDF
Membersihkan Data
Memulai Proyek
Inkonsistensi Data
Pengelompokan Ulang Data
Penulisan Angka Tidak Baku
Visualisasi Data Menggunakan Tableau Public
Mengenai Tableau Public
Membuka Data
Lembar Kerja (Worksheet)
Menyimpan dan Melihat Hasil Visualisasi

1. Ekstraksi Data

Berikut ini adalah strategi praktis ekstraksi data menurut asal data:

Data HTML

Beberapa metode ekstraksi yang dapat digunakan:

1) Salin-dan-Rekat (atau Copy-and-Paste)

○ Persiapkan halaman situs yang berisikan tabel data,


○ Pilih semua data yang diinginkan dan salin data-data tersebut,
○ Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.

2) Fungsi importHTML (khusus aplikasi Google Sheet/gSheet)

○ Persiapkan halaman situs yang berisikan tabel data,


○ Salin alamat URL situs tersebut,
○ Buka aplikasi gSheet,

1
○ Fungsi importHTML membutuhkan input isian ekstraksi sbb:
■ Alamat URL: Alamat target halaman situs yang mengandung tabel data,
■ Jenis Data: Isi selalu jenis table,
■ Indeks: Nomor urutan tabel yang ingin diekstrak dari halaman situs.
○ Apabila input ekstraksi diberikan secara benar, aplikasi gSheet akan mengekstrak data
secara otomatis dan menyimpannya di lembar spreadsheet.

Contoh penggunaan di bawah ini akan mengambil data populasi setiap negara yang terdapat di
halaman situs Wikipedia.org

Data PDF

Beberapa metode ekstraksi yang dapat digunakan:

1) Salin-dan-Rekat

○ Buka berkas menggunakan program pembaca PDF seperti Acrobat Reader,


○ Salin tabel data yang ingin diekstrak,
○ Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.

2) Program Tabula

○ Instalasi terlebih dahulu aplikasi ini ke komputer Anda dengan mengunduhnya di alamat
situs http://tabula.nerdpower.org.

○ Jalankan Tabula dan secara otomatis akan membuka halaman aplikasi di web browser.
Perhatikan bahwa aplikasi ini dapat bekerja tanpa koneksi Internet walaupun dijalankan
menggunakan browser.

2
○ Pilih Choose File untuk menentukan berkas PDF yang ingin diekstrak.

○ Tentukan area ekstraksi di halaman PDF. Proses ekstraksi akan secara otomatis berjalan
setelah penentuan area ekstraksi tersebut atau melalui tombol Download All Data.

3) Layanan PDFTables

○ Jalankan browser Anda dan pergi ke alamat situs https://pdftables.com/

3
○ Klik tombol hijau “Select a PDF to convert NOW!” dan pilih dokumen PDF yang ingin
diekstrak.

○ Browser akan secara otomatis mengunggah dokumen tersebut ke server layanan dan
mengkonversi halaman PDF ke bentuk spreadsheet.

2. Membersihkan Data
Membersihkan data penting dilakukan untuk meningkatkan kualitas data sebelum data digunakan.
Pada bagian ini akan diberikan beberapa petunjuk praktis membersihkan data menggunakan program
OpenRefine (http://openrefine.org).

Memulai Proyek

Untuk memulai pembersihan data menggunakan OpenRefine, pertama-tama input data perlu dikenali
oleh program untuk disimpan:

● Pilih Create Project dan tentukan berkas CSV yang ingin dibersihkan di pilihan Choose Files.
Alternatif lain apabila nilai-nilai data pernah terekam dalam operasi salin (atau copy) maka
pilih pilihan Clipboard. Pilih Next untuk mulai penyimpanan.

4
● Data yang berhasil disimpan akan diperlihatkan dalam tampilan pra-tayang. Pastikan tabel
terbaca secara benar oleh program. Gunakan opsi-opsi di bawah tampilan pra-tayang untuk
mendapatkan hasil yang akurat.

● Berikan nama proyek yang sesuai di isian pojok kanan atas dan pilih Create Project.

● Proyek yang terbentuk akan menampilkan data yang berhasil disimpan dan pengguna dapat
memulai menggunakan perintah-perintah pembersihan data.

Berikut ini adalah beberapa isu yang berkaitan dengan pembersihan data yang dapat diselesaikan
menggunakan aplikasi OpenRefine.

5
Inkonsistensi Data

Mendeteksi inkonsistensi dapat dikerjakan dengan menggunakan fungsi Cluster.

● Pilih Edit cells diikuti oleh Cluster and edit... di kolom yang ingin diperiksa.

● Secara otomatis OpenRefine akan mempopulasikan nilai-nilai data yang memiliki kemiripan
pengisian. Sebagai contoh, gambar di bawah memperlihatkan inkonsistensi data pemadam
kebakaran DKI Jakarta dimana terdapat 3 macam penulisan nama Kelurahan Pal Meriam,
antara lain: “Pal Meriam”, “Pal meriam” dan “PAL Meriam” (lihat kolom Values in Cluster).

● Pengguna dapat menentukan nilai data yang paling tepat untuk menyelesaikan inkonsistensi
tersebut dengan mengisinya di kolom New Cell Value.

● Lakukan inspeksi secara berulang untuk nilai-nilai data lainnya. Akhiri dengan memilih tombol
Merge Selected & Close untuk mengaplikasikan semua perubahan ke dataset.

6
Pengelompokan Ulang Data

Kasus ini sering kali ditemui di dalam dataset yang tidak memiliki standar klasifikasi data. Akibatnya
nama-nama pengelompokannya sangat bervariasi dan berjumlah sangat banyak. Variasinya dapat
mengandung arti yang sama yang menyebabkan pengelompokan data menjadi tidak efisien dan
pencacahan data tidak maksimal.

Gambar di atas memperlihatkan variasi pengisian data “korsleting listrik” sebagai penyebab
kebakaran. Akibat kurangnya standarisasi, pengisian ini memiliki banyak nama yang membuat
pengelompokan data menjadi tidak efisien.

Untuk menyelesaikan masalah ini dapat digunakan fungsi Text Facet. Berikut adalah langkah-langkah
untuk membuat Text Facet:

● Pilih Facet diikuti oleh Text Facet di kolom yang ingin diperiksa.

● Secara otomatis OpenRefine akan mempopulasikan semua variasi nilai data di kolom
tersebut berikut jumlah datanya.
● Untuk menyunting data, pilih edit dan masukkan nilai baru yang dikehendaki.
● Lakukan inspeksi secara menyeluruh untuk melihat variasi-variasi data lainnya yang
sekiranya dapat disatukan.

7
Penulisan Angka Tidak Baku

Sering kali juga ditemui penyajian informasi numerik mengandung pemakaian tanda finansial (seperti
simbol mata uang dan pemisah ribuan) dan pemakaian tanda desimal. Untuk memperbaikinya secara
serentak di sebuah kolom dapat menggunakan fungsi Transform.

● Pilih Edit cells diikuti oleh Transform... di kolom yang ingin dibuat perbaikan.

● Kotak dialog transformasi akan muncul dimana perintah transformasi dapat diberikan untuk
mengubah isian nilai data secara serentak.

Berikut adalah beberapa perintah yang umum dipakai untuk membersihkan data numerik:

Nama Perintah Deskripsi Contoh Penggunaan

Hilangkan penanda Membuat tanda titik dan koma hilang dari teks replaceChars(value, “.,”, “”)
ribuan dan desimal

Hilangkan simbol Membuat simbol ‘Rp’ hilang dari teks replace(value, “Rp”, “”)
mata uang

Hilangkan kelompok Membuat kata ‘juta’ hilang dari teks replace(value, “juta”, “”)
ribuan

8
3. Visualisasi Data Menggunakan Tableau Public
Mengenai Tableau Public

● Tableau Public adalah sebuah software gratis untuk visualisasi data di internet.
● Setiap pengguna Tableau Public diwajibkan mempunyai akun Tableau Public.
● Semua hasil visualisasi yang dibuat dengan Tableau Public akan dimuat secara publik di
internet.

Membuka Data

● Pilih Jenis data yang akan dibuka. Pilih Text File untuk membuka berkas CSV, lalu pilih
berkas yang akan dibuka.

● Tableau akan menampilkan tampilan pra-tayang data agar pengguna dapat memeriksanya.
Klik tombol Go to Worksheet untuk konfirmasi.

9
Lembar Kerja (Worksheet)

Berikut ini adalah nama-nama panel yang perlu diketahui di dalam aplikasi Tableau Public:

● Data:
○ Menunjukan data yang sedang digunakan
○ Klik nama data untuk melihat penjabaran data.

● Dimensions:
○ Menunjukan daftar attribut data yang bersifat qualitatif, umumnya attribut data yang
berfungsi sebagai kategori.
○ Klik-kanan pada nama atribut untuk merubah nama, merubah tipe data, dan berbagai
macam opsi lainnya.

● Measures:
○ Menunjukan daftar attribut data yang bersifat quantitatif, umumnya attribut data yang
berfungsi sebagai tolak ukur.

● Columns:
○ Menunjukan attribut data terpilih yang di tampilkan sebagai kolom

● Rows:
○ Menunjukan attribut data terpilih yang di tampilkan sebagai baris.

● Filters:
○ Menunjukan pilihan attribut yang digunakan untuk menyaring data.

● Marks:
○ Menunjukan pilihan attribut yang digunakan untuk ditunjukan secara berbeda, baik
dalam bentuk, warna, atau ukuran.

● Show Me:
○ Pilihan bentuk visualisasi yang memungkinkan berdasarkan attribut yang sedang
dipilih dari daftar attribut dimension maupun measures.
○ Gunakan tombol CTRL + Klik untuk memilih lebih dari satu attribut

10
● Sheet:
○ Lembar kerja untuk membuat sebuah visualisasi.

○ Untuk membuat lembar kerja baru, tekan tombol

● Dashboard:
○ Lembar kerja untuk menampilkan beberapa visualisasi.

○ Untuk membuat lembar kerja Dashboard baru, tekan tombol

Menyimpan dan Melihat Hasil Visualisasi

● Tekan CTRL + S, lalu masukan alamat akun dan kata sandi untuk menyimpan hasil
visualisasi.

● Hasil visualisasi dapat diakses melalui link yang diberikan dibawah kalimat ”Copy and Paste
link into your email message”.

● Hasil visualisasi dapat juga disematkan di dalam website dengan menggunakan kode
dibawah kalimat ”Copy and Paste html code to embed the Viz in your website”

11

Anda mungkin juga menyukai