Anda di halaman 1dari 9

Halaman 1

JIKA 4061
Visualisasi Data dan Informasi:
Metodologi Data Viz:
Mempelajari Data Anda
Semester 2 2018/2019
Dessi Puji Lestari
(dessipuji@stei.itb.ac.id)
Sekolah Teknik Listrik dan Informatika

Halaman 2
Pengakuan
Sebagian besar isi slide diambil dari
Andy Kirk. Visualisasi Data: Desain yang Sukses
Proses. Pakta Penerbitan. 2012, bab 3
2

Halaman 3
Kandungan
• Bagaimana mengembangkan dan memperbaiki fokus editorial
• Memperoleh dan menyiapkan data
- memastikan itu sesuai dengan tujuan, dan dalam kondisi yang baik di
maju dari tahap desain.
• Contoh bagaimana kita dapat menggunakan analisis visual
teknik untuk menggabungkan tugas
membiasakan data dan menemukan wawasan kunci
3

Halaman 4
Metodologi
4
1.
Tujuan &
parameter
2.
Mempersiapkan &
jelajahi data
3.
Merumuskan
pertanyaan
4.
Rancangan
konsep
5.
Membangun &
meluncurkan

Halaman 5
Pentingnya Fokus Editorial
" Pemikir dan presenter konten yang baik jarang, desainer tidak."
Edward Tufte
• Beberapa yang paling berpengaruh dan terhormat
karya visualisasi berasal dari surat kabar dan
organisasi majalah:
- The New York Times
- The Guardian (UK)
- National Geographic (AS), dll.
• Alasan utama di balik kesuksesan dari pekerjaan ini adalah yang
fokus editorial .
5

Halaman 6
Fokus Editorial
• Kisah yang kami coba sampaikan
• Narasi kunci yang ingin kita gambarkan
• Pertanyaan yang kami harapkan pembaca dapat
menjawab melalui visualisasi?
6

Halaman 7
7
https://www.nytimes.com/interactive/2018/12/26/world/asia/lion-air-crash-12-minutes.html

Halaman 8
Mempersiapkan dan Membiasakan dengan Data
• Data = bahan baku, bahan utama
dalam resep kreatif.
• Data sangat penting:
- Jika tidak ada data, atau datanya tidak menarik
tidak ada yang bisa kita lakukan.
- Kesalahan, tidak lengkap berserakan atau hanya membosankan
dataset hanya akan mencemari pekerjaan kami
8

Halaman 9
Mekanisme
1. Akuisisi
2. Pemeriksaan
3. Memahami Jenis Data
4. Mengubah kualitas
5. Transformasi untuk analisis
6. Konsolidasi
9

Halaman 10
1. Akuisisi (1)
• Data asal:
- Diperoleh dari kolega, klien, atau lainnya
entitas pihak ketiga
- Pengunduhan yang diambil dari sistem organisasi
- Secara manual dikumpulkan dan direkam
- Diekstraksi dari API berbasis web
- Dipotong dari situs web
- Diekstraksi dari file PDF, dll.
10

Halaman 11
1. Akuisisi (2)
• Dapat menjadi pekerjaan yang menyakitkan
• Sebuah proyek untuk menunjukkan ekspansi sosial AS menggunakan
kisah penyebaran pos
11
• Data tergores
dari US Postal
situs web direkam
antara 1700 dan
1900
• Hampir 1.500
catatan harus
dibuang dan final
dataset berisi
11.000+ kantor pos
lokasi

Halaman 12
2. Pemeriksaan
• Untuk menentukan Anda tingkat kepercayaan di
kesesuaian data yang diperoleh.
• Kita dapat menggunakan alat yang tersedia untuk dengan cepat:
- memindai, memfilter, mengurutkan, dan mencari melalui dataset
untuk menetapkan kualitasnya
(Excel, Tableau, atau Google Perbaiki)
• Apa yang harus diperiksa:
- Kelengkapan
- Kualitas
12

Halaman 13
Kelengkapan
• Apakah semuanya ada atau Anda perlu lebih banyak?
–Apakah itu memiliki semua kategori Anda
mengharapkan?
–Apakah itu mencakup periode waktu yang Anda inginkan?
–Apakah semua bidang atau variabel disertakan?
–Apakah itu berisi jumlah yang diharapkan
catatan ?
13

Halaman 14
Kualitas
14
• Apakah ada kesalahan nyata ?
• Apakah ada klasifikasi yang tidak dijelaskan atau
coding?
• Masalah pemformatan seperti tanggal yang tidak biasa,
Karakter ASCII?
• Apakah ada barang yang tidak lengkap atau hilang?
• Ada duplikat ?
• Apakah keakuratan data tampak baik?
• Apakah ada nilai yang tidak biasa atau jelas
pencilan?

Halaman 15
Bersambung ...
15

Halaman 16
3. Memahami Jenis Data
• Untuk memahami struktur dasar
data dalam hal tipe variabel
• Contoh:
16

Halaman 17
4. Transformasi untuk Kualitas
• Tugas ini tentang merapikan dan membersihkan
data Anda dengan menyelesaikan kesalahan apa pun
kami telah menemukan:
–Menanam kesenjangan yang disebabkan oleh data yang hilang
–Menghapus duplikat
–Membersihkan nilai yang salah
–Menangani karakter yang tidak biasa , dll.
17

Halaman 18
5. Transforming for Analysis (1)
• Mempersiapkan dan memperbaiki data yang akan digunakan
analisis dan presentasi:
1.
Parsing (split up) variabel apa saja , seperti
mengekstraksi tahun dari nilai tanggal
2.
Menggabungkan variabel untuk membentuk yang baru, seperti
sebagai membuat seluruh nama di luar judul ,
nama depan , dan nama keluarga
3.
Konversi data kualitatif / teks bebas menjadi
nilai kode atau kata kunci
18

Halaman 19
5. Transforming for Analysis (2)
4. Turunkan nilai-nilai baru dari yang lain, seperti
jenis kelamin dari judul atau sentimen dari beberapa
data kualitatif
5. Membuat perhitungan untuk digunakan dalam analisis, misalnya
sebagai proporsi persentase
6. Menghapus data yang berlebihan yang Anda miliki
tidak ada rencana penggunaan
7. Tentukan tingkat resolusi yang Anda butuhkan
untuk menyajikan data Anda.
• mungkin mengharuskan Anda untuk agregat atau terpilah
data Anda untuk mencapai tingkat detail yang tepat.
19

Halaman 20
Contoh
• Sekitar 5,6 miliar email (dan 20,5 miliar spam) dikirim
setiap hari, banyaknya data menimbulkan tantangan dalam hal apa
tingkat detail yang bisa mereka tunjukkan secara wajar.
20

Halaman 21
Opsi Resolusi
• Resolusi penuh : Merencanakan semua data yang tersedia sebagai data individual
tanda.
• Resolusi yang difilter : Kecualikan catatan berdasarkan yang tertentu
kriteria.
• Resolusi agregat : "Menggulung" data dengan, misalnya,
bulan, tahun, atau kategori tertentu.
• Resolusi sampel : Menerapkan pilihan matematika tertentu
aturan untuk mengekstrak sebagian kecil dari data potensial Anda. Ini adalah sebuah
taktik yang sangat berguna selama tahap desain jika Anda punya
jumlah data yang sangat besar dan ingin cepat berkembang
mengejek atau menguji ide.
• Resolusi tajuk : Hanya menampilkan statistik keseluruhan
total.
21

Halaman 22
6. Konsolidasi
• Setelah pemeriksaan dan persiapan bekerja di sana
mungkin masih ada celah tertentu dalam materi pelajaran Anda.
• Lapisan data tambahan mungkin diperlukan
dikombinasikan dengan dataset kami yang ada
- diterapkan untuk melakukan perhitungan tambahan
- atau hanya duduk di samping sumber daya awal ini untuk membantu
mengontekstualisasikan dan meningkatkan ruang lingkup kami
komunikasi.
Kiat:
Selalu habiskan sedikit waktu mempertimbangkan jika ada hal lain yang Anda miliki
mengantisipasi perlu menambah data Anda untuk membantu membingkai subjek atau
ceritakan kisah yang ingin Anda komunikasikan.
22

Halaman 23
Memperoleh, menangani, dan menyiapkan data Anda adalah
seringkali yang paling memakan waktu dan intensif
aktivitas yang terlibat dalam proyek visualisasi apa pun
23

Halaman 24
Menyempurnakan Fokus Editorial
"Bentuk yang berbeda melakukan pekerjaan yang lebih baik dalam menjawab
pertanyaan yang berbeda. "
Amanda Cox
24

Halaman 25
Contoh
25

Halaman 26
Contoh (lanjutan)
26

Halaman 27
Temukan Fokus Editorial dengan Penalaran
• Kecuali Anda sudah memiliki fokus editorial
khusus diuraikan untuk Anda, yang efektif
pendekatan untuk memperbaikinya dapat diambil dari
praktik penalaran logis, seperti:
- Penalaran deduktif
- Penalaran induktif
27

Halaman 28
Penalaran Deduktif
• Mengonfirmasi atau menemukan bukti untuk mendukung
ide spesifik:
1. Rasa tertentu yang sudah ditentukan sebelumnya tentang cerita apa
mungkin menarik, relevan, dan berpotensi
tersedia dalam data Anda.
2. Anda mengejar rasa ingin tahu dengan menginterogasi
dataset Anda untuk mendukung ide-ide Anda
dari apa yang mungkin menjadi dimensi kisah utama.
28

Halaman 29
Penalaran Induktif
• Cara kerjanya berlawanan
• Terbuka dan eksplorasi.
- Gunakan teknik analitik dan visualisasi untuk mencoba
dan menggali penemuan yang berpotensi menarik,
membentuk kombinasi yang berbeda dan berkembang
pertanyaan data.
- Mungkin berakhir dengan tidak ada, kita mungkin menemukan banyak
• Pada dasarnya, ini tentang menggunakan visual
analisis untuk menemukan cerita.
29

Halaman 30
Menggunakan Analisis Visual untuk Menemukan Cerita
"Visualisasi memberi Anda jawaban untuk pertanyaan Anda
tidak tahu kamu punya. "
Ben Schneiderman
• Kegiatan ini juga dapat digambarkan sebagai data
sketsa atau visualisasi praproduksi.
• Kami menggunakan teknik visualisasi untuk:
- menjadi lebih intim dengan bahan baku kami
- untuk mulai membentuk pemahaman tentang apa yang kita bisa
menggambarkan kepada orang lain
- Dan bagaimana kita bisa mencapai itu.
30

Halaman 31
Karakteristik yang Harus Diperhatikan
• Perbandingan dan proporsi
• Tren dan Pola
• Hubungan dan Koneksi
31

Halaman 32
Perbandingan dan Proporsi
• Rentang dan distribusi : Menemukan rentang
nilai dan bentuk distribusinya di dalam
setiap variabel dan seluruh kombinasi
variabel
• Pemeringkatan : Mempelajari urutan data di
hal besarnya umum, mengidentifikasi besar,
nilai sedang, dan kecil.
• Konteks : Menilai nilai berdasarkan konteks
rata-rata, standar deviasi, target, dan
perkiraan.
32

Halaman 33
Contoh
33
Menggunakan metode seperti diagram batang akan memungkinkan perbandingan antar nilai dan
kategori
untuk memilih jenis kualitas fisik yang baru saja tercantum

Halaman 34
Tren dan Pola
• Arah : Apakah nilai berubah dalam ke atas, ke bawah, atau rata
gerakan?
• Tingkat perubahan : Seberapa curam atau datar perubahan pola terjadi? Apakah kita
lihat pola yang konsisten, linier, atau lebih eksponensial di
bentuk?
• Fluktuasi : Apakah kita melihat bukti pola yang konsisten atau ada di sana
fluktuasi yang signifikan? Mungkin ada ritme tertentu, seperti
musiman, atau mungkin pola lebih acak
• Signifikansi : Bisakah kita menentukan apakah pola yang kita lihat adalah
sinyal yang berarti atau hanya mewakili kebisingan di dalam data?
• Persimpangan : Apakah kita mengamati persimpangan penting atau
tumpang tindih antara variabel, titik crossover yang menunjukkan a
perubahan signifikan dalam hubungan?
34

Halaman 35
Contoh
35
Menggunakan grafik garis adalah metode yang sangat cocok untuk mengamati pola dan tren

Halaman 36
Hubungan dan Koneksi
• Pengecualian : Bisakah kita mengidentifikasi nilai signifikan apa pun yang
duduk di luar norma, seperti outlier?
• Korelasi : Apakah ada bukti kuat atau lemah
korelasi antara kombinasi variabel?
• Asosiasi : Bisakah kita mengidentifikasi yang penting
koneksi antara berbagai kombinasi
variabel atau nilai?
• Cluster dan kesenjangan : apakah ada kesenjangan dalam nilai dan data
poin?
• Hubungan hierarkis : Menentukan
komposisi, distribusi, dan relevansi data
kategori dan subkategori.
36

Halaman 37
Contoh
37
Menggunakan sebar plot akan memungkinkan visibilitas jenis hubungan ini

Halaman 38
Kelas selanjutnya
• Ulangan
IF4061 - Visualisasi Data dan Informasi
38
06/02/2019