Anda di halaman 1dari 30

Fakultas Matematika dan Ilmu Pengetahuan Alam

Universitas Indonesia

Data Visualization
Pengantar Sains Data
Outline
Basic of visualization Tujuan visualisasi data: agar bisa
memberikan interpretasi dengan baik jika
data bisa divisualiasikan dengan baik.
Data types and visualization types
1. visualiasi model data eksplorasi
mengenai gambaran apa yang digambarkan itu benar
mengaitkan terhadap visualisasi yang lebih mengaitkan terhadap teknik-teknik
bagaimana mem fit kan suatu data tersebur lebih cocok dengan model yang mana

2. presentasi data
meyakinkan apakah yang diyakinkan itu benar

palig banyak yang eksplorasi visualisasi data

2
Two Types of Visualization

Data exploration visualization: Data presentation


visualization: convincing other
figuring out what is true
people it is true

Tex

“Data exploration” is much


This lecture will mostly be
broader than just visualization
focused on the first, some later
(most of the analysis
lectures will touch on the
techniques we will cover fit into
second
it)

3
kaitan visualisasi data dengan
statistik: visualisasi data dalam
statistik lebih
Importance of Visualization menginterpretasikan data lebih
baik dibandingkan dalam bentuk
tabel saja
● Visualisasi berperan penting dalam bidang machine learning
dan data science. Seringkali kita perlu menyaring informasi
kunci yang ditemukan dalam sejumlah data data menjadi
bentuk yang bermakna dan mudah dicerna.
● Visualisasi yang baik dapat menceritakan sebuah cerita
tentang data Anda dengan cara yang tidak dapat dilakukan
oleh sebuah kalimat. pentingnya visualisasi data:
sebelum melakukan tau menjalaknkan suatu analisis, kita harus bisa memvisualisasi data yang kita punya
apalagi model data yang banyak

misal dalam persentase, kita bisa menggambarkan visualisasi dalam bentuk diagram, grafik, line, scatter plot

divandinglan kita hanya bisa melihat dalam bentuk tabel

visualisasi penting dalam mengidentifikasi atau melihat trend, prediksi dari data
terurut. tidak ada rankingnya. Contoh: hewan: {anjing, kucing},
gender: {perempuan, laki-laki}

Review: Tipe Data 2. ordinal: data lategori, punya urutan

3. interval: jenis data numerik yang nilainya bisa dibentuk dalam


Nominal/ Ordinal suatu interval,Interval
Contoh: temperatur Rasio
kategorikal
Sifat himpunan asal Diskret, tidak terurut 4. rasio:
Diskret, terdiri atas data
terurut numerik. Contoh:
Kontinu/numerik, terurut,proporsi
Kontinu/numerik,
perbedaan menunjukkan terurut, nilai
selisih menunjukkan rasio
terhadap kuantitas
satuan/unit di jenis
yang sama

Contoh Warna (merah, Nilai huruf mahasiswa Suhu dalam Celcius, Panjang jalan, suhu
hijau, biru) (A, B, C, D, E) tanggal dalam kalender dalam Kelvin
tertentu

Ukuran data Membership Membership, Membership, comparison, Membership,


menyatakan … comparison difference comparison, difference,
magnitude

Operasi matematika =, ≠ =, ≠, <, > =, ≠, <, >, +, - =, ≠, <, >, +, -, , 


Tipe Data cont..
Nominal/ Ordinal Interval Rasio
kategorikal
Representasi nilai tipikal Modus Modus, median Modus, median, Modus, median,
rerata aritmetis rerata aritmetis, rerata
geometris, rerata
harmonis
Representasi sebaran Grouping Grouping, rentang Grouping, rentang Grouping, rentang
(range), rentang (range), rentang (range), rentang
antarkuartil antarkuartil, varians, antarkuartil, varians,
simpangan baku simpangan baku,
koefisien variasi
Memiliki nol sejati yang menyatakan nilai Tidak Tidak Tidak Ya
mutlak terbawah.
jenis data:
nominal: tidak memperhatikan urutan
ordinal: memperhatikan urutan

• Which of the following questions that may be asked on a survey


would be considered ordinal? (unchecked ones are nominal)

Nominaland
1. Gender: {male, female, other,prefer not to disclose} nominal
2. Yearly income: {<$18k, $18-40k, $40- 75k, >$75k} ordinal

ordinal values 3. Reaction to question:


{Strongly disagree, slightly disagree, neutral, slightly agree, strongly agree} ordinal
4. May we add you to our mailing list:
{No, Yes}
ordinal

7
Interval andratiovalues
Which of the following quantities would be considered ratio? (unchecked values
are interval)
interval dan rasio merupakan jenis data yang numerik
1. Length (meters) RASIO

2. Length (feet) interval

3. Velocity (meters/second) interval

4. IQ Score interval

8
jenis2 visualisasi data:
1. berdasar dari 1 dimensi: fokus pada jenis dan dimensi
VisualizationTypes dari letak data tersebut: bar chart, pie chart, histogram
2. 2D: scatter plot, line plot, box and
whiskerplot, heatmap
3. 3D: scatter matrix, bubble chart

•Most discussion of visualization types emphasizes what elements the chart is


trying to convey

•Instead, we are going to focus on the type and dimensionality of the underlying
data

• Visualization types (not an exhaustive list):


• 1D: bar chart, pie chart, histogram
• 2D: scatter plot, line plot, box and
whiskerplot, heatmap
• 3D: scatter matrix, bubble chart
BENTUK 3 DIMENSI: scatter plot, matrix, color scatter plot
BENTUK 1 DIMENSI
Diagram lingkaran: digunakan untuk
menghitung presentase masing-masing nilai
Pie Chart dari suatu kategori data

● Pie chart digunakan untuk


menunjukkan seberapa banyak
dari setiap jenis kategori dalam
dataset berbanding dengan
keseluruhan.
○ Variabel label berisi tupel rasa
es krim
○ Variabel voting berisi tupel
voting.
○ Data tersebut mewakili jumlah
voting rase es krim favorit.
BENTUK 1 DIMENSI
Diagram batang: contoh data untuk menginterpretasikan letak data dalam 1D
Bar Chart
● Bar Chart adalah merupakan tools
visualisassi yang dapat digunakan
untuk membandingkan data
kategorikal.
● Mirip dengan diagram lingkaran,
diagram ini dapat digunakan untuk
membandingkan kategori data satu
sama lain.
● Diagram batang dapat menampilkan
lebih banyak kategori data daripada
diagram lingkaran.
Bar Chart
- jangan menggunakan garis
● Mari kita mulai dengan melihat ketika ingin menghubungkan
masing-masnhg kategori, tidak
diagram batang yang menunjukkan menyambungkan dengan garis
populasi setiap negara di Amerika karena akan berbeda
interpretasi
Selatan.
● Visualisasi ditunjukkan dengan cara
mengurutkan dari negara yang
memiliki populasi terbesar ke
populasi terendah.
BENTUK 2 DIMENSI Line plot: untuk memvisualisasi, melihat tren,
membuat prediksi dari suatu model
Line Graph
● Line Graph adalah bentuk visualisasi
lainya selain diagram lingkaran dan
diagram batang.
● Diagram garis lebih berguna untuk
menunjukkan bagaimana kemajuan
data selama beberapa periode.
● Misalnya, grafik garis dapat berguna
dalam membuat grafik temperatur dari
waktu ke waktu, harga saham dari
waktu ke waktu, berat menurut hari,
atau metrik berkelanjutan lainnya.
Line Graph
● Kita akan membuat grafik garis
yang sangat sederhana di bawah
ini. Data yang kita miliki adalah
suhu dalam celsius dan jam
dalam sehari untuk satu hari dan
lokasi.
Line Graph
● Kita bahkan dapat memiliki
beberapa garis pada grafik yang
sama didalam satu gambar
● Biasanya kita mengilustrasikan
dua line graph untuk
menggmbarkan dua data yitu
data aktual dan data prediksi.
BENTUK 2 DIMENSI

Scatter Plot
● Scatter plot berfungsi baik untuk
data dengan dua komponen
numerik.
● Scatter plot dapat memberikan
informasi yang berguna terutama
mengenai pola atau pencilan.
● Pada contoh di bawah ini, kita
memiliki data yang terkait dengan Scatter plot: ingin menentukan hunungan
suatu kategori dengan kategori lain
perbedaan lemon dan lime
berdasarkan karakteristik
fisiologis.
bentuk scatter plot yang terlihat buruk: nilai per kategori dibentuk jadi bentuk garis gt
○ Berat (g)
Tex
○ Diameter (cm)
BENTUK 2 DIMENSI
Hetmap: dipakai untuk beberap jenis data yang lain

Heatmap density(kepadatan) / 2D histogram

● Heatmap adalah jenis visualisasi


yang menggunakan kode warna
untuk mewakili nilai / kepadatan
relatif data di seluruh permukaan.
● Warna-warna ini kemudian dapat
digunakan untuk memeriksa data
secara visual guna menemukan
kelompok dengan nilai serupa
dan mendeteksi tren dalam data.
BENTUK 1 DIMENSI dalam bentuk ini tidakpapa digunakan dalam bentuk
garis, tapi biaanya tidak menunjukkan suatu informasi
Histogram
● Histogram adalah salah satu
visualisasi yang cukup penting dalam
memahami distribusi pada data kita.
● Plot histogram secara tradisional
hanya membutuhkan satu dimensi
data.
● Ini dimaksudkan untuk menunjukkan
jumlah nilai atau kumpulan nilai
secara serial.
paling banyak dilihat di Data gen: untuk melihat kondisi sampel yang memenuhi
bagaimana, setiap nilai menggambarkan jumlah nilai atau interval nilainya berapa, ada
skalanya
Tex
BENTUK 2 DIMENSI
Text
Box Plot
● Cara yang baik untuk memvisualisasikan
variabel kategori adalah dengan
menggunakan boxplot.
● Boxplot menggambarkan variable variable
statistic seperti quartil 1, median / quartil
2, quartil 3, nilai maksimum, nilai
minimum, dan outlier.
Exercise
What’s wrong with this chart?
Answer
PENJELASAN SLIDE VISUALIZATION DI VIDEO 2: 6.02

Sumber Materi:
● Cielen, D., Meysman, A., & Ali, M. (2016). Introducing data science: big
data, machine learning, and more, using Python tools. Manning
Publications Co.
● Google LLC, Google Colabs Documentation, 2020, Machine Learning- Data
Visualizations. Dalam visualisasi data, banyak me refer pada penggunaan inovasi dari
gambar dan teknologi interaktif, agarbisa mengeksplor ke tingkatan
yang lebih besar dan data set yang banyak atau yang punya densitas
Tim Penyusun Materi: yang sangat tinggi sekali
1. Devvi Sarwinda
guna visualisasi data: bisa membantu pengguna melihat pattern,
2. Ari Wibisono hubungan yang susah jika dibuat dalam list text, sangat oenting jika
dibuat dalam chart, diagram, grafik, dashboard

bisa digunakan untuk mengidentifikasidata yang terstruktur dan tidak,:


jadi lebih efisien, bisa membuat strategic planning, profitability
Acknowledgement

Video dan modul materi pembelajaran ini diproduksi oleh Program


Studi Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Indonesia yang didukung dari bantuan dana Direktorat
Pengembangan Akademik dan Sumber Daya Pembelajaran (DPASDP)
Contoh:
- Diagram lingkaran untuk menentukan persentase penjualan dalam masing2 region di setiap kategorinya
- Data geografi atau maps/hetmaps untuk mengolah suatu data dengan melihat bedasarkan warna
- Treemap: jenis lain dari heatmap, misal untuk melihat pengaruh dari berbagai jenis product dari suatu data
di market, masinh2 warna mendefinisikan berapa perubahan yang bisa terjadi
-

hampir semua bidang menggunakan data sains dan visualisasi data untuk menginterpretasi data mereka
dibandingkan dengan melihat dalam bentuk text list

Anda mungkin juga menyukai