Anda di halaman 1dari 20

MODUL 3

DATA VISUALIZATION

Materi
Introduction to Matplotlib 3
Library Matplotlib ............................................................................................................................... 3
Line Plot .............................................................................................................................................. 4
Scatter Plot.......................................................................................................................................... 5
Histogram ............................................................................................................................................ 7
Boxplot ................................................................................................................................................ 7
Bar Plot................................................................................................................................................ 7
Pie Chart .............................................................................................................................................. 8
Sub Plot ............................................................................................................................................... 9
Introduction to Seaborn 10
Library Seaborn ................................................................................................................................. 10
Relplot ............................................................................................................................................... 10
- Scatterplot 10
- Line plot 11
- FacetGrid 12
Distribution Plot ................................................................................................................................ 13
- Univariate Distribution 13
- Bivariate distribution 14
- Joint and marginal distribution 15
- Pairplot 16
Categorical plot ................................................................................................................................. 18
- Stripplot() 19
- Boxplot() 19
- Violinplot() 19
- Barplot() 20
- Pointplot() 20
Introduction to Matplotlib
Library Matplotlib

Matplotlib merupakan library pada python untuk menggambarkan suatu gambar 2D yang informatif.
Untuk membuat plot sederhana, module pyplot menyediakan interface seperti Matlab. Pada module
pyplot ini bisa memiliki kebebasan untuk memilih gaya garis, titik dan lain-lain. Sehingga modul pyplot
ini akrab digunakan untuk memvisualisasikan data dengan sederhana. Secara mendalam, library
matplotlib bisa dilihat pada halaman website https://matplotlib.org. Import package yang digunakan
adalah sebagai berikut.

Selanjutnya menggunakan inline, agar plot dapat embedded pada notebook

Contoh penggunaan module pyplot pada matplotlib.

Dalam module pyplot, kita bisa menambahkan hal-hal lain diantaranya sebagai berikut.

Code Keterangan
plt.title() Menambahkan judul
plt.xlabel() Menambahkan label pada sumbu x
plt.ylabel() Menambahkan label pada sumbu y
plt.grid() Menambahkan grid untuk kedua axis
Jika hanya ingin sumbu y maka plt.grid(axis=’y’) dan untuk sumbu x
maka plt.grid(axis=’x’)
plt.axis() Mengganti ukuran axis pada kedua sumbu
Dalam axis terdapat ukuran list yaitu [x_min, x_max, y_min, y_max]
plt.xlim() Limit untuk sumbu x
plt.ylim() Limit untuk sumbu y
plt.legend() Menambahkan keterangan atau legend pada plot
plt.colorbar() Menambahkan rentang warna dari gradasi warna pada plot
plt.show() Memperlihatkan hasil plot
Misalkan kita memiliki data berat badan 2 siswa yang diukur setiap kenaikan kelas dari kelas 7 hingga
kelas 12.

Akan dibuat plot sebagai berikut.

Beberapa visualisasi yang bisa dilakukan adalah sebagai berikut.

Line Plot
Biasanya digunakan pada data series atau continue untuk mengetahui frekuensi dari tiap value yang
continue. Penggunaan line plot menggunakan plt.plot(). Sebagai contoh misal ingin mengetahui
grafik kuadrat dari nilai 1 sampai 10.
Kita bisa mengganti bentuk garis yang digunakan. Linestyle yang bisa digunakan bisa dilihat pada tabel
berikut.

Nama Bentuk
‘solid’ ‘-‘
‘dashed’ ‘--'
‘dashdot’ ‘-.’
‘dotted’ ‘:’

Scatter Plot
Digunakan untuk mengetahui hubungan dari dua variable. Kedua variable ini digambarkan pada
sumbu x dan sumbu y. Scatter plot ini bisa digambarkan dengan plt.scatter()

Misalkan terdapat lebih dari 1 kategori, bisa dengan menambahkan plt.scatter() untuk kategori yang
selanjutnya.
Misalkan kita memiliki 1 variabel tambahan sebagai ukuran dot, sehingga akan mendapatkan bubble
chart. Bisa menambahkan dengan s= sebagai ukuran dot.

Bisa juga dengan mengganti warna pada setiap dot dengan c=.

Untuk mengetahui angka dari setiap warnanya, kita bisa menambahkan colorbar.
Histogram
Histogram digunakan untuk mendapatkan distribusi dari data tersebut. Pada python menggunakan
plt.hist()

Boxplot
Plot ini digunakan untuk mendapatkan distribusi tertentu yang melalui nilai minimum, quartile 1,
quartile 2 atau median, quartile 3 dan maximum. Sehingga bisa diketahui apakah data tersebut
memiliki outlier atau pencilan. Penggunaannya dengan plt.boxplot()

Bar Plot
Mengetahui banyaknya dari kategori tertentu. Dalam penggunakannya bisa menggunakan plt.bar()
Untuk membuat bar chart secara horizontal bisa menggunakan plt.barh()

Pie Chart
Plot ini digunakan untuk mendapatkan persentase dari suatu data kategorik. Jumlah dari seluruh
kategori harus bernilai 100%. Penggunaannya bisa menggunakan plt.pie()

Untuk menambahkan label kategori, dapat menambahkan labels dengan isi labels harus bertipe list.
Sub Plot
Subplot ini berguna untuk memisahkan kategori ke dalam sub sub plot yang berbeda. Subplot ini
mengandung kontimen plt.subplot(banyak kolom, banyak baris, dan index). Dimana code setiap plot
untuk setiap index dituliskan seperti biasa di bawah subplot
Introduction to Seaborn
Library Seaborn

Seaborn merupakan library pada python berdasarkan matplotlib yang digunakan untuk
menggambarkan grafik statistic secara menarik dan informatif. Import library ini adalah sebagai
berikut.

Relplot
Relplot merupakan plot untuk mengetahui hubungan antara 2 variabel. Pada relplot ini bisa
dilakukan visualisasi scatter plot dan line plot. Penggunaannya dengan menambahkan kind=’scatter’
untuk scatterplot (default) atau kind=’line’ untuk line plot.

- Scatterplot
Pada scatterplot ini digunakan dataset dari seaborn yaitu tips yaitu sebagai berikut.

Terdapat beberapa hal yang terdapat pada seaborn relplot yaitu:

code Keterangan
x Data series pada sumbu x
y Data series pada sumbu y
data Dataframe
hue Pewarnaan untuk kategori yang berbeda
style Bentuk dot untuk kategori yang berbeda
size Ukuran dot untuk kategori yang berbeda
sizes Range size

- Line plot
Untuk lineplot menggunakan data yaitu fmri.
Untuk hue, style dan sebagainya pada scatterplot masih bisa digunakan pada line plot. Namun ada
beberapa tambahan yang bisa digunakan pada lineplot sebagai berikut.

code Keterangan
x Data series pada sumbu x
y Data series pada sumbu y
data Dataframe
hue Pewarnaan untuk kategori yang berbeda
style Bentuk line untuk kategori yang berbeda
markers Penggunaan marker pada line (True/False)
ci Confident interval (secara default: bootstrap,
bisa diganti dengan ‘sd’ untuk standar deviasi
atau ‘none’ jika tidak ingin menambahkan CI)
estimator Plot point yang dilakukan secara berulang

- FacetGrid
Penggunaan FacetGrid ini sama halnya seperti subplot untuk membuat plot terpisah berdasarkan
kategorinya. Tambahan untuk menggunakan facet grid ini adalah sebagai berikut.
Code Keterangan
col Kategori untuk dipisahkan berdasarkan kolom
row Kategori untuk dipisahkan berdasarkan baris
col_wrap Banyaknya kolom yang diinginkan (berguna untuk kategori
banyak sehingga bisa dilanjutkan pada baris dibawahnya)
height Tinggi plot

Distribution Plot

- Univariate Distribution
Digunakan untuk menentukan distribusi dari suatu variable. Dalam distplot bisa berupa histogram,
kernel density estimation, dan empirical cumulative distribution.
code Keterangan
kind Jenis plot
‘histogram’
‘kde’: kernel density estimation
‘ecdf’: empirical cumulative distribution
data Dataframe
x Data series yang akan diplot
binwidth Ukuran bar pada histogram
bins Banyaknya bar pada histogram
hue Warna pada kategori tertentu
multiple ‘stack’: menumpuk
‘dodge’: penumpukan secara horizontal
stat ‘density’: menormalisasi count
‘probability’: probabilitas dari setiap bar
common_norm stat pada setiap kategori secara independen

- Bivariate distribution
Digunakan untuk mengetahui hubungan dari dua variable. Semakin gelap warna yang dihasilkan
maka data tersebut semakin banyak.
Tambahan keterangan

code Keterangan
kind Jenis plot
‘histogram’
‘kde’: kernel density estimation
‘ecdf’: empirical cumulative distribution
x Data untuk sumbu x
y Data untuk sumbu y
data dataframe
cbar Menambahkan color bar

- Joint and marginal distribution


Pada plot ini digunakan untuk mengetahui plot distribusi yang berbeda pada satu variable. Secara
default, joint berupa scatterplot dan marginal berupa histogram.

Untuk mengetahui kernel density estimation dari plot tersebut, dapat mengubah kind menjadi ‘kde’.
Untuk mengganti plot pada joint dan marginal, diharuskan untuk menyimpan JointGrid pada suatu
variable tertentu.

- Pairplot
Digunakan untuk mendapatkan multiple plot. Untuk diagonal pada pairplot adalah univariate dengan
histogram, dan untuk upper dan lowernya merupakan scatterplot dari variable tertentu.
Untuk mendapatkan plot yang berbeda, maka dapat menggunakan PairGrid
Categorical plot
Catplot atau categorical plot digunakan untuk data kategori. Pada catplot terdapat hal-hal sebagai
berikut.

code Keterangan
kind Tipe-tipe pada catplot
Categorical scatterplot
- strip (default)
- swarm
Categorical distribution plot
- box
- violin
- boxen
Categorical estimate plot
- point
- bar
- count
hue Membedakan warna untuk suatu kategori
order Mengurutkan plot pada suatu kategori
- Stripplot()

- Boxplot()

- Violinplot()
- Barplot()

- Pointplot()

--- Terima kasih ---

Anda mungkin juga menyukai