MODUL PERKULIAHAN
W542100001 –
Analisis Data
Visualisasi dengan Seaborn,
lanjutan.
Abstrak Sub-CPMK
Seaborn adalah pustaka visualisasi data yang luar biasa untuk grafik statistik
yang diplot dengan Python . Ini memberikan gaya default yang indah dan palet warna
untuk membuat plot statistik lebih menarik. Itu dibangun di atas perpustakaan
matplotlib dan juga terintegrasi erat dengan struktur data dari panda. Dalam tutorial
ini, kita akan melihat bagaimana menggunakan seaborn untuk membuat berbagai plot
dan bagaimana kita dapat menggunakannya bersama dengan matplotlib untuk
membuat plot kita lebih menarik.
Plot hitungan dapat dianggap sebagai histogram di seluruh variabel kategori. Contoh
di bawah ini menunjukkan plot hitungan
1 import matplotlib.pyplot as plt
2 import seaborn as sns
3
4 sns.set_context('paper')
5
6 # load dataset
7 titanic = sns.load_dataset('titanic')
8 # create plot
9 sns.countplot(x = 'class', hue = 'who', data = titanic, palette = 'magma')
10 plt.title('Survivors')
11 plt.show()
Point Plot
Plot titik digunakan untuk menunjukkan perkiraan titik dan interval kepercayaan
menggunakan mesin terbang plot pencar. Plot titik mewakili perkiraan tendensi sentral
untuk variabel numerik dengan posisi titik plot pencar dan memberikan beberapa
indikasi ketidakpastian di sekitar perkiraan itu menggunakan bilah kesalahan.
Joint Plot
Joint Plot menggambar plot dua variabel dengan grafik bivariat dan univariat. Ini
menggunakan Scatter Plot dan Histogram. Joint Plot juga dapat menampilkan data
menggunakan Kernel Density Estimate (KDE) dan Hexagons. Kita juga bisa
Regplot
Kita dapat mengatur parameter ci=None untuk mendapatkan hanya baris tanpa bagian
yang disorot.
1 import seaborn as sns
2 tips = sns.load_dataset("tips")
3 ax = sns.regplot(x="total_bill", y="tip", data=tips,ci=None)
KDE Plot
Plot kotak, juga disebut diagram kotak dan kumis digunakan untuk menggambarkan
kelompok data numerik melalui kuartil. Disebut diagram kotak dan kumis karena terdiri
dari kotak dan kumis. Boxplot juga digunakan untuk mendeteksi outlier dalam
kumpulan data.
Plot kotak terdiri dari ringkasan 5 titik data yang berbeda: minimum, kuartil pertama,
median, kuartil ketiga, dan maksimum.
Minimum
Kuartil Pertama atau 25%
Median (Kuartil Kedua) atau 50%
Kuartil Ketiga atau 75%
Maksimum
1 import seaborn as sns
2 tips = sns.load_dataset("tips")
3 sns.boxplot(x="day", y="total_bill", data=tips)
Violin Plot
Plot biola juga seperti boxplot meringkas data numerik melalui serangkaian kategori.
Mereka pada dasarnya adalah plot kotak dengan estimasi kepadatan kernel (KDE)
yang dilapis bersama dengan rentang kotak dan dipantulkan agar terlihat bagus. Tidak
seperti plot kotak, di mana semua komponen plot sesuai dengan titik data aktual, plot
biola menampilkan estimasi kepadatan kernel dari distribusi yang mendasarinya.
Berikut adalah beberapa contoh plot biola:
1 import seaborn as sns
2 tips = sns.load_dataset("tips")
3 ax = sns.violinplot(x=tips["total_bill"])
Sekarang kita juga dapat merepresentasikan plot di atas seperti ini dengan mengatur
parameter split sebagai True:
1 sns.violinplot(x="day", y="total_bill", hue="smoker",
2 data=tips, palette="muted", split=True)
Peta panas adalah representasi grafis dua dimensi dari data di mana nilai-nilai
individual yang terkandung dalam matriks direpresentasikan sebagai warna. Di
Seaborn, kita dapat membuat peta panas beranotasi yang dapat diubah menggunakan
Matplotlib sesuai kebutuhan.
Sekarang jika kita mendapatkan data 'penerbangan' dataset dan mengubahnya
menjadi bulanan seperti yang ditunjukkan di bawah ini, itu dapat memberi kita banyak
informasi tentang data tersebut. Tetapi informasi ini dalam bentuk tabel dan dapat
ditampilkan lebih baik dengan menggunakan peta panas seperti yang ditunjukkan di
bawah ini:
1 flights=sns.load_dataset("flights")
2 flights = flights.pivot("month", "year", "passengers")
3 print(flights)
Output:
year 1949 1950 1951 1952 1953 ... 1956 1957 1958 1959 1960
month ...
January 112 115 145 171 196 ... 284 315 340 360 417
February 118 126 150 180 196 ... 277 301 318 342 391
March 132 141 178 193 236 ... 317 356 362 406 419
April 129 135 163 181 235 ... 313 348 348 396 461
May 121 125 172 183 229 ... 318 355 363 420 472
June 135 149 178 218 243 ... 374 422 435 472 535
July 148 170 199 230 264 ... 413 465 491 548 622
August 148 170 199 242 272 ... 405 467 505 559 606
September 136 158 184 209 237 ... 355 404 404 463 508
October 119 133 162 191 211 ... 306 347 359 407 461
November 104 114 146 172 180 ... 271 305 310 362 390
December 118 140 166 194 201 ... 306 336 337 405 432
1 sns.heatmap(flights,linewidths=.5,cmap="YlGnBu")
Metode peta cluster memplot kumpulan data matriks sebagai peta panas yang
dikelompokkan secara hierarkis. Ini menggunakan cluster hierarkis untuk mengurutkan
data berdasarkan kesamaan. Ini mengatur ulang data untuk baris dan kolom dan
menampilkan konten serupa di samping satu sama lain untuk pemahaman data yang
lebih mendalam.
1 import seaborn as sns
2 flights=sns.load_dataset("flights")
3 flights = flights.pivot("month", "year", "passengers")
4 sns.clustermap(flights,linewidths=.5,cmap="coolwarm")
Seperti yang Anda lihat di peta ini semua kolom dan baris yang memiliki data serupa
bersama-sama dan sekarang baik tahun maupun bulan tidak berurutan seperti yang
kita lihat di peta panas. Kita bisa memodifikasinya sedikit dan hanya mengelompokkan
baris atau kolom, berikut caranya :
Facetgrid
Kotak segi membentuk matriks panel yang ditentukan oleh baris dan kolom dengan
membagi variabel. Karena panel, satu plot terlihat seperti beberapa plot. Sangat
membantu untuk menganalisis semua kombinasi dalam dua variabel diskrit.
Keuntungan menggunakan Facet adalah, kita dapat memasukkan variabel lain ke
dalam plot. Plot di atas dibagi menjadi dua plot berdasarkan variabel ketiga yang
disebut 'diet' menggunakan parameter 'col'. Kami juga dapat satu lagi parameter
"baris" yang dapat membantu menambahkan satu variabel lagi ke plot kami. Sekarang
1 tips = sns.load_dataset("tips")
2 g = sns.FacetGrid(tips, col="time", row="sex")
3 g.map(sns.scatterplot, "total_bill", "tip")
Pair Plot
Plot pasangan membuat kisi Sumbu sedemikian rupa sehingga setiap variabel
numerik dalam data akan dibagi di seluruh sumbu y di satu baris dan sumbu x di satu
Ini membawa kita ke akhir artikel ini di mana kita membahas beberapa dasar-dasar
Seaborn dan belajar merencanakan berbagai plot. Anda bisa mendapatkan kursus
gratis tentang Pembelajaran mesin di akademi pembelajaran yang hebat, klik spanduk
di bawah ini untuk mengetahui lebih lanjut.