Analisis data eksplorasi dalam banyak proyek pemodelan (baik dalam ilmu data atau
penelitian) melibatkan pemeriksaan korelasi antar prediktor, dan antara prediktor dan variabel
target. Dikatakan berkorelasi positif jika nilai X yang tinggi diikuti dengan nilai Y yang
tinggi. Jika nilai X yang tinggi diikuti dengan nilai Y yang rendah dan sebaliknya variabel
berkorelasi negatif.
Untuk menghitung koefisien korelasi Pearson, kita mengalikan deviasi mean variabel 1
dengan variabel 2, dan membaginya dengan produk deviasi standar:
Koefisien korelasi selalu berada di antara +1 (korelasi positif sempurna) dan –1 (korelasi
negatif sempurna) 0 menunjukkan tidak ada korelasi. Variabel dapat memiliki hubungan yang
tidak linier, sehingga koefisien korelasi mungkin bukan metrik yang berguna.
Hubungan antara tarif pajak dan pendapatan yang diangkat sebagai contoh, ketika tarif pajak
naik dari nol, pendapatan yang diperoleh juga meningkat (korelasi positif). Namun, ketika
tarif pajak mencapai tingkat yang tinggi dan mendekati 100%, penghindaran pajak meningkat
dan penerimaan pajak justru menurun ( korelasi negatif ).
Dimungkinkan untuk membuat grafik yang sama dengan Python. Dalam repositori kode
sumber terlampir, kami menyertakan kode Python untuk menghasilkan visualisasi yang lebih
komprehensif:
ETF untuk S&P 500 (SPY) dan Indeks Dow Jones (DIA) memiliki korelasi yang tinggi.
Demikian pula dengan QQQ dan XLK, yang sebagian besar terdiri dari perusahaan teknologi,
berkorelasi positif. ETF defensif, seperti yang melacak harga emas (GLD), harga minyak
(USO), atau volatilitas pasar (VXX), cenderung berkorelasi lemah atau negatif dengan ETF
lainnya.
SCATTERPLOTS
Standar untuk memvisualisasikan hubungan antara dua variabel data terukur adalah dengan
scatterplot. Sumbu x mewakili satu variabel dan sumbu y mewakili variabel lain, dan setiap
titik pada grafik adalah catatan.
Ini diproduksi di R dengan perintah:
Grafik yang sama dapat dibuat dengan Python menggunakan metode pandas scatter:
Gambar Plot sebar korelasi antara pengembalian untuk ATT dan Verizon
Imbal hasil mempunyai hubungan yang positif: meski berada di sekitar nol, hampir setiap
hari, saham naik atau turun secara bersamaan (kuadran kanan atas dan kiri bawah).
Ide Utama
Koefisien korelasi mengukur sejauh mana dua variabel berpasangan (misalnya tinggi
badan dan berat badan individu) saling berhubungan satu sama lain.
Bila nilai v1 yang tinggi sejalan dengan nilai v2 yang tinggi, v1 dan v2 adalah positif
terkait.
Koefisien korelasi merupakan metrik yang terstandarisasi, sehingga selalu berkisar
dari -1 (korelasi negatif sempurna) hingga +1 (korelasi positif sempurna).
Koefisien korelasi yang bernilai nol menunjukkan tidak ada korelasi, namun perlu
diketahui bahwa susunan data yang acak akan menghasilkan nilai positif dan negatif
untuk koefisien korelasi hanya secara kebetulan.
Pengelompokan
heksagonal Plot dua variabel numerik dengan catatan yang dimasukkan ke dalam
segienam.
Plot kontur
Plot yang menunjukkan kepadatan dua variabel numerik seperti peta topografi.
Plot biola
Mirip dengan plot kotak tetapi menunjukkan perkiraan kepadatan.
Seperti analisis univariat, analisis bivariat melibatkan penghitungan statistik ringkasan dan
pembuatan tampilan visual. Jenis analisis bivariat atau multivariat yang tepat bergantung
pada sifat data: numerik versus kategorikal.
Gambar Pengelompokan heksagonal untuk nilai taksiran pajak versus kaki persegi jadi
Dalam bagan ini, hubungan positif antara kaki persegi dan nilai pajak terlihat jelas. Fitur yang
menarik adalah petunjuk adanya garis tambahan di atas garis utama (paling gelap) di bagian
bawah, yang menunjukkan rumah-rumah yang memiliki ukuran luas yang sama dengan yang
ada di garis utama tetapi nilai pajaknya lebih tinggi.
Bagan ini juga dibuat menggunakan ggplot2 dengan fungsi geom density2d bawaan
(menggunakan R) :
Gambar Plot kontur untuk nilai taksiran pajak versus kaki persegi jadi
Metode pivot table membuat tabel pivot dengan Python. Argumen aggfunc memungkinkan
kita untuk mendapatkan hitungannya:
Plot biola di bawah menunjukkan konsentrasi distribusi mendekati nol untuk Alaska dan,
pada tingkat lebih rendah, Delta. Fenomena ini tidak begitu jelas dalam plot kotak. Anda
dapat menggabungkan plot biola dengan plot kotak dengan menambahkan geom_boxplot ke
plot.
Ide Utama
Binning heksagonal dan plot kontur adalah alat yang berguna yang memungkinkan
pemeriksaan grafis terhadap dua variabel numerik sekaligus, tanpa terbebani oleh data
dalam jumlah besar.
Tabel kontingensi adalah alat standar untuk melihat jumlah dua kategori variabel riil.
Plot kotak dan plot biola memungkinkan Anda memplot variabel numerik terhadap
suatu kategori variabel kal.
Gambar selanjutnya menjelaskan pengaruh lokasi dengan memplot data untuk sekumpulan
kode pos. Kini gambarannya menjadi lebih jelas, nilai pajak di beberapa kode pos (98105,
98126) jauh lebih tinggi dibandingkan di kode pos lainnya (98108, 98188).
Gambar Nilai yang dihitung berdasarkan pajak versus kaki persegi menurut kode pos
beserta sintaks pada R
Sebagian besar paket Python mendasarkan visualisasinya pada Matplotlib. Seaborn memiliki
cara yang relatif mudah untuk membuat grafik berikut: