Summary Chapter1

KORELASI
Analisis data eksplorasi dalam banyak proyek pemodelan (baik dalam ilmu data atau
penelitian) melibatkan pemeriksaan korelasi antar prediktor, dan antara prediktor dan variabel
target. Dikatakan berkorelasi positif jika nilai X yang tinggi diikuti dengan nilai Y yang
tinggi. Jika nilai X yang tinggi diikuti dengan nilai Y yang rendah dan sebaliknya variabel
berkorelasi negatif.
Istilah Kunci untuk Korelasi

 KOEFESIEN KORELASI
Metrik yang mengukur sejauh mana variabel numerik dikaitkan satu sama lain (berkisar
dari –1 hingga +1).
 MATRIKS KORELASI
Tabel yang variabelnya ditampilkan pada baris dan kolom, dan nilai selnya adalah
korelasi antar variabel.
 SCATTERPLOT
Plot yang sumbu x adalah nilai suatu variabel, dan sumbu y adalah nilai variabel lainnya.
Untuk menghitung koefisien korelasi Pearson, kita mengalikan deviasi mean variabel 1
dengan variabel 2, dan membaginya dengan produk deviasi standar:
Koefisien korelasi selalu berada di antara +1 (korelasi positif sempurna) dan –1 (korelasi
negatif sempurna) 0 menunjukkan tidak ada korelasi. Variabel dapat memiliki hubungan yang
tidak linier, sehingga koefisien korelasi mungkin bukan metrik yang berguna.
Hubungan antara tarif pajak dan pendapatan yang diangkat sebagai contoh, ketika tarif pajak
naik dari nol, pendapatan yang diperoleh juga meningkat (korelasi positif). Namun, ketika
tarif pajak mencapai tingkat yang tinggi dan mendekati 100%, penghindaran pajak meningkat
dan penerimaan pajak justru menurun ( korelasi negatif ).
Tabel Korelasi antara return saham telekomunikasi

Tabel di atas disebut matriks korelasi, menunjukkan korelasi antara return harian saham
telekomunikasi dari Juli 2012 hingga Juni 2015. Tabel korelasi seperti di atas biasanya diplot
untuk menampilkan secara visual hubungan antara beberapa variabel.
Berikut sintaks di R yang dapat dengan mudah membuatnya menggunakan paket corrplot:
Dimungkinkan untuk membuat grafik yang sama dengan Python. Dalam repositori kode
sumber terlampir, kami menyertakan kode Python untuk menghasilkan visualisasi yang lebih
komprehensif:
ETF untuk S&P 500 (SPY) dan Indeks Dow Jones (DIA) memiliki korelasi yang tinggi.
Demikian pula dengan QQQ dan XLK, yang sebagian besar terdiri dari perusahaan teknologi,
berkorelasi positif. ETF defensif, seperti yang melacak harga emas (GLD), harga minyak
(USO), atau volatilitas pasar (VXX), cenderung berkorelasi lemah atau negatif dengan ETF
lainnya.
Gambar Korelasi antara pengembalian ETF

Orientasi elips menunjukkan apakah dua variabel berkorelasi positif (elips menunjuk ke
kanan atas) atau berkorelasi negatif (elips menunjuk ke kiri atas).
 Para ahli statistik sudah lama mengusulkan jenis koefisien korelasi lain, seperti rho
Spearman atau tau Kendall. Ini adalah koefisien korelasi berdasarkan peringkat data.
Karena estimasi ini menggunakan peringkat dan bukan nilai, estimasi ini kuat
terhadap outlier dan dapat menangani jenis nonlinier tertentu. Namun, para ilmuwan
data umumnya dapat berpegang pada koefisien korelasi Pearson, dan alternatif
kuatnya, untuk analisis eksplorasi.
SCATTERPLOTS
Standar untuk memvisualisasikan hubungan antara dua variabel data terukur adalah dengan
scatterplot. Sumbu x mewakili satu variabel dan sumbu y mewakili variabel lain, dan setiap
titik pada grafik adalah catatan.
Ini diproduksi di R dengan perintah:
Grafik yang sama dapat dibuat dengan Python menggunakan metode pandas scatter:
Berikut hasil dari sintaks di atas:
Gambar Plot sebar korelasi antara pengembalian untuk ATT dan Verizon
Imbal hasil mempunyai hubungan yang positif: meski berada di sekitar nol, hampir setiap
hari, saham naik atau turun secara bersamaan (kuadran kanan atas dan kiri bawah).
Ide Utama
 Koefisien korelasi mengukur sejauh mana dua variabel berpasangan (misalnya tinggi
badan dan berat badan individu) saling berhubungan satu sama lain.
 Bila nilai v1 yang tinggi sejalan dengan nilai v2 yang tinggi, v1 dan v2 adalah positif
terkait.
 Koefisien korelasi merupakan metrik yang terstandarisasi, sehingga selalu berkisar
dari -1 (korelasi negatif sempurna) hingga +1 (korelasi positif sempurna).
 Koefisien korelasi yang bernilai nol menunjukkan tidak ada korelasi, namun perlu
diketahui bahwa susunan data yang acak akan menghasilkan nilai positif dan negatif
untuk koefisien korelasi hanya secara kebetulan.
MENJELAJAHI DUA VARIABEL ATAU LEBIH

Penduga yang sudah dikenal seperti mean dan varians melihat variabel satu per satu (analisis
univariat). Analisis korelasi merupakan metode penting yang membandingkan dua variabel
(analisis bivariat).
Istilah Kunci untuk Menjelajahi Dua Variabel atau Lebih

 Tabel kontingensi
Penghitungan jumlah antara dua atau lebih variabel kategori.
 Pengelompokan
heksagonal Plot dua variabel numerik dengan catatan yang dimasukkan ke dalam
segienam.
 Plot kontur
Plot yang menunjukkan kepadatan dua variabel numerik seperti peta topografi.
 Plot biola
Mirip dengan plot kotak tetapi menunjukkan perkiraan kepadatan.
Seperti analisis univariat, analisis bivariat melibatkan penghitungan statistik ringkasan dan
pembuatan tampilan visual. Jenis analisis bivariat atau multivariat yang tepat bergantung
pada sifat data: numerik versus kategorikal.
BINNING DAN KONTUR HEKSAGONAL (Melompat Data Nuemerik Versus

Numerik)
Plot sebar baik-baik saja jika jumlah nilai datanya relatif kecil. Plot sebar akan terlalu padat,
sehingga kita memerlukan cara berbeda untuk memvisualisasikan hubungan tersebut.
Paket R ggplot2 yang kuat, yang dikembangkan oleh Hadley Wickham (ggplot2). Ggplot2
adalah salah satu dari beberapa perpustakaan perangkat lunak baru untuk analisis data visual
eksplorasi tingkat lanjut:
Dengan Python, plot binning heksagonal sudah tersedia menggunakan metode bingkai data
pandas hexbin:
Gambar Pengelompokan heksagonal untuk nilai taksiran pajak versus kaki persegi jadi
Dalam bagan ini, hubungan positif antara kaki persegi dan nilai pajak terlihat jelas. Fitur yang
menarik adalah petunjuk adanya garis tambahan di atas garis utama (paling gelap) di bagian
bawah, yang menunjukkan rumah-rumah yang memiliki ukuran luas yang sama dengan yang
ada di garis utama tetapi nilai pajaknya lebih tinggi.
Bagan ini juga dibuat menggunakan ggplot2 dengan fungsi geom density2d bawaan
(menggunakan R) :
Fungsi kdeplot seaborn dengan Python membuat plot kontur:

Gambar di bawah menggunakan kontur yang dilapiskan ke dalam plot sebar untuk
memvisualisasikan hubungan antara dua variabel numerik. Kontur pada dasarnya adalah peta
topografi untuk dua variabel; setiap pita kontur mewakili kepadatan titik tertentu, meningkat
seiring mendekati “puncak”.
Gambar Plot kontur untuk nilai taksiran pajak versus kaki persegi jadi
DUA VARIABEL KATEGORIKAL

Cara yang berguna untuk meringkas dua variabel kategori adalah tabel kontingensi tabel dari
dihitung berdasarkan kategori. Tabel di bawah menunjukkan tabel kontingensi antara nilai
pery pinjaman pribadi dan hasil pinjaman itu.
Tabel kontingensi tingkat dan status pinjaman

Nilainya mulai dari A (tinggi) hingga G (rendah). Hasilnya bisa dibayar penuh, lancar,
terlambat, atau dibebankan (saldo pinjaman diperkirakan tidak akan tertagih). Tabel ini
menunjukkan persentase jumlah dan baris. Pinjaman bermutu tinggi mempunyai persentase
keterlambatan/penagihan yang sangat rendah dibandingkan dengan pinjaman bermutu
rendah. Tabel kontingensi hanya dapat melihat jumlah, atau dapat juga menyertakan kolom
dan total persentase.
Di R, fungsi CrossTable dalam paket descr menghasilkan abel kontingensi, dan kode berikut
digunakan untuk membuat Tabel di atas:
Metode pivot table membuat tabel pivot dengan Python. Argumen aggfunc memungkinkan
kita untuk mendapatkan hitungannya:
DATA KATEGORIKAL DAN NUMERIK

Plot kotak adalah cara sederhana untuk secara visual membandingkan distribusi variabel
numerik yang dikelompokkan menurut kategorikal variabel. Misalnya kita ingin
membandingkan berapa persentase penundaan penerbangan bervariasi antar maskapai.
Gambar Boxplot persentase penundaan penerbangan menurut maskapai penerbangan
Gambar di atas menunjukkan persentase penerbangan dalam sebulan tertunda apabila

penundaan tersebut berada dalam kendali pengangkut. Alaska memiliki penundaan yang
paling sedikit, sedangkan Amerika memiliki penundaan paling banyak: kuartil bawah untuk
Amerika lebih tinggi daripada kuartil atas untuk Alaska.
Plot biola yang diperkenalkan oleh [Hintze-Nelson-1998] merupakan penyempurnaan dari
plot kotak dan memplot perkiraan kepadatan dengan kepadatan pada sumbu y. Kelebihan plot
biola adalah dapat menampilkan nuansa distribusi yang tidak terlihat dalam plot kotak.
Sebaliknya, boxplot lebih jelas menunjukkan outlier pada data. Di ggplot2, fungsi
geom_violin dapat digunakan untuk membuat plot biola sebagai berikut:
Plot biola di bawah menunjukkan konsentrasi distribusi mendekati nol untuk Alaska dan,
pada tingkat lebih rendah, Delta. Fenomena ini tidak begitu jelas dalam plot kotak. Anda
dapat menggabungkan plot biola dengan plot kotak dengan menambahkan geom_boxplot ke
plot.
Gambar Biola plot persentase penundaan penerbangan menurut maskapai penerbangan
Ide Utama
 Binning heksagonal dan plot kontur adalah alat yang berguna yang memungkinkan
pemeriksaan grafis terhadap dua variabel numerik sekaligus, tanpa terbebani oleh data
dalam jumlah besar.
 Tabel kontingensi adalah alat standar untuk melihat jumlah dua kategori variabel riil.
 Plot kotak dan plot biola memungkinkan Anda memplot variabel numerik terhadap
suatu kategori variabel kal.
Gambar selanjutnya menjelaskan pengaruh lokasi dengan memplot data untuk sekumpulan
kode pos. Kini gambarannya menjadi lebih jelas, nilai pajak di beberapa kode pos (98105,
98126) jauh lebih tinggi dibandingkan di kode pos lainnya (98108, 98188).
Gambar Nilai yang dihitung berdasarkan pajak versus kaki persegi menurut kode pos
beserta sintaks pada R
Sebagian besar paket Python mendasarkan visualisasinya pada Matplotlib. Seaborn memiliki
cara yang relatif mudah untuk membuat grafik berikut:

Summary Chapter1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Summary Chapter1

Diunggah oleh

Hak Cipta:

Format Tersedia

KORELASI

Istilah Kunci untuk Korelasi

Tabel Korelasi antara return saham telekomunikasi

Gambar Korelasi antara pengembalian ETF

Berikut hasil dari sintaks di atas:

MENJELAJAHI DUA VARIABEL ATAU LEBIH

Istilah Kunci untuk Menjelajahi Dua Variabel atau Lebih

BINNING DAN KONTUR HEKSAGONAL (Melompat Data Nuemerik Versus

Fungsi kdeplot seaborn dengan Python membuat plot kontur:

DUA VARIABEL KATEGORIKAL

Tabel kontingensi tingkat dan status pinjaman

DATA KATEGORIKAL DAN NUMERIK

Gambar Boxplot persentase penundaan penerbangan menurut maskapai penerbangan

Gambar di atas menunjukkan persentase penerbangan dalam sebulan tertunda apabila

Gambar Biola plot persentase penundaan penerbangan menurut maskapai penerbangan

Anda mungkin juga menyukai