Anda di halaman 1dari 12

TUGAS 2 ANALISIS DATA MULTIVARIAT I

Dosen : Titi Purwandari, DRA, MSIE

Azka Larissa Rahayu (140610190063)


Kelas B

PROGRAM STUDI S-1 STATISTIKA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJAJARAN
JATINANGOR
2020
1
Buat contoh kasus dan pembahasan melalui struktur data multivariat untuk menghitung rata-
rata sampel, varians sampel, covarians sampel, dan koefisien korelasi sampel.

Faktor utama yang mempengaruhi produktivitas padi tadah hujan adalah curah hujan dan dosis
pemupukan. Berbasis data yang telah dikumpulkan, seseorang ingin mengetahui seberapa
besar curah hujan dan pemupukan berpengaruh terhadap produktivitas padi.

Pengaruh Curah Hujan dan Dosis Pupuk Terhadap Produktivitas Padi

Produksi Padi Curah Hujan Pemupukan


(kuintal) (mm/hari) (kg/ha)
24 80 30
21 75 20
28 120 30
22 60 27
28 110 32
27 105 31
26 80 28
28 110 37
34 150 43
30 100 40
25 83 30
27 97 33
15 42 15
22 70 20
25 75 28
Sumber: Mega Hidayat

Pada data di atas curah hujan (X1) dan pemupukan (X2) berperan sebagai variabel independen,
dimana kedua variabel tersebut mempengaruhi perubahan pada variabel dependen. Sedangkan
produksi padi (Y) berperan sebagai variabel dependen dimana perubahan terjadi karena adanya
pengaruh dari variabel independen.
Statistika Deskriptif
Rata-Rata
Nilai rata-rata adalah nilai tengah atau biasa juga disebut sebagai mean dari suatu kelompok
data yang mewakili seluruh kelompok data, dengan rumus:
n
1
X̅k = n ∑ x jk
j=1

Dengan rumus AVERAGE() pada software Excel, didapatkan nilai rata-ratanya sebagai berikut.

Y X1 X2 rata-rata total
25,47 90,47 29,6 48,51111

Berdasarkan data sampel, data variabel produksi padi terpusat pada 25,47 kuintal, data curah
hujan terpusat pada 90,47 mm/hari, dan data variabel pemupukan terpusat pada 29,6 kg/ha,
serta untuk rata-rata sampel total variabel independen terpusat pada 48,51.

Varians
Dalam teori probabilitas dan statistika, varians (dari bahasa Inggris: variance) atau ragam suatu
peubah acak (atau distribusi probabilitas) adalah ukuran seberapa jauh sebuah kumpulan
bilangan tersebar. Varians nol mengindikasikan bahwa semua nilai sama.
n
1
S k = Skk = n−1 ∑ ¿ ¿jk – x̅ k )2
2
j=1

Dengan rumus VAR.S() pada software Excel, didapatkan nilai varians sebagai berikut.
Y X1 X2 varians sampel
18,25 664,9 51,44 1127,849877

Berdasarkan data sampel, data variabel produksi padi tersebar sejauh 18,25, data curah hujan
tersebar sejauh 664,9, dan data variabel pemupukan tersebar sejauh 51,55, serta varians
keseluruhan sampel yaitu 1.127,85. Dapat dikatakan bahwa sebaran data produksi padi
cenderung paling homogen.

Kovarians
Kovarian adalah ukuran bagaimana perubahan dalam satu variabel dikaitkan dengan perubahan
dalam variabel kedua. Secara khusus, kovarians mengukur sejauh mana dua variabel terkait
secara linear.

n
1
Sik = ∑ ¿ ¿ – x̅ i )(x jk – x̅ k )
n−1 j=1 ji

Produksi Padi dan Curah Hujan

Y X1 Y −Ý X 1 − X́ 1 (Y −Ý )( X ¿¿ 1− X́ 1 )¿
24 80 -1,46667 -10,46667 15,35111
21 75 -4,46667 -15,46667 69,08444
29,53333
28 120
2,53333 3 74,81778
22 60 -3,46667 -30,46667 105,6178
19,53333
28 110
2,53333 3 49,48444
14,53333
27 105
1,53333 3 22,28444
26 80 0,53333 -10,46667 -5,58222
19,53333
28 110
2,53333 3 49,48444
59,53333
34 150
8,53333 3 508,0178
9,533333
30 100
4,53333 3 43,21778
25 83 -0,46667 -7,466667 3,484444
6,533333
27 97
1,53333 3 10,01778
15 42 -10,4667 -48,46667 507,2844
22 70 -3,46667 -20,46667 70,95111
25 75 -0,46667 -15,46667 7,217778
∑ (Y −Ý )(X 1− X́ 1 ) 1530,733

1
S y 1= ∙1530,733=109,3381
15−1

Variabel Produksi Padi dan Curah Hujan terkait secara linear sejauh 109,3381.

Produksi Padi dan Pemupukan

Y X2 Y −Ý X 1 − X́ 1  (Y −Ý )( X ¿¿ 2− X́ 2) ¿
24 30 -1,46667 0,4 -0,58667
21 20 -4,46667 -9,6 42,88
28 30 2,53333 0,4 1,013333
22 27 -3,46667 -2,6 9,013333
28 32 2,53333 2,4 6,08
27 31 1,53333 1,4 2,146667
26 28 0,53333 -1,6 -0,85333
28 37 2,53333 7,4 18,74667
34 43 8,53333 13,4 114,3467
30 40 4,53333 10,4 47,14667
25 30 -0,46667 0,4 -0,18667
27 33 1,53333 3,4 5,213333
15 15 -10,4667 -14,6 152,8133
22 20 -3,46667 -9,6 33,28
25 28 -0,46667 -1,6 0,746667
∑ (Y −Ý )(X 2− X́ 2 )  431,0533

1
S y 2= ∙ 431,0533=30,78952
15−1

Variabel Produksi Padi dan Pemupukan terkait secara linear sejauh 30,78952.

Curah Hujan dan Pemupukan

( X ¿ ¿1− X́ 1 )¿(
X1 X2 X 1 − X́ 1    X 2 − X́ 2
X 2 − X́ 2 ¿ 
80 30 -10,4667 0,4 -4,18667
75 20 -15,4667 -9,6 148,48
120 30 29,5333 0,4 11,81333
60 27 -30,4667 -2,6 79,21333
110 32 19,5333 2,4 46,88
105 31 14,5333 1,4 20,34667
80 28 -10,4667 -1,6 16,74667
110 37 19,5333 7,4 144,5467
150 43 59,5333 13,4 797,7467
100 40 9,53333 10,4 99,14667
83 30 -7,46667 0,4 -2,98667
97 33 6,53333 3,4 22,21333
42 15 -48,4667 -14,6 707,6133
70 20 -20,4667 -9,6 196,48
75 28 -15,4667 -1,6 24,74667
∑ (X 1− X́ 1)( X 2− X́ 2¿ )¿ 2308,8
1
S12= ∙ 2308,8=164,9143
15−1

Variabel Curah Hujan dan Pemupukan terkait secara linear sejauh 164,9143.

Koefisien Korelasi
Koefisien korelasi adalah nilai yang menunjukan kuat/tidaknya hubungan linier antar dua
variabel. Koefisien korelasi biasa dilambangkan dengan huruf r dimana nilai r dapat bervariasi
dari -1 sampai +1.
n
Sik
rik = = ∑ ¿¿ ¿
√ Sii √ Skk j=1
109,3381
ry1 = r1y = = 0.99259
√18,25 √ 164,9
30,78952
ry2 = r2y = = 1,004926
√ 18,25 √ 51,44
164,9143
r12 = r21 = = 0,891712
√ 164,9 √ 51,44
1 0,99259 1,004926

[
R = 0,99259 1
1,004926 0,891712
0,891712
1 ]
Dengan perhitungan di atas didapatkan nilai koefisien korelasi mendekati 1 hal itu
menunjukkan adanya hubungan yang kuat antar masing-masing variabel.

2
Buat contoh kasus dan pembahasan untuk melakukan atau membuat scatter plot pada
diagram berdimensi dua dan diagram berdimensi tiga (3d scatterplot data)
Contoh Kasus:
Diketahui pada dataset iris terdapat atribut SepalLength, SepalWidth, PetalLength, dan
PetalWidth dengan tipe data number, serta terdapat atribut Species yang memiliki tiga nilai
yaitu setosa, versicolor, dan virginica sesuai dengan deskripsi pada lama resminya
Dataset Iris merupakan dataset multivariat yang diperkenalkan oleh ahli statistika dan biologi
Inggris, Ronald Fisher, dalam paper-nya tahun 1936. Dataset ini terdiri dari 3 spesies bunga iris
(Iris Setosa, Iris virginica, dan Iris versicolor) dan tiap spesies memiliki 50 sampel. Empat fitur
yang diukur dari masing-masing sampel yaitu panjang dan lebar sepal dan kelopak, dalam
sentimeter (Petal Length, Petal Width, Sepal Length, Sepal Width). 
Berikut merupakan 6 data pertama dan 6 data terakhir dari dataset iris:
> data(iris)
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> tail(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
145 6.7 3.3 5.7 2.5 virginica
146 6.7 3.0 5.2 2.3 virginica
147 6.3 2.5 5.0 1.9 virginica
148 6.5 3.0 5.2 2.0 virginica
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3.0 5.1 1.8 virginica

 Membuat Scatterplot 2 Dimensi


Scatter plot adalah sebuah grafik yang biasa digunakan untuk melihat suatu pola hubungan
antara 2 variabel. Untuk bisa menggunakan scatter plot, skala data yang digunakan haruslah
skala interval dan rasio.
1. Plot antara Sepal Length dan Sepal Width
> scatterplot(x~y,main="Plot antara Sepal Lenth dan Sepal Width",
+ xlab="Sepal Length", ylab="Sepal Width",smooth=FALSE)
Pada scatterplot di atas, dapat terlihat bahwa data menyebar tidak berpola maka bisa
disimpulkan bahwa hubungan antara sepal length dan sepal width sangatlah kecil atau
tidak ada hubungan.

2. Plot antara Sepal Length dan Petal Length


> scatterplot(x~z,main="Plot antara Sepal Lenth dan Petal Length",
+ xlab="Sepal Length", ylab="Petal Length", smooth=FALSE)
Scatterplot di atas menunjukkan bahwa variabel sepal length dan petal length
menunjukkan adanya hubungan yang positif. Peningkatan yang terjadi pada sepal
lengthjuka diikuti peningkatan pada variabel petal length.

3. Plot antara Sepal Width dan Petal Length


> scatterplot(y~z,main="Plot antara Sepal Width dan Petal Length",
+ xlab="Sepal width", ylab="Petal Length", smooth=FALSE)
Pada scatterplot di atas, dapat terlihat bahwa data menyebar tidak berpola maka bisa
disimpulkan bahwa hubungan antara sepal width dan petal length sangatlah kecil atau
tidak ada hubungan.

 Membuat Scatterplot 3 Dimensi


Plot antara variabel Sepal Length, Sepal Width, dan Petal Length
> library(scatterplot3d)
> scatterplot3d(x,y,z,
+ pch=1,
+ main= " Scatterplot 3D",
+ xlab= 'Sepal lenght',
+ ylab= "Sepal width",
+ zlab= " Petal lenght")
3
Menghitung jarak Euclidian
Setiap kordinat memberikan kontribusi yang sama terhadap jarak. Dalam matematika, jarak
Euclidian (dinamai menurut Euclid) adalah jarak garis lurus “biasa” antara dua titik dalam ruang
Euclidian. Dengan jarak ini, ruang Euclidian menjadi ruang metrik. Euclid mengemukakan
bahwa jarak terpendek antara dua titik selalu berupa garis.
P( x 1 , x 2 ,… , x p ), Q( y 1 , y2 , … , y p)

d ( P ,Q ) =√( x 1− y 1)2 +( x2− y 2)2 +…+( x p − y p )2


Dengan menggunakan package philentropy pada software R, dihitung jarak Euclidian antar
setiap vector sebagai berikut:
1. Jarak antara vektor x dan vektor y
> P <- x/sum(x)
> Q <- y/sum(y)
> d <- rbind(P,Q)
> distance(d, method = "euclidean")
Metric: 'euclidean'; comparing: 2 vectors.
euclidean
0.01729279

Jarak antara vector Sepal Length dan Sepal Width yaitu sebesar 0,01729279.

2. Jarak antara vektor x dan vektor z


> P <- x/sum(x)
> Q <- z/sum(z)
> d <- rbind(P,Q)
> distance(d, method = "euclidean")
Metric: 'euclidean'; comparing: 2 vectors.
euclidean
0.02873424

Jarak antara vector Sepal Length dan Petal Length yaitu sebesar 0,02873424.

3. Jarak antara vektor y dan vektor z


> P <- y/sum(y)
> Q <- z/sum(z)
> d <- rbind(P,Q)
> distance(d, method = "euclidean")
Metric: 'euclidean'; comparing: 2 vectors.
euclidean
0.04445065

Jarak antara vector Sepal Width dan Petal Length yaitu sebesar 0,04445065.

Anda mungkin juga menyukai