Anda di halaman 1dari 11

Acara 2.

Asosiasi Antara Dua Himpunan Data

Tujuan: Mengulang dan mempelajari analisis asosiasi lebih lanjut


Mengenalkan cara menguji percobaan dengan dua grup perlakuan
Mengenalkan program R untuk keperluan itu

Analisis Asosiasi
Sebelum mendalami lebih lanjut mengenai perluasan percobaan dua perlakuan, ada
baiknya kita mempelajari lebih lanjut bagaimana melakukan analisis statistik antara
dua atau lebih peubah yang saling berkaitan (berasosiasi). Penelitian di bidang
pertanian banyak menggunakan kerangka metodologi ini.
Analisis mengenai keterkaitan (asosiasi) antara satu peubah (variable) dengan satu
atau lebih peubah lain merupakan analisis mendasar dalam banyak penelitian hayati
maupun sosial. Data yang dipakai berasal dari penelitian non-percobaan, seperti survei
dan sensus, maupun penelitian percobaan, baik percobaan semu maupun percobaan
dengan perlakuan terkendali penuh. Dalam penelitian survei atau deskriptif (bukan
penelitian rekomendasi), peubah yang dilihat keterkaitannya biasanya berasal dari
pengamatan langsung. Dalam percobaan untuk memberi rekomendasi, beberapa
peubah merupakan perlakuan. Tabel 1 memberikan rangkuman mengenai pendekatan
analisis yang dilakukan.
Tabel 1. Tipe peubah data dan pendekatan analisisnya.
Tipe data
Hubungan X
Peubah I (X) Peubah II Pendekatan
dan Y
(Y)
Kategorik Kategorik Tidak selalu Analisis frekuensi (non
kausal parametrik)
Numerik acak Numerik Tidak selalu Analisis korelasi (Y~X)
acak kausal
Numerik acak atau fixed Numerik Kausal (X Y) Analisis regresi (Y~X)
acak
Kategorik fixed Numerik Kausal (X Y) Uji-t dan analisis varians
acak (Y~X)
Kategorik fixed dan Numerik Kausal (X Y) Analisis kovarians (Y~X)
numerik acak atau fixed acak (tidak dibahas)
Numerik Kategorik Kausal (X Y) An. regresi logistik (non-
liner) (tdk dibahas)
Analisis regresi dan varians untuk peubah Y yang bersifat kategorik sebenarnya
tersedia, tetapi tidak menjadi lingkup mata praktikum ini. Dalam acara praktikum ini,
akan dibahas analisis frekuensi (kesesuaian model & independensi), korelasi, dan
regresi.

Statistik Non Parametrik


Analisis frekuensi
Analisis frekuensi dilakukan untuk mengetahui keterkaitan antara dua atau lebih
peubah kategorik, misalnya antara jenis kelamin dan kebiasaan merokok. Ada atau
tidaknya hubungan sebab-akibat (kausal) antara peubah2 yang dilibatkan tidak diberi
perhatian dalam analisis ini.

Pengujian independensi
Pengujian ini menguji hipotesis nol bahwa dua (atau lebih) peubah saling bebas
(independen). Kebebasan ini diukur dari apakah frekuensi kombinasi sama dengan
perkalian frekuensi marginal masing-masing peubah, atau dapat ditulis Ho: pAB = pA .
pB. Pengujian menggunakan MsExcel dapat dilihat kembali pada Panduan Praktikum
Statistika. Berikut ini latihan yang dapat dilakukan pada program R. Bukalah file R
dengan nama Acara-2-non-parametrik.R untuk latihan pengujian independensi.

sex smoke asthma sex smoke asthma


f smoker asthma f nonsm asthma
m nonsm nonasht f nonsm nonasht
m smoker nonasht m smoker asthma
f nonsm asthma f nonsm nonasht
m smoker asthma f nonsm nonasht
m smoker asthma m smoker asthma
f nonsm nonasht f nonsm nonasht
m smoker asthma m nonsm nonasht

cBagaimana hasil uji hi-squarednya? Ingatlah bahwa p-value adalah probabilitas


menerima H0: kedua peubah saling independen! Bagaimana keterkaitan antara peubah
smoke dan asthma? Tunjukkan! Apa kesimpulan yang dapat anda berikan?
Pengujian kesesuaian (goodness-of-fit test)
Kesesuaian dengan perbandingan atau sebaran tertentu biasa dilakukan, misalnya
perbandingan Mendel atau distribusi Binomial. Sebagai contoh adalah pengujian
perbandingan generasi pertama silang balik (BC1) dengan tetua resesif rentan
memberikan hasil 70 tahan : 80 rentan. Hipotesis untuk diuji (H0): 1:1. Jalankan syntax
untuk uji goodness-of-fit pada file R yang sama. Apakah hasilnya mendukung H0
(mengikuti nisbah Mendel)?

Statistik Parametrik
Statistik parametrik yang diberikan di sini terbatas hanya pada model liner untuk
korelasi, regresi, dan ANOVA klasik. Statistik parametrik lainnya seperti regresi logistik,
model liner campuran (linear mixed model) tidak diberikan di sini.

Analisis korelasi
Pengamatan terhadap dua atau lebih peubah seringkali berangkat dari minat untuk
mengetahui keterkaitan antara peubah-peubah tersebut. Sebagai contoh,
pengamatan terhadap umur berbunga, tinggi tanaman, panjang tongkol, dan hasil
pada jagung. Apabila orang mengetahui keterkaitan antara umur berbunga dan tinggi
tanaman terhadap panjang tongkol dan hasil jagung, sebelum panen sudah dapat
diperkirakan besar-kecil tongkol atau tinggi rendahnya hasil. Hubungan ini belum
tentu dapat dijelaskan secara sebab-akibat, kecuali ada dasar teori yang dapat
menegakkan hubungan sebab-akibat tersebut. Sebagai misal, hubungan antara bobot
dan lingkar lengan bayi, tingkat konsumsi ikan mentah dan panjang usia, dan
sebagainya.
Secara faktual, data menunjukkan hubungan positif pada kedua contoh tersebut,
tetapi hasil itu tidak berimplikasi bahwa salah satu peubah menyebabkan perubahan
pada peubah lainnya. Sebagai contoh, hasil analisis korelasi pearson dapat dibuat
plot matriks korelasi seperti berikut.
Plot matriks korelasi (korelogram) memudahkan kita untuk melihat korelasi antar
variabel. Plot sebelah kanan langsung menunjukkan angka dan warna yang
menunjukkan koefisien korelasi. Semakin merah artinya korelasinya positif dan kuat.
Sedangkan, semakin biru berarti korelasi antar variabel negatif dan kuat. Korelasi yang
lemah ditunjukkan dengan warna yang relatif pudar. Plot di sebelah kanan
menggunakan lingkaran dan warna untuk menunjukkan koefisien korelasi. Semakin
besar lingkaran artinya korelasi antar variabel semakin kuat. Jika lingkaran semakin
kecil berarti korelasi mendekati 0. Warna pada lingkaran menunjukkan sifat korelasi.
Jika berwarna merah berarti sifatnya positif dan jika berwarna biru berarti sifatnya
negatif.

Analisis korelasi parsial (boleh dilewati/opsional)


Dalam analisis korelasi biasa (simple), hubungan antara dua peubah dilakukan sambil
mengabaikan peubah-peubah lainnya. Analisis korelasi parsial dilakukan dengan
membuat peubah(-peubah) lain seakan-akan konstan (tidak berubah nilainya)
sehingga muncul gambaran hubungan antarpeubah yang lebih jelas.

> library(ppcor)
> pcor(nama)
> pcor.test(nama$hasil,nama$gbhpmalai,nama[,c("anakan")])
> pcor.test(nama$hasil,nama$gbhpmalai,nama[,c("anakan",
"b1000gbh")])

Perhatikan perubahan nilai korelasi parsial dengan korelasi sebelumnya. Peubah


mana yang sebenarnya berkaitan secara langsung dengan hasil? (Petunjuk: yaitu
peubah yang tetap signifikan, baik pada korelasi biasa maupun korelasi parsial).
Koefisien korelasi biasa yang nyata, tetapi kemudian koefisien korelasi parsialnya
menjadi tidak nyata menunjukkan bahwa hubungan korelasionalnya sebenarnya
terjadi melalui peubah lain yang nyata. Sebaliknya, koefisien korelasi biasa yang tidak
nyata, tetapi kemudian koefisien korelasi parsialnya menjadi nyata menunjukkan
adanya hubungan relasional yang tertutupi oleh peubah lainnya.

Analisis regresi liner (sederhana dan berganda)


Apabila hubungan peubah X mempengaruhi Y dapat ditegakkan secara teoretis,
analisis regresi layak (valid) dilakukan, dengan meregresi Y ke X. Analisis regresi
digunakan di berbagai bidang dan mudah untuk dirampatkan (generalised).
Perampatannya dikenal sebagai model linear.
Ada beberapa macam regresi linear:
1. Regresi linear sederhana adalah apabila peubah Y diregresi ke satu peubah X.
Regresi ini membentuk garis lurus pada proyeksi Descartes (Cartesius).
2. Regresi berganda digunakan apabila peubah Y diregresi secara simultan (sekaligus)
ke dua atau lebih peubah X. Bentuk analisis ini sangat popular di bidang ilmu-ilmu
sosial.
3. Regresi linear polinom kuadratik meregresikan peubah Y ke peubah X dan X2 untuk
melihat pengaruh X yang bukan garis lurus tetapi polinomial derajat dua.
4. Analisis permukaan tanggap (response surface analysis) adalah salah satu bentuk
gabungan regresi berganda dan regresi linear polinom kuadratik,
Tabel 2. Beberapa syntax dalam R dan model matematika eksplisitnya
R syntax Model linear Catatan
Model regresi liner berganda dengan
Yi= 0 + 1X1i + +
Y~. melibatkan seluruh variabel yang ada di
nXni
data frame sebagai peubah X
Y ~ X1 Yi = 0 + 1Xi Model garis lurus biasa
Y ~ -1 + X1 Yi= 1Xi Model garis lurus wajib melewati (0,0)
Model polinomial kuadrat; perhatikan
Y ~ X1+ I(X1^2) Yi =0 + 1 Xi + 2 Xi2 fungsi identitas I( ) dalam model
memungkinkan bentuk matematis normal
Y ~ X1 + X2 Yi =0 + 1X1i + 2X2i Model regresi linear berganda ordo ke-1
Y ~ X1:X2 Yi =0 + 1X1iX2i Model interaksi ordo ke-1
Yi =0 + 1X1i + 2X2i + Model regresi linear berganda ordo ke-1
Y ~ X1*X2
3X1iX2i lengkap. Identik dengan Y~ X1+X2+X1:X2
Model lengkap dengan interaksi sampai
Yi =0 + 1X1i + 2X2i + ordo ke-1. 2 dapat diganti dengan n
Y ~
3X3i + 4X1iX2i + untuk interaksi sampai ordo ke-(n-1).
(X1+X2+X3)^2
5X1iX3i+ 6X2iX3i Identik dengan
Y=X1*X2*X3 - X1:X2:X3
Yi = 0 + 1 X1i + 2X2i Model permukaan tanggap (response-
Y~ X1*X2 +
+ 3X1i2 + 4X2i2 + surface)
I(X1^2) + I(X2^2)
5X1iX2i

Asumsi model liner (regresi dan anova klasik)


Pernyataan ij ~ N (0,2) merupakan asumsi dasar dalam model liner (baik regresi
liner dan ANOVA klasik ANOVA klasik akan dibahas di acara 3), yaitu komponen
sesatan dari data menyebar saling independen mengikuti distribusi normal dengan
rerata (mean) = 0 dan varians yang homogen sebesar 2 untuk setiap grup
perlakuan. Tiga istilah yang dicetak miring adalah asumsi analisis varians mengenai
sesatan/residu/simpangan. Kali ini kita akan bahas dua dari tiga asumsi tersebut.
Asumsi independensi dianggap telah terpenuhi apabila kita melakukan pengacakan
secara benar. Satu asumsi lain, komponen-komponen model saling linear, baru akan
dibahas kelak.
Asumsi sesatan menyebar mengikuti distribusi normal
Untuk menguji asumsi bahwa sesatan mengikuti distribusi normal diperlukan
banyaknya ulangan yang cukup banyak dari setiap grup perlakuan. Hal ini kerap tidak
mudah dijumpai apabila ulangan hanya tiga atau empat. Karena itu, uji kenormalan
sebaran sesatan biasanya dilakukan dengan menggabungkan semua komponen
penduga sesatan dari semua perlakuan. Untuk menguji asumsi tersebut, dapat
digunakan berbagai cara seperti uji goodness-of-fit untuk kenormalan sebaran
menggunakan Shapiro-Wilks test atau dengan membuat plot kuantil v. kuantil
(quantile-to-quantile plot/QQ plot).

Cara 1. Uji goodness-of-fit untuk kenormalan sebaran


Uji ini dilakukan dengan membandingkan peluang munculnya suatu nilai data
(atau penduga sesatannya) dengan peluang distribusi normal untuk nilai tersebut. Jika
selalu berdekatan peluangnya, maka distribusinya normal. Pengujian yang biasa
dipakai adalah uji Shapiro-Wilk.
Dari suatu kolom analisis varians, ambillah data asli dan simpan sebagai data berkas
tersendiri (tanpa menyertakan kolom-kolom lainnya). Ambillah juga kolom penduga
sesatan dan simpan sebagai data tersendiri (menggunakan permintaan
namaoutput$residual setelah ANOVA) dengan nama berkas yang berbeda. Berikut
syntax untuk menguji normalitas residual dengan R.

> shapiro.test(namaoutput$residual)

Perintah di atas akan menghasilkan statistik Wilk dan probabilitas menerima H0-nya.
Prosedur ini menguji H0 bahwa data mengikuti sebaran normal. Untuk diketahui,
penggunaan uji ini tidak diperlukan jika QQ plot sudah menunjukkan distribusi normal.
Terkadang derajat bebas yang terlalu besar menyebabkan uji ini menyimpulkan
distribusi tidak normal.
Cara 2. Menggunakan plot kurva
Teknik lain, yang berbasis kurva, adalah dengan membuat plot kuantil vs. kuantil
(quantile-to-quantile plot). Kita telah mengenal median, kuartil, atau persentil.
Kesemuanya ini adalah kuantil. Dengan membandingkan sebaran data pada kurva
kuantil dapat dinilai kenormalan sebaran. Apabila sebaran data mengikuti garis lurus,
maka sebaran itu mendekati normal. Ketiklah baris perintah berikut dan simpan grafik
yang muncul ke dalam format gambar (TIFF atau .jpg). Berikut perintah di R untuk
menghasilkan QQ plot dengan package car.

> car::qqPlot(namadata$namavar,dist=norm)

Berikut ada contoh QQ plot yang mengindikasikan asumsi normalitas tidak


terpenuhi. Perrhatikan titik-titik yang ada tidak mengikuti garis merah yang miring ke
kanan dan banyak titik-titik berada di luar garis selang kepercayaan (garis putus-
putus/dashed line)

Jika asumsi normalitas terpenuhi maka QQ plot akan terlihat seperti di bawah
ini. Perhatikan bahwa titik-titik tersebar mengikuti garis merah dan sebagian besar
titik-titik tersebut berada dalam garis selang kepercayaan (garis putus-putus/dashed
line)
Jika data tidak mengikuti distribusi normal, lakukan analisis varians untuk distribusi
data yang sesuai, namun topik ini tidak akan dibahas.

Asumsi homoskedastisitas tiap grup perlakuan


Asumsi ini cukup mempengaruhi kekuatan uji analisis varians. Penyimpangan dari
asumsi kehomogenan varians-varians grup perlakuan akan membuat kita perlu
melakukan bentuk analisis alternatif. Untuk data yang menggunakan uji t, pengujian
homoskedasitas dapat dilakukan dengan uji F jika perlakuannya dua. Namun, untuk
ANOVA klasik yang perlakuannya lebih dari dua, maka uji homoskedatisitas dilakukan
dengan Uji Hartley (jika ulangannya sama) atau Uji Bartlett (ulangan bebas). Selain itu,
terdapat pula Uji Levene dapat digunakan untuk data dengan rancangan apa saja.

Perkembangan perangkat lunak untuk analisis statistika memungkinkan metode


baru dalam menguji homoskedastisitas varians. Pada R terdapat package car yang
menggunakan metode Breusch dan Pagan (1979) yang menggunakan metode skoring

untuk uji homoskedastisitas varians. Metode ini dapat digunakan untuk memeriksa
homoskedastisitas varians untuk regresi liner dan ANOVA klasik. Metode levene pada
R tidak dapat digunakan untuk metode regresi sehingga pada praktikum ini akan
digunakan metode Breusch dan Pagan. Perintah untuk melakukan metode tersebut
adalah sebagai berikut. Jika P-value hasil uji tersebut di bawah 0.05 berarti asumsi
homoskedastisitas terpenuhi.
> car::ncvTest(model)

Cara lain adalah dengan melihat plot diagnostik pada bagian Residual vs. Fitted
value atau Standardised residual vs. Fitted value. Jika titik-titik pada grafik ini menyebar
tanpa pola, maka asumsi terpenuhi. Jika terdapat pola tertentu, terutama pola
loudspeaker, maka asumsi homoskedastisitas varians tidak terpenuhi. Perhatikan
contoh grafik di bawah ini.

Asumsi homoskedastisitas terpenuhi Asumsi homoskedastisitas tidak terpenuhi

Hal yang dilakukan jika asumsi tidak terpenuhi


Apabila uji homoskedastisitas menunjukkan varians-varians tidak homogen,
perlu dilihat apakah ada hubungan fungsional antara rerata-rerata dengan variansnya
masing-masing. Jika hubungan ini terdeteksi, lakukanlah transformasi data. Jika tidak
ada hubungan antara rerata dan varians, analisis varians untuk varians tidak homogen
(tidak dibahas dalam mata kuliah ini, tapi tersedia di R), atau uji-uji nonparametrik
dilakukan (misalnya Uji Kruskal-Wallis untuk ANOVA satu-arah).

Uji Kruskal-Wallis (optional, diberikan atau tidak dalam praktikum)


Uji Kruskal-Wallis merupakan versi nonparametrik analisis varians satu-arah. Analisis
ini menggunakan peringkat (rank) data. Berbeda dengan ANOVA yang memerlukan
asumsi agar distribusi dari masing-masing kelompok peubah berdistribusi normal,
dalam uji Kruskal-Wallis, distribusi peubah tersebut dapat bebas. Perlu diingat bahwa
apabila asumsi normalitas terpenuhi, uji Kruskal-Wallis tidak sekuat ANOVA. Dalam uji
Kuskal-Wallis, tetap diperlukan berbagai asumsi yaitu: (1) sampel ditarik dari populasi
secara acak; (2) kasus masing-masing kelompok independen; (3) skala pengukuran
yang digunakan biasanya ordinal.

Perhitungan yang dilakukan menggunakan statistik uji yang mengikuti distribusi khi-
kuadrat (2). Jika nilai uji lebih kecil daripada nilai tabel atau probabilitas lebih besar
daripada , maka Ho diterima, artinya median beberapa populasi seragam.

>kruskal.test(model)

Praktik Analisis Data


Lakukan analisis korelasi dan regresi sesuai suplemen Acara 2. Bukalah file R bernama
Korelasi Regresi.R.

Skema Penggunaan Model Liner Secara Umum

Regresi Liner ANOVA Klasik

Peubah Y kuantitatif Peubah Y kuantitatif


(tinggi tanaman, hasil) (tinggi tanaman, hasil)

Peubah X kuantitatif Peubah X kualitatif/kategorikal


(dosis, suhu) (jenis varietas, pupuk, lokasi)

Yang menjadi perhatian adalah


uji parameter setiap variabel Yang menjadi perhatian adalah
peubah X untuk peubah Y uji F antar sumber ragam

Uji asumsi normalitas dan Uji asumsi normalitas dan


homoskedasitas varians homoskedasitas varians

Jika asumsi tidak terpenuhi, Jika asumsi tidak terpenuhi,


dapat menggunakan metode dapat menggunakan metode
generalisasi model liner lain seperti Kruskal Wallis (CRD),
(generalized linear model). Tidak Friedman (RCBD), atau yang lain.
dibahas di sini Tidak dibahas di sini

Anda mungkin juga menyukai