Anda di halaman 1dari 40

ANALISIS PEUBAH GANDA

PERTEMUAN 1

Budi Yuniarto
PERTEMUAN I

Let’s begin the journey …


Deskripsi Mata Kuliah
• Mata kuliah Analisis Peubah Ganda ini membahas
tentang aspek-aspek dari metode multivariate serta
mempelajari teori dan aplikasi teknik inferensia dalam
metode multivariate yang mencakup pengujian hipotesis
vektor ratarata (satu populasi dan dua populasi), analisis
varians multivariate (manova), analisis komponen utama,
analisis faktor, analisis cluster, analisis diskriminan linier,
dan korelasi kanonik.
• Matakuliah ini bertujuan agar mahasiswa memahami
metode analisis data dengan banyak peubah secara
simultan dan mampu menerapkannya berbagai
penggunaan. Untuk mencapai tujuan tersebut, strategi
yang digunakan adalah dengan menjelaskan konsep
dasar tentang materi yang diajarkan, aplikasi dari metode
yang sedang dibahas disertai contoh-contohnya dan
dilakukan secara interaktif.
Referensi

Johnson, Richard A and Dean W. Wichern. 2002. Applied


Multivariate Statistical Analysis, fifthed. Prentice-Hall, Inc.
New Jersey.

Rencher, Alvin C. 2002. Methods of Multivariate Analysis


Second Edition. Brigham Young University. John Wiley &
Sons, Inc. Canada.
Software
1. Pendahuluan
“We are drowning in information and
starved for knowledge”
(Tom Peters, Thriving on Chaos)

➢ Penyelidikan ilmiah merupakan proses belajar


berulang yang bertujuan untuk memperoleh
penjelasan atas suatu fenomena melalui eksperimen
atau observasi. Selama proses pembelajaran
berulang ini, variabel sering ditambahkan atau
dihapus dari pembelajaran.

➢ Dengan demikian, kompleksitas sebagian besar


fenomena memerlukan peneliti untuk mengumpulkan
pengamatan pada banyak variabel berbeda.
TERMINOLOGI ANALISIS
MULTIVARIAT
• Secara umum, Analisis Multivariate mengacu pada
seluruh teknik statistik yang secara simultan menganalisis
pengukuran berganda pada kumpulan individu atau objek
penelitian

• Sehingga dengan terminologi ini, semua teknik yang


menganalisis secara simultan lebih dari dua variabel bisa
dianggap sebagai analisis multivariat.
Namun…
Namun terdapat perbedaan dalam berbagai literatur
mengenai terminologi analisis multivariat
examining relationships the multivariate character lies
between or among more in the multiple variates
than two variables. (multiple combinations of
variables), and not only in the
only for problems in which all number of variables or
the multiple variables are observations.
assumed to have a multi-
variate normal distribution
Variate versus Variable

Variat adalah kombinasi linier dari


variabel-variabel, yang terbentuk dalam
suatu teknik multivariat dengan
menurunkan suatu bobot empiris yang
diterapkan pada satu set variabel yang
ditentukan oleh peneliti.
Kenapa teknik multivariat diperlukan?
Multivariate Task

Reduksi data dan penyederhaan struktur

Pengurutan and pengelompokkan

Mengetahui ketergantungan antar


variabel

Memprediksi

Membangun hipotesis dan mengujinya


KLASIFIKASI TEKNIK MULTIVARIAT

Can the variables be divided into independent and


dependent classifications based on some theory?

3 If they can, how many variables are treated as


dependent in a single analysis?
Questions

How are the variables, both dependent and


independent, measured?
Dependence Interdependence

A dependence technique may be defined as


one in which a variable or set of variables
is identified as the dependent variable to be
predicted or explained by other variables

An interdependence technique is one in which


no single variable or group of variables is defined
as being independent or dependen
Dependence:
Interdependence:
2. Organisasi Data
• Data multivariat adalah sekelompok observasi atau
pengukuran yang terdiri dari:
◦ p variables (k = 1, . . . , p).
◦ n “items” (j = 1, . . . , n).
• dimana:
• “items” bisa berarti subjects/examinees/individuals atau
entitas.
• Dalam bidang ilmu tertentu (seperti dalam educational
measurement), “items” bisa dianggap sebagai
sekelompok variabel yang dikumpulkan per individu.
Kita akan mengguna
Array
• Kita dapat menampilkan data tersebut di atas sebagai
array persegi panjang, X, yang terdiri dari n baris dan p
kolom:
Statistik Deskriptif Data Multivariate
• Pada data berukuran besar (dengan p > 2) sangat sulit
untuk memahami karakteristik data.
• Untuk memahami karakteristik data, kita perlu statistik
deskriptif.
• Statistik deskriptif dalam analisis multivariate mencakup:
• Means.
• Variances.
• Covariances.
• Correlations.
Sample Mean Mean
vector

Sample
Variance

Sample
Covariance

Matriks Varian-
Kovaria
Sample
Correlation

Matriks
Korelasi
Contoh
• Diambil sampel empat kuitansi dari transaksi di toko buku
universitas untuk meneliti sifat penjualan buku. Setiap
kwitansi memberikan antara lain jumlah buku yang terjual
dan jumlah total setiap penjualan. Misal variabel pertama
adalah nilai penjualan dalam dolar dan variabel kedua adalah
jumlah buku yang terjual. Misalkan data dalam bentuk tabel
adalah sebagai berikut
Kwitansi 1 Kwitansi 2 Kwitansi 3 Kwitansi 4
Nilai (dollar) 42 52 48 58
Jumlah buku 4 5 4 3
Array data

Sample means
Matriks varian-kovarian sampel
Matriks korelasi sampel
4. Data display dan representasi piktorial
• Menampilkan multivariate data sangat sulit karena
keterbatasan kita yang hanya mampu
menggambarkan secara 3 dimensi.
• Namun beberapa jenis plot sederhana bisa
dilakukan antara lain:
◦ Bivariate scatterplots.
◦ Three-dimensional scatterplots.
• Kita juga bisa menggunakan plot dan representasi
piktorial antara lain:
◦ “Stars.”
◦ Chernoff faces
• Dendogram
Scatterplot
Matriks scatterplot
Trivariate Scatterplot (3-D Scatterplot)
Stars
Chernoff faces

Chart showing Chernoff faces for data selected from the


"USJudgeRatings" dataset in R, which contains ratings of state judges
in the US Superior Court by lawyers who have had contact with them.
Dendograms
5. Jarak
• Sejumlah besar teknik multivariat
berputar di sekitar penghitungan jarak:
◦ Jarak antar variabel.
◦ Jarak antar entitas.
Jarak paling umum digunakan adalah jarak
Euclidean:
jika titik P = (x1, x2) maka jarak titik P
terhadap titik origin O = (0, 0) adalah:
P(x1, x2)

d(O,P)
• Sama halnya dengan statistik, pengukuran
jark jug memiliki variabilitas.

• Ukuran jarak yang baik harus memenuhi:


◦ d(P,Q) = d(Q, P)
◦ d(P,Q) > 0 if P ≠ Q
◦ d(P,Q) = 0 if P = Q
◦ d(P,Q) ≤ d(P,R) + d(R,Q) (known as the
triangle inequality)
Jarak statistik
• Namun, jarak Euclidean, terkadang kurang memberikan
hasil yang memuaskan dalam analisis statistik.
➔ setiap koordinat memberikan kontribusi yang sama
dalam penghitungan jarak

• Ketika koordinat yang mewakili pengukuran bergantung


pada fluktuasi acak dengan besaran yang berbeda,
seringkali dikehendaki untuk memberi bobot lebih kecil
pada koordinat memiliki variabilitas lebih tinggi daripada
koordinat yang variasinya lebih rendah.
Apakah kedua titik ini
memiliki jarak yang
sama dari titik O?

One way to proceed is to divide each coordinate by the sample standard


deviation. Therefore, upon division by the standard deviations, we have the
"standardized" coordinates 𝑥1∗ = 𝑥1ൗ 𝑠11 and 𝑥2∗ = 𝑥2ൗ 𝑠22
• Sehingga, jarak statistik titik P = (x1, x2) dari titik origin O =
(0, 0) dapat digitung dari standardized coordinates 𝑥1∗ =
𝑥1 ∗ 𝑥2
ൗ 𝑠11 and 𝑥2 = ൗ 𝑠22
Next Session
• Aljabar matriks dan random vektor:
• Dasar-dasar vektor dan matriks
• Vektor orthogonal dan ortonormal
• Matriks orthogonal, matriks definit positif, penguraian spectral,
matriks akar kuadrat
• Vektor peubah acak
• Vektor rata-rata, matriks ragam peragam dan matriks korelasi

• Johnson et al, Bab 2

Anda mungkin juga menyukai