Dokumen - Tips Modul-Minitab PDF
Dokumen - Tips Modul-Minitab PDF
Created by :
1
DAFTAR ISI
2
8.2 Transformasi untuk k buah data sample bebas...........................................................53
8.2.1 Transformasi logaritma ( log Y ).........................................................................53
8.2.2 Transformasi akar kuadrat ( √Y )........................................................................53
8.2.3 Transformasi Arcsin ( Sin-1√Y)..........................................................................54
8.3 Transformasi Dalam Regresi Linear Sederhana ........................................................55
9 REGRESI LOGIT DAN PROBIT.....................................................................................55
9.1 Regresi Logit .............................................................................................................55
9.1.1 Model Logit.........................................................................................................56
9.1.2 Pengujian Parameter............................................................................................56
9.1.3 Intepretasi Koefisien............................................................................................57
9.2 Regresi Probit.............................................................................................................60
9.2.1 Intepretasi koefisien.............................................................................................60
9.2.2 Kriteria pemilihan Model Terbaik.......................................................................60
9.3 Perbedaan Logit dan Probit........................................................................................61
9.4 Perbedaan Regresi Linier dan Logistik......................................................................61
10 ANALISIS MULTIVARIATE........................................................................................63
10.1 ANALISIS KOMPONEN UTAMA.........................................................................63
10.2 ANALISIS KORESPONDENSI..............................................................................63
10.2.1 Analisis korespondensi sederhana.....................................................................63
10.2.2 Analisis korespondensi berganda......................................................................65
10.3 ANALISIS GEROMBOL........................................................................................68
10.3.1 Konsep Jarak.....................................................................................................68
10.3.2 Metode Perbaikan Jarak....................................................................................68
3
1 PENGANTAR STATISTIKA & PENGENALAN MINITAB
Dalam berbagai literatur, statistik atau. statistic dapat diartikan sebagai
penduga parameter, dimana parameter disini dapat berupa rata-rata, standar deviasi,
proporsi dan lain-lain. Sementara itu Statistika atau statistics adalah suatu disiplin ilmu
yang mempelajari metode pengumpulan data, menganalisis (termasuk pendugaan
parameter) dan menarik kesimpulan dari data tersebut.
Data dibagi ke dalam kelompok menurut sumbernya, yaitu data primer dan
data sekunder. Data primer adalah data yang berasal dari sumber asli dan
dikumpulkan secara khusus untuk menjawab pertanyaan penelitian kita. Data
sekunder adalah data yang berasal dari hasil survey pihak lain.
Statistika adalah salah satu alat untuk membantu para pengambil kebijakan
dalam membuat keputusan. Pengambilan keputusan ini umumnya didasarkan atas
informasi yang tersedia dari data contoh. Untuk mengetahui prosedur pengambilan
keputusan tersebut terlebih dahulu diperlukan pengertian-pengertian dasar tentang
konsep dan teori statistika. Konsep-konsep dan tahapan-tahapan yang harus dimiliki
oleh seorang peneliti dalam melakukan penelitiannya, yaitu:
1. Pendefinisian masalah
2. Pendefinisian populasi
3. Penentuan peubah / variabel
4. Teknik penarikan contoh
5. Pembuatan alat ukur
6. Metode analisis
7. Interpretasi hasil analisis
8. Kesimpulan
9. Penyajian hasil analisis
1.1 Pendahuluan
Paket program MINITAB merupakan perangkat lunak yang dapat digunakan
sebagai media pengolahan data yang menyediakan berbagai jenis perintah sehingga
memungkinkan proses pemasukkan data, manipulasi data, pembuatan grafik,
peringkasan nilai-nilai numerik dan analisis statistika.
MINITAB memiliki dua sesi primer yaitu worksheet (lembar kerja) untuk melihat
dan mengedit lembar kerja, serta sesi command yang merupakan layar untuk
menampilkan hasil. Perintah-perintah MINITAB dapat diakses melalui menu, kotak
dialog dan perintah interaktif. Perintah interaktif ditulis pada sesi command.
4
DATA> 1 : 3 / .5 1 1.5 2 2.5 3
DATA> 3(1) 1 1 1
DATA> 2(1:3) 1 2 3 1 2 3
DATA> (1:3) 2 1 1 2 2 3 3
DATA> 2 (1: 3) 2 2 1 2 3 2
Contoh: MTB> SET C6
DATA> 1 : 3 / .5
DATA> END
MTB> ERASE C1
5
SUSAN 2 115 65
JAMES 1 145 64
2 STATISTIKA DESKRIPTIF
Statistika deskriptif adalah bidang statistika yang membicarakan metode
mengumpulkan, meringkas/menyederhanakan dan menyajikan data sehingga dapat
memberikan informasi. Mengumpulkan data dapat dilakukan dengan cara:
1. Penelitian
2. Observasi
Ukuran yang digunakan dalam meringkas data:
1. Ukuran pemusatan ( mean, median, modus, kuartil)
2. Ukuran penyebaran ( ragam, range, jarak antar kuartil)
Penyajian data dapat berupa :
1. Tabulasi
2. Grafik ( histogram, boxplot (diagram kotak garis), steam and
leaf (diagram dahan daun), plot)
Peringkasan dan penyajian data yang baik akan sangat membantu dalam menganalisis
data selanjutnya. Dan membantu dalam mengambil kesimpulan secara deskriptif.
6
Descriptive Statistics: hasil
Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
hasil 20 5.400 0.265 1.183 4.000 4.500 5.200 6.075 7.500
Keterangan :
N : Banyak data
Mean : Rataan
Median : Nilai tengah setelah data terurut dari terkecil hingga
terbesar
TrMean : Rataan Terpangkas, yaitu rataan setelah data terkecil
dan terbesar dipotong masing-masing 5%
StDev : Simpangan Baku/ akar dari ragam
SE Mean : Rataan Galat Baku/ Simpangan Baku bagi N
Min/Max : Nilai terkecil/terbesar setelah data terurut
Q1/Q3 : kuartill/kuartil3
3
Frequency
0
3 4 5 6 7 8
hasil
Interpretasi :
Dengan Histogram dapat dilihat apakah data menyebar normal atau tidak.
Histogram diatas menunjukan bahwa data tidak menyebar normal tetapi cenderung
menjulur ke kanan. Sedangkan kotak-kotak tersebut memiliki interval yang sama yaitu
0.5 dan tinggi kotak menunjukkan frekuensi nilai-nilai yang berada pada interval
tersebut.
2.2.1 Histogram
Penyajian dalam bentuk Histogram memberikan gambaran frekuensi untuk
setiap nilai atau selang nilai tertentu dari peubah yang diamati secara visual.
7
Tahapan menggunakan menu MINITAB :
Klik Graph > Histogram
Pilih bentuk histogram yang akan ditampilkan
Graph Variables : isi dengan variabel yang akan dibuat histogram
Klik Label jika ingin memberi judul histogram
Klik Multiple Graph untuk memilih tampilan histogram (overlay lebih dari 1
variabel atau separate)
Klik OK!
Contoh :
Data hasil yang diperoleh dari vareitas padi lokal (ton/ha):
4.0, 4.0, 5.5, 6.0, 7.5, 4.8, 6.1, 4.5. 4.5, 5.0,
4.0,5.3,5.1, 5.8 , 5,9,6.5, 7.5, 7.5, 4.0, 4.5
Masukkan data di atas pada kolom Cl, beri judul kolom Hasil (ton/ha)
Kemudian ikuti tahapan menggunakan menu MINITAB diatas
Frequency
2
0
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
hasil (ton/ ha)
2.2.2 Boxplot
Penyajian dalam bentuk Boxplot tidak menampilkan data asli, tetapi
menampilkan :
Kesimetrisan penyebaran data, dapat dilihat dari apakah kotak terbagi dua
oleh garis median sama besar atau tidak, dan apakah 'ekor' bawah dan 'ekor'
atas sama panjang atau tidak.
Keanehan data, jika data pengamatan berada di luar batas BB1 dan BA1,
disebut pencilan minor, dan jika data pengamatan berada di luar batas BB2 dab
BA2 disebut data ekstrim.
Keterangan :
Q1 : Nilai Kuartil 1, nilai yang menyekat kumpulan data yang telah
diurutkan, dimana data yang lebih kecil dari Q1 sebanyak 25% dan
data yang lebih besar dari Q1 sebanyak 75%.
Q2 : Nilai Kuartil 2, sama dengan median, merupakan nilai pembatas
8
50% data disebelah kiri Q2 dan 50% data di sebelah kanan Q2.
Q3 : Nilai Kuartil 3, nilai yang menyekat kumpulan data yang telah
diurutkan, dimana data yang lebih kecil dari Q3 sebanyak 75% dan
data yang lebih besar dari Q3 sebanyak 25%.
BA1 = Q3 + 3/2(Q3-Q1) BB1 = Q1 - 3/2(Q3-Q1)
BA2 = Q3 + 3(Q3-Q1) BB2 = Q1 - 3(Q3-Q1)
7
hasil (ton/ ha)
2.2.4 Plot
Menggunakan plot harus ada dua variabel, sehingga data tersebut dapat
diplotkan antara kedua variabel tersebut.
Tahapan menggunakan menu MINITAB :
9
Klik Graph > Plot
Graph Variables : isi Y dengan variabel yang akan diplotkan (Cl)
dan X dengan peubah lain (C2)
Klik Label jika ingin memberi judul plot serta klik pada bagian data labels jika
ingin menampilkan tipe label pada plot (klik use y-value labels).
Klik OK!
Contoh :
Gunakan data Histogram, dengan tambahan data lokasi penanaman padi :
1, 2, 3, 1, 2, 2, 3, 3, 1, 1, 1, 2, 3, 3, 2, 1, 1, 2, 3, 3.
1 = Jawa Barat, 2 = Jawa Tengah, 3 = Jawa Timur
Tempatkan data tambahan di atas pada kolom C2, kemudian ikuti tahapan di atas
3 STATISTIKA DASAR
10
( x ± z (α / 2 )σx ) dimana : x = nilai tengah contoh
σx = galat baku nilai tengah x
Intepretasi :
Hipotesis yang diuji adalah Ho : μ = 5.0 vs H1 : μ ≠ 5.0. Setelah dilihat dari nilai
P-value teryata nilainya lebih besar dari taraf nyata 0.05 yang berarti terima H0 atau
μ = 5.0.
Langkah-langkah menggunakan menu MINITAB untuk Uji T :
Klik menu Stat > Basic Statistics > 1-Sample t
Variables : isi dengan peubah C1
Test Mean : isi dengan nilai tengah populasi yang
dihipotesiskan (5.2)
Klik options : pilih taraf nyata pada confident level
hipotesisnya pada alternative
One-Sample
Intepretasi :T: hasil (ton/ha)
Test of mu = 5.2 vs not = 5.2
Variable N Mean StDev SE11
Mean 95% CI T P
hasil (ton/ha) 20 5.40000 1.18322 0.26458 (4.84624, 5.95376) 0.76 0.459
Hipotesis yang diuji adalah Ho : μ = 5.0 vs H1 : μ ≠ 5.0. Setelah dilihat dari nilai
P-value teryata nilainya lebih besar dari taraf nyata yang kita tentukan yaitu sebesar
0.05 yang berarti terima H0.
12
4 ANALISIS REGRESI
Dalam MINITAB terdapat fasilitas untuk analisis regresi yaitu regresi linier,
regresi bertatar (stepwise regression), regresi terbaik (best regression), dan regresi
kekar (robust regression). Disini hanya akan dibahas tentang regresi linier, bertatar
dan terbaik.
Model : Yt = α + βXt + Ut
Asumsi yang mendasari pendugaan model regresi linier dengan menggunakan
metode kuadrat terkecil yaitu :
Ut adalah random variable (peubah acak) dengan nilai rata-rata Ut [E(Ut)] = 0,
untuk semua t.
Homoskedastisitas (kehomogenan ragam) yang berarti untuk setiap sisaan
ragamnya sama. Untuk semua t, Var (Ut) = σ2.
Tidak ada auto korelasi dalam sisaan.
Tidak terdapat hubungan atau korelasi antara beberapa atau semua variabel
bebas (multikolinearitas)
Untuk setiap t, Ut menyebar Normal (0, σ2)
Jika diasumsikan hubungan antara biaya iklan dengan hasil penjualan dapat
dinyatakan sebagai persamaan linier sederhana, dugalah persamaan garis tersebut
apakah biaya iklan memberikan pengaruh yang nyata terhadap hasil penjualan.
13
Regression Analysis: Hasil versus Biaya
The regression equation is
Hasil = 344 + 3.22 Biaya
kenaikan satu satuan biaya akan menaikkan hasil sebesar 3.22 satuan. Dari
nilai-p untuk koefisien biaya dapat disimpulkan bahwa biaya mempunyai pengaruh
yang nyata terhadap perubahan hasil (nilai-p < 0.05), kemudian dari R-Sq diperoleh
kesimpulan bahwa model hanya mampu menerangkan 40.3% dari keragaman data
tetapi dari anova model diperoleh informasi bahwa model sudah cukup baik atau tepat
untuk menginterpretasikan data (nilai-p < 0.05)
Output selanjutnya adalah bila kita ingin melihat nilai dugaan y (hasil) dari
suatu nilai x (biaya) tertentu pada persamaan regresi yang telah kita peroleh. Dalam
kasus ini kita ingin menduga hasil pada biaya sebesar 35 (x = 35.00), pada biaya
sebesar 35 maka hasil yang diperoleh sebesar 456.4
14
Residual Plots for Hasil
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
50
90
Residual
Percent
0
50
-50
10
1 -100
-100 -50 0 50 100 400 425 450 475 500
Residual Fitted Value
Residual
0
1 -50
0 -100
-100 -75 -50 -25 0 25 50 1 2 3 4 5 6 7 8 9 10 11 12
Residual Observation Order
Plot sisaan untuk hasil diatas dapat digunakan untuk pengujian asumsi. Plot
normal probability ... digunakan untuk uji asumsi kenormalan; plot residual
versus the fitted values (plot sisaan dan dugaan) menunjukkan kehomogenan
ragam sisaan, jika plot membentuk suatu pola acak atau lebar selang homogen maka
diindikasikan sisaan bersifat homogen; plot residuals versus the order ...
menunjukkan keacakan galat. Dari plot diatas maka ketiga asumsi tersebut telah
terpenuhi.
Kemudian bila ingin mengetahui apakah model regresi ordo berapa yang tepat
bisa menggunakan menu fitted line plot, tapi hanya terbatas sampai model cubic.
Dari langkah ini juga dipeloreh plot regresinya.
Langkah-langkah dalam MINITAB:
Klik Stat > Regression > Fitted Line Plot
Response (Y) : Masukkan peubah respon (Hasil)
Predictors (X) : Masukkan peubah bebas (Biaya)
Type or Regression Model : Misal pilih Cubic
500
Hasil
450
400
350
20 25 30 35 40 45 50
Biaya
interpretasi :
Dari output terlihat bahwa hanya model linear yang nyata, sehingga untuk
data ini model yang tepat adalah model regresi linear atau berordo satu.
Ulangi langkah diatas (Fitted Line Plot) tapi pilih model linear.
Regression Analysis: Hasil versus Biaya
The regression equation is
Hasil = 343.7 + 3.221 Biaya
S = 50.2257 R-Sq = 40.3% R-Sq(adj) = 34.3%
Analysis of Variance
Source DF SS MS F P
Regression 1 17030.0 17030.0 6.75 0.027
Error 10 25226.2 2522.6
Total 11 42256.2
S 50.2257
550 R-Sq 40.3%
R-Sq(adj) 34.3%
500
Hasil
450
400
350
20 25 30 35 40 45 50
Biaya
16
Nilai F yang paling besar dimasukkan kedalam model jika lebih besar dari Alpha
to enter (A ENTER).
Jika tidak ada lagi prediktor yang dapat ditambahkan ke dalam model, prosedur
stepwise dihentikan.
Contoh kasus :
Suatu survey dilakukan terhadap 17 rumah sakit di sekitar Jabotabek. Peubah-peubah
yang diamati dalarn survey tersebut adalah :
X1 = banyaknya pasien rata-rata per hari
X2 = banyaknya pelayanan sinar-X per hari
X3 = tempat tidur yang terisi per bulan
X4 = banyaknya penduduk disekitarnya yang mungkin memerlukan
fasilitas
X5 = rata-rata lamanya pasien dirawat (opname) dalam hari
Y = banyaknya jam kerja per bulan yang dipakai di rumah sakit
tersebut.
No X1 X2 X3 X4 X5 Y
1 15.6 2463.0 472.9 18.0 4.5 566.5
2 44.0 2048.0 1339.7 9.5 6.9 696.8
3 20.4 3940.0 620.2 4.3 4.3 1033.2
4 18.7 6505.0 568.3 36.2 3.9 1603.6
5 49.2 5723.0 1497.6 35.2 5.5 1611.4
6 44.9 11520.0 1365.8 24.0 4.6 1613.3
7 45.5 5779.0 1687.0 43.3 5.6 1854.2
8 59.3 5969.0 1639.9 46.7 5.2 2160.6
9 94.4 8461.0 2872.3 78.7 6.2 2305.6
10 182.0 21106.0 366.1 180.5 6.2 3503.9
11 96.0 13313.0 2912.0 60.9 5.9 3571.9
12 131.4 10771.0 3921.0 103.7 4.9 3741.4
13 127.2 15543.0 3865.7 126.8 5.5 4026.5
14 252.9 36194.0 7684.1 157.7 7.0 10343.8
15 409.2 34703.0 12446.3 169.4 10.8 11732.2
16 463.7 39204.0 14098.4 331.4 7.1 15414.9
17 510.2 86533.0 15524.0 371.6 6.4 18845.4
Langkah-langkah :
Klik Stat > Regression > Stepwise
Respon : Masukkan peubah responnya (Y) = C6
Predictors : Masukkan peubah penjelas (X) = C1 - C5
17
Stepwise Regression: Y versus X1, X2, X3, X4, X5
Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15
Response is Y on 5 predictors, with N = 17
Step 1 2 3 4
Constant -106.082 -118.446 2.008 1375.574
X1 33.7 24.0 9.1 13.3
T-Value 18.72 6.97 1.99 2.76
P-Value 0.000 0.000 0.068 0.017
X2 0.081 0.079 0.059
T-Value 3.10 4.26 2.92
P-Value 0.008 0.001 0.013
X3 0.51 0.51
T-Value 3.87 4.20
P-Value 0.002 0.001
X5 -279
T-Value -1.81
P-Value 0.096
S 1163 927 656 606
R-Sq 95.90 97.56 98.87 99.11
R-Sq(adj) 95.62 97.22 98.61 98.81
Mallows C-p 37.7 19.1 5.0 4.0
Interpretasi Output :
Dari hasil output diatas dapat diketahui bahwa dengan menggunakan metode
stepwise, peubah bebas yang berpengaruh nyata terhadap respon yaitu X1, X2, X3
dan X5. Hal ini diketahui dari nilai p-value pada step ke-4 lebih kecil dari nilai α = 15.
Nilai R-Sq = 98.81% pada step ke-4 menunjukkan bahwa model regresi diatas sudah
baik.
Pada contoh diatas digunakan α = 0.15 (default), jika ingin merubah taraf
nyata tetap gunakan langkah diatas. Taraf nyata bisa dirubah melalui icon
methods ... pada alpha to enter dan alpha to remove.
18
Free Predictors : masukkan peubah bebas (X) = C1 - C5
Interpretasi Output :
Jika dilihat dari outputnya, maka dapat disimpulkan bahwa :
Kombinasi 3 peubah X terbaik yaitu X2, X3, X4 dengan nilai R-Sq(adj) =
98.8%
Kombinasi 4 peubah X terbaik yaitu X1, X2, X3, X5 dengan nilai R-Sq(adj)
= 98.8%
Sesuai ketentuan umum pada regresi dari factor bertaraf kualitatif maka kita bangun 4
- 1 = 3 peubah dummy: D1, D2, D3
19
keterangan
no D1 D2 D3 Y
taraf ulangan
1 0 0 0 10 A 1
2 0 0 0 11 A 2
3 0 0 0 8 A 3
4 0 0 0 7 A 4
5 0 0 0 9 A 5
6 1 0 0 13 B 1
7 1 0 0 11 B 2
8 1 0 0 10 B 3
9 1 0 0 9 B 4
10 1 0 0 10 B 5
11 0 1 0 14 C 1
12 0 1 0 12 C 2
13 0 1 0 11 C 3
14 0 1 0 10 C 4
15 0 1 0 13 C 5
16 0 0 1 14 D 1
17 0 0 1 11 D 2
18 0 0 1 10 D 3
19 0 0 1 11 D 4
20 0 0 1 10 D 5
daya baterai 52 62 69 70 63
54 60 68 74 67
total 214 246 272 288 263 1283
rata-rata 53.50 61.50 68.00 72.00 65.75 64.15
21
Langkah-langkah dengan minitab :
Klik Graph > Scatter Plot
Pilih bentuk histogram yang akan ditampilkan
Y variables : isi dengan kolom Respon (daya baterai).
X variables : isi dengan kolom variabel bebas (temperatur)
70
dayabaterai
65
60
55
50
0 20 40 60 80 100
temperatur
Dari tampilan diatas tampak bahwa model regresi yang cocok dengan data adalah
regresi nonlinear. Perlakuan temperatur merupakan faktor kuantitatif berjarak sama
diantara berbagai taraf temperatur yang dicobakan, maka untuk memudahkan
perhitungan analisis regresi dilakukan transformasi menjadi peubah code sebagai
berikut :
Ti − ( Tmin + Tmaks ) 2 Ti − 50
Xi = = Xi =
( Tmaks − Tmin ) 2 50
temperatu temperatu tem_cod
tem_code dayabaterai dayabaterai
r r e
0 -1 55 50 0 69
0 -1 53 50 0 68
0 -1 52 75 0.5 73
0 -1 54 75 0.5 71
25 -0.5 63 75 0.5 70
25 -0.5 61 75 0.5 74
25 -0.5 62 100 1 68
25 -0.5 60 100 1 65
50 0 70 100 1 63
50 0 65 100 1 67
Kemudian kita bentuk model regresi yang cocok pada percobaan ini, karena
faktor temperatur mempunyai 5 taraf maka model regresi nonlinear yang yang
mungkin terbentuk hanya sampai pada ordo 4 (kuartik). Untuk mengetahui model
regresi ordo berapa yang digunakan bisa dilakukan memalaui SAS atau MINITAB.
22
Langkah-langkah dalam MINITAB :
Klik Stat > Regression > Regression
Response (Y) : Masukkan peubah respon (daya baterai)
Predictors (X) : Masukkan peubah bebas (X X2 X3 X4)
Output :
Regression Analysis: dayabaterai versus x, x**2, x**3, x**4
The regression equation is
dayabaterai = 68.0 + 12.0 x - 3.87 x**2 - 5.83 x**3 - 4.50 x**4
Predictor Coef SE Coef T P
Constant 68.0000 0.9014 75.44 0.000
x 11.958 1.713 6.98 0.000
x**2 -3.875 5.649 -0.69 0.503
x**3 -5.833 1.900 -3.07 0.008
x**4 -4.500 5.028 -0.90 0.385
S = 1.80278 R-Sq = 94.2% R-Sq(adj) = 92.7%
Analysis of Variance
Source DF SS MS F P
Regression 4 797.80 199.45 61.37 0.000
Residual Error 15 48.75 3.25
Interpretasi
Total : 19 846.55
Dari anova model terlihat bahwa model sudah sangat tepat dalam
merepresentasikan data serta diperoleh R-Sq yang tinggi. Sementara itu untuk uji
koefisien secara parsial hanya samapai ordo 3 yang nyata sehingga kita ulangi
langkah diatas tetapi hanya kita gunakan model kubik atau ordo 3.
Langkah-langkah dalam MINITAB:
Klik Stat > Regression > Regression
Response (Y) : Masukkan peubah respon (daya baterai)
Predictors (X) : Masukkan peubah bebas (X X2 X3)
Output :
23
Dari model regresi ordo 3 ini terlihat bahwa dari anova untuk model diperoleh
informasi bahwa model sudah sangat tepat dalam merepresentasikan data (nilai-p <
0.05) serta diperoleh R-Sq yang tinggi (93.9%). Sementara itu untuk uji koefisien
secara parsial terlihat bahwa semua koefisien untuk semua variabel nyata sehingga
kita putuskan untuk menggunakan model regresi polynomial ordo 3 atau model
regresi kubik.
Usaha menemukan model regresi polynomial yang lebih cepat dan mudah bisa
dengan menggunakan contrast polynomial orthogonal pada program SAS. Dimana
untuk n = 5, koefisien polynomial orthogonalnya sebagai berikut :
koefisien kontras ortogonal
temperatur total linear kuadratik kubik kuartik
0 214 -2 2 -1 1
25 246 -1 -1 2 -4
50 272 0 -2 0 6
75 288 1 -1 -2 -4
100 263 2 2 1 1
24
1 jika pengamatan dari taraf c
2
D3 =
0 untuk pengamatan lain (bukan dari c 2 )
1 jika pengamatan dari taraf c 3
D4 =
0 untuk pengamatan lain (bukan dari c 3 )
tahap ketiga diperoleh model regresi :
Y = β 0 + β 1 X 1 + β 2 X 1 + β 3 D1 + β 4 D2 + β 5 D3 + β 6 D4
2
Y = β 0 + β 1 X 1 + β 2 X 1 + β 3 D1 + β 4 D2 + β 5 D3 + β 6 D4 + β 7 X 1 D1 + β 8 X 1 D2
2
25
v3 8.662 8.526 8.594
v1 6.215 7.106 6.661
m3 v2 6.953 6.914 6.934
v3 9.112 9.14 9.126
Untuk entri data seperti pada kasus-kasus sebelumnya, dimana faktor yang
bertaraf kualitatif akan ditransformasi dan faktor bertaraf kualitatif akan di-dummy.
26
Residual Plots for respon
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
1.0
90
0.5
Residual
Percent
50 0.0
-0.5
10
-1.0
1
-1.0 -0.5 0.0 0.5 1.0 4 6 8 10
Residual Fitted Value
0.5
Residual
8 0.0
-0.5
4
-1.0
0
-1.2 -0.6 0.0 0.6 1.2 1 5 10 15 20 25 30 35 40 45 50
Residual Observation Order
interpretasi :
Dari pengujian secara parsial diatas, bentuk kuadratik dari X1 serta bentuk
interaksi antar variabel bebas tidak nyata. Oleh karena itu model bisa disederhanakan
dengan hanya terdiri dari bentuk yang nyata saja, sehingga diperoleh model regresi
baru :
Y = β0 + β1 X 1 + β2 D1 + β3 D2 + β4 D3 + β5 D4
kemudian dilakukan analisis regresi untuk model diatas dengan bantuan MINITAB,
diperoleh model dugaan regresi :
Interpretasi :
Dari output diatas dapat diperoleh beberapa informasi, nilai-p untuk masing-
masing koefisien peubah bebas mempunyai pengaruh yang nyata terhadap perubahan
hasil (nilai-p < 0.05), kemudian dari R-Sq diperoleh kesimpulan bahwa model
mampu menerangkan 83.4% keragaman data serta dari anova model diperoleh
informasi bahwa model sudah cukup baik atau tepat untuk menginterpretasikan data
(nilai-p < 0.05)
Faktor pemupukan berpengaruh positif terhadap hasil, dimana setiap
peningkatan satu taraf pemupukan pada range 0 sampai 100 akan meningkatkan hasil
sebesar 0.732 ton/ha. Pada faktor manajemen diperoleh informasi bahwa
manajemen optimum memberikan nilai rata-rata produksi lebih tinggi sekitar 0.567
ton/ha dari menajemen minimum serta manajemen intensif memberikan nilai rata-
rata produksi lebih tinggi sekitar 1.428 ton/ha dari menajemen minimum.
27
Pada faktor varietas diperoleh informasi bahwa varietas_2 memberikan nilai
rata-rata produksi lebih tinggi sekitar 1.195 ton/ha dari varietas_1 (kontrol) serta
varietas_3 memberikan nilai rata-rata produksi lebih tinggi sekitar 2.736 ton/ha dari
varietas_1. Selain informasi di atas, dari nilai VIF juga memperlihatkan bahwa tidak
adanya multikolinearitas di dalam variabel-variabel tersebut (VIF < 10.0)
Model persamaan regresi diatas juga bisa digunakan dalam peramalan produksi
dari kombinasi perlakuan tertentu. Sebagai contoh, ingin meramalkan hasil produksi
dari varietas_3 dengan manajemen intensif serta pemupukan 50 N/ha. Maka
ditetapkan besaran-besaran X1=0, D1=0, D2=1, D3=0, D4=1, sehingga diperoleh :
E (Y ) = 4.28 + 0.732 ( 0 ) + 0.567 ( 0 ) +1.43 (1) +1.20 ( 0 ) + 2.74 (1) = 8.448
dengan demikian dapat diramalkan bahwa hasil produksi dari kombinasi perlakuan
diatas adalah 8.448 ton/ha.
28
akan berakibat ketidakefisienan pengujian yang akan kita lakukan, karena keragaman
galat merupakan fungsi dari t, maka akan berpengaruh pada keragaman koefisien
penduga, sehingga statistik uji t untuk tiap peubah menjadi tidak valid. Hal ini pun
dapat mengakibatkan analisis yang kita lakukan menghasilkan model yang
bertentangan dengan teori yang berlaku
Cara mendeteksi heteroskedastisitas :
Misalkan kita ingin menguji apakah model persamaan linier antara peubah X
dan Y mengandung heterokesdastisitas. Gunakan data Pengeluaran dan Pendapatan
sebagai peubah respon (Y) dan peubah penjelas (X).
Pendapatan per Kapita Impor per Pendapatan per Kapita Impor per
No No
(X) Kapita (Y) (X) Kapita (Y)
1 0.159 0.012 16 1.147 0.114
2 0.242 0.068 17 1.456 0.129
3 0.245 0.112 18 1.572 0.281
4 0.329 0.048 19 2.544 0.454
5 0.394 0.165 20 3.083 0.440
6 0.433 0.118 21 4.211 0.996
7 0.475 0.112 22 4.556 1.408
8 0.534 0.152 23 5.002 1.639
9 0.570 0.182 24 6.324 3.872
10 0.715 0.114 25 6.329 0.695
11 0.961 0.356 26 6.800 1.096
12 0.963 0.115 27 8.372 1.986
13 0.998 0.195 28 8.400 3.142
14 1.056 0.469 29 8.894 2.481
15 1.077 0.460 30 9.640 0.838
Cara mendeteksi :
Asumsi yang berlaku :
Jumlah pengamatan (sekurang-kurangnya) dua kali jumlah variabel bebas
dalam model
εi nir-otokorelasi dan berdistribusi normal
Susun hipotesis :
H0 : Tidak terdapat heteroskedastisitas
H1 : Terdapat heteroskedastisitas
a. Urutkan data semua peubah berdasarkan peubah bebas (variabel X) dari
data terkecil ke data yang besar.
Perintah :
Membuat peringkat pada variabel X
Klik Data > Rank
Rank data in : isi dengan peubah bebas (X) yang dijadikan
patokan pengurutan data
Store Rank in : isi dengan C3 (kolom yang masih kosong)
29
Sort Column : isi dengan peubah yang akan diurutkan
By column : isi dengan C3 (rank)
Store sorted column : pilih option ketiga, isi dengan kolom
yang masih kosong
b. Bagi data contoh tersebut menjadi dua bagian yang sama besar, bila perlu buang
bagian tengah pengamatan.
Perintah :
MTB > delete 13:18 C4 C5 # delete baris ke 13-18 pada C4 dan C5 #
MTB > set C7 # membuat subscripts untuk membagi data #
DATA > (1:2)12
DATA > end
Klik Data > Unstack Colomn
unstack the data in : isi dengan kolom data peubah yang sudah
diurutkan yang hendak dibagi menjadi dua
bagian yang sama besar (C4 dan C5).
Using subscripts in : isi dengan kolom subscripts (C7)
Store unstacked data : pilih After last colomn in use.
Checklist [√] pada Name the colomn containing the unstacked data
30
output :
Langkah 2:
Regresikan peubah Y bagian kedua (yang tadi sudah dibagi) dengan pasangan
peubah X-nya.
Klik Stat > Regression > Regression
Responses : isi dengan peubah sort_Y_2 ( peubah Y terurut)
Predictors : isi dengan peubah sort_X_2 ( peubah X terurut)
Klik Storage : Checklist [√] pada MSE, agar nilai Mean Square
Error (MSE) menjadi konstanta. MSE2
Output :
Regression Analysis: sort_Y_2 versus sort_x_2
The regression equation is
sort_Y_2 = 0.241 + 0.218 sort_x_2
Predictor Coef SE Coef T P
Constant 0.2409 0.8606 0.28 0.785
sort_x_2 0.2179 0.1309 1.66 0.127
S = 1.01591 R-Sq = 21.7% R-Sq(adj) = 13.9%
Analysis of Variance
Source DF SS MS F P
Regression 1 2.858 2.858 2.77 0.127
Residual Error 10 10.321 1.032
Total 11 13.179 MSE 2
d. Hitung nilai Statistik uji F yakni: Fhit =
Durbin-Watson statistic = 1.90780 MSE1
n − c − 2k
Jika Fhit > F0.10 2 maka tolak Ho.
n = banyak data
c = banyak data yang dihilangkan
k = banyak parameter
31
Klik Calc > Calculator
Store Result in Variable : isikan kolom yang masih kosong
Expression : isikan MSE2/MSE1
32
Kesimpulan:
n − c − 2k
F-hit = 1.03503 < F-tabel (F0.1 2 = 2.32),
disimpulkan model sudah tidak lagi mengandung heteroskedasitas.
Analysis of Variance
Source DF SS MS F P
Regression 2 21302 10651 84.7833 0.000
Residual Error 57 7161 126
Total 59 28463
34
5.2.2 Transformasi model
Salah satu penyebab model mengandung autokorelasi adalah karena tidak
dimasukkannya peubah yang sesungguhnya memiliki pengaruh nyata terhadap
respon. Dikarenakan model ini dipengaruhi oleh waktu, maka bisa jadi respon juga
dipengaruhi oleh peubah penjelas pada waktu t-i, dimana (i = 1,2.,3,..).
Contoh :
Membuat model dimana peubah responnya adalah 'Trade' dan peubah penjelasnya
adalah Foodt, Foodt-1, Sehingga model dugaan sebagai berikut :
Tradet = B0+ B1Tradet-1+ B2Foodt+ B3foodt-1
4. Lihat pada nilai Durbin Watson statistic, jika sudah tidak berautokorelasi dan
R-sq sudah mendekati 1. plot galat berdasarkan waktu, jika sudah tidak
membentuk plot musiman berarti model sudah tepat.
5.3 MULTIKOLINIERITAS
Multikolinear adalah hubungan linear yang kuat antara peubah-peubah bebas
dalam persamaan regresi berganda. Adanya multikolinearitas menyebabkan
pendugaan koefisien regresi tidak nyata. Walaupun nilai R-Squarenya tinggi, tanda
koefisien regresi tidak sesuai dengan teori dan dengan Ordinary Least Square (OLS)
atau lebih dikenal dengan Metode Kuadrat Terkecil (MKT), pendugaan koefisien regresi
mempunyai simpangan baku yang sangat besar.
Untuk mendeteksi terjadinya multikolinearitas dapat dilihat dari nilai VIF
(Variance Inflation Factor). VIF dihitung dari matriks korelasi peubah bebas yang telah
dibakukan satuannya. Hubungan antar VIF dan kolinearitas adalah melalui hubungan:
1
VIF =
1− R2
Dimana R2 adalah koefisien determinasi dari regresi X pada peubah bebas lainnya.
Nilai VIF yang lebih besar dari 10 menunjukkan gejala multikolinearitas (Ryan, 1997)
Pendugaan koefisien regresi dengan menggunakan metode MKT dalam
keadaan multikolinear cenderung memberi hasil yang tidak stabil. Metode yang dapat
digunakan untuk mengatasi multikolinear adalah dengan metode regresi komponen
utama.
Analisis regresi komponen utama merupakan suatu analisis kombinasi antara
analisis regresi dan analisis komponen utama. Dalam penggunaan metode regresi
komponen utama, jika seluruh komponen utama dimasukkan dalam persamaan
regresi maka akan dihasilkan model yang setara dengan yang diperoleh dengan MKT
(Jollife, 1986).
Metode regresi komponen utama diawali dengan mengoperasikan pada peubah
bebas yang dibakukan. Misalnya, matriks Z berasal dari matriks X yang terpusat dan
terskalakan dengan :
Z jj =
(X jj −Xj )
1
S jj 2
Suku-suku komponen utama PCi merupakan kombinasi linear antara matrik Z dengan
vektor a dalam bentuk :
PC j = a1 j X 1 + a 2 j X 2 + ..... + a kj X k
Prinsip dasar dari metode regresi kornponen utama adalah menggunakan skor
komponen utama. yang terpilih sebagai peubah bebas. Komponen-komponen utama
tersebut saling ortogonal. Dengan demikian metode regresi komponen utama
merupakan analisis regresi dari peubah respon terhadap komponen-komponen utama.
yang saling tidak berkorelasi. MKT digunakan untuk memperoleh pendugaan bagi Y
sebagai fungsi dari peubah-peubah PCi yang terpilih. Persamaan regresi komponen
utama dinyatakan sebagai :
36
Y = b0 + b1 SC1 + b2 SC 2 + .... + b p SC p
Dengan SC adalah skor komponen utama.
Berdasarkan 2 persamaan diatas, persamaan regresi komponen utama dapat
ditransformasi ke peubah asal yang dibakukan, sehingga persamaan regresi dengan
peubah bebas yang dibakukan adalah :
Y = β0 + β1 Z 1 + β2 Z 2 + .... + β p Z p
Dengan : β0 = b0
βk = a j1b1 + a j 2 b2 + .... + a jp b p
Langkah-langkah analisis :
1. Data diregresikan dengan Metode Kuadrat Terkecil (MKT) untuk memeriksa
koefisien parsial, pemeriksaan sisaan dan analisis.
2. Pemeriksaan multikolinearitas antar peubah bebas.
3. Mengatasi masalah multikolinearitas dengan Regresi Komponen Utama.
4. Algoritma regresi komponen utama adalah :
Pembakuan satuan pengukuran sehingga komponen utama diperoleh
dengan menurunkan dari matriks korelasi R.
Dari komponen utama akan diperoleh skor komponen utama yang
diregresikan dengan peubah tak bebas menggunakan MKT.
Pemeriksaan koefisien regresi komponen utama secara parsial.
Pemilihan koefisien regresi yang nyata dan akar ciri yang besar.
Substitusi persamaan regresi komponen utama dengan koefisien yang telah
dipilih kedalam peubah baku.
Transformasi peubah baku kedalam peubah asalnya.
Pemeriksaan sisaan.
x1 x2 x3 x4 y
9.75 6.50 1.61 0.65 67.50
10.50 10.25 2.00 0.75 68.90
11.25 11.90 2.50 0.90 70.65
12.60 11.75 2.70 1.15 73.60
11.90 11.00 2.25 0.95 71.89
15.20 13.50 3.25 1.75 84.50
12.25 12.00 2.90 1.05 72.34
12.90 12.60 3.00 1.00 77.65
14.30 13.20 3.10 1.70 80.25
13.25 12.90 3.05 1.25 79.87
15.30 14.00 3.25 1.80 86.75
8.90 9.25 1.90 0.60 65.75
10.60 10.50 1.95 0.50 70.20
17.25 15.00 3.50 2.00 89.25
16.90 14.90 3.40 1.95 85.00
Langkah-langkah menggunakan MINITAB:
1. Regresikan data tersebut
Klik Stat > Regression > Regression
Response : Masukkan peubah respon (y)
Predictors : Masukkan peubah bebas (x1 x2 x3 x4)
Klik Options:
Regression Analysis:pada Display,
y versus pilih
x1, x2, x3, variance
x4 inflation factor
Klik Result : Pilih option kedua regression equation, table ....
The regression equation is
y = 41.7 + 2.35 x1 - 0.248 x2 + 2.05 x3 + 1.57 x4
Predictor Coef SE Coef T P VIF
Constant 41.658 6.345 6.57 0.000
x1 2.347 1.066 2.20 0.052 24.7
x2 -0.2483 0.8428 -0.29 0.774 12.2
x3 2.052 3.526 0.58 0.573 16.0
x4 1.569 4.492 0.35 0.734 18.1
S = 2.02669 R-Sq = 94.9% R-Sq(adj) 37
= 92.9%
Analysis of Variance
Source DF SS MS F P
Regression 4 763.97 190.99 46.50 0.000
Residual Error 10 41.07 4.11
Interpretasi :
Dari output analisis regresi diatas terlihat adanya informasi yang kontradiktif.
Dari anova model terlihat bahwa model sangat tepat atau bagus dalam menjelaskan
data (nilai-p < 0.05) serta nilai R-Sq yang sangat tinggi yaitu sebesar 94.4%, tetapi
koefisien masing-masing variabel penjelas tidak ada yang nyata atau variabel-variabel
tersebut tidak mempunyai pengaruh yang nyata terhadap respon. Nilai VIF dari
masing-masing variabel juga sangat besar (VIF > 10.0) yang berarti ada
multikolinearitas di dalam variabel-variabel bebasnya.
38
Interpretasi :
Dari matrix korelasi terlihat bahwa antar peubah penjelas terdapat korelasi
yang besar atau terdapat multikolinearitas pada peubah penjelas
39
peubah asal maka buang baris pertama di kolom coef1 (C14) yang merupakan
nilai konstanta regresi.
Regression Analysis: y versus score1
The regression equation is
y = 76.3 - 3.76 score1
Predictor Coef SE Coef T P
Constant 76.2733 0.5588 136.49 0.000
score1 -3.7552 0.2979 -12.60 0.000
S = 2.16435 R-Sq = 92.4% R-Sq(adj) = 91.9%
Analysis of Variance
Source DF SS MS F P
Regression 1 744.15 744.15 158.86 0.000
Residual Error 13 60.90 4.68
Total 14 805.05
Interpretasi :
Dari output analisis regresi komponen utama dengan peubah bebas score1
diatas terlihat bahwa model sangat tepat atau bagus dalam menjelaskan data
(nilai-p < 0.05) serta nilai R-Sq yang sangat tinggi yaitu sebesar 92.4%, koefisien
variabel penjelas (score1) nyata atau variabel (score1) tersebut mempunyai
pengaruh yang nyata terhadap respon. Karena hanya digunakan satu variabel
penjelas (score1) maka nilai VIF tidak keluar karena secara otomatis tidak ada
multikolinearitas.
40
d. MTB > print m3
Matrix M3
1.89868
1.85527
1.89089
1.86520
7. Persamaan diatas masih dalam bentuk baku, sehingga perlu transformasi ke dalam
bentuk X. Transformasi dapat dilakukan di excel atau di minitab.
Konstanta untuk persamaan ini didapat dari koefisien regresi dalam bentuk
baku dikali dengan negatif rataan dibagi dengan standar deviasinya. Ini
dihitung untuk semua peubah penjelas. Kemudian untuk mendapat
konstantanya hasil semua tadi ditambahkan dengan konstanta persamaan
regresi dalam bentuk baku.
Untuk koefisien regresinya, koefisien regresi dalam bentuk baku dibagi
standar deviasi masing-masing.
Sehingga kita dapat persamaan regresi :
Y = 44.0938 + 0.752055 X1 + 0.827165 X2 + 3.08215 X3 + 3.63309 X4
6 PERANCANGAN PERCOBAAN
Perancangan percobaan adalah suatu uji atau sederetan uji baik itu
menggunakan statistika deskriptif maupun statistika inferensia. Yang bertujuan untuk
mengubah input menjadi output yang merupakan respon dari percobaan tersebut.
Pada dasarnyarancangan percobaan merupakan pengaturan pemberian
perlakuan kepada satuan-satuan percobaan dengan maksud agar keragaman respon
41
yang ditimbulkan oleh keadaan lingkungan dan keheterogenan bahan percobaan yang
digunakan dapat diwadahi dan disingkirkan sehingga yang berpengaruh terhadap
respon hanya perlakuan yang diberikan.
V1 V2 V1 V2
V2 V1 V2 V1
K1 K0 K0
Contoh diatas dengan RAK sebanyak 3 blok.
42
b. Split-Split Plot
ANOVA
sumber Db JK KT E (KT) Fhit
model tetap
A a-1 JKA KTA σ ε2 + br ( ∑ Ai2 ) ( a − 1) KTA/KTG
43
AB (a-1)(b-1) JKAB KTAB σ ε2 + rσ AB
2
KTAB/KTG
Intepretasi Output :
Dari hasil output diatas dapat diketahui bahwa lama fumigasi mempengaruhi/
berpengaruh nyata terhadap daya kecambah benih tomat, demikian juga dengan
pemberian dosis dan interaksi antara lama fumigasi dan pemberian dosis
fumigasinya.Hal ini diketahui dari nilai p-value-nya yang lebih kecil dari nilai α = 0.
05
ANOVA
sumber db JK KT E (KT) Fhit
model tetap
A a-1 JKA KTA σ ε2 + br ( ∑ Ai2 ) ( a − 1) KTA/KTG
45
Total abr-1 JKT
ANOVA
sumber db JK KT E (KT) Fhit
model tetap
A a-1 JKA KTA σ ε2 + bσ U2 + br ( ∑ Ai2 ) ( a − 1) KTA/KTGa
Galat (a) /
RA(ik)
a (r-1) JKGa KTGa σ ε2 + bσ U2
B b-1 JKB KTB σ ε2 + ar ( ∑ B 2j ) ( b − 1) KTB/KTG
46
A a-1 JKA KTA σ ε2 + bσ U2 + rσ AB
2
+ brσ A2 **
ANOVA
sumber db JK KT E (KT) Fhit
model tetap
Blok r-1 JKK KTK
A a-1 JKA KTA σ ε2 + bσ U2 + br ( ∑ Ai2 ) ( a − 1) KTA/KTGa
Galat (a) /
RA(ik)
(a-1) (r-1) JKGa KTGa σ ε2 + bσ U2
B b-1 JKB KTB σ ε2 + aσ V2 + ar ( ∑ B 2j ) ( b − 1) KTB/KTGb
Galat(b) /
RA(jk)
(b-1)(r-1) JKGb KTGb σ ε2 + aσ V2
AB (a-1)(b-1) JKAB KTAB σ ε2 + r ( ∑∑ ABij2 ) ( a − 1)( b − 1) KTAB/KTG
c
Galat(c) /
AB(ijk)
(a-1)(b-1)(r-1) JKGc KTGc σε2
Total abr-1 JKT
Yijk = µ + K k + Ai + U ik + B j + V jk + ( AB ) ij + ε ijk
model acak
Blok r-1 JKK KTK
A a-1 JKA KTA σ ε2 + bσ U2 + rσ AB
2
+ brσ A2 *
47
Galat(c) (a-1)(b-1)(r-1) JKGc KTGc σε2
Total abr-1 JKT
model campuran (A acak dan B tetap)
Blok r-1 JKK KTK
A a-1 JKA KTA σ ε2 + bσ U2 + brσ A2 KTA/KTGa
7 PENGUJIAN ASUMSI
48
Galat harus menyebar normal karena uji yang digunakan adalah uji-F.
Sebaran F diturunkan dari sebaran chi-square yang diturunkan dari sebaran
normal.
d. Komponen galat bersifat acak/bebas
Galat percobaan harus bersifat bebas atau tidak ada korelasi antar galat.
Galat yang tidak bebas akan mengakibatkan uji nyata yang kita lakukan dapat
mengecoh dalam mengambil keputusan
Output :
Residual Plots for RESPON
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99 5.0
90 2.5
Residual
Percent
0.0
50
-2.5
10
-5.0
1
-5.0 -2.5 0.0 2.5 5.0 0 25 50 75 100
Residual Fitted Value
2.5
7.5
Frequency
Residual
0.0
5.0
-2.5
2.5
-5.0
0.0
-6 -4 -2 0 2 4 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Residual Observation Order
interpretasi (eksploratif):
Hasil plot Residuals versus the order of the data yang berbentuk acak
menunjukkan bahwa residual bersifat bebas. Jika plotnya membentuk pola
tertentu, ini berarti residual tidak bersifat bebas.
Hasil plot residuals versus the fitted values yang tidak menunjukkan pola
tertentu mengindikasikan bahwa ragam residual bersifat homogen. Tetapi jika
ada pola tertentu yang terbentuk, hal ini mengindikasikan keheterogenan ragam
residual.
Hasil plot normal probability plot of the residuals yang membentuk pola garis
lurus menunjukkan bahwa residual menyebar normal. Jika tidak, maka berarti
residual tidak menyebar normal.
Dengan pengujian secara grafis, terkadang kita mengalami keraguan untuk
menetukan ada tidaknya pola yang terbentuk pada grafik.Untuk mengatasi masalah
49
itu, maka diperlukan pengujian secara formal.
Galat harus menyebar normal karena uji yang digunakan adalah uji-F.
Sebaran F diturunkan dari sebaran chi-square yang diturunkan dari sebaran
normal, tidak terpenuhinya asumsi ini akan mengakibatkan kasimpulan yang tidak
akurat dan berbias.
Hipotesis yang akan diuji adalah:
H0 : galat menyebar normal
H1 : galat tidak menyebar normal
Langkah-langkah pengujiannya sebagai berikut:
Klik Stat > Basic Statistic > Normality Test
Variable : isi dengan kolom sisaan yang akan diperiksa (RESI1),
Test of Normality diisi dengan memilih salah satu
uji, kita pilih Ryan-Joiner. kemudian klik OK
Setelah keluar hasilnya, kita lihat p-value, apabila p-value > α maka dapat
disimpulkan bahwa ragam galat menyebar normal, begitu pula sebaliknya.
60
50
40
30
20
10
1
-7.5 -5.0 -2.5 0.0 2.5 5.0
RESI1
Keputusan:
Dengan menggunakan uji kenormalan Ryan-Joiner, nilai-p > 0.10 sehingga
terima H0 atau asumsi kenormalan galat terpenuhi
50
Hipotesis yang akan diuji adalah:
H0 : Ragam galat homogen
H1 : Ragam galat tidak homogen
Langkah-langkah pengujiannya sebagai berikut:
Klik Stat > ANOVA > Test for Equal Variance
Response : isi dengan kolom respon yang akan diperiksa, pengisian kolom
ini hanya boleh untuk satu respon, tidak boleh lebih. Factors diisi dengan
kolom faktor yang digunakan. Ingat! Yang dimasukkan hanya faktornya saja,
sedangkan kelompoknya tidak. Setelah semua terisi dengan benar, kemudian
klik OK
Setelah keluar hasilnya, kita lihat p-value, apabila p-value > α maka dapat
disimpulkan bahwa ragam galat homogen, begitu pula sebaliknya.
Test for Equal Variances for RESPON
LAMA DOSIS
0 Bartlett's Test
Test Statistic 3.41
16 P-Value 0.844
2 32 Levene's Test
Test Statistic 0.68
48 P-Value 0.716
64
0
16
4 32
48
64
0 20 40 60 80 100
95% Bonferroni Confidence Intervals for StDevs
Tampilan secara visual untuk data yang interaksinya nyata dapat dilakukan dengan
mengeluarkan plot interaksinya.
Stat > ANOVA > Interaction Plot
Responses : Masukkan peubah responnya (Y) = C4
Factors : Masukkan masing-masing faktor = C 1 C2
51
Interaction Plot (data means) for RESPON
100 LAMA
2
4
80
60
Mean
40
20
0 16 32 48 64
DOSIS
interpretasi :
Respon tertinggi diberkan pada kombinasi factor dosis 0 dengan faktor lama 2
jam. Dari sini juga bias terlihat bahwa antara factor lama dan factor dosis terjadi
interaksi, hal ini ditunjukkan oleh slope antara kedua berbeda.
8 TRANSFORMASI DATA
Setelah proses pengujian asumsi secara grafis selesai dan ada asumsi yang
tidak terpenuhi maka perlu dilakukan transformasi data. Tujuan dari transformasi
suatu data adalah memudahkan dalam intepretasi, mendukung kesimetrikan atau
mendukung kestabilan/kehomogenan ragam. Tujuan yang lain adalah melinearisasikan
suatu persamaan garis serta menyederhanakan struktur dari data
Transformasi merupakan usaha untuk merubah data asli dan atau skala data
(John D. Emerson dan Michael A. Soto), sementara itu menurut David Griffith
transformasi atau re-expression adalah menampilkan data dalam bentuk skala yang
berbeda.
Bentuk distribusi yang simetris tidak perlu ditransformasi, karena sudah sesuai
dengan bentuk baku. Sedangkan untuk jenjang yang lain perlu ditransformasi.
52
Untuk kelompok distribusi yang menceng ke kanan, transformasinya
didasarkan kepada fungsi monoton naik dengan turunan pertama yang
semakin membesar.
Contoh: Y* = Yk dengan k= 2, 3, 4,...
Fungsi-fungsi tersebut akan merenggangkan data-data yang berharga besar
dan merapatkan data-data yang berharga kecil.
Untuk kelompok distribusi yang menceng ke kiri, transformasinya didasarkan
kepada fungsi monoton naik dengan turunan pertama yang semakin mengecil.
Contoh: Y* = Yk dengan k < 1 , Y* = log Y, Y* = -1/ Y, dll.
Fungsi-fungsi tersebut akan merenggangkan data-data yang berharga kecil dan
merapatkan data-data yang berharga besar.
53
8.2.3 Transformasi Arcsin ( Sin-1√Y)
Transformasi arcsin tepat digunakan untuk data proporsi yang dinyatakan
sebagai persentase dengan ketentuan sebagai berikut:
Data persentase yang perlu ditransformasi adalah persentase yang
diperoleh dari nisbah terhadap total.
Misal:
x = banyaknya produk yang cacat
N = total produk
Maka persentase produk yang cacat adalah x
N
Data persentase yang berada dalam range 30%-70% tidak perlu
ditransformasi
Data persentase yang berada pada range 0%-100%
54
Jika harga b negatif, transformasi yang digunakan adalah:
X* = Xk dengan k = 2, 3, 4, ...
Makin kecil harga b, makin besar harga k yang perlu dicoba.
Log X Y2
X turun
- 1/ X Y3
Y naik
dsb dsb
Log X Log Y
Xturun
- 1/ X -1/X
Y turun
dsb dsb
X2 Log Y
X naik
X3 -1/X
Y turun
dsb dsb
X2 Y2
X naik
X3 Y3
Y naik
dsb dsb
Misalkan hasil transformasi untuk X dan Y adalah X * dan Y*, lakukan regresi
linear terhadap X* dan Y* (jika terdapat pencilan hindari menggunakan MKT)
Apabila regresi dari X* dan Y* memberikan harga R2 yang memuaskan, maka
proses pemodelan telah selesai. Bila belum maka ulangi tiga langkah terakhir.
Analisis regresi digunakan untuk melihat hubungan antara satu atau lebih
peubah penjelas dengan peubah respon. Model regresi yang digunakan tergantung
dari peubah respon yang digunakan. Peubah respon dapat berupa peubah kuantitatif
maupun peubah kualitatif. Pada penelitian sosial peubah yang diamati sebagian besar
merupakan data kategorik termasuk data biner. Model yang sering digunakan untuk
menganalisis peubah respon berskala biner (dikotomous/binary) adalah model logit
dan model probit (Greene, 1990).
Model logit dan model probit merupakan dua model regresi yang saling dapat
menggantikan yang satu dengan yang lain untuk menganalisis peubah respon biner
(Jeff Wu, 1985). Oleh karena itu sering hanya dibuat salah satu model tanpa
mempertimbangkan model lain yang mungkin akan menghasilkan model yang lebih
sesuai.
Perbedaan antara model regresi linear dengan regresi logit probit dicerminkan
pada model parameter dan penggunaan asumsi.
55
Regresi logit merupakan teknis analisis data yang dapat menjelaskan hubungan
antara. peubah respon yang memiliki dua kategori dengan satu atau lebih peubah
penjelas berskala kontinu atau kategori (Hosmer dan Lamesow, 1989).
g ( x ) = β 0 + β1 x1 + .... + ∑ β ju x ju + β p x p
u =1
i =2
56
Dengan kata lain diadakan pengujian hipotesis statistik dalam menentukan apakah
peubah-peubah bebas dalam model mempunyai hubungan yang nyata dengan peubah
responnya.
Menurut Hosmer dan Lemeshow (1989), untuk mengetahui peran seluruh
peubah penjelas di dalam model secara bersama-sama dapat digunakan uji nisbah
kemungkinan yaitu uji G berdasarkan hipotesis :
H 0 : β1 = β2 = ... = β p = 0
H 1 : paling sedikit ada satu β j ≠ 0 (j = 1, 2, …, p)
Sedangkan rumus umum untuk uji-G :
L < χ p2 ,α , terimaH 0
G = −2 ln 0 Dengan kriteria uji : G =
> χ p ,α , tolakH 0
2
Lk
Dengan L0 = fungsi kemungkinan tanpa peubah penjelas dan Lk = fungsi
kemungkinan dengan peubah penjelas. Statistik G mengikuti sebaran khi kuadrat
dengan derajat bebas p.
Sedangkan untuk uji nyata parameter secara parsial dapat digunakan uji-Wald.
Statistik uji-Wald adalah :
Hipotesis : H 0 : β j = 0 vs H 1 : β j ≠ 0
( )
Dengan β̂j merupakan penduga βj s β̂j dan adalah dugaan galat baku dari βj .
Statistik uji Wald mengikuti sebaran normal baku.
57
Low No 145 Low No 150 High Yes 135
Low No 170 Low Yes 155 Low No 125
Low No 175 Low No 150 High No 118
Low Yes 175 High Yes 180 Low No 122
Low Yes 170 Low No 160 Low No 115
Low Yes 180 Low No 135 Low No 102
Low No 135 Low No 160 Low No 115
Low No 170 Low Yes 130 Low No 150
Low No 157 Low Yes 155 Low No 110
Low No 130 Low Yes 150 High No 116
Low Yes 185 Low No 148 Low Yes 108
High No 140 High No 155 High No 95
Low No 120 Low No 150 High Yes 125
Low Yes 130 High Yes 140 Low No 133
High No 138 Low No 180 Low No 110
High Yes 121 Low Yes 190 High No 150
Low No 125 High No 145 Low No 108
High No 116 High Yes 150
Langkah-langkah menggunakan MINITAB:
Klik Stat > Regression > Binary Logistic Regression
Response : masukkan RestingPulse
Model : masukkan Smokes dan Weight
Factors (optional) : masukkan Smokes
Klik Graph : pilih Delta chi-square vs probability dan Delta
chi-square vs leverage
Klik option : pada Link Fuction pilih Logit
Klik Result : pilih In addition, list of factor level values ...
Intepretasi Output:
1. Dilihat dari nilai uji-G dengan p-value = 0.023 < nilai α = 0.05, dapat
disimpulkan bahwa peubah bebas (X) berpengaruh terhadap peubah respon (Y)
2. Dilihat dari nilai uji Wald (Z), yaitu :
Nilai parameter β1 dengan nilai-p = 0.031 < nilai α = 0.05, dapat
disimpulkan bahwa koefisien peubah X1 (smokes) nyata
Nilai parameter β2 dengan nilai p = 0.041 < nilai α = 0.05, dapat
disimpulkan bahwa koefisien peubah X2 (Weight) nyata.
Dilihat dari nilai Rasio Odds yaitu:
59
• Untuk peubah X1 (Smokes), kecenderungan seorang perokok (smokes yes)
untuk terjadinya resting pulse sebesar 0.3 kali dari orang yang tidak
merokok (smokes no).Dengan kata lain seorang perokok memiliki
kecenderungan resting pulse high.
• Untuk peubah X2 (Weight), kecenderungan resting pulse low meningkat
sebesar 1.03 ketika weight naik 1 satuan. Dengan kata lain semakin
bertambah weight maka resting pulse semakin rendah.
Jadi fungsi linear dari peubah penjelas kasus diatas adalah g(x) = -1.987 -
1.1930 X1 + 0.02502 X2 sehingga regresi logistik dengan 2 faktor (peubah penjelas)
adalah :
exp( β 0 + β 1 x1 + .. + β p x p )
E(Y = x) = π ( x) =
1 + exp( β 0 + β 1 x1 + .. + β p x p )
60
n
∑( y i − yˆ i )
2
∑( y i − πˆ i )
2
KTG = i =1
=
n − p −1 n − p −1
Semakin kecil kuadrat tengah galat yang diperoleh maka model semakin baik.
n
Jika ∑( y
i =1
i − yˆ i ) dapat digunakan digunakan sebagai jumlah kuadrat galat, maka
2
∑(y − πˆ i )
2
i
R2 = 1− i =1
n
∑(y
i =1
i − yi )
2
Intepretasi :
1. Dilihat dari nilai uji-G dengan p-value = 0.021 < nilai α = 0.05, dapat
disimpulkan bahwa peubah bebas (X) berpengaruh nyata terhadap peubah
respon (Y)
2. Dilihat dari nilai uji Wald (Z), yaitu:
Nilai parameter β1 dengan nilai-p = 0.030 < nilai α = 0.05 dapat
disimpulkan bahwa koefisien peubah X1 (Smokes) nyata.
Nilai parameter β2 dengan nilai-p = 0.032 < nilai α = 0.05, dapat
disimpulkan bahwa koefisien peubah X2(Weight) nyata.
3. Intepretasi koefisien model probit dilakukan dengan melihat tanda koefisien itu
sendiri.
Untuk X1 koefisien yang diperoleh negatif, maka kecenderungan resting pulse
low (Y=1) lebih kecil pada peubah bebas smokes yes (X1=l) dibandingkan
dengan smokes no (X1=0).
Untuk X2 koefisien yang diperoleh positif, maka kecenderungan resting pulse
low (Y= 1) akan naik searah dengan kenaikan peubah bebas weight.
62
Jadi fungsi linear dari peubah penjelas kasus diatas adalah g(x) = -1.2011 -
0.7038X1 + 0.015085X2 ; sehingga model peluang regresi probit dengan 2 faktor
(peubah penjelas) adalah :
g( x) s2
1 −
π1 = F ( g ( x) ) = ∫ e 2
ds
2π −∞
Kesimpulan :
Regresi Logit dan probit digunakan untuk mengetahui hubungan antara peubah
respon berskala biner (dicotomous/binary) dengan beberapa peubah penjelas yang
bersifat kategorik atau kontinu. Model logit dan model probit merupakan dua model
regresi yang saling dapat menggantikan satu dengan yang lain. Oleh karena itu sering
hanya dibuat salah satu model tanpa mempertimbangkan model lain yang mungkin
akan menghasilkan model yang lebih sesuai.
10 ANALISIS MULTIVARIATE
63
Simple Correspondence Analysis: CT1, CT2, CT3, CT4, CT5
Contingency Table
A B C D E Total
Geology 3 19 39 14 10 85
Biochemistry
Output : 1 2 13 1 12 29
Chemistry 6 25 49 21 29 130
Zoology 3 15 41 35 26 120
Physics 10 22 47 9 26 114
Engineering 3 11 25 15 34 88
Microbiology 1 6 14 5 11 37
Botany 0 12 34 17 23 86
Statistics 2 5 11 4 7 29
Mathematics 2 11 37 8 20 78
Total 31 128 310 129 198 796
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0.0391 0.4720 0.4720 ******************************
2 0.0304 0.3666 0.8385 ***********************
3 0.0109 0.1311 0.9697 ********
4 0.0025 0.0303 1.0000 *
Total 0.0829
Row Contributions
Component 1
ID Name Qual Mass Inert Coord Corr Contr
1 Geology 0.916 0.107 0.137 -0.076 0.055 0.016
2 Biochemistry 0.881 0.036 0.119 -0.180 0.119 0.030
3 Chemistry 0.644 0.163 0.021 -0.038 0.134 0.006
4 Zoology 0.929 0.151 0.230 0.327 0.846 0.413
5 Physics 0.886 0.143 0.196 -0.316 0.880 0.365
6 Engineering 0.870 0.111 0.152 0.117 0.121 0.039
7 Microbiology 0.680 0.046 0.010 -0.013 0.009 0.000
8 Botany 0.654 0.108 0.067 0.179 0.625 0.088
9 Statistics 0.561 0.036 0.012 -0.125 0.554 0.014
10 Mathematics 0.319 0.098 0.056 -0.107 0.240 0.029
Component 2
ID Name Coord Corr Contr
1 Geology -0.303 0.861 0.322
2 Biochemistry 0.455 0.762 0.248
3 Chemistry -0.073 0.510 0.029
4 Zoology -0.102 0.083 0.052
5 Physics -0.027 0.006 0.003
6 Engineering 0.292 0.749 0.310 64
7 Microbiology 0.110 0.671 0.018
8 Botany 0.039 0.029 0.005
9 Statistics -0.014 0.007 0.000
10 Mathematics 0.061 0.079 0.012
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 A 0.587 0.039 0.187 -0.478 0.574 0.228 -0.072 0.013 0.007
2 B 0.816 0.161 0.110 -0.127 0.286 0.067 -0.173 0.531 0.159
3 C 0.465 0.389 0.094 -0.083 0.341 0.068 -0.050 0.124 0.032
4 D 0.968 0.162 0.347 0.390 0.859 0.632 -0.139 0.109 0.103
5 E 0.990 0.249 0.262 0.032 0.012 0.006 0.292 0.978 0.699
Symmetric Plot
0.50 Biochemistry
Engineering
E
0.25
Microbiology
Component 2
Mathematics
Botany
Physics Statistics
0.00 C
A Chemistry
Zoology
D
B
-0.25 Geology
-0.50
-0.50 -0.25 0.00 0.25 0.50
Component 1
interpretasi :
Dari output juga ditampilkan lagi table kontingensi pada data dia atas, pada
analisis table kontingensi terlihat dari tabel ukuran 10x5 diringkas menjadi 4
komponen. Output selanjutnya adalah Row Contributions yang memberikan
interpretasi 2 komponen. Coord menunjukkan koordinat uatama dari baris. Corr
menunjukkan kontribusi komponen pada inertia baris, dimana komponen 1 mampu
merepresentasikan Zoology and Physics dengan baik. Contr menunjukkan kontribusi
baris terhadap masing-masing sumbu, dimana Zoology and Physics mempunyai
kontribusi tertinggi pada komponen 1.
Kecenderungan kedekatan antara peubah akademik dan fund dapat dilihat di
symmetric plot diatas. Terlihat bahwa untuk akademik zoology cenderung
berhubungan kuat dengan fund D serta engeenering sangat dekat kaitannya dengan
fund E. Selanjutnya untuk peubah-peubah lainnya dapat dilihat sendiri kedekatannya.
Digunakan bila lebih dari 2 peubah kategorik yang ingin dilihat hubungannya.
Contoh: Seorang peneliti ingin mengetahui pola penggunaan telepon selular (HP)
dikalangan mahasiswa dan damapknya terhadap biaya hidup dan Indeks Prestasi
Kumulatif (IPK). Diperoleh data sebagai berikut :
65
Peubah punya/Tidak HP memiliki dua kategori yaitu punya dan tidak. Misalkan
kita beri kode 1 untuk punya dan 2 untuk tidak. Peubah SMS/minggu memiliki 3
kategori yaitu 0-5, 5-10, dan 10-15. Misalkan kita beri kode 1,2, dan 3 untuk ketiganya.
Demikian juga dengan peubah biaya hidup perbulan dan IPK yang masing-amsing
memilki 4 kategori dengan kode masing-masing 1,2,3 dan 4.
Cara entry data kedalam MINITAB adalah sebagai berikut:
c1 c2 c3 c4 c5
1 3 4 2 punya
1 2 3 3 tidak
2 1 2 3 0-5
1 3 3 1 10-15
1 2 2 3 15-20
2 2 2 4 <Rp 250.000
2 1 1 3 Rp 250.000-Rp 500.000
2 2 3 2 Rp 500.000-Rp 1.000.000
1 3 4 4 > Rp 1.000.000
2 1 3 3 < 2.00
1 3 4 1 2.00-2.50
1 2 3 3 2.50-3.00
1 2 3 3 > 3.00
1 3 3 3
1 2 4 2
1 2 3 4
2 1 2 3
1 3 4 3
1 3 3 4
2 2 3 4
output :
Multiple Correspondence Analysis: C1, C2, C3, C4
Analysis of Indicator Matrix
Axis Inertia Proportion Cumulative Histogram
1 0.6657 0.2959 0.2959 ******************************
2 0.3912 0.1738 0.4697 *****************
3 0.3016 0.1340 0.6038 *************
4 0.2538 0.1128 0.7166 ***********
5 0.2319 0.1031 0.8196 **********
6 0.1834 0.0815 0.9011 ********
7 0.1314 0.0584 0.9595 *****
8 0.0592 0.0263 0.9858 **
9 0.0319 0.0142 1.0000 *
Total 2.2500
66
Column Contributions
Component 1
ID Name Qual Mass Inert Coord Corr Contr
1 punya 0.653 0.163 0.039 0.593 0.653 0.086
2 tidak 0.653 0.088 0.072 -1.101 0.653 0.159
3 0-5 0.869 0.050 0.089 -1.617 0.654 0.196
4 5-10 0.694 0.113 0.061 -0.041 0.001 0.000
5 10-15 0.744 0.088 0.072 0.977 0.514 0.126
6 <Rp 250.000 0.416 0.013 0.106 -1.970 0.204 0.073
7 Rp 250.000-Rp 500.000 0.320 0.050 0.089 -1.127 0.318 0.095
8 Rp 500.000-Rp 1.000.000 0.291 0.125 0.056 0.101 0.010 0.002
9 > Rp 1.000.000 0.580 0.063 0.083 1.093 0.398 0.112
10 < 2.00 0.388 0.025 0.100 1.303 0.189 0.064
11 2.00-2.50 0.079 0.038 0.094 0.655 0.076 0.024
12 2.50-3.00 0.351 0.125 0.056 -0.558 0.311 0.058
13 > 3.00 0.255 0.063 0.083 0.202 0.014 0.004
Component 2
ID Name Coord Corr Contr
1 punya 0.002 0.000 0.000
2 tidak -0.005 0.000 0.000
3 0-5 -0.927 0.215 0.110
4 5-10 0.920 0.693 0.243
5 10-15 -0.653 0.230 0.095
6 <Rp 250.000 -2.004 0.211 0.128
7 Rp 250.000-Rp 500.000 0.100 0.003 0.001
8 Rp 500.000-Rp 1.000.000 0.530 0.281 0.090
9 > Rp 1.000.000 -0.739 0.182 0.087
10 < 2.00 -1.338 0.199 0.114
11 2.00-2.50 0.141 0.004 0.002
12 2.50-3.00 -0.200 0.040 0.013
13 > 3.00 0.851 0.241 0.116
Column Plot
1.5
5-10
1.0 > 3.00
Rp 500.000-Rp 1.000.000
0.5
Rp 250.000-Rp 500.000 2.00-2.50
Component 2
tidak punya
0.0 2.50-3.00
-0.5 10-15
> Rp 1.000.000
0-5
-1.0
< 2.00
-1.5
<Rp 250.000
-2.0
interpretasi :
Terlihat bahwa mahasiswa yang ber-SMS 10-15 kali/minggu cenderung memilki
pengeluaran diatas Rp. 1.000.000 dan ber-IPK kurang dari 2.00. Lalu Mahasiswa yang
punya HP cenderung ber-IPK 2.00-2.50. Dan selanjutnya untuk peubah-peubah lainnya
dapat dilihat sendiri kedekatannya.
67
10.3 ANALISIS GEROMBOL
Analisis gerombol merupakan suatu metode dalam analisis peubah ganda yang
bertujuan untuk mengelompokkan n satuan pengamatan ke dalam k gerombol dengan
k < n berdasarkan p peubah, sehingga unit-unit pengamatan dalam satu gerombol.
mempunyai sifat-sifat yang lebih mirip dibandingkan dengan unit pengamatan lain
yang terdapat dalam gerombol yang berbeda.
i =1
Dimana Dij = jarak antara objek ke-i dengan objek ke-j
Xij = Nilai objek ke-i pada peubah k
Yjk = Nilai objek ke-j pada peubah k
P = Banyaknya peubah yang diamati
68
Nilai d(UV)W jarak terdekat antara anggota gerombol (UV) dan W.
N ( UV ) N W
Keterangan:
dik = jarak antara objek ke-i pada gerombol (UV) dan objek ke-k
pada gerombol W
N(UV) = jumlah pengamatan dalam gerombol (UV)
NW = jumlah pengamatan dalam gerombol W
c. Metode Centroid
Dalam analisis statistika, nilai tengah seringkali menjadi statistik pemusatan
gugus data. Baik uji-t maupun analisis ragam biasa digunakan untuk
mengidentifikasi perbedaan antar kelompok, dengan menguji perbedaan nilai
tengahnya. Konsep seperti ini sama dengan metode centroid yaitu
penggabungan dua gerombol dilakukan dengan menggunakan dua gerombol
yang paling dekat/mirip vektor nilai tengahnya (centroid). Persamaan untuk
metode centroid, ditentukan sebagai berikut:
Np Np Np
d tr = d pr + d qr + d pq
N p + Nq N p + Nq N p + Nq
Dengan p dan q adalah gerombol baru yang digabungkan (dilambangkan
dengan t) dan r adalah gerombol lainnya.
dtr = jarak antara gerombol baru yang digabungkan (t) dan (r)
dpr = jarak objek pada gerombol p dan objek pada gerombol r
dqr = jarak objek pada gerombol q dan objek pada gerombol r
dpq = jarak objek pada gerombol p dan objek pada gerombol q
Np = Jumlah objek dalam gerombol p
Nq = Jumlah objek dalam gerombol q
d. Metode Ward
Metode ini memperkenalkan suatu metode penggerombolan dengan tujuan
menggabungkan dua gerombol yang meminimumkan total jumlah kuadrat galat
dalam kelompok. Pada metode ini jarak antara dua gerombol merupakan kuadrat
galat (JKG). Persamaan untuk metode Ward, ditentukan sebagai berikut:
nj 2 1 nj
k
JKG = ∑ ∑ X ij − ∑ X ij
n j i =1
j =1 i =1
Dengan:
Xij = Nilai objek ke-i pada gerombol ke-j
69
k = jumlah gerombol pada setiap tahap
nj = jumlah objek pada gerombol ke-j
Contoh:
Sebuah perusahaan sereal melakukan identifikasi terhadap 12 merk sereal untuk
sarapan yang selama ini dijual dengan tujuan akan mendapatkan kelompok-
kelompok sereal dengan karakteristik kandungan nutrisi yang mirip, diperoleh
data sebagai berikut :
70
Variables or distance matrix : isi dengan kolom yang diisi data numerik
di atas atau karakteristik yang diamati
Linkage Method : pilih Complete
Distance Measure : pilih Euclidean
Checklist Standardize Variables, karena satuan pengukuran variabel berbeda
sehingga perlu distandarisasi.
Number of Clusters : 1(default)
Checklist Show Dendogram, untuk menampilkan dendogram
output :
Cluster Analysis of Observations: Protein, Carbo, Fat, Calories, VitaminA
Standardized Variables, Euclidean Distance, Complete Linkage
Amalgamation Steps
Number
Number of obs.
of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 11 100.000 0.00000 5 12 5 2
2 10 95.784 0.25289 3 5 3 3
3 9 89.009 0.65935 3 11 3 4
4 8 76.943 1.38316 6 8 6 2
5 7 74.321 1.54046 2 3 2 5
6 6 64.404 2.13535 7 9 7 2
7 5 62.837 2.22937 1 4 1 2
8 4 55.956 2.64215 2 6 2 7
9 3 43.502 3.38929 2 7 2 9
10 2 23.455 4.59184 1 2 1 11
11 1 0.000 5.99891 1 10 1 12
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 12 55 1.92217 4.31911
71
Dendrogram with Complete Linkage and Euclidean Distance
0.00
33.33
Similarity
66.67
100.00
1 4 2 3 5 12 11 6 8 7 9 10
Observations
0.00
33.33
Similarity
66.67
100.00
1 4 2 3 5 12 11 6 8 7 9 10
Observations
73
.4 Ulangi langkah 2 sampai jumlah kuadrat tiap gerombol sekecil mungkin dan tidak
ada lagi perpindahan gerombol.
Contoh Non-Hirarki
Seorang peneliti ingin mengelompokkan beruang hitam berdasarkan profil beruang
menjadi 3 kategori ukuran, yakni :
Name Age Month Sex Head.L Head.W Neck.G Length Chest.G Weight Obs.No
Allen 19 7 1 10 5 15 45 23 65 1
Berta 19 7 2 11 6.5 20 47.5 24 70 1
Berta 20 8 2 12 6 17 57 27 74 2
Berta 23 11 2 12.5 5 20.5 59.5 38 142 3
Berta 29 5 2 12 6 18 62 31 121 4
Clyde 19 7 1 11 5.5 16 53 26 80 1
Clyde 20 8 1 12 5.5 17 56 30.5 108 2
Doc 55 7 1 16.5 9 28 67.5 45 344 1
Doc 67 7 1 16.5 9 27 78 49 371 2
Quincy 81 9 1 15.5 8 31 72 54 416 1
Kooch * 10 1 16 8 32 77 52 432 1
Charlie 115 7 1 17 10 31.5 72 49 348 1
Charlie 117 9 1 15.5 7.5 32 75 54.5 476 2
Charlie 124 4 1 17.5 8 32 75 55 478 3
Charlie 140 8 1 15 9 33 75 49 386 4
Geraldine 104 8 2 15.5 6.5 22 62 35 166 1
Fannie 100 4 2 13 7 21 70 41 220 1
Adam 70 9 1 15 6.5 28 78 45 334 2
Dieter 56 7 1 15 7.5 26.5 73.5 41 262 1
John 51 4 1 13.5 8 27 68.5 49 360 1
Palmer * 4 1 15.5 7 29.3 76 53 416 2
Xeronda 57 9 2 13.5 7 20 64 38 204 1
Clara 53 5 2 12.5 6 18 58 31 144 1
Abe * 6 1 12 8.3 18.5 60.3 32 122 1
Eugene 68 8 1 16 9 29 73 44 332 1
Floyd 8 8 1 9 4.5 13 37 19 34 1
Kim 44 8 2 12.5 4.5 10.5 63 32 140 1
Ichabod 32 8 1 14 5 21.5 67 37 180 1
Lorie 20 8 2 11.5 5 17.5 52 29 105 1
Mighty 32 8 1 13 8 21.5 59 33 166 1
Oliver 45 9 1 13.5 7 24 64 39 204 1
Oliver 56 8 1 14.5 7.5 26.5 66 40 250 2
Ness 9 9 2 9 4.5 12 36 19 26 1
Pete 21 9 1 13 6 19 59 30 120 1
Pete 21 9 1 13 6 19 59 30 114 2
Pete 30 9 1 13.5 6.5 23 66.5 38 210 3
Robert 177 9 1 16 9.5 30 72 48 436 1
Smokey 57 9 2 12.5 5 19 57.5 32 125 1
Smokey 67 7 2 12.5 6 19 57 34 152 2
Smokey 69 9 2 12.5 6.5 19.5 61 36 176 3
Tozia 81 9 2 13 5 20 61 33 132 1
Tozia 84 8 2 13.5 5 18.5 57 35 180 2
Unser 21 9 1 13 5 17 54 28 90 1
Unser 23 11 1 13 5.5 20.5 57.8 34.5 140 2
Viking 9 9 1 10 4 13 40 23 40 1
Walt 45 9 1 16 6 24 63 42 220 1
Xavier 9 9 1 10 4 13.5 43 23 46 1
Xavier 18 6 1 11 5 15 45 25 60 2
74
Yogi 33 9 1 13.5 6 22 66.5 34 154 1
Zelda 57 9 2 13 5.5 17.5 60.5 31 116 1
output :
Standardized Variables
Final Partition
Number of clusters: 3
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 9 8.704 0.900 1.422
Cluster2 26 29.498 0.982 1.887
Cluster3 15 19.948 1.117 1.724
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 centroid
Head.L -1.4801 -0.1316 1.1161 0.0000
Head.W -1.0275 -0.3086 1.1515 -0.0000
Neck.G -1.1194 -0.3650 1.3044 0.0000
Length -1.6182 -0.0694 1.0911 -0.0000
Chest.G -1.3333 -0.2557 1.2433 0.0000
Weight -1.1092 -0.3945 1.3494 -0.0000
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3
Cluster1 0.0000 2.6411 6.1145
Cluster2 2.6411 0.0000 3.6208
Cluster3 6.1145 3.6208 0.0000
Interpretasi :
75
Analisis cluster di atas menggunakan variabel yang telah distandarkan, dengan tujuan
membagi objek-objek diatas ke dalam 3 cluster. Cluster pertama terdiri dari 9 objek,
cluster dua terdiri 26 objek serta cluster tiga terdiri 15 objek. Perbedaan karakteristik
antara ketiga cluster tersebut dapat dilihat dari bagian cluster centroid. Dari bagian
tersebut terlihat bahwa ke-50 beruang tersebut dikelompokkan berdasarkan ukuran
tubuhnya, dimana beruang yang masuk kedalam cluster satu mempunyai ukuran
tubuh yang kecil, kemudian cluster dua terdiri dari beruang dengan ukuran tubuh
sedang serta beruang dengan ukuran tubuh besar akan masuk kedalam cluster tiga.
Contoh :
Dalam rangka mengatur penangkapan ikan salmon, sangat diinginkan bisa
mengidentifikasi apakah ikan yang tertangkap berasal dari Alaska atau Kanada. Lima
puluh ikan diambil dari setiap tempat, dan pertumbuhan diameternya diukur ketika
ikan-ikan itu hidup di air tawar dan ketika hidup di air laut. Tujuannya adalah untuk
mengetahui apakah ikan yang tertangkap di kemudian hari berasal dari Alaska atau
dari Kanada (Minitab, Inc).
Output :
77
output :
……………………………… (seperti output diatas)
Prediction for Test Observations
Squared
Observation Pred Group From Group Distance Probability
1 Alaska
Alaska 0.586 0.907
Canada 5.130 0.093
2 Alaska
Alaska 3.014 0.847
Interpretasi : Canada 6.440 0.153
Dari output diatas kedua pengamatan baru tersebut akan masuk ke group
alaska, hal ini bisa dilihat juga dari nilai probabilitynya.