Anda di halaman 1dari 26

Tugas Individu

Mata Kuliah : Biostatistik Lanjut


Dosen

: Prof. Dr. dr. Muh. Tahir Abdullah, M.Sc. MSPH

SOAL DAN JAWAB


MATERI ANALISIS KORELASI - REGRESI

OLEH:
ANGGIH TRI CAHYADI
(P1800216001)

KONSENTRASI KESELAMATAN DAN KESEHATAN KERJA


FAKULTAS KESEHATAN MASYARAKAT
PROGRAM PASCASARJANA
UNIVERSITAS HASANUDDIN
2016

1. Hajar (2000) mempelajari kemampuan mengeola kelas (Y) gugu-guru mata


pelajaran di Kota Makassar. Pengelolaan kelas ini dihipotesiskan dipengaruhi
oleh luas kelas dalam m2 (X1), kelengkapan kelas (X2), fasilitas pembelajaran
(X3), banyaknya siswa tiap kelas (X4), dan waktu mengajar (X5). Kita mengetahui
bahwa luas kelas mempunyai skala pengukuran rasio, sedangkan peubah-peubah
lainnya diukur dengan skala interval. Model linear ganda digunakan dalam
menganalisis data dari seratus responden dan hasilnya dapat dilihat sebagai
berikut:

a. Tentukan taksiran model regresinya!


b. Apakah model ini secara statistik dapat digunakan sebagai alat inferensi?
Tunjukkan angka-angka dari hasil komputer yang mendukung jawabanAnda!
c. Berapa besar daya ramal model dan berapa besar daya ramal X 1, X2, X3, X4,
dan X5 secara bersama-sama terhadap kemampuan mengelola kelas?
d. Jelaskan kesignifikan masing-masing peubah bebas secara sendiri-sendiri!
Apa komentar Anda?
e. Bagaimana model inidapat ditingkatkan daya ramalnya?

Jawaban:
a. Model regresi:
Y= 0 + 1 X 1 + 2 X 2 + 3 X3 + 4 X4 + 5 X5 +
Taksiran parameter diperoleh dari hasil pengolahan data tersebut tersebut,
adalah 0 = 73,93, 1 = 0,371, 2 = - 0,524, 3 = 0,671, 4 = 1,626, 5 = 0,294,
sehingga diperoleh taksiran model regresi:
= 73,915 + 0,371 X1 0,524 X2 + 0,671 X3 + 1,626 X4 + 0,294 X5 +
b. NilaiFhitung= 2,431 dengan nilai p= 0,0406 (p < 0,05) memberikan informasi
tentang kesignifikanan model. Jadi, model ini signifikan (good of fit) sehingga
dapat digunakan untuk membuat inferensi misalnya meramalkan kemampuan
mengelola kelas (Y) untuk suatu nilai X tertentu yang diberikan.
c. Daya ramal model diberikan oleh nilai R2= 0,1145. Jadi, model mempunyai
daya ramal 11,45% atau sekitar 12% variasi Y dapat dijelaskan oleh model.
Nilai R2terkoreksi= 0,0674. Angka ini menunjukkan bahwa X1, X2, X3, X4,
dan X5 secara bersama-sama dapat menjelaskan sekitar 6,74% variasi Y yang
berbeda sekitar 5% dari daya ramal model. Sementara itu, sisanya (93,26%)
dipengaruhi oleh faktor lain. Jadi, konstanta (0) mempunyai kontribusi
sekitar 5% terhadap model dalam kaitannya dengan peramalan Y.
d. Kesignifikanan masing-masing peubah bebas dapat dilihat pada nilai t (T for
HO: Parameter = 0) dengannilai p (Prob>T) sebagai berikut:
X1 t = 1,430; p= 0,1560 p > 0,05
X2 t = - 0,673; p = 0,5024 p > 0,05
X3 t = 0,418; p = 0,6769 p > 0,05
X4 t = 2,160; p = 0,0105 p < 0,05
X5 t = 0,844; p = 0,4008 p > 0,05
Jadi, dari kelima peubah tersebut, satu-satunya peubah yang signifikan adalah
X4 yang mempunyai t= 2,610 dengan nilai p= 0,0105< 0,05 sehingga dapat

disimpulkan bahwa hanya variabel banyaknya siswa tiap kelas yang


mempunyai pengaruh terhadap kemampuan guru mata pelajaran dalam
mengelola

kelas,

maka

= 73,915 + 1,626 X4

model

regresi

yang

diperoleh

adalah:

dapat diinterpretasikan bahwa jika banyaknya

siswatiap kelas (X4) dinaikkan satu satuan skor maka kemampuan guru
mengelola kelas (Y) dapat ditingkatkan sebesar 1,626 satuan apabila peubahpeubah lainnya dipertahankan tidak berubah. Sementara itu, tidak
signifikannya beberapa peubah bebas dapat diakibatkan oleh adanya
interkorelasi diantara peubah-peubah tersebut.
e. Model tersebut dapat ditingkatkan daya ramalnya dengan melakukan
penambahan peubah bebas atau dengan mempertimbangkan model lain seperti
kuadratik, eksponen dan sebagainya.
2. Jelaskan pengertian istilah berikut:
a. Pencilan (out lier);
b. Pencilan peubah banyak (multivariate out lier);
c. Kelebihan parameter (over parameterized);
d. Kekurangan parameter (under parameterized);
e. Nilai luar (outside value);
f. Nilai tempelan (detached value);
g. Sisaan baku;
h. Sisaan student;
i. Toleransi;
j. Dekat kekolinearan (near collinearity);
k. Proporsi variansi (variance proportion);
l. Korelasi parsial ganda (multiple-partial correlation);
m. Koreksi Bonferroni (-splitting)

Jawaban:
a. Pencilan adalah pengamatan yang aneh atau tidak umum terjadi pada salah
satu dari nilai ekstrem rentang data. Jika sebuah pengamatan sudah
diidentifikasi sebagai pencilan harus diperiksa kewajarannya (plausibility).
Kemudian kita perlu mempertimbangkan pentinya sebuah pengamatan dalam
menentukan pilihan peubah-peubah dalam model, taksiran koefisien, dan
statistik yang terkait sebelum memutuskan tindakan yang akan diambil.
b. Pencilan peubah banyak (multivariate out lier) adalah beberapa pencilan atau
dikatakan pula beberapa data yang memiliki karakteristik berbeda dari data
lainnya atau tidak konsisten dengan kelompoknya.
c. Kelebihan parameter (over parameterized) adalah kondisi dimana ada
parameter yang sebenarnya tidak dibutuhkan dalam pemilihan model terbaik
karena parameter lain sudah cukup mewakili pemilihan model kekolineran.
Parameter menunjukkan bilangan nyata yang menyatakan sebuah karakteristik
dari sebuah populasi (mean populasi, varians populasi dan simpangan baku).
d. Kekurangan parameter (under parameterized) adalah kondisi dimana tidak
terpenuhinya unsur-unsur pemilihan model terbaik dikarenakan ada parameter
yang kurang.
e. Nilai luar (outside value) adalah nilai/ data yang nilainya berada pada antara
batas kotak atas dan nilai maksimal atau antara batas kotak bawah sampai
nilai minimal, berdasarkan rentang antar kuartil dalam diagram kotak.
f. Nilai tempelan (detached value) adalah nilai/ data yang nilainya berada di luar
dari batas nilai maksimal dan nilai minimal dalam diagram kotak.
g. Sisaan baku adalah besaran perbandingan antara rerata sisaan dengan taksiran
variansi populasi, dimana sisaan baku memiliki variansi 1. Dalam analisis
sisaan, sisaan baku lebih sering diperiksa daripada nilai sisaan itu sendiri.

h. Sisaan student adalah besaran sisaan yang mendekati sebaran student t dengan
dk=nn-k-1 jika data mengikuti asumsi HEIL Gauss dalam annalisis sisaan.
i. Toleransi adalah batas ukur atau penyimpangan yang masih dapat diterima.
j. Dekat kekolinearan (near collinearity) adalah suatu kondisi kekolinerran yang
muncul ketika nilai R2 ganda dari sebuah peubah bebas dan peubah bebas
lainnya mendekati 1.
k. Proporsi variansi (variance proportion) adalah suatu kondisi dari peubah
bebas yang menunjukkan indeks kondisi. Jika proporsi variansi tinggi dari
peubah bebas, maka hal itu mengindikasikan sebuah komponen utama dengan
indeks kondisi yang tinggi. Ini digunakan untuk menilai ada atau tidaknya
masalah serius dari sebuah data.
l. Korelasi parsial ganda (multiple-partial correlation) digunakan untuk
mengetahui hubungan antara dua variabel dimana variabel lainnya yang
dianggap berpengaruh dikendalikan atau dibuat tetap (sebagai variabel
kontrol).
m. Koreksi Bonferroni (-splitting) adalah suatu proses koreksi yang digunakan
ketika beberapa uji statistik untuk kebebasan dilakukan secara bersamaan
yang biasanya digunakan dalam pembandingan berganda
3. Jelaskan pengertian dan kegunaan dari :
a. Diagram pencar (scatter diagram);
b. Diagram batang dan daun (steam leaf);
c. Faktor pengangkat variansi (variance inflation factor);
d. Pengungkit (leverage);
e. Beban (loading);
f. Indeks kondisi (condition index);
g. Bilangan kondisi (condition number);
h. Jarak Mahalanobis

Jawaban:
a. Diagram pencar (scatter diagram);
Diagram pencar merupakan gambaran yang menunjukkan kemungkinan
hubungan (korelasi) antara pasangan dua macam variabel dan menunjukkan
keeratan hubungan antara dua variabel tersebut yang sering diwujudkan
sebagai koefisien korelasi. Manfaat Scatter diagram yakni menunjukan
hubungan antara dua variabel. Scatter diagram sering digunakan sebagai
analisis tindak lanjut untuk menentukan apakah penyebab yang ada benarbenar memberikan dampak kepada karakteristik kualitas.
b. Diagram batang dan daun (steam leaf);
Diagram batang daun (steam and leaf diagram) menyajikan penyebaran dari
suatu data sehingga secara keseluruhan data individu-individu dapat terlihat
apakah ada kecenderungan data tersebut menyebar atau memusat pada suatu
nilai tertentu, atau nilai manakah yang paling sering muncul dan yang jarang
muncul. Diagram batang daun merupakan variasi dari histogram yang
mengarahkan banyaknya nilai data ditempatkan pada interval kelas dan
frekuensi setiap kelas yang menentukan tingginya batang
c. Faktor pengangkat variansi (variance inflation factor);
Merupakan suatu kondisi faktor yang semakin besar apabila r 2(X1,X2)
mendekati 1,0. Hal ini diakibatkan ketidakstabilan taksiran koefisien korelasi
direfleksikan ke dalam besarnya taksiran variansi koefisien regresi sehingga
faktor ini mampu membesarkan taksiran variansi koefisien regresi.
d. Pengungkit (leverage);
Yaitu ukuran jarak geometris titik-titik pada ruang peubah bebas dari titik
pusat, yang menjadi ukuran pentingnya pengamatan dalam menentukan
kesesuaian model. Pengungkit merupakan sebuah ukuran seberapa jauh

variabel independen menyimpang dari nilai rata-ratanya. Kegunaannya untuk


mengestimasi koefisien regresi.
e. Beban (loading);
Beban adalah angka yang menunjukkan besarnya korelasi suatu variabel awal
dengan faktor yang ditemukan.
f. Indeks kondisi (condition index);
Indeks kondisi adalah sebuah ukuran yang menggunakan faktor analisis pada
variabel bebas yang berfungsi untuk mendeteksi multikolinearitas, merupakan
akar perbandingan nilai eigen terbesar dengan nilai eigen masing- masing
peubah. Nilai eigen itu sendiri merupakan variansi dari komponen-komponen
peubah baru.
g. Bilangan kondisi (condition number);
Bilangan kondisi (condition number) adalah sebuah ukuran seberapa besar
nilai output dari fungsi tersebut dapat diubah untuk melakukan perubahan
kecil padanilai input. Kegunaannya sebagai alat diagnostik multikolinearitas.
Merupakan akar perbandingan nilai eigen terkecil dan terbesar dari sebuah
peubah.
h. Jarak Mahalanobis
Merupakan suatu metode statistika yang digunakan untuk mendapatkan suatu
data dengan jarak tertentu terhadap mean data tersebut sehingga diperoleh
suatu penyebaran data yang memiliki pola terhadap nilai mean. dilihat dari
rumusnya metode ini memiliki nilai penguat yang fleksibel sehingga mudah
disesuaikan dengan perubahan kondisi, hal ini yang menyebabkan metode ini
lebih akurat dibanding metode lain yang juga digunakan untuk mencari nilai
penyebaran data.

4. Tabel berikut memberikan tekanan darah sistolik (Y). ukuran badan (X 1)


=

100xberat
. Dan umur (X2 dalam tahun) untuk sebuah sampel hipotesis
tinggi 2

dari 32 lelaki berumur lebih dari 40 tahun.

Subjek
1

Y
135

X1
2,876

X2
45

122

3,251

41

130

3,100

49

148

3,768

52

146

2,979

54

129

2,790

47

162

3,668

60

160

3,612

48

144

2,368

44

10

180

4,637

64

11

166

3,877

59

12

138

4,032

51

13

152

4,116

64

14

138

3,673

56

15

140

3,562

54

16

134

2,996

50

17

145

3,360

49

18

142

3,024

46

19

135

3,171

57

20

142

3,401

56

21

150

3,628

55

22

144

3,751

58

23

137

3,296

53

24

132

3,210

50

25

149

3,301

54

26

132

3,317

48

27

120

2,789

43

28

126

2,956

43

29

161

3,800

63

30

170

4,132

63

31

152

3,962

62

32

164

4,010

65

Tentukan model regresi terbaik Y atas X1 dan X2 pada taraf kesignifikanan = 5%


dengan menggunakan:
a. Pendekatan seleksi maju;
b. Pendekatan seleksi mundur;
c. Pendekatan semua regresi yang mungkin
Jawaban:
a. Pendekatan Seleksi Maju

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R2 sebesar


0.601. Hal ini menunjukkan bahwa model memiliki daya ramal sebesar 60,1%
atau sekitar 60% variasi Y bisa dijelaskan oleh model. Nilai adjusted R2 atau
R2 terkoreksi = 0,588 yang artinya variabel umur dapat menjelaskan 58%
variasi Y yang berbeda sekitar 5% dari daya ramal model. Diketahui nilai
F=45,177 dan p=0,000 yang berarti bahwa bisa diramalkan nilai Y untuk satu
nilai X yang diberikan.
b. Pendekatan Seleksi Mundur

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R2 sebesar


0.641. Hal ini menunjukkan bahwa model memiliki daya ramal sebesar 64,1%
atau sekitar 64% variasi Y bisa dijelaskan oleh model. Nilai adjusted R2 atau
R2 terkoreksi = 0,616 yang artinya variabel umur dapat menjelaskan 61%
variasi Y yang berbeda sekitar 5% dari daya ramal model. Diketahui nilai F =
25,917 dan p = 0,000 yang berarti bahwa bisa diramalkan nilai Y untuk satu
nilai X yang diberikan.
c. Pendekatan semua regresi yang mungkin
1. Variabel berat badan

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R 2 sebesar


0.551. Hal ini menunjukkan bahwa model memiliki daya ramal sebesar
55,1% atau sekitar 55% variasi Y bisa dijelaskan oleh model. Nilai
adjusted R2 atau R2 terkoreksi = 0,536 yang artinya variabel umur dapat
menjelaskan 53% variasi Y yang berbeda sekitar 5% dari daya ramal
model. Diketahui nilai F = 36,751 dan p = 0,000 yang berarti bahwa bisa
diramalkan nilai Y untuk satu nilai X yang diberikan.

2. Variabel umur

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R 2 sebesar


0.601. Hal ini menunjukkan bahwa model memiliki daya ramal sebesar
60,1% atau sekitar 60% variasi Y bisa dijelaskan oleh model. Nilai
adjusted R2 atau R2 terkoreksi = 0,588 yang artinya variabel umur dapat

menjelaskan 58% variasi Y yang berbeda sekitar 5% dari daya ramal


model. Diketahui nilai F = 45,177 dan p = 0,000 yang berarti bahwa bisa
diramalkan nilai Y untuk satu nilai X yang diberikan.
Dari beberapa model tersebut, model terbaik adalah model yang
menggunakan pendekatan seleksi mundur karena memiliki nilai R2 =
0,641 artinya model memiliki daya ramal sebesar 64,1% atau sekitar 64%
variasi Y bisa dijelaskan oleh model, dengan nilai adjusted R2 atau R2
terkoreksi = 0,616.
y=55,323+1,045 ( umur )+ 9,751(berat badan)
y=55,323+1,045 X 1 +9,751 X 2

5. Berdasarkan hasil soal nomor 4 pilih sebuah model untuk analisis lebih lanjut
untuk menentukan apakah suku interaksi X1*X2 harus ditambahkan dalam
model?
Jawaban:

Berdasarkan perhitungan SPSS, menunjukkan hasil bahwa setelah


memasukkan variabel X1*X2 terdapat peningkatan daya ramal pada model yakni
dari sebelumnya 61% menjadi sekitar 67% (R 2= 0.678) . Model juga dapat
digunakan sebagai alat inferensi secara statistis.
6. Data berikut memuat informasi tentang umur (AGE), indeks masalah kerja
(WP= work problem index), indeks konflik perkawinan (MC=

Marital

conflict index), dan indeks depresi (DEP= depression index) untuk sampel
dari 39 pegawai baru klinik psikologi pada sebuah rumah sakit universitas
yang besar.
Subjek
1

AGE
45

WP
90

MC

DEP
70

69

35

90

75

75

32

70

32

35

32

80

30

73

39

85

55

86

25

85

161

22

75

20

202

30

70

63

91

49

75

113

10

47

84

12

68

11

48

64

11

109

12

49

85

92

13

45

80

80

14

41

80

15

82

15

45

82

156

16

59

72

198

17

42

70

17

170

18

35

70

29

188

19

31

70

80

82

20

45

70

126

37

21

28

85

30

194

22

37

90

294

23

29

80

14

94

24

29

70

24

126

25

31

80

21

192

26

29

60

11

232

27

29

70

10

184

28

23

80

10

238

29

44

78

19

112

30

28

70

22

141

31

32

70

21

108

32

36

74

77

87

33

22

78

67

33

34

46

70

25

73

35

21

70

14

168

36

34

80

17

218

37

27

80

18

175

38

31

80

42

126

39

19

75

36

135

Tentukan (gunakan taraf kesignifikanan = 10%) model regresi terbaik dapat


menghubungkan DEP dengan MC dan WP dengan mengontrol AGE! Gunakan
urutan prosedur berikut.
a. Masukkan AGE ke dalam model pertama
b. Gunakan pendekatan semua regresi yang mungkin
c. Apakah interaksi MC*WP harus ditambahkan ke dalam model?

Jawaban:
a. AGE dimasukkan ke dalam model pertama

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R2 sebesar


0.361. Hal ini menunjukkan bahwa model memiliki daya ramal sebesar 36,1%
atau sekitar 36% variasi Y bisa dijelaskan oleh model. Nilai adjusted R2 atau
R2 terkoreksi = 0,306 yang artinya variabel umur, Indeks masalah kerja, dan
indeks konflik perkawinan dapat menjelaskan 30% variasi Y yang berbeda
sekitar 10% dari daya ramal model. Diketahui nilai F = 6,591 dan p = 0,001
yang berarti bahwa bisa diramalkan nilai Y untuk satu nilai X yang diberikan.

b. Regresi yang mungkin


Variabel Indeks masalah kerja WP

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R2 sebesar


0.000. Hal ini menunjukkan bahwa model tidak memiliki daya ramal terhadap
variasi Y yang bisa dijelaskan oleh model. Nilai adjusted R2 atau R2 terkoreksi
= - 0,027. Diketahui nilai F = 0 dan p = 0,986 yang berarti bahwa nilai Y tidak
bisa diramalkan oleh indeks masalah kerja.
Variabel indeks konflik perkawinan

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R2 sebesar


0.282. Hal ini menunjukkan bahwa model memiliki daya ramal sebesar
28,2% atau sekitarr 28% terhadap variasi Y yang bisa dijelaskan oleh model.
Nilai adjusted R2 atau R2 terkoreksi = 0,263 yang artinya variabel indeks
konflik perkawinan dapat menjelaskan sekitar 26% variasi Y yang berbeda
sekitar 10% dari daya ramal model. Diketahui nilai F = 14,551 dan p = 0,001
yang berarti bahwa bisa diramalkan nilai Y untuk satu nilai X yang diberikan.

Variabel MC dan WP

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R2 sebesar


0.282. Hal ini menunjukkan bahwa model memiliki daya ramal sebesar
28,2% atau sekitarr 28% terhadap variasi Y yang bisa dijelaskan oleh model.
Nilai adjusted R2 atau R2 terkoreksi = 0,242 yang artinya variabel indeks
konflik perkawinan dan indeks masa kerja dapat menjelaskan sekitar 24%

variasi Y yang berbeda sekitar 10% dari daya ramal model. Diketahui nilai F
= 7,079 dan p = 0,000 yang berarti bahwa bisa diramalkan nilai Y untuk satu
nilai X yang diberikan.
c. Jika memasukkan MP*WP ke dalam model

Berdasarkkan hasil perhitungan SPSS, diperoleh nilai R2 sebesar 0.285. Nilai


adjusted R2 atau R2 terkoreksi = 0,223. Diketahui nilai F = 4,644 dan p =
0,008 yang berarti bahwa apabila interaksi WP*MC dimasukkan ke dalam
model maka tidak terjadi perubahan daya ramal pada model. Selain itu,
interaksi variabel tersebut tidak menunjukkan hasil yang signifikan terhadap
pengaruhnya dalam memprediksi indeks depresi.

Anda mungkin juga menyukai