Penulis:
Penerbit:
2019
KATALOG DALAM TERBITAN (KDT) analisis regresi terapan dengan r
Utari, Dina Tri
Analisis Regresi Terapan Dengan R/ Dina
Tri Utari. --Yogyakarta: Universitas Islam
Indonesia, 2019.
xi + 86 hlm. ; 16 x 23 cm
ISBN
e-ISBN Penulis:
Dina Tri Utari
©2019 Penulis
Hak cipta dilindungi Undang-Undang.
Penerbit:
Penulis
v
DAFTAR ISI
2. Statistika Deskriptif.................................................................. 22
vii
3. Regresi Linier............................................................................ 28
5. Regresi Nonlinier...................................................................... 58
viii
5.4 Lembar Kerja 64
5.5 Lembar Kerja Sementara 65
6. Regresi Dummy......................................................................... 66
7 Regresi Logistik......................................................................... 74
ix
DAFTAR TABEL
x
DAFTAR GAMBAR
xi
Gambar 5.2. Output regresi linier sederhana 61
Gambar 5.3. Plot hubungan data asset dan fee 61
Gambar 5.4. Output regresi nonlinier kuadratik 62
Gambar 5.5. Output regresi nonlinier kubik 63
Gambar 6.1. Penginputan data rata-rata gaji guru di R 69
Gambar 6.2. Output analisis regresi dummy 69
Gambar 6.3. Output analisis regresi dummy setelah variabel D3
dikeluarkan 70
Gambar 6.4. Output analisis regresi dummy setelah variabel D2
dikeluarkan 71
Gambar 7.1. Penginputan data nilai di R 78
Gambar 7.2. Model baseline 79
Gambar 7.3. Spliting data 79
Gambar 7.4. Model regresi logistik 80
Gambar 7.5. Hasil prediksi variabel respon berupa peluang 80
Gambar 7.6. Plot Receiver Operator Characteristic (ROC) 81
Gambar 7.7. Tingkat akurasi model 82
xii
1. Pendahuluan dan Manajemen Data di R
Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1). (KUi1) mahasiswa mampu mendokumentasikan data di dalam
software R.
2). (KUi2) mahasiswa mampu menggunakan kembali data yang telah
didokumentasikan di dalam software R.
2 a n a li s i s r e gr e s i t e r a pa n r
Gambar 1.3. Tampilan untuk mendownload R
1.1.2 RStudio
Software R yang terinstall pada komputer menggunakan sumber
daya komputer pribadi untuk memproses bahasa pemrograman R.
Sedangkan RStudio terintegrasi dengan R sebagai IDE (Integrated
Development Environment) untuk menyediakan fungsionalitas lebih
lanjut (RStudio, 2018). RStudio menggabungkan editor kode sumber,
membuat alat otomatisasi dan debugger, sehingga disarankan untuk
menginstall R dan RStudio dalam satu komputer.
Untuk menginstall RStudio ke dalam komputer, diperlukan master
program RStudio terlebih dahulu. Master program RStudio dapat
diperoleh di https://www.rstudio.com/
4 a n a li s i s r e gr e s i t e r a pa n r
Gambar 1.6. Tampilan pilihan RStudio Desktop
1.1.3 Objek
6 a n a li s i s r e gr e s i t e r a pa n r
Misalkan dipunyai satu set data yaitu
2694627916460436078
[1] 2 6 9 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8
8 a n a li s i s r e gr e s i t e r a pa n r
1.1.5 Mengimpor dan mengekspor data pada R
Urutan modus data dari yang paling khusus ke modus data paling
umum yaitu logical-numeric-complex-character.
Untuk mengetahui suatu modus dari suatu data dapat digunakan
perintah:
mode(data.1)
[1] “numeric”
1.1.8 Logical
10 a n a li s i s r e gr e s i t e r a pa n r
FALSE TRUE FALSE TRUE
[13] FALSE FALSE FALSE TRUE FALSE TRUE TRUE
1.1.9 Numeric
1.1.10 Complex
Modus data yang paling umum yaitu modus data character. Sesuai
dengan namanya modus data ini yaitu data-data yang bertipe karakter
atau kualitatif. Perintah is.character() dan as.character()
adalah perintah-perintah yang terkait dengan modus data ini.
1.1.12 Vektor
Tipe data dalam R yang paling sederhana adalah tipe data vektor.
Tipe data vektor berbentuk array satu dimensi, seperti halnya pengertian
vektor secara umum.
Sebagai contoh, objek data.1 di atas merupakan tipe data vektor
karena berupa array satu dimensi.
is.vector(data.1)
[1] TRUE
Cara membuat suatu objek dengan tipe data vektor seperti halnya
cara membuat objek data.1 di atas.
data.1=c(2,6,9,4,6,2,7,9,1,6,4,6,0,4,3,6,0,7,8)
Selain itu, dapat pula dilakukan ekstraksi sebagian data dari suatu
objek bertipe data vektor (sebenarnya untuk tipe data lain juga bisa).
Caranya yaitu: nama_objek[no_elemen]
Misal ingin diambil elemen ketiga dari objek data.1
data.1[3]
[1] 9
12 a n a li s i s r e gr e s i t e r a pa n r
Jika ingin diambil elemen ketiga dan ketujuh
data.1[c(3,7)]
[1] 9 7
1.1.13 Matriks
Tipe data matriks sebenarnya sama dengan tipe data vektor, yang
membedakan adalah, tipe data matriks terdiri dari array dua dimensi, di
mana tipe data vektor hanya terdiri dari array satu dimensi.
Untuk melakukan input data dengan tipe data matriks, perintah yang
digunakan yaitu matrix(). Contoh:
matriks1=matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),nro
w=3,ncol=4)
matriks2=matrix(1:12,nrow=3,ncol=4)
matriks3=matrix(1:12,nrow=3)
matriks4=matrix(1:12,3)
Seperti halnya pada tipe data vektor, semua elemen matriks harus
memiliki modus data yang sama, jika modus data berbeda maka akan
diubah menjadi modus data yang paling umum.
Pada tipe data matriks, terdapat beberapa operasi yang dapat digunakan,
yaitu:
Bentuk data frame mirip dengan matriks. Jika tipe data matriks
hanya bisa menampung data dengan satu modus data saja, maka tipe
data frame dapat menampung data yang terdiri dari berbagai modus
data. Satu kolom satu modus, tapi antar kolom dapat berlainan modus.
Data frame merupakan tipe data yang paling banyak digunakan untuk
membuat suatu dataset dalam R.
frame1=data.frame(c(1,2,3),c(T,F,T))
14 a n a li s i s r e gr e s i t e r a pa n r
rownames(nama_data.frame)
colnames(nama_data.frame)
1.1.15 List
16 a n a li s i s r e gr e s i t e r a pa n r
1.3 Prosedur Kerja
Langkah pertama adalah mengcopy data pada Tabel 1.3. pada file
excel, data tersebut akan dimasukkan ke dalam objek dataku seperti
yang disajikan pada Gambar 1.9.
Diperoleh nilai mean dari data.1 yaitu 4.736842 dan nilai variansi
dari data.1 yaitu 7.982456.Nilai mean dan variansi di atas juga dapat
disimpan sebagai suatu objek,
mean.data.1=mean(data.1)
mean.data.1
[1] 4.736842
var.data.1=var(data.1)
var.data.1
[1] 7.982456
18 a n a li s i s r e gr e s i t e r a pa n r
1.3.2 Perhitungan Matriks
20 a n a li s i s r e gr e s i t e r a pa n r
2. Statistika Deskriptif
Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc1) mahasiswa mampu membuat statistika deskriptif dan
mendeskripsikan hasil yang diperoleh.
Statistika Deskri p t if 21
6 15200 66354
7 15750 65260
8 16800 68798
9 18450 70470
10 17900 65200
22 a n a li s i s r e gr e s i t e r a pa n r
2). Statistika Deskriptif
Untuk menampilkan ringkasan dari data digunakan perintah
summary()
summary(data[-1]) ringkasan dari data tanpa kolom
pertama
Statistika Deskri p t if 23
Statistik deskriptif untuk biaya promosi:
• nbr.val menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai nilai, yaitu sebanyak 10.
• nbr.null menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai bernilai nol, yaitu tidak ada data yang
bernilai nol.
• nbr.na menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai tidak mempunyai nilai atau NA (not a
number), yaitu tidak ada data yang tidak mempunyai nilai.
• min menunjukkan banyaknya data minimum dalam variabel
biaya promosi, yaitu sebesar 12000.
• max menunjukkan banyaknya data maksimum dalam variabel
biaya promosi, yaitu sebesar 18450.
• range menunjukkan nilai maksimum dikurangi dengan nilai
minimum dalam variabel biaya promosi, yaitu sebesar 6450. Range
untuk variabel biaya promosi cukup besar, hal ini menunjukkan
bahwa variasi data dari biaya promosi cukup beragam.
• sum menunjukkan jumlah data dalam variabel biaya promosi,
yaitu sebesar 149800.
• 1st Qu. menunjukkan kuartil 1 dalam variabel biaya promosi, yaitu
sebesar 12938.
• median menunjukkan median atau nilai tengah dalam variabel
biaya promosi, yaitu sebesar 15025.
• 3rd Qu. menunjukkan kuartil 3 dalam variabel biaya promosi, yaitu
sebesar 16538.
• mean menunjukkan rata-rata biaya promosi, yaitu sebesar 14980.
• SE.mean menunjukkan standar eror mean dari biaya promosi,
yaitu sebesar 7168294.
• CI.mean.0.95 menunjukkan interval konfidensi 95% dari
variabel biaya promosi, yaitu sebesar 1621581.
• var menunjukkan variansi dari variabel biaya promosi, yaitu
sebesar 5138444.
• std.dev menunjukkan standar deviasi dari variabel biaya
promosi, yaitu sebesar 2266814. Semakin besar standar deviasi
maka menunjukkan data semakin bervariasi
• coef.var menunjukkan ukuran variansi dari variabel biaya
promosi (standar deviasi/mean), yaitu sebesar 0,01513227.
Koefisien variansi digunakan untuk membandingkan suatu
distribusi data yang mempunyai satuan yang berbeda. Besarnya
koefisien variansi akan berpengaruh terhadap kualitas sebaran
24 a n a li s i s r e gr e s i t e r a pa n r
data. Jika koefisien variansi semakin kecil maka datanya semakin
homogen, dan jika koefisien variansi semakin besar maka datanya
semakin heterogen.
Statistika Deskri p t if 25
2.5 Lembar Laporan Sementara
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis
statistika deskriptif.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis statistika deskriptif.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil
output dari analisis statistika deskriptif.
4. Penutup
Tuliskan kesimpulan dari hasil analisis statistika deskriptif
5. Daftar Pustaka
Tuliskan referensi yang digunakan.
26 a n a li s i s r e gr e s i t e r a pa n r
3. Regresi Linier
Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi linier sederhana dan berganda.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi linier sederhana dan berganda.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.
Reg re si Linie r 27
dimaksud:
1). Menguji hubungan atau korelasi antar variabel respon dan
prediktor.
2). Mengestimasi parameter dalam model regresi menggunakan
metode Ordinary Least Square (OLS) atau metode Kuadrat Terkecil.
3). Menguji signifikansi masing-masing parameter.
4). Jika ada parameter yang tidak signifikan atau ada asumsi yang
tidak terpenuhi, maka analisis dilakukan kembali mulai tahap 1.
5). Interpretasi dari model yang diperoleh.
28 a n a li s i s r e gr e s i t e r a pa n r
mengetahui pengaruh dari masing-masing variabel prediktor terhadap
variabel respon, dan melihat variabel mana yang mempunyai pengaruh
lebih besar.
1). Model Regresi Linier Berganda
Y = β0 + β1 X 1 + β2 X 2 + β3 X 3 + ... + βκ X κ + ε (Pers. 3.3)
Persamaan Regresi
yˆ = b 0 + b1 X 1 + b 2 X 2 + b 3 X 3 + ... + b κ X κ (Pers. 3.4)
Persamaan regresi pada persamaan 3.4 harus memenuhi asumsi-
asumsi di bawah ini:
1). Kondisi Gauss-Markov
• Ε [ει ] = 0 , nilai harapan/rataan residual = 0
• Ε ει = var [ει ]= σ 2 , variansi residual homogen untuk setiap nilai
2
Reg re si Linie r 29
Tabel 3.1. Data rata-rata penjualan
Pada bagian ini akan dijelaskan prosedur kerja analisis regresi linier
sederhana pada Tabel 2.1dan analisis regresi linier berganda pada Tabel
3.1. dengan software R.
30 a n a li s i s r e gr e s i t e r a pa n r
salah satu variabel digunakan perintah $, yaitu
data$Biaya.Promosi nilai-nilai dari variabel biaya
promosi
data$Volume.Penjualan nilai-nilai dari variabel volume
penjualan
2). Sebelum membuat plot data dari variabel biaya promosi dan
volume penjualan, terlebih dahulu membuat model dari variabel
biaya promosi dan volume penjualan menggunakan perintah
model1=volumepenjualan~biayapromosi, kemudian
membuat plot data dari model yang diperoleh menggunakan
perintah plot(model1,data=data)
Reg re si Linie r 31
Gambar 3.2. Hasil analisis regresi linier sederhana data volume penjualan
32 a n a li s i s r e gr e s i t e r a pa n r
Output pada Gambar 3.2 menunjukkan bahwa R2= 77,2%. Artinya
sebesar 77,2% variansi atau nilai-nilai dari variabel respon mampu
dijelaskan oleh variabel prediktor dalam model, sedangkan sisanya
dipengaruhi oleh variabel lain di luar model.
b. Uji F dari tabel Anova
Uji F digunakan untuk menguji kelayakan model dan menguji
parameter regresi secara keseluruhan. Berikut merupakan
Hipotesis uji F untuk model yang sudah terkoreksi oleh b 0 :
versus Η 0 : β0 = 0 Η1 : β0 ≠ 0
P-value yang diperoleh dibandingkan dengan taraf signifikansi. Jika
p-value kurang dari α , maka tolak Η0 dan sebaliknya. Berdasarkan
output pada Gambar 3.3, = =
Pvalue 0 , 0008148 < α 0 , 05 , maka tolak
Η 0 . Artinya model layak pada taraf nyata 5%.
Reg re si Linie r 33
Gambar 3.4. Hasil prediksi dari model regresi
Jika digambarkan plot dari data dan garis regresi diperoleh dengan
perintah sebagai berikut:
34 a n a li s i s r e gr e s i t e r a pa n r
Untuk membentuk garis regresi, maka langkah pertama adalah
diberikan data variabel independent (biaya promosi) tertentu dan
dilakukan prediksi volume penjualan dari data tersebut
Reg re si Linie r 35
menggunakan perintah
regres2=lm(ratarata.penjualan~banyak.
pekerja+luas.toko,data=data1), untuk melihat
ringkasan dari output regesi menggunakan perintah
summary(regres2)
Gambar 3.7. Hasil analisis regresi berganda data rata-rata penjualan
3). Interpretasi hasil
a. Koefisien determinasi (R2)
Ukuran dari kebaikan model ditunjukan oleh R-square (R2). Maksud
dari R Square 0,948 adalah sebanyak 94,8% variansi variabel
respon Y dapat dijelaskan oleh variabel prediktor X dalam model,
sedangkan sisanya sebesar 5,2 % dijelaskan atau dipengaruhi oleh
variabel lain yang di luar model.
b. Uji F dari tabel Anova
Uji F digunakan untuk menguji kelayakan model dan menguji
parameter regresi secara keseluruhan. Hipotesis uji F untuk model
regresi berganda dengan 2 peubah X yang sudah terkoreksi oleh
b0 :
Η 0 : β1 =β2 =0
Η1 : ada minimal satu ι dimana β1 ≠ 0 ,ι =
1, 2
36 a n a li s i s r e gr e s i t e r a pa n r
sebaliknya. Karena p-value kurang dari α , maka tolak Η0 . Artinya
model layak pada taraf nyata 5%, atau secara keseluruhan, variabel
X1 dan X2 berpengaruh terhadap variabel respon (Y) pada taraf
signifikansi 5%.
Reg re si Linie r 37
Dari hasil prediksi yang diperoleh seperti pada Gambar 3.8.
selanjutnya dilakukan pembulatan.
38 a n a li s i s r e gr e s i t e r a pa n r
2955
Y : Indeks Gini
X1 : Indeks Pembangunan Manusia
X2 : PDRB
X3 : Persentase Tenaga Kerja Formal
X4 : Kepadatan Penduduk
X5 : Persentase Tenaga kerja Informal Sektor Pertanian
Provinsi Y X1 X2 X3 X4 X5
Aceh 0.34 69.45 22523.41 39.5 86 85.11
Sumatera Utara 0.33 69.51 31637.41 39.86 191 82.1
Sumatera Barat 0.32 69.98 27077.95 35.59 124 86.02
Riau 0.37 70.84 70769.78 51.36 73 65.61
Jambi 0.34 68.89 36753.23 41.35 68 74
Sumatera Selatan 0.33 67.46 31549.3 38.69 88 77.56
Bengkulu 0.37 68.59 20302.48 31.19 94 88.98
Lampung 0.35 66.95 24581.68 29.17 234 87.78
Kep. Bangka
Belitung 0.28 69.05 33479.77 45.87 84 78.7
Kep. Riau 0.34 73.75 78616.07 71.9 241 76.49
DKI Jakarta 0.42 78.99 142892.2 72.96 15328 47.91
Jawa Barat 0.43 69.5 25842.32 49.61 1320 86
Jawa Tengah 0.38 69.49 23887.37 38.28 1030 90.5
DI Yogyakarta 0.42 77.59 22688.35 48.79 1174 93.79
Jawa Timur 0.40 68.95 34272.29 36.81 813 89.7
Reg re si Linie r 39
Banten 0.39 70.27 30799.59 61.46 1237 89.37
Bali 0.40 73.27 31094.58 47.2 718 92.25
Nusa Tenggara
Barat 0.36 65.19 18476.51 26.8 260 96.77
Nusa Tenggara
Timur 0.35 62.67 11099.85 21.4 105 97.82
Kalimantan Barat 0.33 65.59 23451.95 34.44 33 85.34
Kalimantan Tengah 0.30 68.53 31619.18 45.56 16 68.8
Kalimantan Selatan 0.33 68.38 27787.88 41.48 103 82.9
Kalimantan Timur 0.32 74.17 128594.8 60.34 27 68.91
Kalimantan Utara 0.31 68.76 76823.85 56.82 9 73.49
Sulawesi Utara 0.37 70.39 29196.39 40.45 174 87.03
Sulawesi Tengah 0.37 66.76 28784.2 33.37 47 89.62
Sulawesi Selatan 0.40 69.15 29430.67 36.95 182 92.3
Sulawesi Tenggara 0.38 68.75 29201.9 30.48 66 94.39
Gorontalo 0.40 65.86 19473.94 37.14 101 87.57
Sulawesi Barat 0.36 62.96 20265.5 26.32 76 92.44
Maluku 0.34 67.05 14740.3 31.98 36 93.67
Maluku Utara 0.29 65.91 17534.41 31.4 36 91.94
Papua Barat 0.43 61.73 60064.13 39.45 9 92.84
Papua 0.39 57.25 41424.06 18.51 10 98.03
Sumber: (BPS, 2018)
40 a n a li s i s r e gr e s i t e r a pa n r
3.5 Lembar Laporan Sementara
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi
linier sederhana dan berganda.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis regresi linier sederhana dan
berganda.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari analisis regresi linier sederhana dan berganda.
4. Penutup
Tuliskan kesimpulan dari hasil analisis regresi linier sederhana
dan berganda.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.
Reg re si Linie r 41
4. Pengujian Asumsi dan Pelanggarannya
Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi linier berganda dan uji asumsi.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi linier berganda dan uji asumsi.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.
44 a n a li s i s r e gr e s i t e r a pa n r
Tabel 4.1. Transformasi Box-Cox
Transformasi
λ
2 X2
0,5 X
0 In X
-0,5 1/ X
-1 1/X
DW =
∑t =1 εˆt 2
T
dengan T adalah banyaknya pengamatan.
Nilai DW tersebut berkisar antara 0 sampai 4. Jika nilai DW lebih
rendah daripada batas bawah (Lower Bound/) maka ada autokorelasi
positif, sedangkan jika nilai DW leboh besar dari ( 4 − d ι ) , maka ada
autokorelasi negatif (Ghozali, 2007). Dalam pengambilan keputusan,
nilai DW dibandingkan dengan nilai pada tabel Durbin-Watson dengan
kriteria pengambilan keputusannya seperti pada Tabel 4.2 berikut.
Nilai DW Keputusan
0 < DW < d ι atau 4 − d ι < DW < 4 Tolak
46 a n a li s i s r e gr e s i t e r a pa n r
Pantula, & Dickey, 1998). Metode lain yang dapat digunakan untuk
mengatasi masalah ini adalah Prosedur Cochran-Orcutt atau Prosedur
Hildreth-Lu. Kedua metode ini mengasumsikan terdapat autokorelasi
ordo 1 pada sisaan data deret waktu. Lebih jauh mengenai prosedur ini
dapat dibaca pada (Pindyck & Rubinfeld, 2013).
( εˆ 2
)
semu (auxiliary) antara residual terstandardisasi pι = ι /σˆ , dimana
2
∑
σˆ 2 = εˆι2 terdapat variabel-variabel prediktor. Berdasarkan asumsi
normalitas dari residual diketahui bahwa statistik BP akan berdistribusi
X2 dengan derajat bebas k yaitu banyaknya variabel prediktor dalam
4.1.4 Multikolinearitas
Pengujian Multikolinearitas juga sering disebut uji independensi.
Pengujian ini akan melihat apakah antara sesama variabel prediktor
memiliki hubungan yang besar atau tidak. Jika hubungan antara sesama
variabel prediktor kuat, maka antara variabel prediktor tersebut tidak
saling bebas.
Untuk mendeteksi adanya masalah multikolinearitas dapat
dilakukan dengan eksplorasi hubungan antar variabel prediktor,
baik melalui scatter plot maupun menghitung korelasi antar variabel
prediktor. Cara lain dapat dilakukan dengan menghitung nilai VIF atau
Variance Inflation Factor.
Menurut (Santoso, 2012) rumus yang digunakan adalah sebagai
berikut:
1 atau Tolerance = 1 (Pers. 4.2)
VIF =
Tolerance VIF
Untuk mendeteksi ada atau tidaknya gejala multikolinearitas di
dalam model regresi adalah sebagai berikut:
1. Nilai R2 yang dihasilkan oleh suatu estimasi model regresi empiris
sangat tinggi, tetapi secara individual variabel-variabel prediktor
banyak yang tidak signifikan mempengaruhi variabel terikat.
2. Menganalisis matrik korelasi antar variabel prediktor. Jika ada
korelasi yang cukup tinggi, maka di dalam model regresi tersebut
terdapat multikolinearitas.
3. Multikolinearitas dapat dilihat dari nilai tolerance dan VIF. Jika
nilai tolerance yang rendah sama dengan nilai VIF tinggi, maka
48 a n a li s i s r e gr e s i t e r a pa n r
menunjukkan adanya kolonieritas yang tinggi (karena VIF=1/
Tolerance). Nilai cutoff yang umum dipakai untuk menunjukan
adanya multikolinearitas adalah nilai tolerance<0,10 atau sama
dengan nilai VIF>10
50 a n a li s i s r e gr e s i t e r a pa n r
Gambar 4.2. Uji normalitas residual dengan uji Kolmogorov-Smirnov
Gambar 4.3. Perintah untuk membuat histogram dan plot distribusi normal
Dari output R pada Gambar 4.2. terlihat bahwa p-value > α (0,05),
maka tidak cukup bukti untuk menolak HO, berarti residual menyebar
52 a n a li s i s r e gr e s i t e r a pa n r
Dari output R pada Gambar 4.6. diperoleh nilai Breusch Pagan (BP)
yaitu sebesar 2,9137 dengan nilai p-value sebesari 0,233 lebih besar dari
α (0,05), maka tidak cukup bukti untuk menolak HO, berarti asumsi
kehomogenan variansi residual terpenuhi.
Soal:
Terdapat data populasi, kemiskinan, pendidikan, dan
pengangguran dari negara Jerman tahun 2016. Analisislah apakah ada
pengaruh tingkat kemiskinan dan populasi terhadap tingkat pendidikan
di negara jerman pada tahun 2016.
54 a n a li s i s r e gr e s i t e r a pa n r
4.5 Lembar Kerja Sementara
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan uji asumsi model
regresi linier berganda.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan uji asumsi model regresi linier
berganda.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari uji asumsi model regresi linier berganda, dan penjelasan dari
pertanyaan yang diberikan.
4. Penutup
Tuliskan kesimpulan dari pertanyaan yang diberikan.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.
Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi nonlinier.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi nonlinier.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.
α
y +ε
(Pers.
( (
1 + exp − β x + β x + ... + β x
1 1 2
5.3)
2 k k ))
y = α + β1 x1 + β2 x 2 + ... + βK x K + ε
(Pers.
Y1 Y2 YK
5.4)
reg re si no nlinie r 57
Meskipun persamaan ini dapat merepresentasikan berbagai
keragaman yang luas, namun ada banyak situasi yang tidak dapat
dianalisis oleh model tersebut.Misalnya, dalam kasus tersedianya
informasi yang pasti tentang hubungan antara peubah respon dan
peubah peramal. Informasi yang seperti itu mungkin mengandung
pengetahuan yang langsung tentang bentuk model yang sesungguhnya
atau mungkin dapat dipresentasikan melalui suatu persamaan
diferensial yang harus dipenuhi oleh model tersebut. Bila informasi
membawa kita pada model nonlinier, biasanya bila mungkin kita lebih
suka menggunakannya daripada mengambil model linier alternatif
(hasil diferensial) yang mungkin kurang realistis (Draper & Smith, 1998).
58 a n a li s i s r e gr e s i t e r a pa n r
Data pada Tabel 5.1. berkaitan dengan biaya manajemen yang
merupakan perusahaan reksadana terkemuka di Amerika Serikat yang
membayar kepada penasihat investasinya (advisory fee) untuk mengelola
asetnya. Biaya yang dibayarkan tergantung pada nilai aset bersih dari
dana tersebut. Terlihat bahwa semakin tinggi nilai asset bersih dari dana
maka semakin rendah biaya penasihat investasi (Damodar, 2009).
reg re si no nlinie r 59
Gambar 5.2. Output regresi linier sederhana
60 a n a li s i s r e gr e s i t e r a pa n r
Meskipun nilai R2 pada regresi linier sederhana cukup tinggi, tetapi
kurang tepat jika tetap digunakan model tersebut. Selanjutnya akan
dicoba model nonlinier, misalnya model kuadratik dan kubik.
Dari output R pada Gambar 5.4. terlihat bahwa p-value untuk model
kuadratik kurang dari taraf signifikansi 0,05, artinya model kuadratik
tersebut layak pada taraf signifikansi 0,05 dengan nilai sebesar 99,56%.
Diperoleh model regresi kuadratik untuk data advisory fee adalah model
regresi.
reg re si no nlinie r 61
5.3.3 Prosedur Kerja Model Regresi Nonlinier Kubik
Menggunakan perintah
regreskubik=lm(fee~asset+I(asset^2)+
I(asset^3), data=data2)
Dari output pada Gambar 5.4. dan Gambar 5.5. terlihat bahwa
p-value untuk model kuadratik dan kubik kurang dari taraf signifikansi
0,05, artinya kedua model tersebut layak pada taraf signifikansi 5%
dengan nilai R2 yang hampir sama yaitu sebesar 99,56%. Akan tetapi
pada model kubik terdapat satu variabel predictor yang tidak signifikan,
sehingga pada kasus ini dipilih model kuadratik. Jadi, persamaan regresi
untuk kasus ini adalah Y =
0 , 527 − 0 , 005088 X + 0 , 00004339 X 2 .
62 a n a li s i s r e gr e s i t e r a pa n r
5.4 Lembar Kerja
Soal:
Berikut merupakan data inflasi dan pertumbuhan ekonomi tahunan di
Indonesia tahun 2010-2017 pada Tabel 5.2.
reg re si no nlinie r 63
5.5 Lembar Kerja Sementara
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi
nonlinier.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis regresi nonlinier.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari analisis regresi nonlinier dan penjelasan dari pertanyaan
yang diberikan.
4. Penutup
Tuliskan kesimpulan dari pertanyaan yang diberikan.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.
64 a n a li s i s r e gr e s i t e r a pa n r
6. Regresi Dummy
Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi dummy.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi dummy.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.
Reg re si Dummy 65
dan seterusnya. Variabel dengan kode nilai 0 dan 1 tersebut disebut
variabel dummy. Variabel dummy pada dasarnya merupakan alat untuk
mengklasifikasikan data ke dalam kategori yang telah ditentukan seperti
pria atau wanita.
66 a n a li s i s r e gr e s i t e r a pa n r
22644 3914 1 0 26015 3705 0 0
24624 4517 0 1 25788 4123 0 0
27186 4349 0 1 29132 3608 0 0
33990 5020 0 1 41480 8349 0 0
23382 3594 0 1 25845 3766 0 0
20627 2821 0 1
Sumber: National Educational Association, as reported by Albuquerque Tribune, Nov. 7, 1986.
Reg re si Dummy 67
Gambar 6.1. Penginputan data rata-rata gaji guru di R
2). Menggunakan perintah
regresdumi=lm(salary~spending+D2+D3,
data=data3)
68 a n a li s i s r e gr e s i t e r a pa n r
Terlihat pada Gambar 6.3. untuk nilai F-statistic bahwa secara
overall semua variabel prediktor mampu memprediksi rata-rata gaji guru
(salary) secara signifikan ( p − value= 0 , 00 < α= 0 , 05 ) . Rata-rata gaji guru
dipengaruhi atau dapat dijelaskan oleh variabel spending, D2, dan D3
sebesari 72,27%, dan sisanya dijelaskan oleh variabel lain di luas model.
Berikut ini adalah persamaan regresi dummy dari data rata-rata gaji
guru: Y =13269 ,1141 + 3 , 2888spending −1673 , 5144D 2 −1144 ,1557D 3
Nilai signifikansi untuk masing-masing variabel prediktor
menunjukkan bahwa D3 tidak berpengaruh secara signifikan terhadap
rata-rata gaji guru ( p − value
= 0 ,1904 <= α 0 , 05 ) , maka akan dicoba
mengeluarkan variabel D3 dari model.
Reg re si Dummy 69
Gambar 6.4. Output analisis regresi dummy setelah variabel D2 dikeluarkan
70 a n a li s i s r e gr e s i t e r a pa n r
6.5 Lembar Kerja Sementara
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi
dummy.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis regresi dummy.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari analisis regresi dummy.
4. Penutup
Tuliskan kesimpulan dari analisis regresi dummy yang dilakukan.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.
Reg re si Dummy 71
7. Regresi Logistik
Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi logistik.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi logistik.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.
7.1 Landasan Teori
Regresi logistik merupakan perkembangan dari regresi linier.
Dalam regresi logistik variabel respon berupa kategori dan tidak
kontinu. Regresi logistik bisa berupa binomial dan multinomial. Pada
regresi logistik binomial atau binari, output dari variabel respon hanya
mempunyai dua output misalkan “Ya” atau “Tidak”, “Sukses” atau “Gagal”.
Secara umum, output ini dikodekan menjadi “0” dan “1”. Sedangkan
regresi logistik multinomial digunakan pada kasus output tiga atau
lebih seperti “bagus”, “sangat bagus”, dan “paling bagus”.
Tujuan dari regresi logistik adalah memprediksi peluang atau
probability dari variabel respon. Selain itu, untuk memprediksi efek
dari serangkaian variabel predictor pada variabel respon biner dan
mengklasifikasikan observasi dengan memperkirakan probabilitas
bahwa observasi tersebut ada dalam kategori tertentu atau tidak.
Model baseline dalam kasus regresi logistik adalah memprediksi
hasil yang paling sering muncul sebagai hasil untuk semua titik data,
Reg re si Lo g istik 73
misalkan sering muncul “Sukses”.
Output dari model regresi logistik adalah probabilitas, sehingga
perlu dipilih nilai ambang (threshold). Jika probabilitasnya lebih besar
dari nilai ambang ini, output tersebut diprediksi akan terjadi dan
sebaliknya.
Dalam pengklasifikasian digunakan confusion matrix dengan
membandingkan hasil aktual dengan hasil yang diprediksi. Baris diberi
label dengan hasil aktual sementara kolom diberi label dengan hasil
yang diprediksi.
Setelah proses pengklasifikasian kemudian dihitung seberapa
akurat model yang diperoleh yaitu Nilai True Positive (TP)+Nilai True
Negative (TN)/Total.
= (Yι1IX ) .
π ι P= β + β X + β X + ... + β X .
(Pers. 7.1)
1+e o 1 1 2 2 n n
74 a n a li s i s r e gr e s i t e r a pa n r
to-Machine-Learning-in-R/blob/master/Part%205%20Logistic%20
regression%20dataset/quality.csv. Data tersebut berisi data pelayanan
dalam sebuah rumah sakit, pelayanan bagus (good care) dikodekan
dengan 0 dan pelayanan buruk (poor care) dikodekan dengan satu.
Sementara itu variabel yang mempengaruhi adalah variabel Office Visits
dan Narcotics. Akan dilakukan analisis untuk meningkatkan kualitas
pelayanan rumah sakit tersebut (Pandey, 2018).
Reg re si Lo g istik 75
24 6 2 1 90 0 0 0
25 14 1 0 91 9 11 0
26 7 0 0 92 9 1 0
27 12 0 0 93 15 0 0
28 3 2 1 94 15 0 0
29 18 32 1 95 8 0 0
30 21 6 1 96 5 3 0
31 2 0 0 97 18 4 0
32 45 0 0 98 11 1 0
33 6 0 0 99 15 2 1
34 2 5 0 100 7 0 0
35 46 2 1 101 26 0 1
36 37 2 0 102 11 1 0
37 9 0 0 103 14 1 1
38 7 1 0 104 16 10 1
39 15 1 0 105 15 25 1
40 8 0 0 106 28 59 1
41 15 0 1 107 25 20 1
42 9 0 0 108 5 11 0
43 0 0 0 109 12 0 0
44 19 1 0 110 7 21 1
45 13 0 0 111 24 1 0
46 21 25 1 112 29 40 1
47 31 3 1 113 22 0 0
48 5 2 1 114 14 25 1
49 2 0 0 115 12 8 0
50 6 3 0 116 10 1 0
51 15 0 0 117 21 25 1
52 28 0 0 118 16 3 0
53 18 0 0 119 22 9 0
54 7 0 0 120 9 0 0
55 7 0 0 121 9 1 0
56 46 0 1 122 8 0 0
76 a n a li s i s r e gr e s i t e r a pa n r
57 10 0 0 123 7 1 0
58 25 34 0 124 17 0 0
59 19 19 0 125 23 0 1
60 17 2 1 126 6 0 0
61 7 0 0 127 5 3 0
62 13 30 1 128 3 2 0
63 20 1 0 129 5 9 0
64 13 0 1 130 14 1 1
65 19 1 0 131 22 3 0
66 25 0 0
Reg re si Lo g istik 77
Nilai untuk model baseline kurang lebih sebesar 75%, artinya
pelayanan rumah sakit sudah cukup baik.
3). Membagi data menjadi data training dan data testing
78 a n a li s i s r e gr e s i t e r a pa n r
Nilai signifikansi pada Gambar 7.4. menunjukkan seluruh variabel
predictor signifikan pada taraf signifikansi 5%.
ROCRpred = prediction(predictTrain,
qualityTrain$PoorCare)
plot(ROCRperf)
plot(ROCRperf, colorize=TRUE)
Reg re si Lo g istik 79
Gambar 7.6. Plot Receiver Operator Characteristic (ROC)
80 a n a li s i s r e gr e s i t e r a pa n r
karena itu diperoleh tingkat akurasi sebesar 78%. Hasil ini lebih besar
dari model baseline yaitu sebesar 75%, artinya model regresi logistik
pada kasus ini dapat meningkatkan kualitas pelayanan rumah sakit
tersebut sebanyak 3%.
Tabel 7.2. merupakan daftar usia dalam tahun (AGE) dan ada atau
tidak adanya bukti penyakit jantung koroner yang signifikan (CHD)
untuk 100 individu yang dipilih untuk berpartisipasi dalam penelitian.
Tabel 7.2. juga berisi identifier variable (ID) dan variabel grup usia
(AGRP). Variabel hasil adalah CHD, yang dikodekan dengan nilai nol
menunjukkan tidak ada CHD dan 1 untuk menunjukkan bahwa itu CHD
ada dalam individu yang berpartisipasi (Hosmer, 2000).
Reg re si Lo g istik 81
15 30 2 0 65 49 5 1
16 30 2 1 66 50 6 0
17 32 2 0 67 50 6 1
18 32 2 0 68 51 6 0
19 33 2 0 69 52 6 0
20 33 2 0 70 52 6 1
21 34 2 0 71 53 6 1
22 34 2 0 72 53 6 1
23 34 2 1 73 54 6 1
24 34 2 0 74 55 7 0
25 34 2 0 75 55 7 1
26 35 3 0 76 55 7 1
27 35 3 0 77 56 7 1
28 36 3 0 78 56 7 1
29 36 3 1 79 56 7 1
30 36 3 0 80 57 7 0
31 37 3 0 81 57 7 0
32 37 3 1 82 57 7 1
33 37 3 0 83 57 7 1
34 38 3 0 84 57 7 1
35 38 3 0 85 57 7 1
36 39 3 0 86 58 7 0
37 39 3 1 87 58 7 1
38 40 4 0 88 58 7 1
39 40 4 1 89 59 7 1
40 41 4 0 90 59 7 1
41 41 4 0 91 60 8 0
42 42 4 0 92 60 8 1
43 42 4 0 93 61 8 1
44 42 4 0 94 62 8 1
45 42 4 1 95 62 8 1
82 a n a li s i s r e gr e s i t e r a pa n r
46 43 4 0 96 63 8 1
47 43 4 0 97 64 8 0
48 43 4 1 98 64 8 1
49 44 4 0 99 65 8 1
50 44 4 0 100 69 8 1
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi logistik.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan kegunaan
dalam melakukan analisis regresi logistik.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output dari
analisis regresi logistik.
4. Penutup
Tuliskan kesimpulan dari analisis regresi logistik yang dilakukan.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.
Reg re si Lo g istik 83
Referensi
BI. (2018, 9 1). Tingkat Inflasi. Diambil kembali dari bi.go.id
BPS. (2018, 8 15). Data Indeks Gini di Indonesia Tahun 2015. Diambil
kembali dari bps.go.id
Cran. (2018, 7 2). The Comprehensive R Archive Network. Diambil kembali
dari Cran R-Project: https://cran.r-project.org/
Damodar, G. N. (2009). Basic Econometric 5th Edition. New York: McGraw
–Hill.
data.go.id. (2018, 8 8). Dataset. Diambil kembali dari : https://data.
go.id/dataset/jumlah-kecelakaan-korban-mati-luka-berat-luka-
ringan-dan-kerugian-materi/resource/8402261e-8bc4-4789-8059-
2b5c248b91ed
Draper, N. R., & Smith, H. (1998). Applied Regression Analysis, 3rd Edition.
New York: John Wiley & Sons.
Finance, Y. (2018, 9 20). Saham. Diambil kembali dari finance.yahoo.com
Ghozali, I. (2007). Aplikasi Analisis Multivariat dengan Program SPSS (Edisi
Ke 4). Semarang: Badan Penerbit Universitas Diponegoro.
Graybill, F. A. (1994). Regression Analysis; Concepts and Applications. USA:
Duxbury Pr.
Hosmer, D. W. (2000). Applied Logistic Regression. USA: John Willey and
Son, Inc.
Neter, J., Wasserman, W., & Kutner, M. H. (1990). Applied Linear Statistical
Models. New York: The McGraw Hill.
Pandey, P. (2018, August 1). A Guide to Machine Learning in R for Beginners:
Logistic Regression. Diambil kembali dari Medium: https://medium.
com/analytics-vidhya/a-guide-to-machine-learning-in-r-for-
beginners-part-5-4c00f2366b90
Pindyck, R., & Rubinfeld, D. (2013). Microeconomics, 8th Edition. USA:
84 a n a li s i s r e gr e s i t e r a pa n r
Pearson.
Rawlings, J. O., Pantula, S. G., & Dickey, D. A. (1998). Applied Regression
Analysis: A Research Tool, 2nd Edition. New York: Springer.
Rosadi, D. (2011). Analisis Ekonometrika dan Runtun Waktu Terapan
dengan R. Yogyakarta: Penerbit ANDI.
RStudio. (2018, 10 7). RStudio Open Source and Enterprise-Ready
Profesionnal Software for R. Diambil kembali dari https://www.
rstudio.com/
Santoso, S. (2012). Panduan Lengkap SPSS Versi 20. Jakarta: PT Elex Media
Komputindo.
Reg re si Lo g istik 85