Dina Tri Utari-Modul Praktikum

ANALISIS REGRESI TERAPAN DENGAN R
Penulis:
Dina Tri Utari
Penerbit:
2019
KATALOG DALAM TERBITAN (KDT) analisis regresi terapan dengan r
Utari, Dina Tri
Analisis Regresi Terapan Dengan R/ Dina
Tri Utari. --Yogyakarta: Universitas Islam
Indonesia, 2019.
xi + 86 hlm. ; 16 x 23 cm
ISBN
e-ISBN Penulis:
Dina Tri Utari
©2019 Penulis
Hak cipta dilindungi Undang-Undang.
Dilarang memperbanyak atau memindahkan

seluruh atau sebagian isi buku ini dalam
bentuk apapun, baik secara elektronik
ataupun mekanik termasuk memfotokopi, Cetakan I
tanpa izin dari Penulis. Januari 2019 M / Jumadil Ula 1440 H
Penerbit:
Kampus Terpadu UII

Jl. Kaliurang Km 14,5 Yogyakarta 55584
Tel. (0274) 898 444 Ext. 2301; Fax. (0274) 898 444 psw 2091
http:/library.uii.ac.id;e-mail: perpustakaan@uii.ac.id
Kata Pengantar
Assalamualaikum Wr. Wb.,

Puji syukur penulis panjatkan atas semua nikmat dan karunia Allah SWT
sehingga penulis mampu menyelesaikan penyusunan modul praktikum ini.
Modul praktikum ini disusun sebagai panduan dalam melakukan Praktikum
Analisis Regresi Terapan dengan menggunakan software R. Modul ini telah
disesuaikan dengan perangkat pembelajaran Program Studi Statistika UII
meliputi silabus, RPS (Rencana Pembelajaran Semester), dan SAP (Satuan Acara
Perkuliahan). Dalam silabus Praktikum Analisis Regresi Terapan terdapat 2 (dua)
CPL (Capaian Pembelajaran Lulusan) yaitu i) PP(c) Software: menguasai minimal
dua perangkat lunak statistika, termasuk perangkat lunak yang berbasis open
source, ii) KK(a) Techniques: mampu melakukan perancangan percobaan,
pengumpulan dan pembangkitan data (dalam bentuk survei, percobaan, atau
simulasi), pengorganisasian data, analisis data menggunakan teknik-teknik
statistika, dan penarikan kesimpulan secara sahih, dengan memanfaatkan
minimal satu perangkat lunak statistika, dan iii) KU(i) Techniques: mampu
mendokumentasikan, menyimpan, mengamankan, dan menemukan kembali
data untuk menjamin kesahihan dan mencegah plagiasi. Guna mencapai
CPL, diuraikan 6 (enam) Capaian Pembelajaran Mata Kuliah (CPMK) yang
diharapkan tercapai dengan menggunakan panduan modul ini, yaitu (PPc1)
mahasiswa mampu mengoperasikan perangkat lunak R untuk mengatasi
permasalahan regresi, (PPc2) mahasiswa mampu mendeskripsikan penaksiran
(estimasi) parameter model regresi, (KKa1) mahasiswa mampu melakukan
pengorganisasian data untuk permasalahan analisis regresi dengan perangkat
lunak R, (KKa2) mahasiswa mampu menarik kesimpulan untuk permasalahan
analisis regresi berdasarkan hasil dari perangkat lunak R, (KUi1) mahasiswa
mampu mendokumentasikan data di dalam perangkat lunak R, dan (KUi2)
mahasiswa mampu menggunakan kembali data yang telah didokumentasikan
di dalam perangkat lunak R.
Besar harapan kami agar modul ini dapat bermanfaat bagi penggunanya. Saran
dan kritik yang membangun sangat diharapkan untuk perbaikan modul, dapat
dikirimkan ke alamat email penulis dina.t.utari@uii.ac.id.
Wassalamualaikum Wr. Wb.
Yogyakarta, 30 Oktober 2018
Penulis
v
DAFTAR ISI
1. Pendahuluan dan Manajemen Data di R................................ 1
1.1 Landasan Teori 1

1.1.1 RGUi 2
1.1.2 RStudio 4
1.1.3 Objek 6
1.1.4 Entry data dengan perintah Scan 8
1.1.5 Mengimpor dan mengekspor data pada R 9
1.1.6 Jenis data di R 9
1.1.7 Modus data 10
1.1.8 Logical 10
1.1.9 Numeric 11
1.1.10 Complex 11
1.1.11 Character 12
1.1.12 Vektor 12
1.1.13 Matriks 13
1.1.14 Data Frame 14
1.1.15 List 15
1.1.16 Package dan Library 15
1.1.17 Operator Aritmetika 15
1.2 Alat dan Bahan 16
1.3 Prosedur Kerja 17
1.3.1 Entri Data 17
1.3.2 Perhitungan Matriks 19
2. Statistika Deskriptif.................................................................. 22

2.4 Lembar Kerja 26
2.5 Lembar Laporan Sementara 27
vii
3. Regresi Linier............................................................................ 28

3.1.1 Analisis Regresi Linier Sederhana 29
3.1.2 Analisis Regresi Linier Berganda 29
3.3.1 Prosedur Kerja Analisis Regresi Linier Sederhana 31
3.3.2 Prosedur Kerja Analisis Regresi Linier Berganda 36
3.4 Lembar Kerja 39
3.5 Lembar Laporan Sementara 42
4. Pengujian Asumsi dan Pelanggarannya................................. 44

4.1.1 Kenormalan Residual 44
4.1.2 Kebebasan Residual (Autokorelasi) 46
4.1.3 Kehomogenan Variansi Residual 48
4.1.4 Multikolinearitas 49
4.3.1 Prosedur Kerja Pengujian Asumsi Kenormalan Sisaan 50
4.3.2 Prosedur Kerja Pengujian Asumsi Kebebasan Residual 53
4.3.3 Prosedur Kerja Pengujian Asumsi Kehomogenan
Variansi Residual 53
4.3.4 Prosedur Kerja Pengujian Asumsi Multikolinearitas 54
4.4 Lembar Kerja 55
4.5 Lembar Kerja Sementara 56
5. Regresi Nonlinier...................................................................... 58

5.3.1 Prosedur Kerja Model Regresi Linier Sederhana 60
5.3.2 Prosedur Kerja Model Regresi Nonlinier Kuadratik 62
5.3.3 Prosedur Kerja Model Regresi Nonlinier Kubik 63
viii
5.4 Lembar Kerja 64
6. Regresi Dummy......................................................................... 66

6.3.1 Prosedur Kerja Analisis Regresi Dummy 68
6.4 Lembar Kerja 76
7 Regresi Logistik......................................................................... 74

7.1.1 Persamaan Regresi Logistik 75
7.4 Lembar Kerja 82
Referensi............................................................................. 86
ix
DAFTAR TABEL
Tabel 1.1. Operator Matriks 14

Tabel 1.2. Operator Aritmetika 15
Tabel 1.3. Data Rata-rata Nilai 16
Tabel 2.1. Data Volume Penjualan 22
Tabel 2.2. Data Kecelakaan Tahun 1992-2014 26
Tabel 3.1. Data rata-rata penjualan 31
Tabel 3.2. Hasil prediksi volume penjualan 35
Tabel 3.3. Hasil prediksi rata-rata penjualan 39
Tabel 3.4. Data Korban Mati 39
Tabel 3.5. Data Indeks Gini di Indonesia Tahun 2015 40
Tabel 4.1. Transformasi Box-Cox 46
Tabel 4.2. Tabel Uji Durbin-Watson 47
Tabel 4.3. Data Populasi di Jerman Tahun 2016 55
Tabel 5.1. Data Advisory Fee 59
Tabel 5.2. Data Inflasi dan Pertumbuhan Ekonomi Indonesia 2010-2017 64
Tabel 6.1. Data rata-rata gaji guru 67
Tabel 7.1. Data Pelayanan Rumah Sakit 76
Tabel 7.2. Data Penyakit Jantung Koroner 83
x
DAFTAR GAMBAR
Gambar 1.1. Tampilan https://cran.r-project.org. 2

Gambar 1.2. Tampilan Base untuk instalasi R 2
Gambar 1.3. Tampilan untuk mendownload R 3
Gambar 1.4. Tampilan jendela utama R 3
Gambar 1.5. Tampilan https://www.rstudio.com/ 4
Gambar 1.6. Tampilan pilihan RStudio Desktop 5
Gambar 1.7. Tampilan pilihan download RStudio Desktop 5
Gambar 1.8. Tampilan jendela utama RStudio 6
Gambar 1.9. Tampilan data rata-rata nilai yang akan dicopy 17
Gambar 1.10. Tampilan menginputan data pada RStudio 18
Gambar 1.11. Contoh Perhitungan Matriks 19
Gambar 1.12. Contoh Penambahan Elemen Matriks 20
Gambar 2.1. Input data volume penjualan 23
Gambar 2.2. Summary data volume penjualan 24
Gambar 2.3. Statistika deskriptif data volume penjualan 24
Gambar 3.1. Plot model regresi data volume penjualan 32
Gambar 3.2. Hasil analisis regresi linier sederhana data volume
penjualan 33
Gambar 3.3. Hasil Anova data volume penjualan 33
Gambar 3.4. Hasil prediksi dari model regresi 35
Gambar 3.5. Hasil prediksi dengan variabel independent diberikan 35
Gambar 3.6. Plot garis regresi 36
Gambar 3.7. Hasil analisis regresi berganda data rata-rata penjualan 37
Gambar 3.8. Hasil prediksi dari model regresi linier berganda 38
Gambar 4.1. Pendefinisian residual dari model regresi berganda 51
Gambar 4.2. Uji normalitas residual dengan uji Kolmogorov-Smirnov 52
Gambar 4.3. Perintah untuk membuat histogram dan plot distribusi
normal 52
Gambar 4.4. Histogram dan plot distribusi normal 52
Gambar 4.5. Perintah Uji Durbin-Watson di R 53
Gambar 4.6. Perintah Uji Breusch Pagan di R 54
Gambar 4.7. Perintah menghitung nilai VIF di R 54
Gambar 5.1. Penginputan data di R 60
xi
Gambar 5.2. Output regresi linier sederhana 61
Gambar 5.3. Plot hubungan data asset dan fee 61
Gambar 5.4. Output regresi nonlinier kuadratik 62
Gambar 5.5. Output regresi nonlinier kubik 63
Gambar 6.1. Penginputan data rata-rata gaji guru di R 69
Gambar 6.2. Output analisis regresi dummy 69
Gambar 6.3. Output analisis regresi dummy setelah variabel D3
dikeluarkan 70
Gambar 6.4. Output analisis regresi dummy setelah variabel D2
dikeluarkan 71
Gambar 7.1. Penginputan data nilai di R 78
Gambar 7.2. Model baseline 79
Gambar 7.3. Spliting data 79
Gambar 7.4. Model regresi logistik 80
Gambar 7.5. Hasil prediksi variabel respon berupa peluang 80
Gambar 7.6. Plot Receiver Operator Characteristic (ROC) 81
Gambar 7.7. Tingkat akurasi model 82
xii
1. Pendahuluan dan Manajemen Data di R
Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1). (KUi1) mahasiswa mampu mendokumentasikan data di dalam
software R.
2). (KUi2) mahasiswa mampu menggunakan kembali data yang telah
didokumentasikan di dalam software R.
1.1 Landasan Teori
R merupakan paket open-source untuk komputasi statistik.

Open-source yang dimaksud di sini salah satunya adalah bahwa R tersedia
secara gratis, dan penggunanya bebas untuk melihat bagaimana
perintah-perintah di dalamnya ditulis dan dapat memperbaikinya. R
didasarkan pada bahasa komputer S yang dikembangkan oleh John
Chambers dan lainnya di Bell Laboratories pada tahun 1976. Pada
tahun 1993 Robert Gentleman dan Ross Ihaka di University of Auckland
ingin bereksperimen dengan bahasa pemrograman, sehingga mereka
mengembangkan implementasinya dan diberi nama R. Mereka
membuat R bersifat open-source pada tahun 1995, dan ratusan orang di
dunia telah berkontribusi terhadap perkembangannya.
Secara umum, dalam menggunakan perintah-perintahnya, R

menggunakan command line interface (CLI), yaitu perintah-perintah
dalam R dijalankan dengan mengetikkan perintah-perintah dalam
jendela R Console.
Lebih lanjut tentang R, dapat dilihat di website R di http://cran.r-

project.org/. Untuk tutorial R, dapat dipelajari secara online, misal di
http://www.statmethods.net/index.html
Pendah uluan dan M an aj e m e n Data di R 1

1.1.1 RGUi
Untuk meng-install R ke dalam komputer, diperlukan master

program R terlebih dahulu. Master program R dapat diunduh pada
tautan http://cran.r-project.org/
Gambar 1.1. Tampilan https://cran.r-project.org.
Pada Gambar 2.1. terlihat R tersedia dalam berbagai platform

(multi-platform) yaitu Linux, Mac, juga Windows. Misal diambil master
dalam platform Windows.
Gambar 1.2. Tampilan Base untuk instalasi R
Langkah selanjutnya adalah memilih base, maka akan masuk ke

jendela untuk men-download master dari R.
2 a n a li s i s r e gr e s i t e r a pa n r
Gambar 1.3. Tampilan untuk mendownload R
Untuk versi terbaru (sampai 2 Juli 2018) yaitu R versi 3.5.1.

Penggunaan R 32 bit atau R 64 bit disesuaikan dengan sistem operasi
yang digunakan (Cran, 2018).
Selanjutnya lakukan proses instalasi standar untuk menginstall R
ke dalam komputer. Setelah R terinstall, masuk ke R dengan cara double-
click pada icon R yang terdapat di desktop. Kemudian akan masuk pada
jendela utama R seperti yang disajikan pada Gambar 1.4.:
Gambar 1.4. Tampilan jendela utama R

Ketika membuka R, terdapat jendela R Console dan R Editor. Di
dalam R Editor nantinya diketikkan perintah-perintah mulai dari input
data sampai dengan analisis data statistik juga pembuatan grafik-grafik
yang terkait.
1.1.2 RStudio
Software R yang terinstall pada komputer menggunakan sumber
daya komputer pribadi untuk memproses bahasa pemrograman R.
Sedangkan RStudio terintegrasi dengan R sebagai IDE (Integrated
Development Environment) untuk menyediakan fungsionalitas lebih
lanjut (RStudio, 2018). RStudio menggabungkan editor kode sumber,
membuat alat otomatisasi dan debugger, sehingga disarankan untuk
menginstall R dan RStudio dalam satu komputer.
Untuk menginstall RStudio ke dalam komputer, diperlukan master
program RStudio terlebih dahulu. Master program RStudio dapat
diperoleh di https://www.rstudio.com/
Gambar 1.5. Tampilan https://www.rstudio.com/
Pada Gambar 1.5. setelah masuk ke dalam halaman utama website

RStudio kemudian pilih Products untuk langkah selanjutnya. Setelah
mengklik Product maka akan muncul pilihan download RStudio Desktop
atau RStudio Server, karena yang akan digunakan adalah untuk desktop
maka dipilih RStudio Desktop.
Gambar 1.6. Tampilan pilihan RStudio Desktop
Pada Gambar 1.6. kemudian pilih Download RStudio Desktop,

sehingga muncul tampilan sebagai berikut:
Gambar 1.7. Tampilan pilihan download RStudio Desktop

Pada Gambar 1.7. terlihat RStudio tersedia dalam berbagai platform
yaitu Windows, Mac, Ubuntu, dan Fedora. Misal diambil master dalam
platform Windows. Selanjutnya lakukan proses instalasi standar untuk
menginstall RStudio ke dalam komputer. Setelah RStudio terinstall,
masuk ke RStudio dengan cara double-click pada icon RStudio yang
terdapat di desktop. Kemudian akan muncul jendela utama RStudio
seperti berikut:
Gambar 1.8. Tampilan jendela utama RStudio
Ketika membuka RStudio seperti pada Gambar 1.8., terdapat

jendela R Scipt, R Console, R History, dan R Viewier. Di dalam R Script
nantinya diketikkan perintah-perintah mulai dari input data sampai
dengan analisis data statistik juga pembuatan grafik-grafik yang terkait.
1.1.3 Objek
Dalam R, entitas-entitas seperti data, fungsi, dan output disebut

sebagai objek. Karena itulah R disebut sebagai bahasa pemrograman
yang berorientasi objek (Object Oriented Programming). Semua perintah-
perintah yang digunakan diketikkan dalam R Script agar dapat disimpan
dan digunakan kembali.
Misalkan dipunyai satu set data yaitu
2694627916460436078
Jika ingin diinput ke R, dapat dilakukan dengan mengetikkan

perintah pada R Script
c(2,6,9,4,6,2,7,9,1,6,4,6,0,4,3,6,0,7,8)
kemudian tekan Run, maka akan muncul:

[1] 2 6 9 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8
Jika akan dilakukan analisis pada dataset tersebut, akan lebih

mudah jika dataset tersebut disimpan ke dalam suatu objek. Misal objek
tersebut diberi nama data.1 maka perintah yang diketikkan pada R
Script yaitu
data.1=c(2,6,9,4,6,2,7,9,1,6,4,6,0,4,3,6,0,7,8)
kemudian untuk memanggil kembali objek data.1, cukup ketikkan

nama objek dari data.1 tersebut pada R Console, yaitu
data.1
[1] 2 6 9 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8
Hal-hal yang perlu diperhatikan dalam pemberian nama untuk

suatu objek yaitu:
1). Nama objek harus diawali dengan huruf, selanjutnya dapat
dikombinasikan dengan huruf kecil, huruf besar, angka, titik, dan
underscore.
2). R bersifat case sensitive, artinya objek “Data” dengan “data”
dianggap sebagai objek yang berbeda.
3). Operator-operator aritmatika tidak bisa digunakan untuk nama
objek.
4). Hindari menggunakan nama fungsi atau perintah built-in R sebagai
nama objek.
5). Hindari penamaan objek yang hanya terdiri dari satu karakter berikut:
C,D,c,l,q,s, dan t.

Contoh-contoh nama objek yang bisa digunakan
data
data1
data.1
data_1
data.1.b.66
Contoh-contoh nama objek yang tidak bisa digunakan
3data (diawali dengan angka)
data-1 (operator – tidak bisa digunakan)
data=1 (operator = tidak bisa digunakan)
untuk melihat objek-objek yang sudah tersimpan dalam R, dapat
digunakan perintah
objects(), diperoleh
[1] “data.1” “mean.data.1” “var.data.1”
Dari output tersebut, tersimpan objek-objek dengan nama data.1,

mean.data.1, dan var.data.1, jika ingin menghapus suatu objek,
perintah yang digunakan yaitu rm(nama_objek). Misal akan dihapus
objek mean.data.1, maka perintah yang diketikkan yaitu
rm(mean.data.1)
rm(list = ls())  menghapus semua objek yang tersimpan
kemudian dicek hasil penghapusan objek
objects()
[1] “data.1” “var.data.1”
Terlihat bahwa objek mean.data.1 sudah dihapus, jika objek

tersebut dipanggil maka yang muncul adalah pesan error.
mean.data.1
Error: object ‘mean.data.1’ not found
1.1.4 Entry data dengan perintah Scan
Jika ingin memasukkan data dengan jumlah yang banyak ke dalam

objek dataku dapat dilakukan dengan fungsi scan().
1.1.5 Mengimpor dan mengekspor data pada R
Pada R tersedia package foreign yang dapat digunakan untuk

mengimpor ke dalam R data-data eksternal dari format beberapa paket
statistika lainnya. Pada package ini tersedia perintah-perintah untuk
impor data seperti berikut:
1). File excel dalam format text tab delimited: gunakan perintah read.
table() untuk membaca file.txt
2). File excel dalam format CVS (comma delimited): gunakan perintah
read.table() untuk membaca file .csv
3). File excel dalam format xls: gunakan perintah read.xls() pada
package xlsReadWrite
4). File epi info: gunakan perintah read.epiinfo()
5). File minitab: gunakan perintah read.mtp() untuk membaca file
Minitab portable worksheet
6). File SAS: gunakan perintah read.xport() atau read.ssd()
7). File SPSS: gunakan perintah read.spss() untuk membaca file .sav
8. Stata versi 5, 6, 7, 8: gunakan perintah read.dta() untuk impor file
Stata
Sedangkan untuk perintah ekspor:

1). write.dbf() untuk menulis ke dalam format DBF
2). write.foreign() untuk menulis ke dalam file teks
3). write.dta() untuk melakukan ekspor ke dalam format Stata
1.1.6 Jenis data di R
Sebelum melakukan analisis data dengan R, perlu diketahui

terlebih dahulu tentang jenis-jenis data di R. Jenis data di R terbagi
menjadi 2 pengelompokkan, yaitu tipe data (data type) dan modus data
(data mode).
Tipe data terbagi menjadi
• Data vektor/array satu dimensi
• Data matriks/array dua dimensi

• Data frame
• Data list
Sedangkan untuk modus data terbagi menjadi
• Logical
• Numeric
• Complex
• Character
1.1.7 Modus data
Urutan modus data dari yang paling khusus ke modus data paling
umum yaitu logical-numeric-complex-character.
Untuk mengetahui suatu modus dari suatu data dapat digunakan
perintah:
mode(data.1)
[1] “numeric”
1.1.8 Logical
Modus data logical merupakan modus data yang paling khusus

dalam R. Modus data logical hanya terdiri dari dua nilai saja yaitu TRUE
dan FALSE, atau bisa ditulis T dan F saja, ataupun 1 dan 0.
data.logical=c(T,T,F,T,F,F,F,T,T)
data.logical
[1] TRUE TRUE FALSE TRUE FALSE FALSE FALSE TRUE
TRUE
Data bermodus logical biasanya digunakan untuk melakukan filter

pada suatu data, misal dari objek data.1 diatas ingin dicari mana saja
nilainya yang lebih dari 5
data.1
[1] 2 6 9 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8
data.1>5
[1] FALSE TRUE TRUE FALSE TRUE FALSE TRUE TRUE
FALSE TRUE FALSE TRUE
[13] FALSE FALSE FALSE TRUE FALSE TRUE TRUE
Untuk mengetahui suatu data bermodus logical atau bukan, dapat

digunakan perintah
is.logical(data.1)
[1] FALSE  bernilai false karena modus objek data.1 adalah numerik
is.logical(data.logical)
[1] TRUE  bernilai true karena modus objek data.logical adalah
logical
Selain itu terdapat fungsi as.logical(nama_objek) yang
dapat mengubah modus data menjadi logical:
as.logical(c(“A”,”B”,”T”,”F”,T,F,TRUE,FALSE,”TRUE
”,”FALSE”))
[1] NA NA TRUE FALSE TRUE FALSE TRUE FALSE TRUE
FALSE  character ke logical
as.logical(c(-10,-1,0,1,2,20))
[1] TRUE TRUE FALSE TRUE TRUE TRUE  numeric ke logical
as.logical(c(1+8i,4-8i,0,0+38i))
[1] TRUE TRUE FALSE TRUE  complex ke logical
1.1.9 Numeric
Seperti namanya, modus data numeric yaitu modus data yang

bernilai bilangan. Dalam hal ini bilangan real. Objek data.1 di atas
termasuk dalam modus data numerik.
Seperti halnya perintah is.logical() dan as.logical() pada
modus data logical, modus data numeric juga mempunyai perintah
is.numeric() dan as.numeric().
1.1.10 Complex
Modus data complex sama seperti modus data numeric,

perbedaannya modus data complex berisikan bilangan complex.

1.1.11 Character
Modus data yang paling umum yaitu modus data character. Sesuai
dengan namanya modus data ini yaitu data-data yang bertipe karakter
atau kualitatif. Perintah is.character() dan as.character()
adalah perintah-perintah yang terkait dengan modus data ini.
1.1.12 Vektor
Tipe data dalam R yang paling sederhana adalah tipe data vektor.
Tipe data vektor berbentuk array satu dimensi, seperti halnya pengertian
vektor secara umum.
Sebagai contoh, objek data.1 di atas merupakan tipe data vektor
karena berupa array satu dimensi.
is.vector(data.1)
[1] TRUE
Syntax c dan : berguna untuk membentuk vektor, contoh

c(1,2,3)
1:3
c(1:3,7:9)
Cara membuat suatu objek dengan tipe data vektor seperti halnya
cara membuat objek data.1 di atas.
data.1=c(2,6,9,4,6,2,7,9,1,6,4,6,0,4,3,6,0,7,8)
Selain itu, dapat pula dilakukan ekstraksi sebagian data dari suatu
objek bertipe data vektor (sebenarnya untuk tipe data lain juga bisa).
Caranya yaitu: nama_objek[no_elemen]
Misal ingin diambil elemen ketiga dari objek data.1
data.1[3]
[1] 9
Misal ingin diambil selain elemen ketiga dari objek data.1

data.1[-3]
[1] 2 6 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8
Jika ingin diambil elemen ketiga dan ketujuh
data.1[c(3,7)]
[1] 9 7
Pada tipe data vektor, komponen-komponen penyusunnya

harus mempunyai modus yang sama. Jika komponen berbeda modus,
komponen-komponen tersebut akan diubah menjadi modus paling
umum yang diinput. Contoh
c(T,1,2) # semua data diubah menjadi mode numerik
[1] 1 1 2
c(“S”,F) # semua data diubah menjadi mode karakter
[1] “S” “FALSE”
c(“S”,2) # semua data diubah menjadi mode karakter
[1] “S” “2”
1.1.13 Matriks
Tipe data matriks sebenarnya sama dengan tipe data vektor, yang
membedakan adalah, tipe data matriks terdiri dari array dua dimensi, di
mana tipe data vektor hanya terdiri dari array satu dimensi.
Untuk melakukan input data dengan tipe data matriks, perintah yang
digunakan yaitu matrix(). Contoh:
matriks1=matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),nro
w=3,ncol=4)
matriks2=matrix(1:12,nrow=3,ncol=4)
matriks3=matrix(1:12,nrow=3)
matriks4=matrix(1:12,3)
Keempat perintah tersebut akan menghasilkan matriks yang sama.

Secara default, data akan diisikan kolom per kolom. Untuk melakukan
pengisian menurut baris per baris, dapat digunakan optional argumen
byrow=T, contoh
data=c(1:8)
mat1=matrix(data,nrow=2,ncol=4)

mat1
mat2=matrix(data,nrow=2,ncol=4,byrow=T)
mat2
Seperti halnya pada tipe data vektor, semua elemen matriks harus
memiliki modus data yang sama, jika modus data berbeda maka akan
diubah menjadi modus data yang paling umum.
Pada tipe data matriks, terdapat beberapa operasi yang dapat digunakan,
yaitu:
Tabel 1.1. Operator Matriks
Operator Matriks Keterangan

* Perkalian elemen matriks
%*% Perkalian dua buah matriks
%o% Outer matriks
solve Invers matriks
t Transpose matriks
crossprod Nilai cross product
eigen Nilai eigen dan vektor eigen
1.1.14 Data Frame
Bentuk data frame mirip dengan matriks. Jika tipe data matriks
hanya bisa menampung data dengan satu modus data saja, maka tipe
data frame dapat menampung data yang terdiri dari berbagai modus
data. Satu kolom satu modus, tapi antar kolom dapat berlainan modus.
Data frame merupakan tipe data yang paling banyak digunakan untuk
membuat suatu dataset dalam R.
frame1=data.frame(c(1,2,3),c(T,F,T))
tiap kolom dan baris pada dataframe, masing-masing bisa diberi

nama. Perintah-perintah yang bisa digunakan yaitu
names(frame1)=c(“nilai”,”status”)
rownames(nama_data.frame)
colnames(nama_data.frame)
1.1.15 List
List merupakan tipe data yang menggabungkan tipe-tipe data di

atas. Secara sederhana, dalam satu list, dapat berisi vektor, matriks, dan
data frame sekaligus. Tipe data ini sangat berguna dalam pembuatan
program, terutama di bagian output programnya.
Cara membuat suatu list
list1=list(no=c(1,2,3,4),status=c(T,T,T,F),nilai
=data.frame(nilai=c(6,6,7,8), nama=c(“A4”, “A5”,
“B2”, “B9”)))
1.1.16 Package dan Library
Sebagian besar fungsi dari R diperoleh dari tambahan paket/

pustaka. Pustaka (library) merupakan kumpulan perintah/fungsi yang
dapat digunakan untuk melakukan analisis tertentu.
Instalasi standar R mengikutsertakan beberapa pustaka dasar/
bawaan yaitu stat, graphics, datasets, dll. Selain pustaka bawaan tersebut,
terdapat banyak pustaka lain yang dapat diinstal jika diperlukan (lihat
www.cran.r-project.org).
1.1.17 Operator Aritmetika

Tabel 1.2. Operator Aritmetika
OPERATOR KETERANGAN CONTOH

+ Penambahan 2+3
* Perkalian 2*3
^ Pemangkatan 2^3
/ Pembagian 2/3
- Pengurangan 2-3

Membangkitkan
: (colon) 1:5 #angka 1 sampai 5
barisan integer
== Sama dengan 2==3 #hasilnya false
Tidak sama
!= 2!=3 #hasilnya true
dengan
Lebih dari sama
>= 2>=3 # hasilnya false
dengan
Kurang dari
<= 2<=3 # hasilnya true
sama dengan
& And (1<2) & (2<=3) #hasilnya true
| Or (1<2) | (2<=3) #hasilnya true
! Not !(1==2) # hasilnya true
Operator
<- = -> x=(1==2) # objek x bernilai false
assignment
1.2 Alat dan Bahan

Alat yang digunakan berupa laptop dan software R. Bahan yang
digunakan berupa data, rata-rata nilai yang disajikan pada Tabel 1.3.
Tabel 1.3. Data Rata-rata Nilai
No Rata-rata Nilai No Rata-rata Nilai
1 74.3 11 81.9
2 75 12 79.5
3 80 13 76.8
4 78.2 14 83.1
5 77.3 15 77.4
6 81.4 16 78.5
7 73.9 17 75.6
8 79 18 80.4
9 80.6 19 76.4
10 82 20 77.3
1.3 Prosedur Kerja
Pada bagian ini akan dijelaskan prosedur kerja entri data

menggunakan perintah scan pada Tabel 1.3 dan perhitungan matriks
dengan software R.
1.3.1 Entri Data
Langkah pertama adalah mengcopy data pada Tabel 1.3. pada file
excel, data tersebut akan dimasukkan ke dalam objek dataku seperti
yang disajikan pada Gambar 1.9.
Gambar 1.9. Tampilan data rata-rata nilai yang akan dicopy
Kemudian pada R-Script, ketikkan dataku=scan(), paste, dan

enter pada R-Console. Selanjutnya panggil kembali objek dataku pada
R-Console:

Gambar 1.10. Tampilan menginputan data pada RStudio
Selanjutnya, objek data.1 tersebut dapat dilakukan analisis statistik

lebih lanjut, misal akan dicari nilai mean dan variansi dari data.1 dengan
perintah:
mean(data.1)
[1] 4.736842
var(data.1)
[1] 7.982456
Diperoleh nilai mean dari data.1 yaitu 4.736842 dan nilai variansi
dari data.1 yaitu 7.982456.Nilai mean dan variansi di atas juga dapat
disimpan sebagai suatu objek,
mean.data.1=mean(data.1)
mean.data.1
[1] 4.736842
var.data.1=var(data.1)
var.data.1
[1] 7.982456
1.3.2 Perhitungan Matriks
Untuk membuat matriks dan perhitungannya pada software R

dilakukan dengan cara-cara seperti pada Gambar 1.11.
Gambar 1.11. Contoh Perhitungan Matriks
Untuk melakukan ekstraksi data dengan tipe matriks, caranya sama

seperti melakukan ekstraksi data dengan tipe vektor, perbedaannya
yaitu untuk tipe data matriks, ekstraksi dilakukan dengan memasukkan
elemen kolom dan barisnya, nama_objek[no_baris,no_kolom]
Perintah lain yang bisa digunakan : cbind() dan rbind().

Gambar 1.12. Contoh Penambahan Elemen Matriks
2. Statistika Deskriptif
1. (PPc1) mahasiswa mampu membuat statistika deskriptif dan
mendeskripsikan hasil yang diperoleh.
2.1 Landasan Teori
Statistika deskriptif digunakan untuk menyajikan ukuran statistik

beberapa variabel dalam satu tabel, serta untuk mengetahui skor dari
suatu distribusi data. Skor biasa digunakan untuk menguji kenormalan
distribusi data.
2.2 Alat dan Bahan
Alat yang digunakan berupa laptop, software R, dan package

stat-decs. Bahan yang digunakan berupa data yang akan digunakan
untuk studi kasus statistika deskriptif.
1. Data yang digunakan dalam studi kasus statistika deskriptif adalah
data hasil survey terhadap Biaya Promosi dan Volume Penjualan
dari 10 toko yang disajikan pada Tabel 2.1. Dari data pada Tabel 2.1.
ingin diketahui besarnya rata-rata, nilai minimal, maximal, range
dan apakah datanya berdistribusi normal atau tidak.
Tabel 2.1. Data Volume Penjualan
No Biaya Promosi Volume Penjualan

1 12000 56000
2 13500 62430
3 12750 60850
4 12600 61300
5 14850 65825
Statistika Deskri p t if 21
6 15200 66354
7 15750 65260
8 16800 68798
9 18450 70470
10 17900 65200
2.3 Prosedur Kerja

Pada bagian ini akan dijelaskan prosedur kerja statistika deskriptif
pada Tabel 2.1 dengan software R.
1). Input data
Cara menginput data berupa file .csv yaitu:
data = read.csv(file.choose(), header=TRUE,
sep=”;”)
untuk menampilkan variabel-variabel apa saja yang ada di dalam
data, digunakan perintah names()sedangkan untuk mengambil
salah satu variabel digunakan perintah $, yaitu
data$Biaya.Promosi  nilai-nilai dari variabel biaya promosi
data$Volume.Penjualan  nilai-nilai dari variabel volume
penjualan
Gambar 2.1. Input data volume penjualan
2). Statistika Deskriptif
Untuk menampilkan ringkasan dari data digunakan perintah
summary()
summary(data[-1])  ringkasan dari data tanpa kolom
pertama
Gambar 2.2. Summary data volume penjualan
Untuk menampilkan statistika deskriptif yang lebih lengkap, dapat

digunakan library(pastecs) dengan perintah stat.decs()
stat.desc(data[-1])  statistika deskriptif dari data tanpa
kolom pertama
Gambar 2.3. Statistika deskriptif data volume penjualan
Statistik deskriptif untuk biaya promosi:
• nbr.val menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai nilai, yaitu sebanyak 10.
• nbr.null menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai bernilai nol, yaitu tidak ada data yang
bernilai nol.
• nbr.na menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai tidak mempunyai nilai atau NA (not a
number), yaitu tidak ada data yang tidak mempunyai nilai.
• min menunjukkan banyaknya data minimum dalam variabel
biaya promosi, yaitu sebesar 12000.
• max menunjukkan banyaknya data maksimum dalam variabel
• range menunjukkan nilai maksimum dikurangi dengan nilai
minimum dalam variabel biaya promosi, yaitu sebesar 6450. Range
untuk variabel biaya promosi cukup besar, hal ini menunjukkan
bahwa variasi data dari biaya promosi cukup beragam.
• sum menunjukkan jumlah data dalam variabel biaya promosi,
yaitu sebesar 149800.
• 1st Qu. menunjukkan kuartil 1 dalam variabel biaya promosi, yaitu
sebesar 12938.
• median menunjukkan median atau nilai tengah dalam variabel
• 3rd Qu. menunjukkan kuartil 3 dalam variabel biaya promosi, yaitu
sebesar 16538.
• mean menunjukkan rata-rata biaya promosi, yaitu sebesar 14980.
• SE.mean menunjukkan standar eror mean dari biaya promosi,
yaitu sebesar 7168294.
• CI.mean.0.95 menunjukkan interval konfidensi 95% dari
variabel biaya promosi, yaitu sebesar 1621581.
• var menunjukkan variansi dari variabel biaya promosi, yaitu
sebesar 5138444.
• std.dev menunjukkan standar deviasi dari variabel biaya
promosi, yaitu sebesar 2266814. Semakin besar standar deviasi
maka menunjukkan data semakin bervariasi
• coef.var menunjukkan ukuran variansi dari variabel biaya
promosi (standar deviasi/mean), yaitu sebesar 0,01513227.
Koefisien variansi digunakan untuk membandingkan suatu
distribusi data yang mempunyai satuan yang berbeda. Besarnya
koefisien variansi akan berpengaruh terhadap kualitas sebaran
data. Jika koefisien variansi semakin kecil maka datanya semakin
homogen, dan jika koefisien variansi semakin besar maka datanya
semakin heterogen.
2.4 Lembar Kerja

Soal:
Terdapat data kecelakan pada Tabel 2.2. yang terdiri dari korban mati
yang menyebabkan kerugian materi.
Tabel 2.2. Data Kecelakaan Tahun 1992-2014
Korban Kerugian Korban Kerugian

Tahun Mati Materi (Juta Tahun Mati Materi (Juta
(Orang) Rupiah) (Orang) Rupiah)
1992 9819 15077 2004 11204 53044

1993 10038 14714 2005 16115 51556
1994 11004 16544 2006 15762 81848
1995 10990 17745 2007 16955 103289
1996 10869 18411 2008 20188 131207
1997 12308 20848 2009 19979 136285
1998 11694 26941 2010 19873 158259
1999 9917 32755 2011 31195 217435
2000 9536 36281 2012 29544 298627
2001 9522 37617 2013 26416 255864
2002 8762 41030 2014 28297 250021
2003 9856 45778
Sumber: (data.go.id, 2018)
Lakukanlah analisis deskriptif untuk satu variabel (NIM ganjil

menggunakan variabel korban mati, NIM genap menggunakan variabel
kerugian materi) dan jelaskan interpretasi dari output yang diperoleh.
2.5 Lembar Laporan Sementara
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis
statistika deskriptif.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis statistika deskriptif.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil
output dari analisis statistika deskriptif.
4. Penutup
Tuliskan kesimpulan dari hasil analisis statistika deskriptif
5. Daftar Pustaka
Tuliskan referensi yang digunakan.
3. Regresi Linier
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi linier sederhana dan berganda.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi linier sederhana dan berganda.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.
3.1 Landasan Teori
Analisis regresi adalah metode yang umum digunakan untuk

memperoleh fungsi prediksi untuk memprediksi nilai-nilai variabel
respon Y menggunakan variabel prediktor X1,X2,...XK (Graybill, 1994).
Disebut analisis regresi linier karena grafik yang menunjukkan
hubungan variabel respon Y dan variabel prediktor X membentuk garis
lurus, selain itu yang dimaksud dengan linier adalah model ini linier
dalam parameter.
Dalam analsisi regresi linier hanya ada satu variabel respon Y yang
dipengaruhi oleh variabel-variabel prediktor X. Jika hanya terdapat satu
variabel prediktor yang berpengaruh maka disebut analisis regresi linier
sederhana, sedangkan jika variabel prediktor yang berpengaruh lebih
dari satu, maka disebut analisis regresi linier berganda.
Ada beberapa tahapan dalam melakukan analisis regresi linier
baik sederhana maupun berganda. Berikut ini adalah tahapan yang
Reg re si Linie r 27
dimaksud:
1). Menguji hubungan atau korelasi antar variabel respon dan
prediktor.
2). Mengestimasi parameter dalam model regresi menggunakan
metode Ordinary Least Square (OLS) atau metode Kuadrat Terkecil.
3). Menguji signifikansi masing-masing parameter.
4). Jika ada parameter yang tidak signifikan atau ada asumsi yang
tidak terpenuhi, maka analisis dilakukan kembali mulai tahap 1.
5). Interpretasi dari model yang diperoleh.
3.1.1 Analisis Regresi Linier Sederhana
Analisis regresi sederhana terdiri dari satu variabel respon dan

satu variabel prediktor. Analisis ini digunakan untuk seberapa besar
pengaruh perubahan variabel prediktor terhadap variabel respon.
1). Model Regresi Linier Sederhana
Yι = β0 + β1X ι + ει (Pers. 3.1)
dengan β0 dan β1 : parameter regresi
ει: faktor acak/error
2). Persamaan Regresi
yˆ=
ι b 0 + b1 X ι (Pers. 3.2)
dengan b 0 : intersep
b1 : slope/ kemiringan
3). Asumsi Model Linier
1. Bentuk hubungannya linier
2. Sisaan adalah peubah acak yang bebas terhadap nilai X
3. Sisaan merupakan peubah acak yang menyebar Normal dengan
rataan nol dan ragam yang konstan (homoskedastisitas).
4. Sisaan tidak berkorelasi satu sama lain.
3.1.2 Analisis Regresi Linier Berganda
Analisis regresi linier berganda terdiri dari satu variabel respon

dan lebih dari satu variabel prediktor. Analisis ini digunakan untuk
mengetahui pengaruh dari masing-masing variabel prediktor terhadap
variabel respon, dan melihat variabel mana yang mempunyai pengaruh
lebih besar.
1). Model Regresi Linier Berganda
Y = β0 + β1 X 1 + β2 X 2 + β3 X 3 + ... + βκ X κ + ε (Pers. 3.3)
Persamaan Regresi
yˆ = b 0 + b1 X 1 + b 2 X 2 + b 3 X 3 + ... + b κ X κ (Pers. 3.4)
Persamaan regresi pada persamaan 3.4 harus memenuhi asumsi-
asumsi di bawah ini:
1). Kondisi Gauss-Markov
• Ε [ει ] = 0 , nilai harapan/rataan residual = 0
• Ε ει = var [ει ]= σ 2 , variansi residual homogen untuk setiap nilai
2
X (sifat dari variansi yang konstan disebut homoscedasticity)

• Ε ει , ε j  = 0 untuk semua ι ≠ j residual saling bebas
2). Residual menyebar normal
3). Residual ( ε ) bebas terhadap variabel prediktor (X), cov ( x ιε j ) = 0
4). Tidak ada multikolinieritas pada variabel prediktor, cov ( x ιx j ) = 0 ,
untuk setiap ι ≠ j
3.2 Alat dan Bahan
Alat yang digunakan adalah laptop/komputer yang terinstal R

dan RStudio. Bahan yang digunakan adalah data biaya produksi dan
volume penjualan pada Tabel 2.1. pada Bab 2 untuk analisis regresi
linier sederhana dan menjawab pertanyaan apakah biaya promosi
yang dikeluarkan oleh toko mempengaruhi volume penjualan yang
dihasilkan. Sedangkan bahan yang digunakan untuk analisis regresi
berganda adalah data yang berasal dari 15 toko yang telah disurvei,
terdiri dari variabel rata-rata penjualan perminggu, banyaknya pekerja
dan luas toko yang disajikan pada Tabel 3.1. Selanjutnya data pada Tabel
3.1. digunakan untuk menguji pengaruh dari banyaknya pekerja dan
luas toko terhadap rata-rata penjualan perminggunya.
Tabel 3.1. Data rata-rata penjualan
No rata-rata penjualan banyaknya luas toko

perminggu pekerja
1 7 17 7
2 17 39 9
3 10 32 8
4 5 17 4
5 7 25 5
6 15 43 9
7 11 25 8
8 13 32 10
9 19 48 12
10 3 10 5
11 17 48 12
12 15 42 10
13 14 36 10
14 12 30 10
15 8 19 8
3.3 Prosedur Kerja
Pada bagian ini akan dijelaskan prosedur kerja analisis regresi linier
sederhana pada Tabel 2.1dan analisis regresi linier berganda pada Tabel
3.1. dengan software R.
3.3.1 Prosedur Kerja Analisis Regresi Linier Sederhana
1). Input data

data = read.csv(file.choose(), header=TRUE)

data$Biaya.Promosi  nilai-nilai dari variabel biaya
promosi
data$Volume.Penjualan  nilai-nilai dari variabel volume
penjualan
2). Sebelum membuat plot data dari variabel biaya promosi dan
volume penjualan, terlebih dahulu membuat model dari variabel
biaya promosi dan volume penjualan menggunakan perintah
model1=volumepenjualan~biayapromosi, kemudian
membuat plot data dari model yang diperoleh menggunakan
perintah plot(model1,data=data)
Gambar 3.1. Plot model regresi data volume penjualan
3). Melakukan analisis regresi linier sederhana dari variabel biaya

promosi dan volume penjualan menggunakan perintah
regres1 =lm(volumepenjualan~biayapromosi,data
=data), untuk melihat ringkasan dari output regesi menggunakan
perintah
summary(regres1)
Gambar 3.2. Hasil analisis regresi linier sederhana data volume penjualan
Untuk mengetahui tes Anova dari model yang diperoleh dapat

dilakukan dengan perintah anova(regres1)
Gambar 3.3. Hasil Anova data volume penjualan
4). Interpretasi Hasil

a. Koefisien determinasi (R2)
Koefisien determinasi (R2) mengukur proporsi variabel respon
yang dapat dijelaskan oleh variabel prediktor dalam model.
menunjukan kebaikan atau kelayakan model, semakin besar nilai
R2 semakin baik modelnya. Nilai R2 berada antara 0% sampai 100%.
Output pada Gambar 3.2 menunjukkan bahwa R2= 77,2%. Artinya
sebesar 77,2% variansi atau nilai-nilai dari variabel respon mampu
dijelaskan oleh variabel prediktor dalam model, sedangkan sisanya
dipengaruhi oleh variabel lain di luar model.
b. Uji F dari tabel Anova
Uji F digunakan untuk menguji kelayakan model dan menguji
parameter regresi secara keseluruhan. Berikut merupakan
Hipotesis uji F untuk model yang sudah terkoreksi oleh b 0 :
versus Η 0 : β0 = 0 Η1 : β0 ≠ 0
P-value yang diperoleh dibandingkan dengan taraf signifikansi. Jika
p-value kurang dari α , maka tolak Η0 dan sebaliknya. Berdasarkan
output pada Gambar 3.3, = =
Pvalue 0 , 0008148 < α 0 , 05 , maka tolak
Η 0 . Artinya model layak pada taraf nyata 5%.
c. Uji Parsial atau Uji t

Uji-t digunakan untuk menguji parameter estimasi secara parsial,
dengan kata lain untuk mengetahui apakah variabel prediktor (X)
berpengaruh secara signifikan terhadap variabel respon (Y).
Berikut hipotesisnya:
Η 0 : βι =0 ,ι =0 ,1
Η1 : βι ≠ 0 ,ι =0 ,1
P-value yang diperoleh kemudian dibandingkan dengan taraf
signifikansi. Jika p-value kurang dari α , maka tolak Η0 dan
sebaliknya. Misalnya p-value untuk β1 yaitu 0,000815 lebih kecil
dari α , maka X1 berpengaruh nyata terhadap variabel respon.
d. Persamaan regresi dan prediksi
=
Dari ouput R, diperoleh persamaan regresi yι 89775 , 842 +1, 643 χι .
Jika diketahui data untuk biaya promosi sebesar 12500,13800,145200
maka akan diperoleh hasil prediksi untuk volume penjualan
menggunakan persamaan regresi yang diperoleh, seperti berikut:
Gambar 3.4. Hasil prediksi dari model regresi
Dari hasil prediksi yang diperoleh seperti pada Gambar 3.4.

selanjutnya dilakukan pembulatan.
Tabel 3.2. Hasil prediksi volume penjualan
Biaya promosi Volume Penjualan

12500 60197,12 ≈ 60197
13800 62320,93 ≈ 62321
145200 276989,40 ≈ 276989
Jika digambarkan plot dari data dan garis regresi diperoleh dengan
perintah sebagai berikut:
Gambar 3.5. Hasil prediksi dengan variabel independent diberikan
Untuk membentuk garis regresi, maka langkah pertama adalah
diberikan data variabel independent (biaya promosi) tertentu dan
dilakukan prediksi volume penjualan dari data tersebut
Gambar 3.6. Plot garis regresi
Titik-titik pada Gambar 3.6. menunjukkan hubungan biaya promosi

dan volume penjualan, sedangkan garis biru menunjukkan garis regresi
dari model yang dihasilkan.
3.3.2 Prosedur Kerja Analisis Regresi Linier Berganda
1). Input data

data1 = read.csv(file.choose(), header=TRUE)
ratarata.penjualan=data1$rata.rata.penjualan.
perminggu  nilai-nilai dari rata-rata penjualan perminggu
banyak.pekerja = data1$banyaknya.pekerja  nilai-
nilai dari banyaknya pekerja
luas.toko = data1$luas.toko  nilai-nilai dari luas toko
2). Melakukan analisis regresi linier berganda dari variabel rata-rata
penjualan perminggu, banyaknya pekerja, dan luas took
menggunakan perintah
regres2=lm(ratarata.penjualan~banyak.
pekerja+luas.toko,data=data1), untuk melihat
ringkasan dari output regesi menggunakan perintah
summary(regres2)

Gambar 3.7. Hasil analisis regresi berganda data rata-rata penjualan
3). Interpretasi hasil
a. Koefisien determinasi (R2)
Ukuran dari kebaikan model ditunjukan oleh R-square (R2). Maksud
dari R Square 0,948 adalah sebanyak 94,8% variansi variabel
respon Y dapat dijelaskan oleh variabel prediktor X dalam model,
sedangkan sisanya sebesar 5,2 % dijelaskan atau dipengaruhi oleh
variabel lain yang di luar model.
b. Uji F dari tabel Anova
Uji F digunakan untuk menguji kelayakan model dan menguji
parameter regresi secara keseluruhan. Hipotesis uji F untuk model
regresi berganda dengan 2 peubah X yang sudah terkoreksi oleh
b0 :
Η 0 : β1 =β2 =0
Η1 : ada minimal satu ι dimana β1 ≠ 0 ,ι =
1, 2
P-value yang diperoleh kemudian dibandingkan dengan taraf

signifikansi. Jika p-value kurang dari α , maka tolak Η0 dan
sebaliknya. Karena p-value kurang dari α , maka tolak Η0 . Artinya
model layak pada taraf nyata 5%, atau secara keseluruhan, variabel
X1 dan X2 berpengaruh terhadap variabel respon (Y) pada taraf
signifikansi 5%.
c. Uji Parsial atau Uji t

Uji-t digunakan untuk menguji parameter estimasi model regresi
secara parsial, yaitu untuk mengetahui apakah variabel independen
(X) berpengaruh secara signifikan terhadap variabel dependen (Y).
Berikut hipotesisnya:
Hipotesis :
Η 0 : βι =0 , i =0 ,1, 2
Η1 : βι ≠ 0 , i =
0 ,1, 2
P-value model tersebut dibandingkan dengan taraf nyata. Jika

kurang dari α , maka tolak Η0 dan sebaliknya. Misalnya p-value
untuk b1=0,000138 lebih kecil dari α , maka x1 (banyaknya
pegawai) berpengaruh terhadap respon rata-rata penjualan per
minggu. Begitu pula dengan p-value untuk b2=0,017334 lebih kecil
dari α , maka x2 (luas toko) berpengaruh terhadap respon rata-rata
penjualan per minggu. Dalam kasus ini, β0 saja yang tidak nyata.
d. Persamaan regresi dan prediksi
Dari ouput pada Gambar 3.7., diperoleh persamaan regresi
yι =−2 , 446 + 0 , 270 Χ1 + 0 , 668 Χ 2 .
Jika diketahui data untuk banyaknya pegawai yaitu 21, 38, 50 dan
data untuk luas toko yaitu 10, 7,5, 6 maka akan diperoleh hasil
prediksi untuk rata-rata penjualan perminggu menggunakan
persamaan regresi yang diperoleh, seperti berikut:
Gambar 3.8. Hasil prediksi dari model regresi linier berganda
Dari hasil prediksi yang diperoleh seperti pada Gambar 3.8.
selanjutnya dilakukan pembulatan.
Tabel 3.3. Hasil prediksi rata-rata penjualan
Banyak Luas Prediksi rata-rata penjualan

pekerja toko perminggu
21 10 9,895637 ≈ 10
38 7,5 12,812082 ≈ 13
50 6 15,047487 ≈ 15
3.4 Lembar Kerja
Soal Analisis Regresi Linier Sederhana:

Lakukan analisis regresi linier sederhana yang disajikan pada Tabel 2.2.
pada Bab 2.
a. Apakah jumlah korban mati mempengaruhi jumlah kerugian
materi?
b. Dari model yang diperoleh, lakukanlah prediksi untuk kerugian
materi jika diketahui data korban mati pada Tabel 3.4.:
Tabel 3.4. Data Korban Mati
Korban Mati (Orang)

8750
2038
5562
7243
21783
2243
1726
9823
635
2955
Soal Analisis Regresi Linier Berganda:

Lakukanlah analisis regresi linier berganda terhadap faktor-faktor yang
mempengaruhi Indeks Gini di Indonesia pada tahun 2015 (tingkat
signifikansi 0.05)
Dengan:
Y : Indeks Gini
X1 : Indeks Pembangunan Manusia
X2 : PDRB
X3 : Persentase Tenaga Kerja Formal
X4 : Kepadatan Penduduk
X5 : Persentase Tenaga kerja Informal Sektor Pertanian
Tabel 3.5. Data Indeks Gini di Indonesia Tahun 2015
Provinsi Y X1 X2 X3 X4 X5
Aceh 0.34 69.45 22523.41 39.5 86 85.11
Sumatera Utara 0.33 69.51 31637.41 39.86 191 82.1
Sumatera Barat 0.32 69.98 27077.95 35.59 124 86.02
Riau 0.37 70.84 70769.78 51.36 73 65.61
Jambi 0.34 68.89 36753.23 41.35 68 74
Sumatera Selatan 0.33 67.46 31549.3 38.69 88 77.56
Bengkulu 0.37 68.59 20302.48 31.19 94 88.98
Lampung 0.35 66.95 24581.68 29.17 234 87.78
Kep. Bangka
Belitung 0.28 69.05 33479.77 45.87 84 78.7
Kep. Riau 0.34 73.75 78616.07 71.9 241 76.49
DKI Jakarta 0.42 78.99 142892.2 72.96 15328 47.91
Jawa Barat 0.43 69.5 25842.32 49.61 1320 86
Jawa Tengah 0.38 69.49 23887.37 38.28 1030 90.5
DI Yogyakarta 0.42 77.59 22688.35 48.79 1174 93.79
Jawa Timur 0.40 68.95 34272.29 36.81 813 89.7
Banten 0.39 70.27 30799.59 61.46 1237 89.37
Bali 0.40 73.27 31094.58 47.2 718 92.25
Nusa Tenggara
Barat 0.36 65.19 18476.51 26.8 260 96.77
Nusa Tenggara
Timur 0.35 62.67 11099.85 21.4 105 97.82
Kalimantan Barat 0.33 65.59 23451.95 34.44 33 85.34
Kalimantan Tengah 0.30 68.53 31619.18 45.56 16 68.8
Kalimantan Selatan 0.33 68.38 27787.88 41.48 103 82.9
Kalimantan Timur 0.32 74.17 128594.8 60.34 27 68.91
Kalimantan Utara 0.31 68.76 76823.85 56.82 9 73.49
Sulawesi Utara 0.37 70.39 29196.39 40.45 174 87.03
Sulawesi Tengah 0.37 66.76 28784.2 33.37 47 89.62
Sulawesi Selatan 0.40 69.15 29430.67 36.95 182 92.3
Sulawesi Tenggara 0.38 68.75 29201.9 30.48 66 94.39
Gorontalo 0.40 65.86 19473.94 37.14 101 87.57
Sulawesi Barat 0.36 62.96 20265.5 26.32 76 92.44
Maluku 0.34 67.05 14740.3 31.98 36 93.67
Maluku Utara 0.29 65.91 17534.41 31.4 36 91.94
Papua Barat 0.43 61.73 60064.13 39.45 9 92.84
Papua 0.39 57.25 41424.06 18.51 10 98.03
Sumber: (BPS, 2018)
3.5 Lembar Laporan Sementara
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi
linier sederhana dan berganda.
2. Deskripsi Kerja
kegunaan dalam melakukan analisis regresi linier sederhana dan
berganda.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari analisis regresi linier sederhana dan berganda.
4. Penutup
Tuliskan kesimpulan dari hasil analisis regresi linier sederhana
dan berganda.
5. Daftar Pustaka
4. Pengujian Asumsi dan Pelanggarannya
model regresi linier berganda dan uji asumsi.
software R dari model regresi linier berganda dan uji asumsi.
4.1 Landasan Teori
Analisis Regresi merupakan alat analisis yang termasuk ke dalam

statistika parametrik. Dengan demikian, untuk menggunakan regresi,
harus melakukan pengujian asumsi terlebih dahulu. Asumsi yang harus
terpenuhi, yaitu:
1. Kenormalan Residual
2. Tidak ada autokorelasi/residual saling bebas
3. Homoscedasticity/kehomogenan variansi residual
4. Tidak ada multikolinieritas (untuk analisis regresi berganda)
4.1.1 Kenormalan Residual

Uji kenormalan residual digunakan untuk melihat apakah sebaran
data yang ada terdistribusi secara normal atau tidak. Model regresi
yang baik adalah model yang memiliki distribusi data normal atau
Peng uji an Asumsi dan p e l an g gar an n ya 43

mendekati normal. Untuk mendeteksi normalitas dapat dilakukan
dengan analisis grafik dan uji statistik. Salah satu cara termudah untuk
melihat normalitas residual yaitu dengan melihat grafik histogram
yang membandingkan antara data observasi dengan distribusi. Hal ini
dapat menyesatkan khususnya untuk jumlah sampel yang kecil. Metode
yang lebih handal adalah dengan melihat normal probability plot yang
membandingkan distribusi kumulatif dan distribusi normal. Distribusi
normal akan membentuk satu garis lurus diagonal dan ploting data
residual akan dibandingkan dengan garis diagonal. Jika distribusi data
residual normal maka garis yang menggambarkan data sesungguhnya
akan mengikuti garis diagonalnya (Ghozali, 2007).
Metode yang digunakan dalam pengujian kenormalan residual
salah satunya dapat menggunakan Uji Kolmogorov-Smirnov dengan
hipotesis sebagai berikut:
H0: Residual menyebar normal
H1: Residual tidak menyebar normal
Selanjutnya p-value yang diperoleh dibandingkan dengan taraf
signifikansi. Jika p-value kurang dari , maka tolak dan sebaliknya.
Transformasi terhadap peubah respon menjadi bentuk yang lebih
normal adalah cara yang umum dipakai pada masalah ketidaknormalan.
Secara teori, transformasi tersebut ada apabila sebaran dari peubah
respon dapat diketahui. Namun demikian, terdapat beberapa
transformasi yang umum dipakai, yaitu acrsin, akar kuadrat, logaritma
dan transformasi logistik (Rawlings, Pantula, & Dickey, 1998). Sebagai
alternatif transformasi tersebut, dapat dipakai transformasi dengan
metode Box-Cox.
Salah satu cara untuk mendapatkan nilai optimal pada metode
Box-Cox adalah dengan mencari nilai yang akan meminimalkan
jumlahan kuadrat residual dari model statistika tersebut untuk data
hasil transformasi . Tabel 4.1 di bawah ini menunjukkan beberapa nilai
dengan transformasinya yang bersesuaian.
Tabel 4.1. Transformasi Box-Cox
Transformasi
λ
2 X2
0,5 X
0 In X
-0,5 1/ X
-1 1/X
Untuk mengestimasi nilai optimal untuk transformasi Box-Cox,

pada R dapat digunakan perintah box.cox.power() dalam
library(car).
4.1.2 Kebebasan Residual (Autokorelasi)
Residual yang berkorelasi mungkin disebabkan karena beberapa

hal. Residual dari pengamatan pada waktu tertentu cenderung untuk
berkorelasi dengan residual yang berdekatan. Misalkan saja pada
pengamatan pertumbuhan tanaman atau hewan, residual yang
didapatkan akan cenderung saling berkorelasi. Adanya autokorelasi
antar residual menyebabkan estimator yang diperoleh tidak memenuhi
sifat BLUE (Best Linear Unbiased Estimator), sama dengan jika variansi
dari residual bersifat heterogen. Apabila residual saling bebas, maka
plot antara residual dan urutan residual tersebut tidak akan memiliki
pola apapun.
Metode yang digunakan untuk mendiagnosis adanya autokorelasi
antar residual adalah dengan menggunakan uji Durbin-Watson. Berikut
adalah hipotesis pada Uji Durbin-Watson.
H0: Tidak terdapat autokorelasi pada residual
H1: Terdapat autokorelasi ordo pada residual
Selanjutnya p-value yang diperoleh dari uji ini dibandingkan
dengan taraf signifikansi. Jika p-value kurang dari α , maka tolak H0 dan

sebaliknya.
Statistik Uji Durbin-Watson didasarkan pada residual dari metode
OLS adalah
(Pers. 2 4.1)
∑t =2 (εˆt − εˆt −1 )
T
DW =
∑t =1 εˆt 2
T
dengan T adalah banyaknya pengamatan.
Nilai DW tersebut berkisar antara 0 sampai 4. Jika nilai DW lebih
rendah daripada batas bawah (Lower Bound/) maka ada autokorelasi
positif, sedangkan jika nilai DW leboh besar dari ( 4 − d ι ) , maka ada
autokorelasi negatif (Ghozali, 2007). Dalam pengambilan keputusan,
nilai DW dibandingkan dengan nilai pada tabel Durbin-Watson dengan
kriteria pengambilan keputusannya seperti pada Tabel 4.2 berikut.
Tabel 4.2. Tabel Uji Durbin-Watson
Nilai DW Keputusan
0 < DW < d ι atau 4 − d ι < DW < 4 Tolak
d u < DW < 4 − d u Terima
d ι < DW < d u atau 4 − d u < DW < 4 − d ι Tidak ada keputusan
Untuk mengatasi masalah adanya korelasi antar sisaan dapat

dilakukan dengan mengakomodasi adanya korelasi antar sisaan
ini. Berbagai model deret waktu dapat digunakan untuk keperluan
ini. Alternatif lain adalah dengan menerapkan metode kuadrat
terkecil terampat (Generalized Least Squares). Metode ini merupakan
pengembangan dari metode kuadrat terkecil terboboti, di mana
bobot yang digunakan adalah keseluruhan matriks ragam-peragam
sisaan. Kesulitan dari metode ini adalah bahwa struktur keragaman
sisaan seringkali tidak diketahui sehingga harus diduga dari data. Hasil
pendugaan yang tidak sesuai justru mengakibatkan dugaan dari metode
ini lebih buruk jika dibandingkan metode kuadrat terkecil (Rawlings,
Pantula, & Dickey, 1998)
Lebih jauh mengenai metode ini dapat dibaca pada (Rawlings,
Pantula, & Dickey, 1998). Metode lain yang dapat digunakan untuk
mengatasi masalah ini adalah Prosedur Cochran-Orcutt atau Prosedur
Hildreth-Lu. Kedua metode ini mengasumsikan terdapat autokorelasi
ordo 1 pada sisaan data deret waktu. Lebih jauh mengenai prosedur ini
dapat dibaca pada (Pindyck & Rubinfeld, 2013).
4.1.3 Kehomogenan Variansi Residual
Uji heterokedastisitas bertujuan menguji apakah dalam model

regresi terjadi ketidaksamaan varians dari residual satu pengamatan ke
pengamatan lain. Heterokedastisitas terjadi apabila variabel gangguan
tidak mempunyai varians yang sama untuk semua observasi. Model
regresi yang baik adalah yang homokedastisitas atau tidak terjadi
heterokedastisitas (Ghozali, 2007).
Pengaruh dari tidak dipenuhinya asumsi ini adalah presisi/
kecermatan dari estimator metode OLS menjadi lebih kecil
jika dibandingkan dengan estimator yang mengakomodir
ketidakhomogenan residual tersebut (Rawlings, Pantula, & Dickey,
1998).
Hipotesis untuk menguji kehomogenan variansi residual:
H0: Asumsi kehomogenan variansi residual terpenuhi
H1: Asumsi kehomogenan variansi residual tidak terpenuhi
Langkah berikutnya adalah membandingkan p-value yang
diperoleh dengan taraf signifikansi. Jika p-value kurang dari α , maka
tolak H0 dan sebaliknya.
Pengujian asumsi ini bisa menggunakan scatter plot antara nilai
residual standardize predicted value dengan regression studentized
residual. Selain itu dapat digunakan Uji Breusch Pagan ataupun Uji White.
Pada uji Breusch Pagan dihitung nilai statistik BP = ∑ yˆ ι / 2 dari regresi
2
( εˆ 2
)
semu (auxiliary) antara residual terstandardisasi pι = ι /σˆ , dimana
2
∑
σˆ 2 = εˆι2 terdapat variabel-variabel prediktor. Berdasarkan asumsi
normalitas dari residual diketahui bahwa statistik BP akan berdistribusi
X2 dengan derajat bebas k yaitu banyaknya variabel prediktor dalam

persamaan regresi semu, tidak termasuk konstanta dalam model.
Dua pendekatan yang dilakukan untuk mengatasi masalah
ketidakhomogenan variansi residual ini adalah dengan transformasi
variabel respon atau dengan menggunakan metode kuadrat terkecil
terboboti (Weighted Least Square). Lebih jauh mengenai metode ini
dapat dibaca di (Rawlings, Pantula, & Dickey, 1998), (Neter, Wasserman,
& Kutner, 1990) dan (Pindyck & Rubinfeld, 2013).
4.1.4 Multikolinearitas
Pengujian Multikolinearitas juga sering disebut uji independensi.
Pengujian ini akan melihat apakah antara sesama variabel prediktor
memiliki hubungan yang besar atau tidak. Jika hubungan antara sesama
variabel prediktor kuat, maka antara variabel prediktor tersebut tidak
saling bebas.
Untuk mendeteksi adanya masalah multikolinearitas dapat
dilakukan dengan eksplorasi hubungan antar variabel prediktor,
baik melalui scatter plot maupun menghitung korelasi antar variabel
prediktor. Cara lain dapat dilakukan dengan menghitung nilai VIF atau
Variance Inflation Factor.
Menurut (Santoso, 2012) rumus yang digunakan adalah sebagai
berikut:
1 atau Tolerance = 1 (Pers. 4.2)
VIF =
Tolerance VIF
Untuk mendeteksi ada atau tidaknya gejala multikolinearitas di
dalam model regresi adalah sebagai berikut:
1. Nilai R2 yang dihasilkan oleh suatu estimasi model regresi empiris
sangat tinggi, tetapi secara individual variabel-variabel prediktor
banyak yang tidak signifikan mempengaruhi variabel terikat.
2. Menganalisis matrik korelasi antar variabel prediktor. Jika ada
korelasi yang cukup tinggi, maka di dalam model regresi tersebut
terdapat multikolinearitas.
3. Multikolinearitas dapat dilihat dari nilai tolerance dan VIF. Jika
nilai tolerance yang rendah sama dengan nilai VIF tinggi, maka
menunjukkan adanya kolonieritas yang tinggi (karena VIF=1/
Tolerance). Nilai cutoff yang umum dipakai untuk menunjukan
adanya multikolinearitas adalah nilai tolerance<0,10 atau sama
dengan nilai VIF>10
Terdapat beberapa cara yang dapat digunakan untuk mengatasi

masalah multikolinearitas ini, antara lain dengan menambah
pengamatan, menghilangkan peubah yang berkorelasi kuat dengan
peubah lain, menggunakan peubah penjelas lain yang tidak berkorelasi
dengan peubah penjelas lain, atau dengan menggunakan teknik selain
metode kuadrat terkecil dalam pendugaan paramater. Untuk cara
yang terakhir tersebut dikembangkan beberapa metode alternatif
di antaranya adalah Regresi Gulud (Ridge Regression) dan Regresi
Komponen Utama (Principal Component Regression).
4.2 Alat dan Bahan
Alat yang digunakan adalah R atau RStudio. Bahan yang digunakan

adalah data rata-rata penjualan yang disajikan pada Tabel 3.1. pada Bab
3.
4.3 Prosedur Kerja
4.3.1 Prosedur Kerja Pengujian Asumsi Kenormalan Sisaan
a. Dari hasil analisis regresi berganda, diperoleh beberapa

output, salah satunya adalah residuals yang akan kita uji
kenormalannya. Cara untuk mengambil data residuals dari
hasil regresi menggunakan perintah out2$residuals.

Gambar 4.1. Pendefinisian residual dari model regresi berganda
Diperoleh data residuals sebagaimana pada Gambar 4.1. dengan

mean 0,00000 dan standard deviasi 1,085987.
b. Pengujian kenormalan sisaan/residual
• Shapiro Wilk Test : shapiro.test()
• Pengujian kenormalan sisaan/residual menggunakan
library(tseries)
⇒⇒ Jarque Bera Test (JB) :jarque.bera.test()
• Pengujian kenormalan sisaan/residual menggunakan
library(nortest)
⇒⇒ Lilliefors/ Kolmogorov-Smironov : lillie.test()
⇒⇒ Anderson-Darling : ad.test()
⇒⇒ Shapiro-Francia : sf.test()
⇒⇒ Cramer Von-Mises : cvm.test()
⇒⇒ Pearson Chi Square : pearson.test()
Misalkan kita ingin menguji kenormalan residual menggunakan

uji Kolmogorov-Smirnov maka menggunakan perintah lillie.
test(out2$residuals)
Gambar 4.2. Uji normalitas residual dengan uji Kolmogorov-Smirnov
c. Histogram dan plot distribusi normal

Berikut ini adalah perintah dalam R untuk membuat histogram
dan plot distribusi normal.
Gambar 4.3. Perintah untuk membuat histogram dan plot distribusi normal
Gambar 4.4. Histogram dan plot distribusi normal
Dari output R pada Gambar 4.2. terlihat bahwa p-value > α (0,05),
maka tidak cukup bukti untuk menolak HO, berarti residual menyebar

normal. Sedangkan dari Gambar 4.4. juga terlihat bahwa histogram dari
data residual memenuhi atau mempunyai bentuk yang hampir sama
dengan plot distribusi normal, sehingga dapat disimpulkan residual
menyebar normal, dengan kata lain asumsi kenormalan residual telah
terpenuhi.
4.3.2 Prosedur Kerja Pengujian Asumsi Kebebasan Residual
Uji Durbin-Watson menggunakan library(lmtest) dengan

perintah dwtest().
Gambar 4.5. Perintah Uji Durbin-Watson di R
Dari output R pada Gambar 4.5. diperoleh nilai DW yaitu sebesar

2,334 dengan nilai p-value sebesari 0,6959 lebih besar dari α (0,05), maka
tidak cukup bukti untuk menolak HO, berarti tidak terdapat autokorelasi
pada residual, dan asumsi kebebasan residual telah terpenuhi.
4.3.3 Prosedur Kerja Pengujian Asumsi Kehomogenan

Variansi Residual
Uji Breusch Pagan menggunakan library(lmtest) dengan

perintah bptest().
Gambar 4.6. Perintah Uji Breusch Pagan di R
Dari output R pada Gambar 4.6. diperoleh nilai Breusch Pagan (BP)
yaitu sebesar 2,9137 dengan nilai p-value sebesari 0,233 lebih besar dari
α (0,05), maka tidak cukup bukti untuk menolak HO, berarti asumsi
kehomogenan variansi residual terpenuhi.
4.3.4 Prosedur Kerja Pengujian Asumsi Multikolinearitas

Untuk menghitung VIF menggunakan library(car) dengan
perintah vif().
Gambar 4.7. Perintah menghitung nilai VIF di R
Berdasarkan output R pada Gambar 4.7., diperoleh nilai VIF

untuk variabel banyaknya pekerja sebesar 3,480647 dan luas toko
sebesar 3,480647. Kedua nilai VIF ini tidak melebihi VIF sehingga
dapat disimpulkan bahwa asumsi tidak adanya multikolinearitas telah
terpenuhi.
4.4 Lembar Kerja
Soal:
Terdapat data populasi, kemiskinan, pendidikan, dan
pengangguran dari negara Jerman tahun 2016. Analisislah apakah ada
pengaruh tingkat kemiskinan dan populasi terhadap tingkat pendidikan
di negara jerman pada tahun 2016.
Tabel 4.3. Data Populasi di Jerman Tahun 2016
No Provinsi Pendidikan Kemiskinan Populasi

1 Baden-Wurttemberg 361855 27420 9355239
2 Bayern 389080 41893 11379653

No Provinsi Pendidikan Kemiskinan Populasi
3 Berlin 187107 246 2918072
4 Brandenburg 49269 12190 2413079
5 Bremen 37149 114 578877
6 Hamburg 107455 190 1492489
7 Hessen 260184 16106 5307140
Mecklenburg-
39137 10005 1583154
8 Vorpommern
9 Niedersachsen 209770 28035 7352720
10 Nordhein-Westfalen 768840 29536 15932038
11 Rheinland-Pfalz 123211 18370 3717802
12 Saarland 31517 2048 933397
13 Sachsen 111550 13436 3979538
14 Sachsen-Anhalt 54212 10945 2247873
15 Schleswig-Holstein 62057 9874 2683060
16 Thuringen 49832 9562 2155853
a. Identifikasi variabel dependen dan variabel independen dari data

tersebut.
b. Lakukan analisis regresi linier berganda dengan menggunakan
software R.
c. Lakukan pemeriksaan asumsi untuk model analisis regresi yang
didapatkan (uji normalitas, uji autokorelasi, uji homoskedastisitas,
uji mulikolinearitas).
d. Tentukan model terbaik dan interpretasikan.
e. Lakukanlah prediksi untuk data tersebut.
4.5 Lembar Kerja Sementara
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan uji asumsi model
regresi linier berganda.
2. Deskripsi Kerja
kegunaan dalam melakukan uji asumsi model regresi linier
berganda.
3. Pembahasan
dari uji asumsi model regresi linier berganda, dan penjelasan dari
pertanyaan yang diberikan.
4. Penutup
Tuliskan kesimpulan dari pertanyaan yang diberikan.
5. Daftar Pustaka

5. Regresi Nonlinier
model regresi nonlinier.
software R dari model regresi nonlinier.
5.1 Landasan Teori
Dalam analisis Regresi, melalui metode Kuadrat Terkecil, model-

model yang linear dalam parameter dan yang berbentuk :
Y = β0 + β1Z1 + β2 Z 2 + ... + β p Z p + ε (Pers. 5.1)
dimana merupakan sembarang fungsi peubah-peubah peramal .
Dalam banyak bidang ilmu-ilmu fisika, kimia, teknik dan biologi, banyak
situasi percobaan yang secara teoritis menggunakan model regresi
nonlinear. Model-model nonlinear tersebut diantaranya berbentuk:
(Pers. y = α e βX + ε 5.2)
α
y +ε
(Pers.
( (
1 + exp − β x + β x + ... + β x
1 1 2
5.3)
2 k k ))
y = α + β1 x1 + β2 x 2 + ... + βK x K + ε
(Pers.
Y1 Y2 YK
5.4)
reg re si no nlinie r 57
Meskipun persamaan ini dapat merepresentasikan berbagai
keragaman yang luas, namun ada banyak situasi yang tidak dapat
dianalisis oleh model tersebut.Misalnya, dalam kasus tersedianya
informasi yang pasti tentang hubungan antara peubah respon dan
peubah peramal. Informasi yang seperti itu mungkin mengandung
pengetahuan yang langsung tentang bentuk model yang sesungguhnya
atau mungkin dapat dipresentasikan melalui suatu persamaan
diferensial yang harus dipenuhi oleh model tersebut. Bila informasi
membawa kita pada model nonlinier, biasanya bila mungkin kita lebih
suka menggunakannya daripada mengambil model linier alternatif
(hasil diferensial) yang mungkin kurang realistis (Draper & Smith, 1998).
5.2 Alat dan Bahan
Alat yang digunakan adalah laptop yang terinstall R dan RStudio.

Sementara bahan praktikum adalah data advisory fee yang disajikan
pada Tabel 5.1.
Tabel 5.1. Data Advisory Fee
No Fee (%) Asset

1 0.52 0.5
2 0.508 5
3 0.484 10
4 0.46 15
5 0.4398 20
6 0.4238 25
7 0.4115 30
8 0.402 35
9 0.3944 40
10 0.388 45
11 0.3825 55
12 0.3738 60
* Aset mewakili nilai aset bersih, miliaran dolar
Data pada Tabel 5.1. berkaitan dengan biaya manajemen yang
merupakan perusahaan reksadana terkemuka di Amerika Serikat yang
membayar kepada penasihat investasinya (advisory fee) untuk mengelola
asetnya. Biaya yang dibayarkan tergantung pada nilai aset bersih dari
dana tersebut. Terlihat bahwa semakin tinggi nilai asset bersih dari dana
maka semakin rendah biaya penasihat investasi (Damodar, 2009).
5.3 Prosedur Kerja

5.3.1 Prosedur Kerja Model Regresi Linier Sederhana
1). Input data
data2 = read.csv(file.choose(), header=TRUE,
sep=”;”)
Gambar 5.1. Penginputan data di R
2). Mencoba menganalisis data menggunakan regresi linier

sederhana, yaitu
Gambar 5.2. Output regresi linier sederhana
Dari output pada Gambar 5.2. diperoleh nilai R2 sebesar 91,27%

dan p-value untuk uji overall sebesar 0,000 yang lebih kecil dari taraf
signifikansi 0,05, sehingga dapat disimpulkan bahwa model regresi
linier sederhana yang digunakan layak untuk data advisory fee. Namun
jika data tersebut diplot, maka plot yang dihasilkan tidak linier atau
tidak membentuk garis lurus.
Gambar 5.3. Plot hubungan data asset dan fee
Meskipun nilai R2 pada regresi linier sederhana cukup tinggi, tetapi
kurang tepat jika tetap digunakan model tersebut. Selanjutnya akan
dicoba model nonlinier, misalnya model kuadratik dan kubik.
5.3.2 Prosedur Kerja Model Regresi Nonlinier Kuadratik

Menggunakan perintah:
regreskuadratik=lm(fee~asset+I(asset^2),
data=data2)
Gambar 5.4. Output regresi nonlinier kuadratik
Dari output R pada Gambar 5.4. terlihat bahwa p-value untuk model
kuadratik kurang dari taraf signifikansi 0,05, artinya model kuadratik
tersebut layak pada taraf signifikansi 0,05 dengan nilai sebesar 99,56%.
Diperoleh model regresi kuadratik untuk data advisory fee adalah model
regresi.
5.3.3 Prosedur Kerja Model Regresi Nonlinier Kubik
Menggunakan perintah
regreskubik=lm(fee~asset+I(asset^2)+
I(asset^3), data=data2)
Gambar 5.5. Output regresi nonlinier kubik
Dari output pada Gambar 5.4. dan Gambar 5.5. terlihat bahwa
p-value untuk model kuadratik dan kubik kurang dari taraf signifikansi
0,05, artinya kedua model tersebut layak pada taraf signifikansi 5%
dengan nilai R2 yang hampir sama yaitu sebesar 99,56%. Akan tetapi
pada model kubik terdapat satu variabel predictor yang tidak signifikan,
sehingga pada kasus ini dipilih model kuadratik. Jadi, persamaan regresi
untuk kasus ini adalah Y =
0 , 527 − 0 , 005088 X + 0 , 00004339 X 2 .
5.4 Lembar Kerja
Soal:
Berikut merupakan data inflasi dan pertumbuhan ekonomi tahunan di
Indonesia tahun 2010-2017 pada Tabel 5.2.
Tabel 5.2. Data Inflasi dan Pertumbuhan Ekonomi Indonesia 2010-2017

Tahun Inflasi (%) Pertumbuhan ekonomi (%)
2010 6.96 6.81
2011 3.79 6.44
2012 4.3 6.19
2013 8.38 5.56
2014 8.36 5.02
2015 3.35 4.79
2016 3.02 5.02
2017 3.61 5.07
Sumber: (BI, Tingkat Inflasi, 2018)
Dengan menggunakan Inflasi sebagai variabel independen (X) dan

Pertumbuhan Ekonomi sebagai variabel dependen (Y). Lakukan :
1. Estimasi Plot
2. Estimasi model nonlinier
3. Model terbaik yang didapatkan
4. Koefisien determinasi model terbaik
5. Interprestasi model terbaik
6. Perbandingan data aktual dan data prediksi
7. Kesalahan prediksi (MAPE)
1. Pendahuluan
nonlinier.
2. Deskripsi Kerja
kegunaan dalam melakukan analisis regresi nonlinier.
3. Pembahasan
dari analisis regresi nonlinier dan penjelasan dari pertanyaan
yang diberikan.
4. Penutup
Tuliskan kesimpulan dari pertanyaan yang diberikan.
5. Daftar Pustaka
6. Regresi Dummy
model regresi dummy.
software R dari model regresi dummy.
6.1 Landasan Teori
Menurut (Damodar, 2009), dalam analisis regresi, variabel respon

sering dipengaruhi tidak hanya oleh variabel predictor dengan skala
rasio (misalnya, pendapatan, output, harga, biaya, tinggi, suhu) tetapi
juga oleh variabel yang pada dasarnya kualitatif atau berskala nominal
seperti jenis kelamin, ras, warna kulit, agama, kebangsaan, wilayah
geografis, pergolakan politik, dan afiliasi partai.
Salah satu cara untuk mengukur atribut-atribut tersebut adalah
dengan membangun variabel bantuan dengan memberikan kode
1 atau 0, 1 menunjukkan keberadaan dari atribut tersebut dan 0
yang menunjukkan tidak adanya atribut tersebut. Misalnya 1 dapat
menunjukkan bahwa seseorang adalah perempuan dan 0 adalah pria,
atau 1 dapat menunjukkan bahwa seseorang adalah lulusan perguruan
tinggi dan 0 bahwa orang tersebut bukan lulusan perguruan tinggi,
Reg re si Dummy 65
dan seterusnya. Variabel dengan kode nilai 0 dan 1 tersebut disebut
variabel dummy. Variabel dummy pada dasarnya merupakan alat untuk
mengklasifikasikan data ke dalam kategori yang telah ditentukan seperti
pria atau wanita.
6.2 Alat dan Bahan

Sementara bahan praktikum adalah data kepuasan kerja yang disajikan
pada Gambar 6.1.
Tabel 6.1. Data rata-rata gaji guru
Salary Spending D2 D3 Salary Spending D2 D3

19583 3346 1 0 22795 3366 0 1
20263 3114 1 0 21570 2920 0 1
20325 3554 1 0 22080 2980 0 1
26800 4642 1 0 22250 3731 0 1
29470 4669 1 0 20940 2853 0 1
26610 4888 1 0 21800 2533 0 1
30678 5710 1 0 22934 2729 0 1
27170 5536 1 0 18443 2305 0 1
25853 4168 1 0 19538 2642 0 1
24500 3547 1 0 20460 3124 0 1
24274 3159 1 0 21419 2752 0 1
27170 3621 1 0 25160 3429 0 1
30168 3782 1 0 22482 3947 0 0
26525 4247 1 0 20969 2509 0 0
27360 3982 1 0 27224 5440 0 0
21690 3568 1 0 25892 4042 0 0
21974 3155 1 0 22644 3402 0 0
20816 3059 1 0 24640 2829 0 0
18095 2967 1 0 22341 2297 0 0
20939 3285 1 0 25610 2932 0 0
22644 3914 1 0 26015 3705 0 0
24624 4517 0 1 25788 4123 0 0
27186 4349 0 1 29132 3608 0 0
33990 5020 0 1 41480 8349 0 0
23382 3594 0 1 25845 3766 0 0
20627 2821 0 1
Sumber: National Educational Association, as reported by Albuquerque Tribune, Nov. 7, 1986.
6.3 Prosedur Kerja

Tabel 6.1. menunjukkan data rata-rata gaji guru sekolah umum
di beberapa negara pada tahun 1986 berdasarkan area. Kode D2 =
1 menunjukkan area di Northeast dan North Cental, sedangkan 0
menunjukkan area lainnya. Kode D3 = 1 menunjukkan area South dan 0
menunjukkan area lain.
6.3.1 Prosedur Kerja Analisis Regresi Dummy
1). Input data

data3 = read.csv(file.choose(), header=TRUE,
sep=”;”)
Reg re si Dummy 67
Gambar 6.1. Penginputan data rata-rata gaji guru di R
2). Menggunakan perintah
regresdumi=lm(salary~spending+D2+D3,
data=data3)
Gambar 6.2. Output analisis regresi dummy
Terlihat pada Gambar 6.3. untuk nilai F-statistic bahwa secara
overall semua variabel prediktor mampu memprediksi rata-rata gaji guru
(salary) secara signifikan ( p − value= 0 , 00 < α= 0 , 05 ) . Rata-rata gaji guru
dipengaruhi atau dapat dijelaskan oleh variabel spending, D2, dan D3
sebesari 72,27%, dan sisanya dijelaskan oleh variabel lain di luas model.
Berikut ini adalah persamaan regresi dummy dari data rata-rata gaji
guru: Y =13269 ,1141 + 3 , 2888spending −1673 , 5144D 2 −1144 ,1557D 3
Nilai signifikansi untuk masing-masing variabel prediktor
menunjukkan bahwa D3 tidak berpengaruh secara signifikan terhadap
rata-rata gaji guru ( p − value
= 0 ,1904 <= α 0 , 05 ) , maka akan dicoba
mengeluarkan variabel D3 dari model.
Gambar 6.3. Output analisis regresi dummy setelah variabel D3 dikeluarkan
Dari output pada Gambar 6.3. terlihat bahwa semua variabel

prediktor mampu memprediksi rata-rata gaji secara signifikan
( p − value= 0 , 00 < α= 0 , 05 ) . Namun variabel D2 mempunyai
p-value yang lebih besar dari taraf signifikansi, maka variabel D2 akan
dikeluarkan dari model.
Reg re si Dummy 69
Gambar 6.4. Output analisis regresi dummy setelah variabel D2 dikeluarkan
Pada Gambar 6.4. terlihat semua variabel telah signifikan secara

parsial maupun overall. Dalam kasus ini ternyata variabel dummy
tidak berpengaruh terhadap rata-rata gaji gutu. Persamaan akhir yang
diperoleh adalah
 = 1213 + 3 , 308spending .
salary
6.4 Lembar Kerja

Soal:
Download data saham Unilever Indonesia Tbk. (UNVR) dan data
Indeks Harga Saham Gabungan Bursa Efek Indonesia (IHSG) periode
harian dengan rentang waktu antara 16 Oktober 2014 sampai dengan
15 Oktober 2015 melalui https://finance.yahoo.com/ (Finance, 2018).
Kemudian lakukan analisis regresi dumi dengan variabel dependen
Return saham UNVR Close Prices (Y), variabel independen Return IHSG
Close Prices (X1) dan Efek Monday (X2).
Lakukan analisis menggunakan R.
1. Pendahuluan
dummy.
2. Deskripsi Kerja
kegunaan dalam melakukan analisis regresi dummy.
3. Pembahasan
dari analisis regresi dummy.
4. Penutup
Tuliskan kesimpulan dari analisis regresi dummy yang dilakukan.
5. Daftar Pustaka
Reg re si Dummy 71
7. Regresi Logistik
model regresi logistik.
software R dari model regresi logistik.
7.1 Landasan Teori
Regresi logistik merupakan perkembangan dari regresi linier.
Dalam regresi logistik variabel respon berupa kategori dan tidak
kontinu. Regresi logistik bisa berupa binomial dan multinomial. Pada
regresi logistik binomial atau binari, output dari variabel respon hanya
mempunyai dua output misalkan “Ya” atau “Tidak”, “Sukses” atau “Gagal”.
Secara umum, output ini dikodekan menjadi “0” dan “1”. Sedangkan
regresi logistik multinomial digunakan pada kasus output tiga atau
lebih seperti “bagus”, “sangat bagus”, dan “paling bagus”.
Tujuan dari regresi logistik adalah memprediksi peluang atau
probability dari variabel respon. Selain itu, untuk memprediksi efek
dari serangkaian variabel predictor pada variabel respon biner dan
mengklasifikasikan observasi dengan memperkirakan probabilitas
bahwa observasi tersebut ada dalam kategori tertentu atau tidak.
Model baseline dalam kasus regresi logistik adalah memprediksi
hasil yang paling sering muncul sebagai hasil untuk semua titik data,
Reg re si Lo g istik 73
misalkan sering muncul “Sukses”.
Output dari model regresi logistik adalah probabilitas, sehingga
perlu dipilih nilai ambang (threshold). Jika probabilitasnya lebih besar
dari nilai ambang ini, output tersebut diprediksi akan terjadi dan
sebaliknya.
Dalam pengklasifikasian digunakan confusion matrix dengan
membandingkan hasil aktual dengan hasil yang diprediksi. Baris diberi
label dengan hasil aktual sementara kolom diberi label dengan hasil
yang diprediksi.
Setelah proses pengklasifikasian kemudian dihitung seberapa
akurat model yang diperoleh yaitu Nilai True Positive (TP)+Nilai True
Negative (TN)/Total.
7.1.1 Persamaan Regresi Logistik
Peluang harapan bahwa Y=1 (sukses) berdasarkan nilai X yang

diberikan adalah
e β + β X + β X +... + β X
o 1 1 2 2 n n
= (Yι1IX ) .
π ι P= β + β X + β X + ... + β X .
(Pers. 7.1)
1+e o 1 1 2 2 n n
dengan βo merupakan konstanta, β1 merupakan koefisien

masing- masing variabel.
Sedangkan nilai odds ratio
π (Pers. 7.2)
= e βo + β1X1 + β2 X 2 +... + βn X n
1 −π
Nilai odds ratio > 1 maka akan lebih mungkin masuk ke dalam Y=1
(sukses).
Nilai odds ratio < 1 maka akan lebih mungkin masuk ke dalamY=0
(gagal).
Nilai odds ratio = 0,5 maka tidak ada hubungan antara Y dan X.
7.2 Alat dan Bahan
Sementara bahan praktikum adalah data nilai akhir mahasiswa yang
disajikan pada Tabel 7.1.
Download data pada https://github.com/parulnith/A-guide-
to-Machine-Learning-in-R/blob/master/Part%205%20Logistic%20
regression%20dataset/quality.csv. Data tersebut berisi data pelayanan
dalam sebuah rumah sakit, pelayanan bagus (good care) dikodekan
dengan 0 dan pelayanan buruk (poor care) dikodekan dengan satu.
Sementara itu variabel yang mempengaruhi adalah variabel Office Visits
dan Narcotics. Akan dilakukan analisis untuk meningkatkan kualitas
pelayanan rumah sakit tersebut (Pandey, 2018).
Tabel 7.1. Data Pelayanan Rumah Sakit

Member- Office- Narco- Poor- Member- Office- Narco- Poor-
ID Visits tics Care ID Visits tics Care
1 18 1 0 67 2 1 0
2 6 1 0 68 9 2 0
3 5 3 0 69 6 0 0
4 19 0 0 70 13 6 0
5 19 3 0 71 14 0 0
6 9 2 1 72 18 1 0
7 8 1 0 73 1 1 0
8 8 0 0 74 14 1 0
9 4 3 1 75 6 2 0
10 0 2 0 76 7 3 0
11 20 2 0 77 3 2 0
12 7 4 0 78 6 2 0
13 3 1 0 79 8 0 0
14 20 3 0 80 5 0 0
15 31 3 0 81 6 0 0
16 8 0 0 82 13 2 0
17 9 0 0 83 22 9 1
18 20 1 1 84 26 46 1
19 14 0 0 85 9 0 1
20 20 0 0 86 4 0 0
21 14 1 1 87 7 4 0
22 9 1 0 88 9 5 0
23 12 0 0 89 5 3 0
24 6 2 1 90 0 0 0
25 14 1 0 91 9 11 0
26 7 0 0 92 9 1 0
27 12 0 0 93 15 0 0
28 3 2 1 94 15 0 0
29 18 32 1 95 8 0 0
30 21 6 1 96 5 3 0
31 2 0 0 97 18 4 0
32 45 0 0 98 11 1 0
33 6 0 0 99 15 2 1
34 2 5 0 100 7 0 0
35 46 2 1 101 26 0 1
36 37 2 0 102 11 1 0
37 9 0 0 103 14 1 1
38 7 1 0 104 16 10 1
39 15 1 0 105 15 25 1
40 8 0 0 106 28 59 1
41 15 0 1 107 25 20 1
42 9 0 0 108 5 11 0
43 0 0 0 109 12 0 0
44 19 1 0 110 7 21 1
45 13 0 0 111 24 1 0
46 21 25 1 112 29 40 1
47 31 3 1 113 22 0 0
48 5 2 1 114 14 25 1
49 2 0 0 115 12 8 0
50 6 3 0 116 10 1 0
51 15 0 0 117 21 25 1
52 28 0 0 118 16 3 0
53 18 0 0 119 22 9 0
54 7 0 0 120 9 0 0
55 7 0 0 121 9 1 0
56 46 0 1 122 8 0 0
57 10 0 0 123 7 1 0
58 25 34 0 124 17 0 0
59 19 19 0 125 23 0 1
60 17 2 1 126 6 0 0
61 7 0 0 127 5 3 0
62 13 30 1 128 3 2 0
63 20 1 0 129 5 9 0
64 13 0 1 130 14 1 1
65 19 1 0 131 22 3 0
66 25 0 0
7.3 Prosedur Kerja

1). Input data
datanilai=read.csv(file.choose(),
header=TRUE, sep=”;”)
Gambar 7.1. Penginputan data nilai di R

2). Menghitung model baseline
Gambar 7.2. Model baseline
Nilai untuk model baseline kurang lebih sebesar 75%, artinya
pelayanan rumah sakit sudah cukup baik.
3). Membagi data menjadi data training dan data testing
Gambar 7.3. Spliting data
Data dibagi menjadi dua yaitu sebanyak 75% digunakan untuk

data training yaitu untuk membangun model dan sisanya sebagai data
testing untuk menghitung akurasi dari model yang diperoleh. set.
seed(88)digunakan untuk merandom data sebanyak 88 kali.
4). Model regresi logistik
Gambar 7.4. Model regresi logistik
Nilai signifikansi pada Gambar 7.4. menunjukkan seluruh variabel
predictor signifikan pada taraf signifikansi 5%.
Gambar 7.5. Hasil prediksi variabel respon berupa peluang
5). Penentuan threshold

library(ROCR)
ROCRpred = prediction(predictTrain,
qualityTrain$PoorCare)
ROCRperf = performance(ROCRpred, “tpr”,

“fpr”)
plot(ROCRperf)
plot(ROCRperf, colorize=TRUE)
plot(ROCRperf, colorize=TRUE, print.cutoffs.

at=seq(0,1,by=0.1), text.adj=c(-0.2,1.7))
Gambar 7.6. Plot Receiver Operator Characteristic (ROC)
Dalam penentuan threshold terdapat dua aturan, jika ingin

memilih threshold tinggi maka pilih specificity (false positive rate) tinggi
dan sensitivity (true positive rate) rendah. Sebaliknya jika ingin memilih
threshold rendah maka pilih specificity (false positive rate) rendah dan
sensitivity (true positive rate) tinggi.
Dalam kasus ini dipilih nilai threshold sebesar 0,3.
6). Menghitung tingkat akurasi
Gambar 7.7. Tingkat akurasi model
Berdasarkan output pada Gambar 7.7. prediksi tingkat pelayanan

bagus sebanyak 19 dan salah prediksi sebanyak 5, sedangkan prediksi
tingkat pelayanan buruk sebanyak 2 dan salah prediksi sebanyak 6. Oleh
karena itu diperoleh tingkat akurasi sebesar 78%. Hasil ini lebih besar
dari model baseline yaitu sebesar 75%, artinya model regresi logistik
pada kasus ini dapat meningkatkan kualitas pelayanan rumah sakit
tersebut sebanyak 3%.
7.4 Lembar Kerja

Soal:
Tabel 7.2. merupakan daftar usia dalam tahun (AGE) dan ada atau
tidak adanya bukti penyakit jantung koroner yang signifikan (CHD)
untuk 100 individu yang dipilih untuk berpartisipasi dalam penelitian.
Tabel 7.2. juga berisi identifier variable (ID) dan variabel grup usia
(AGRP). Variabel hasil adalah CHD, yang dikodekan dengan nilai nol
menunjukkan tidak ada CHD dan 1 untuk menunjukkan bahwa itu CHD
ada dalam individu yang berpartisipasi (Hosmer, 2000).
Tabel 7.2. Data Penyakit Jantung Koroner
ID AGE AGRP CHD ID AGE AGRP CHD

1 20 1 0 51 44 4 1
2 23 1 0 52 44 4 1
3 24 1 0 53 45 5 0
4 25 1 0 54 45 5 1
5 25 1 1 55 46 5 0
6 26 1 0 56 46 5 1
7 26 1 0 57 47 5 0
8 28 1 0 58 47 5 0
9 28 1 0 59 47 5 1
10 29 1 0 60 48 5 0
11 30 2 0 61 48 5 1
12 30 2 0 62 48 5 1
13 30 2 0 63 49 5 0
14 30 2 0 64 49 5 0
15 30 2 0 65 49 5 1
16 30 2 1 66 50 6 0
17 32 2 0 67 50 6 1
18 32 2 0 68 51 6 0
19 33 2 0 69 52 6 0
20 33 2 0 70 52 6 1
21 34 2 0 71 53 6 1
22 34 2 0 72 53 6 1
23 34 2 1 73 54 6 1
24 34 2 0 74 55 7 0
25 34 2 0 75 55 7 1
26 35 3 0 76 55 7 1
27 35 3 0 77 56 7 1
28 36 3 0 78 56 7 1
29 36 3 1 79 56 7 1
30 36 3 0 80 57 7 0
31 37 3 0 81 57 7 0
32 37 3 1 82 57 7 1
33 37 3 0 83 57 7 1
34 38 3 0 84 57 7 1
35 38 3 0 85 57 7 1
36 39 3 0 86 58 7 0
37 39 3 1 87 58 7 1
38 40 4 0 88 58 7 1
39 40 4 1 89 59 7 1
40 41 4 0 90 59 7 1
41 41 4 0 91 60 8 0
42 42 4 0 92 60 8 1
43 42 4 0 93 61 8 1
44 42 4 0 94 62 8 1
45 42 4 1 95 62 8 1
46 43 4 0 96 63 8 1
47 43 4 0 97 64 8 0
48 43 4 1 98 64 8 1
49 44 4 0 99 65 8 1
50 44 4 0 100 69 8 1
Lakukan analisis regresi logistik berdasarkan data pada Tabel 7.2.

menggunakan R.
1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi logistik.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan kegunaan
dalam melakukan analisis regresi logistik.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output dari
analisis regresi logistik.
4. Penutup
Tuliskan kesimpulan dari analisis regresi logistik yang dilakukan.
5. Daftar Pustaka
Referensi
BI. (2018, 9 1). Tingkat Inflasi. Diambil kembali dari bi.go.id
BPS. (2018, 8 15). Data Indeks Gini di Indonesia Tahun 2015. Diambil
kembali dari bps.go.id
Cran. (2018, 7 2). The Comprehensive R Archive Network. Diambil kembali
dari Cran R-Project: https://cran.r-project.org/
Damodar, G. N. (2009). Basic Econometric 5th Edition. New York: McGraw
–Hill.
data.go.id. (2018, 8 8). Dataset. Diambil kembali dari : https://data.
go.id/dataset/jumlah-kecelakaan-korban-mati-luka-berat-luka-
ringan-dan-kerugian-materi/resource/8402261e-8bc4-4789-8059-
2b5c248b91ed
Draper, N. R., & Smith, H. (1998). Applied Regression Analysis, 3rd Edition.
New York: John Wiley & Sons.
Finance, Y. (2018, 9 20). Saham. Diambil kembali dari finance.yahoo.com
Ghozali, I. (2007). Aplikasi Analisis Multivariat dengan Program SPSS (Edisi
Ke 4). Semarang: Badan Penerbit Universitas Diponegoro.
Graybill, F. A. (1994). Regression Analysis; Concepts and Applications. USA:
Duxbury Pr.
Hosmer, D. W. (2000). Applied Logistic Regression. USA: John Willey and
Son, Inc.
Neter, J., Wasserman, W., & Kutner, M. H. (1990). Applied Linear Statistical
Models. New York: The McGraw Hill.
Pandey, P. (2018, August 1). A Guide to Machine Learning in R for Beginners:
Logistic Regression. Diambil kembali dari Medium: https://medium.
com/analytics-vidhya/a-guide-to-machine-learning-in-r-for-
beginners-part-5-4c00f2366b90
Pindyck, R., & Rubinfeld, D. (2013). Microeconomics, 8th Edition. USA:
Pearson.
Rawlings, J. O., Pantula, S. G., & Dickey, D. A. (1998). Applied Regression
Analysis: A Research Tool, 2nd Edition. New York: Springer.
Rosadi, D. (2011). Analisis Ekonometrika dan Runtun Waktu Terapan
dengan R. Yogyakarta: Penerbit ANDI.
RStudio. (2018, 10 7). RStudio Open Source and Enterprise-Ready
Profesionnal Software for R. Diambil kembali dari https://www.
rstudio.com/
Santoso, S. (2012). Panduan Lengkap SPSS Versi 20. Jakarta: PT Elex Media
Komputindo.

Dina Tri Utari-Modul Praktikum

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Dina Tri Utari-Modul Praktikum

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS REGRESI TERAPAN DENGAN R

Dina Tri Utari

Dilarang memperbanyak atau memindahkan

Kampus Terpadu UII

Assalamualaikum Wr. Wb.,

1. Pendahuluan dan Manajemen Data di R................................ 1

1.1 Landasan Teori 1

2.1 Landasan Teori 22

3.1 Landasan Teori 28

4. Pengujian Asumsi dan Pelanggarannya................................. 44

4.1 Landasan Teori 44

5.1 Landasan Teori 58

6.1 Landasan Teori 66

7.1 Landasan Teori 74

Tabel 1.1. Operator Matriks 14

Gambar 1.1. Tampilan https://cran.r-project.org. 2

1.1 Landasan Teori

R merupakan paket open-source untuk komputasi statistik.

Secara umum, dalam menggunakan perintah-perintahnya, R

Lebih lanjut tentang R, dapat dilihat di website R di http://cran.r-

Pendah uluan dan M an aj e m e n Data di R 1

Untuk meng-install R ke dalam komputer, diperlukan master

Gambar 1.1. Tampilan https://cran.r-project.org.

Pada Gambar 2.1. terlihat R tersedia dalam berbagai platform

Gambar 1.2. Tampilan Base untuk instalasi R

Langkah selanjutnya adalah memilih base, maka akan masuk ke

Untuk versi terbaru (sampai 2 Juli 2018) yaitu R versi 3.5.1.

Gambar 1.4. Tampilan jendela utama R

Pendah uluan dan M an aj e m e n Data di R 3

Gambar 1.5. Tampilan https://www.rstudio.com/

Pada Gambar 1.5. setelah masuk ke dalam halaman utama website

Pada Gambar 1.6. kemudian pilih Download RStudio Desktop,

Gambar 1.7. Tampilan pilihan download RStudio Desktop

Pendah uluan dan M an aj e m e n Data di R 5

Gambar 1.8. Tampilan jendela utama RStudio

Ketika membuka RStudio seperti pada Gambar 1.8., terdapat

Dalam R, entitas-entitas seperti data, fungsi, dan output disebut

Jika ingin diinput ke R, dapat dilakukan dengan mengetikkan

kemudian tekan Run, maka akan muncul:

Jika akan dilakukan analisis pada dataset tersebut, akan lebih

kemudian untuk memanggil kembali objek data.1, cukup ketikkan

Hal-hal yang perlu diperhatikan dalam pemberian nama untuk

Pendah uluan dan M an aj e m e n Data di R 7

Dari output tersebut, tersimpan objek-objek dengan nama data.1,

Terlihat bahwa objek mean.data.1 sudah dihapus, jika objek

1.1.4 Entry data dengan perintah Scan

Jika ingin memasukkan data dengan jumlah yang banyak ke dalam

Pada R tersedia package foreign yang dapat digunakan untuk

Sedangkan untuk perintah ekspor:

1.1.6 Jenis data di R

Sebelum melakukan analisis data dengan R, perlu diketahui

Pendah uluan dan M an aj e m e n Data di R 9

1.1.7 Modus data

Modus data logical merupakan modus data yang paling khusus

Data bermodus logical biasanya digunakan untuk melakukan filter

Untuk mengetahui suatu data bermodus logical atau bukan, dapat

Seperti namanya, modus data numeric yaitu modus data yang

Modus data complex sama seperti modus data numeric,

Pendah uluan dan M an aj e m e n Data di R 11

Syntax c dan : berguna untuk membentuk vektor, contoh

Misal ingin diambil selain elemen ketiga dari objek data.1

Pada tipe data vektor, komponen-komponen penyusunnya

Keempat perintah tersebut akan menghasilkan matriks yang sama.