Anda di halaman 1dari 98

ANALISIS REGRESI TERAPAN DENGAN R

Penulis:

Dina Tri Utari

Penerbit:

2019
KATALOG DALAM TERBITAN (KDT) analisis regresi terapan dengan r
Utari, Dina Tri
Analisis Regresi Terapan Dengan R/ Dina
Tri Utari. --Yogyakarta: Universitas Islam
Indonesia, 2019.
xi + 86 hlm. ; 16 x 23 cm

ISBN
e-ISBN Penulis:
Dina Tri Utari

©2019 Penulis
Hak cipta dilindungi Undang-Undang.

Dilarang memperbanyak atau memindahkan


seluruh atau sebagian isi buku ini dalam
bentuk apapun, baik secara elektronik
ataupun mekanik termasuk memfotokopi, Cetakan I
tanpa izin dari Penulis. Januari 2019 M / Jumadil Ula 1440 H

Penerbit:

Kampus Terpadu UII


Jl. Kaliurang Km 14,5 Yogyakarta 55584
Tel. (0274) 898 444 Ext. 2301; Fax. (0274) 898 444 psw 2091
http:/library.uii.ac.id;e-mail: perpustakaan@uii.ac.id
Kata Pengantar

Assalamualaikum Wr. Wb.,


Puji syukur penulis panjatkan atas semua nikmat dan karunia Allah SWT
sehingga penulis mampu menyelesaikan penyusunan modul praktikum ini.
Modul praktikum ini disusun sebagai panduan dalam melakukan Praktikum
Analisis Regresi Terapan dengan menggunakan software R. Modul ini telah
disesuaikan dengan perangkat pembelajaran Program Studi Statistika UII
meliputi silabus, RPS (Rencana Pembelajaran Semester), dan SAP (Satuan Acara
Perkuliahan). Dalam silabus Praktikum Analisis Regresi Terapan terdapat 2 (dua)
CPL (Capaian Pembelajaran Lulusan) yaitu i) PP(c) Software: menguasai minimal
dua perangkat lunak statistika, termasuk perangkat lunak yang berbasis open
source, ii) KK(a) Techniques: mampu melakukan perancangan percobaan,
pengumpulan dan pembangkitan data (dalam bentuk survei, percobaan, atau
simulasi), pengorganisasian data, analisis data menggunakan teknik-teknik
statistika, dan penarikan kesimpulan secara sahih, dengan memanfaatkan
minimal satu perangkat lunak statistika, dan iii) KU(i) Techniques: mampu
mendokumentasikan, menyimpan, mengamankan, dan menemukan kembali
data untuk menjamin kesahihan dan mencegah plagiasi. Guna mencapai
CPL, diuraikan 6 (enam) Capaian Pembelajaran Mata Kuliah (CPMK) yang
diharapkan tercapai dengan menggunakan panduan modul ini, yaitu (PPc1)
mahasiswa mampu mengoperasikan perangkat lunak R untuk mengatasi
permasalahan regresi, (PPc2) mahasiswa mampu mendeskripsikan penaksiran
(estimasi) parameter model regresi, (KKa1) mahasiswa mampu melakukan
pengorganisasian data untuk permasalahan analisis regresi dengan perangkat
lunak R, (KKa2) mahasiswa mampu menarik kesimpulan untuk permasalahan
analisis regresi berdasarkan hasil dari perangkat lunak R, (KUi1) mahasiswa
mampu mendokumentasikan data di dalam perangkat lunak R, dan (KUi2)
mahasiswa mampu menggunakan kembali data yang telah didokumentasikan
di dalam perangkat lunak R.
Besar harapan kami agar modul ini dapat bermanfaat bagi penggunanya. Saran
dan kritik yang membangun sangat diharapkan untuk perbaikan modul, dapat
dikirimkan ke alamat email penulis dina.t.utari@uii.ac.id.
Wassalamualaikum Wr. Wb.
Yogyakarta, 30 Oktober 2018

Penulis

v
DAFTAR ISI

1. Pendahuluan dan Manajemen Data di R................................ 1

1.1 Landasan Teori 1


1.1.1 RGUi 2
1.1.2 RStudio 4
1.1.3 Objek 6
1.1.4 Entry data dengan perintah Scan 8
1.1.5 Mengimpor dan mengekspor data pada R 9
1.1.6 Jenis data di R 9
1.1.7 Modus data 10
1.1.8 Logical 10
1.1.9 Numeric 11
1.1.10 Complex 11
1.1.11 Character 12
1.1.12 Vektor 12
1.1.13 Matriks 13
1.1.14 Data Frame 14
1.1.15 List 15
1.1.16 Package dan Library 15
1.1.17 Operator Aritmetika 15
1.2 Alat dan Bahan 16
1.3 Prosedur Kerja 17
1.3.1 Entri Data 17
1.3.2 Perhitungan Matriks 19

2. Statistika Deskriptif.................................................................. 22

2.1 Landasan Teori 22


2.2 Alat dan Bahan 22
2.3 Prosedur Kerja 23
2.4 Lembar Kerja 26
2.5 Lembar Laporan Sementara 27

vii
3. Regresi Linier............................................................................ 28

3.1 Landasan Teori 28


3.1.1 Analisis Regresi Linier Sederhana 29
3.1.2 Analisis Regresi Linier Berganda 29
3.2 Alat dan Bahan 30
3.3 Prosedur Kerja 31
3.3.1 Prosedur Kerja Analisis Regresi Linier Sederhana 31
3.3.2 Prosedur Kerja Analisis Regresi Linier Berganda 36
3.4 Lembar Kerja 39
3.5 Lembar Laporan Sementara 42

4. Pengujian Asumsi dan Pelanggarannya................................. 44

4.1 Landasan Teori 44


4.1.1 Kenormalan Residual 44
4.1.2 Kebebasan Residual (Autokorelasi) 46
4.1.3 Kehomogenan Variansi Residual 48
4.1.4 Multikolinearitas 49
4.2 Alat dan Bahan 50
4.3 Prosedur Kerja 50
4.3.1 Prosedur Kerja Pengujian Asumsi Kenormalan Sisaan 50
4.3.2 Prosedur Kerja Pengujian Asumsi Kebebasan Residual 53
4.3.3 Prosedur Kerja Pengujian Asumsi Kehomogenan
Variansi Residual 53
4.3.4 Prosedur Kerja Pengujian Asumsi Multikolinearitas 54
4.4 Lembar Kerja 55
4.5 Lembar Kerja Sementara 56

5. Regresi Nonlinier...................................................................... 58

5.1 Landasan Teori 58


5.2 Alat dan Bahan 59
5.3 Prosedur Kerja 60
5.3.1 Prosedur Kerja Model Regresi Linier Sederhana 60
5.3.2 Prosedur Kerja Model Regresi Nonlinier Kuadratik 62
5.3.3 Prosedur Kerja Model Regresi Nonlinier Kubik 63

viii
5.4 Lembar Kerja 64
5.5 Lembar Kerja Sementara 65

6. Regresi Dummy......................................................................... 66

6.1 Landasan Teori 66


6.2 Alat dan Bahan 67
6.3 Prosedur Kerja 68
6.3.1 Prosedur Kerja Analisis Regresi Dummy 68
6.4 Lembar Kerja 76
6.5 Lembar Kerja Sementara 71

7 Regresi Logistik......................................................................... 74

7.1 Landasan Teori 74


7.1.1 Persamaan Regresi Logistik 75
7.2 Alat dan Bahan 75
7.3 Prosedur Kerja 78
7.4 Lembar Kerja 82
7.5 Lembar Kerja Sementara 85
Referensi............................................................................. 86

ix
DAFTAR TABEL

Tabel 1.1. Operator Matriks 14


Tabel 1.2. Operator Aritmetika 15
Tabel 1.3. Data Rata-rata Nilai 16
Tabel 2.1. Data Volume Penjualan 22
Tabel 2.2. Data Kecelakaan Tahun 1992-2014 26
Tabel 3.1. Data rata-rata penjualan 31
Tabel 3.2. Hasil prediksi volume penjualan 35
Tabel 3.3. Hasil prediksi rata-rata penjualan 39
Tabel 3.4. Data Korban Mati 39
Tabel 3.5. Data Indeks Gini di Indonesia Tahun 2015 40
Tabel 4.1. Transformasi Box-Cox 46
Tabel 4.2. Tabel Uji Durbin-Watson 47
Tabel 4.3. Data Populasi di Jerman Tahun 2016 55
Tabel 5.1. Data Advisory Fee 59
Tabel 5.2. Data Inflasi dan Pertumbuhan Ekonomi Indonesia 2010-2017 64
Tabel 6.1. Data rata-rata gaji guru 67
Tabel 7.1. Data Pelayanan Rumah Sakit 76
Tabel 7.2. Data Penyakit Jantung Koroner 83

x
DAFTAR GAMBAR

Gambar 1.1. Tampilan https://cran.r-project.org. 2


Gambar 1.2. Tampilan Base untuk instalasi R 2
Gambar 1.3. Tampilan untuk mendownload R 3
Gambar 1.4. Tampilan jendela utama R 3
Gambar 1.5. Tampilan https://www.rstudio.com/ 4
Gambar 1.6. Tampilan pilihan RStudio Desktop 5
Gambar 1.7. Tampilan pilihan download RStudio Desktop 5
Gambar 1.8. Tampilan jendela utama RStudio 6
Gambar 1.9. Tampilan data rata-rata nilai yang akan dicopy 17
Gambar 1.10. Tampilan menginputan data pada RStudio 18
Gambar 1.11. Contoh Perhitungan Matriks 19
Gambar 1.12. Contoh Penambahan Elemen Matriks 20
Gambar 2.1. Input data volume penjualan 23
Gambar 2.2. Summary data volume penjualan 24
Gambar 2.3. Statistika deskriptif data volume penjualan 24
Gambar 3.1. Plot model regresi data volume penjualan 32
Gambar 3.2. Hasil analisis regresi linier sederhana data volume
penjualan 33
Gambar 3.3. Hasil Anova data volume penjualan 33
Gambar 3.4. Hasil prediksi dari model regresi 35
Gambar 3.5. Hasil prediksi dengan variabel independent diberikan 35
Gambar 3.6. Plot garis regresi 36
Gambar 3.7. Hasil analisis regresi berganda data rata-rata penjualan 37
Gambar 3.8. Hasil prediksi dari model regresi linier berganda 38
Gambar 4.1. Pendefinisian residual dari model regresi berganda 51
Gambar 4.2. Uji normalitas residual dengan uji Kolmogorov-Smirnov 52
Gambar 4.3. Perintah untuk membuat histogram dan plot distribusi
normal 52
Gambar 4.4. Histogram dan plot distribusi normal 52
Gambar 4.5. Perintah Uji Durbin-Watson di R 53
Gambar 4.6. Perintah Uji Breusch Pagan di R 54
Gambar 4.7. Perintah menghitung nilai VIF di R 54
Gambar 5.1. Penginputan data di R 60

xi
Gambar 5.2. Output regresi linier sederhana 61
Gambar 5.3. Plot hubungan data asset dan fee 61
Gambar 5.4. Output regresi nonlinier kuadratik 62
Gambar 5.5. Output regresi nonlinier kubik 63
Gambar 6.1. Penginputan data rata-rata gaji guru di R 69
Gambar 6.2. Output analisis regresi dummy 69
Gambar 6.3. Output analisis regresi dummy setelah variabel D3
dikeluarkan 70
Gambar 6.4. Output analisis regresi dummy setelah variabel D2
dikeluarkan 71
Gambar 7.1. Penginputan data nilai di R 78
Gambar 7.2. Model baseline 79
Gambar 7.3. Spliting data 79
Gambar 7.4. Model regresi logistik 80
Gambar 7.5. Hasil prediksi variabel respon berupa peluang 80
Gambar 7.6. Plot Receiver Operator Characteristic (ROC) 81
Gambar 7.7. Tingkat akurasi model 82

xii
1. Pendahuluan dan Manajemen Data di R

Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1). (KUi1) mahasiswa mampu mendokumentasikan data di dalam
software R.
2). (KUi2) mahasiswa mampu menggunakan kembali data yang telah
didokumentasikan di dalam software R.

1.1 Landasan Teori

R merupakan paket open-source untuk komputasi statistik.


Open-source yang dimaksud di sini salah satunya adalah bahwa R tersedia
secara gratis, dan penggunanya bebas untuk melihat bagaimana
perintah-perintah di dalamnya ditulis dan dapat memperbaikinya. R
didasarkan pada bahasa komputer S yang dikembangkan oleh John
Chambers dan lainnya di Bell Laboratories pada tahun 1976. Pada
tahun 1993 Robert Gentleman dan Ross Ihaka di University of Auckland
ingin bereksperimen dengan bahasa pemrograman, sehingga mereka
mengembangkan implementasinya dan diberi nama R. Mereka
membuat R bersifat open-source pada tahun 1995, dan ratusan orang di
dunia telah berkontribusi terhadap perkembangannya.

Secara umum, dalam menggunakan perintah-perintahnya, R


menggunakan command line interface (CLI), yaitu perintah-perintah
dalam R dijalankan dengan mengetikkan perintah-perintah dalam
jendela R Console.

Lebih lanjut tentang R, dapat dilihat di website R di http://cran.r-


project.org/. Untuk tutorial R, dapat dipelajari secara online, misal di
http://www.statmethods.net/index.html

Pendah uluan dan M an aj e m e n Data di R 1


1.1.1 RGUi

Untuk meng-install R ke dalam komputer, diperlukan master


program R terlebih dahulu. Master program R dapat diunduh pada
tautan http://cran.r-project.org/

Gambar 1.1. Tampilan https://cran.r-project.org.

Pada Gambar 2.1. terlihat R tersedia dalam berbagai platform


(multi-platform) yaitu Linux, Mac, juga Windows. Misal diambil master
dalam platform Windows.

Gambar 1.2. Tampilan Base untuk instalasi R

Langkah selanjutnya adalah memilih base, maka akan masuk ke


jendela untuk men-download master dari R.

2 a n a li s i s r e gr e s i t e r a pa n r
Gambar 1.3. Tampilan untuk mendownload R

Untuk versi terbaru (sampai 2 Juli 2018) yaitu R versi 3.5.1.


Penggunaan R 32 bit atau R 64 bit disesuaikan dengan sistem operasi
yang digunakan (Cran, 2018).
Selanjutnya lakukan proses instalasi standar untuk menginstall R
ke dalam komputer. Setelah R terinstall, masuk ke R dengan cara double-
click pada icon R yang terdapat di desktop. Kemudian akan masuk pada
jendela utama R seperti yang disajikan pada Gambar 1.4.:

Gambar 1.4. Tampilan jendela utama R

Pendah uluan dan M an aj e m e n Data di R 3


Ketika membuka R, terdapat jendela R Console dan R Editor. Di
dalam R Editor nantinya diketikkan perintah-perintah mulai dari input
data sampai dengan analisis data statistik juga pembuatan grafik-grafik
yang terkait.

1.1.2 RStudio
Software R yang terinstall pada komputer menggunakan sumber
daya komputer pribadi untuk memproses bahasa pemrograman R.
Sedangkan RStudio terintegrasi dengan R sebagai IDE (Integrated
Development Environment) untuk menyediakan fungsionalitas lebih
lanjut (RStudio, 2018). RStudio menggabungkan editor kode sumber,
membuat alat otomatisasi dan debugger, sehingga disarankan untuk
menginstall R dan RStudio dalam satu komputer.
Untuk menginstall RStudio ke dalam komputer, diperlukan master
program RStudio terlebih dahulu. Master program RStudio dapat
diperoleh di https://www.rstudio.com/

Gambar 1.5. Tampilan https://www.rstudio.com/

Pada Gambar 1.5. setelah masuk ke dalam halaman utama website


RStudio kemudian pilih Products untuk langkah selanjutnya. Setelah
mengklik Product maka akan muncul pilihan download RStudio Desktop
atau RStudio Server, karena yang akan digunakan adalah untuk desktop
maka dipilih RStudio Desktop.

4 a n a li s i s r e gr e s i t e r a pa n r
Gambar 1.6. Tampilan pilihan RStudio Desktop

Pada Gambar 1.6. kemudian pilih Download RStudio Desktop,


sehingga muncul tampilan sebagai berikut:

Gambar 1.7. Tampilan pilihan download RStudio Desktop

Pendah uluan dan M an aj e m e n Data di R 5


Pada Gambar 1.7. terlihat RStudio tersedia dalam berbagai platform
yaitu Windows, Mac, Ubuntu, dan Fedora. Misal diambil master dalam
platform Windows. Selanjutnya lakukan proses instalasi standar untuk
menginstall RStudio ke dalam komputer. Setelah RStudio terinstall,
masuk ke RStudio dengan cara double-click pada icon RStudio yang
terdapat di desktop. Kemudian akan muncul jendela utama RStudio
seperti berikut:

Gambar 1.8. Tampilan jendela utama RStudio

Ketika membuka RStudio seperti pada Gambar 1.8., terdapat


jendela R Scipt, R Console, R History, dan R Viewier. Di dalam R Script
nantinya diketikkan perintah-perintah mulai dari input data sampai
dengan analisis data statistik juga pembuatan grafik-grafik yang terkait.

1.1.3 Objek

Dalam R, entitas-entitas seperti data, fungsi, dan output disebut


sebagai objek. Karena itulah R disebut sebagai bahasa pemrograman
yang berorientasi objek (Object Oriented Programming). Semua perintah-
perintah yang digunakan diketikkan dalam R Script agar dapat disimpan
dan digunakan kembali.

6 a n a li s i s r e gr e s i t e r a pa n r
Misalkan dipunyai satu set data yaitu

2694627916460436078

Jika ingin diinput ke R, dapat dilakukan dengan mengetikkan


perintah pada R Script
c(2,6,9,4,6,2,7,9,1,6,4,6,0,4,3,6,0,7,8)

kemudian tekan Run, maka akan muncul:


[1] 2 6 9 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8

Jika akan dilakukan analisis pada dataset tersebut, akan lebih


mudah jika dataset tersebut disimpan ke dalam suatu objek. Misal objek
tersebut diberi nama data.1 maka perintah yang diketikkan pada R
Script yaitu
data.1=c(2,6,9,4,6,2,7,9,1,6,4,6,0,4,3,6,0,7,8)

kemudian untuk memanggil kembali objek data.1, cukup ketikkan


nama objek dari data.1 tersebut pada R Console, yaitu
data.1

[1] 2 6 9 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8

Hal-hal yang perlu diperhatikan dalam pemberian nama untuk


suatu objek yaitu:
1). Nama objek harus diawali dengan huruf, selanjutnya dapat
dikombinasikan dengan huruf kecil, huruf besar, angka, titik, dan
underscore.
2). R bersifat case sensitive, artinya objek “Data” dengan “data”
dianggap sebagai objek yang berbeda.
3). Operator-operator aritmatika tidak bisa digunakan untuk nama
objek.
4). Hindari menggunakan nama fungsi atau perintah built-in R sebagai
nama objek.
5). Hindari penamaan objek yang hanya terdiri dari satu karakter berikut:
C,D,c,l,q,s, dan t.

Pendah uluan dan M an aj e m e n Data di R 7


Contoh-contoh nama objek yang bisa digunakan
data
data1
data.1
data_1
data.1.b.66
Contoh-contoh nama objek yang tidak bisa digunakan
3data (diawali dengan angka)
data-1 (operator – tidak bisa digunakan)
data=1 (operator = tidak bisa digunakan)
untuk melihat objek-objek yang sudah tersimpan dalam R, dapat
digunakan perintah
objects(), diperoleh
[1] “data.1” “mean.data.1” “var.data.1”

Dari output tersebut, tersimpan objek-objek dengan nama data.1,


mean.data.1, dan var.data.1, jika ingin menghapus suatu objek,
perintah yang digunakan yaitu rm(nama_objek). Misal akan dihapus
objek mean.data.1, maka perintah yang diketikkan yaitu
rm(mean.data.1)
rm(list = ls())  menghapus semua objek yang tersimpan
kemudian dicek hasil penghapusan objek
objects()
[1] “data.1” “var.data.1”

Terlihat bahwa objek mean.data.1 sudah dihapus, jika objek


tersebut dipanggil maka yang muncul adalah pesan error.
mean.data.1
Error: object ‘mean.data.1’ not found

1.1.4 Entry data dengan perintah Scan

Jika ingin memasukkan data dengan jumlah yang banyak ke dalam


objek dataku dapat dilakukan dengan fungsi scan().

8 a n a li s i s r e gr e s i t e r a pa n r
1.1.5 Mengimpor dan mengekspor data pada R

Pada R tersedia package foreign yang dapat digunakan untuk


mengimpor ke dalam R data-data eksternal dari format beberapa paket
statistika lainnya. Pada package ini tersedia perintah-perintah untuk
impor data seperti berikut:
1). File excel dalam format text tab delimited: gunakan perintah read.
table() untuk membaca file.txt
2). File excel dalam format CVS (comma delimited): gunakan perintah
read.table() untuk membaca file .csv
3). File excel dalam format xls: gunakan perintah read.xls() pada
package xlsReadWrite
4). File epi info: gunakan perintah read.epiinfo()
5). File minitab: gunakan perintah read.mtp() untuk membaca file
Minitab portable worksheet
6). File SAS: gunakan perintah read.xport() atau read.ssd()
7). File SPSS: gunakan perintah read.spss() untuk membaca file .sav
8. Stata versi 5, 6, 7, 8: gunakan perintah read.dta() untuk impor file
Stata

Sedangkan untuk perintah ekspor:


1). write.dbf() untuk menulis ke dalam format DBF
2). write.foreign() untuk menulis ke dalam file teks
3). write.dta() untuk melakukan ekspor ke dalam format Stata

1.1.6 Jenis data di R

Sebelum melakukan analisis data dengan R, perlu diketahui


terlebih dahulu tentang jenis-jenis data di R. Jenis data di R terbagi
menjadi 2 pengelompokkan, yaitu tipe data (data type) dan modus data
(data mode).
Tipe data terbagi menjadi
• Data vektor/array satu dimensi
• Data matriks/array dua dimensi

Pendah uluan dan M an aj e m e n Data di R 9


• Data frame
• Data list
Sedangkan untuk modus data terbagi menjadi
• Logical
• Numeric
• Complex
• Character

1.1.7 Modus data

Urutan modus data dari yang paling khusus ke modus data paling
umum yaitu logical-numeric-complex-character.
Untuk mengetahui suatu modus dari suatu data dapat digunakan
perintah:
mode(data.1)
[1] “numeric”

1.1.8 Logical

Modus data logical merupakan modus data yang paling khusus


dalam R. Modus data logical hanya terdiri dari dua nilai saja yaitu TRUE
dan FALSE, atau bisa ditulis T dan F saja, ataupun 1 dan 0.
data.logical=c(T,T,F,T,F,F,F,T,T)
data.logical
[1] TRUE TRUE FALSE TRUE FALSE FALSE FALSE TRUE
TRUE

Data bermodus logical biasanya digunakan untuk melakukan filter


pada suatu data, misal dari objek data.1 diatas ingin dicari mana saja
nilainya yang lebih dari 5
data.1
[1] 2 6 9 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8
data.1>5
[1] FALSE TRUE TRUE FALSE TRUE FALSE TRUE TRUE

10 a n a li s i s r e gr e s i t e r a pa n r
FALSE TRUE FALSE TRUE
[13] FALSE FALSE FALSE TRUE FALSE TRUE TRUE

Untuk mengetahui suatu data bermodus logical atau bukan, dapat


digunakan perintah
is.logical(data.1)
[1] FALSE  bernilai false karena modus objek data.1 adalah numerik
is.logical(data.logical)
[1] TRUE  bernilai true karena modus objek data.logical adalah
logical
Selain itu terdapat fungsi as.logical(nama_objek) yang
dapat mengubah modus data menjadi logical:
as.logical(c(“A”,”B”,”T”,”F”,T,F,TRUE,FALSE,”TRUE
”,”FALSE”))
[1] NA NA TRUE FALSE TRUE FALSE TRUE FALSE TRUE
FALSE  character ke logical
as.logical(c(-10,-1,0,1,2,20))
[1] TRUE TRUE FALSE TRUE TRUE TRUE  numeric ke logical
as.logical(c(1+8i,4-8i,0,0+38i))
[1] TRUE TRUE FALSE TRUE  complex ke logical

1.1.9 Numeric

Seperti namanya, modus data numeric yaitu modus data yang


bernilai bilangan. Dalam hal ini bilangan real. Objek data.1 di atas
termasuk dalam modus data numerik.
Seperti halnya perintah is.logical() dan as.logical() pada
modus data logical, modus data numeric juga mempunyai perintah
is.numeric() dan as.numeric().

1.1.10 Complex

Modus data complex sama seperti modus data numeric,


perbedaannya modus data complex berisikan bilangan complex.

Pendah uluan dan M an aj e m e n Data di R 11


1.1.11 Character

Modus data yang paling umum yaitu modus data character. Sesuai
dengan namanya modus data ini yaitu data-data yang bertipe karakter
atau kualitatif. Perintah is.character() dan as.character()
adalah perintah-perintah yang terkait dengan modus data ini.

1.1.12 Vektor

Tipe data dalam R yang paling sederhana adalah tipe data vektor.
Tipe data vektor berbentuk array satu dimensi, seperti halnya pengertian
vektor secara umum.
Sebagai contoh, objek data.1 di atas merupakan tipe data vektor
karena berupa array satu dimensi.
is.vector(data.1)
[1] TRUE

Syntax c dan : berguna untuk membentuk vektor, contoh


c(1,2,3)
1:3
c(1:3,7:9)

Cara membuat suatu objek dengan tipe data vektor seperti halnya
cara membuat objek data.1 di atas.
data.1=c(2,6,9,4,6,2,7,9,1,6,4,6,0,4,3,6,0,7,8)

Selain itu, dapat pula dilakukan ekstraksi sebagian data dari suatu
objek bertipe data vektor (sebenarnya untuk tipe data lain juga bisa).
Caranya yaitu: nama_objek[no_elemen]
Misal ingin diambil elemen ketiga dari objek data.1
data.1[3]
[1] 9

Misal ingin diambil selain elemen ketiga dari objek data.1


data.1[-3]
[1] 2 6 4 6 2 7 9 1 6 4 6 0 4 3 6 0 7 8

12 a n a li s i s r e gr e s i t e r a pa n r
Jika ingin diambil elemen ketiga dan ketujuh
data.1[c(3,7)]
[1] 9 7

Pada tipe data vektor, komponen-komponen penyusunnya


harus mempunyai modus yang sama. Jika komponen berbeda modus,
komponen-komponen tersebut akan diubah menjadi modus paling
umum yang diinput. Contoh
c(T,1,2) # semua data diubah menjadi mode numerik
[1] 1 1 2
c(“S”,F) # semua data diubah menjadi mode karakter
[1] “S” “FALSE”
c(“S”,2) # semua data diubah menjadi mode karakter
[1] “S” “2”

1.1.13 Matriks

Tipe data matriks sebenarnya sama dengan tipe data vektor, yang
membedakan adalah, tipe data matriks terdiri dari array dua dimensi, di
mana tipe data vektor hanya terdiri dari array satu dimensi.
Untuk melakukan input data dengan tipe data matriks, perintah yang
digunakan yaitu matrix(). Contoh:
matriks1=matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),nro
w=3,ncol=4)
matriks2=matrix(1:12,nrow=3,ncol=4)
matriks3=matrix(1:12,nrow=3)
matriks4=matrix(1:12,3)

Keempat perintah tersebut akan menghasilkan matriks yang sama.


Secara default, data akan diisikan kolom per kolom. Untuk melakukan
pengisian menurut baris per baris, dapat digunakan optional argumen
byrow=T, contoh
data=c(1:8)
mat1=matrix(data,nrow=2,ncol=4)

Pendah uluan dan M an aj e m e n Data di R 13


mat1
mat2=matrix(data,nrow=2,ncol=4,byrow=T)
mat2

Seperti halnya pada tipe data vektor, semua elemen matriks harus
memiliki modus data yang sama, jika modus data berbeda maka akan
diubah menjadi modus data yang paling umum.
Pada tipe data matriks, terdapat beberapa operasi yang dapat digunakan,
yaitu:

Tabel 1.1. Operator Matriks

Operator Matriks Keterangan


* Perkalian elemen matriks
%*% Perkalian dua buah matriks
%o% Outer matriks
solve Invers matriks
t Transpose matriks
crossprod Nilai cross product
eigen Nilai eigen dan vektor eigen

1.1.14 Data Frame

Bentuk data frame mirip dengan matriks. Jika tipe data matriks
hanya bisa menampung data dengan satu modus data saja, maka tipe
data frame dapat menampung data yang terdiri dari berbagai modus
data. Satu kolom satu modus, tapi antar kolom dapat berlainan modus.
Data frame merupakan tipe data yang paling banyak digunakan untuk
membuat suatu dataset dalam R.
frame1=data.frame(c(1,2,3),c(T,F,T))

tiap kolom dan baris pada dataframe, masing-masing bisa diberi


nama. Perintah-perintah yang bisa digunakan yaitu
names(frame1)=c(“nilai”,”status”)

14 a n a li s i s r e gr e s i t e r a pa n r
rownames(nama_data.frame)
colnames(nama_data.frame)

1.1.15 List

List merupakan tipe data yang menggabungkan tipe-tipe data di


atas. Secara sederhana, dalam satu list, dapat berisi vektor, matriks, dan
data frame sekaligus. Tipe data ini sangat berguna dalam pembuatan
program, terutama di bagian output programnya.
Cara membuat suatu list
list1=list(no=c(1,2,3,4),status=c(T,T,T,F),nilai
=data.frame(nilai=c(6,6,7,8), nama=c(“A4”, “A5”,
“B2”, “B9”)))

1.1.16 Package dan Library

Sebagian besar fungsi dari R diperoleh dari tambahan paket/


pustaka. Pustaka (library) merupakan kumpulan perintah/fungsi yang
dapat digunakan untuk melakukan analisis tertentu.
Instalasi standar R mengikutsertakan beberapa pustaka dasar/
bawaan yaitu stat, graphics, datasets, dll. Selain pustaka bawaan tersebut,
terdapat banyak pustaka lain yang dapat diinstal jika diperlukan (lihat
www.cran.r-project.org).

1.1.17 Operator Aritmetika


Tabel 1.2. Operator Aritmetika

OPERATOR KETERANGAN CONTOH


+ Penambahan 2+3
* Perkalian 2*3
^ Pemangkatan 2^3
/ Pembagian 2/3
- Pengurangan 2-3

Pendah uluan dan M an aj e m e n Data di R 15


Membangkitkan
: (colon) 1:5 #angka 1 sampai 5
barisan integer
== Sama dengan 2==3 #hasilnya false
Tidak sama
!= 2!=3 #hasilnya true
dengan
Lebih dari sama
>= 2>=3 # hasilnya false
dengan
Kurang dari
<= 2<=3 # hasilnya true
sama dengan
& And (1<2) & (2<=3) #hasilnya true
| Or (1<2) | (2<=3) #hasilnya true
! Not !(1==2) # hasilnya true
Operator
<- = -> x=(1==2) # objek x bernilai false
assignment

1.2 Alat dan Bahan


Alat yang digunakan berupa laptop dan software R. Bahan yang
digunakan berupa data, rata-rata nilai yang disajikan pada Tabel 1.3.
Tabel 1.3. Data Rata-rata Nilai
No Rata-rata Nilai No Rata-rata Nilai
1 74.3 11 81.9
2 75 12 79.5
3 80 13 76.8
4 78.2 14 83.1
5 77.3 15 77.4
6 81.4 16 78.5
7 73.9 17 75.6
8 79 18 80.4
9 80.6 19 76.4
10 82 20 77.3

16 a n a li s i s r e gr e s i t e r a pa n r
1.3 Prosedur Kerja

Pada bagian ini akan dijelaskan prosedur kerja entri data


menggunakan perintah scan pada Tabel 1.3 dan perhitungan matriks
dengan software R.

1.3.1 Entri Data

Langkah pertama adalah mengcopy data pada Tabel 1.3. pada file
excel, data tersebut akan dimasukkan ke dalam objek dataku seperti
yang disajikan pada Gambar 1.9.

Gambar 1.9. Tampilan data rata-rata nilai yang akan dicopy

Kemudian pada R-Script, ketikkan dataku=scan(), paste, dan


enter pada R-Console. Selanjutnya panggil kembali objek dataku pada
R-Console:

Pendah uluan dan M an aj e m e n Data di R 17


Gambar 1.10. Tampilan menginputan data pada RStudio

Selanjutnya, objek data.1 tersebut dapat dilakukan analisis statistik


lebih lanjut, misal akan dicari nilai mean dan variansi dari data.1 dengan
perintah:
mean(data.1)
[1] 4.736842
var(data.1)
[1] 7.982456

Diperoleh nilai mean dari data.1 yaitu 4.736842 dan nilai variansi
dari data.1 yaitu 7.982456.Nilai mean dan variansi di atas juga dapat
disimpan sebagai suatu objek,
mean.data.1=mean(data.1)
mean.data.1
[1] 4.736842
var.data.1=var(data.1)
var.data.1
[1] 7.982456

18 a n a li s i s r e gr e s i t e r a pa n r
1.3.2 Perhitungan Matriks

Untuk membuat matriks dan perhitungannya pada software R


dilakukan dengan cara-cara seperti pada Gambar 1.11.

Gambar 1.11. Contoh Perhitungan Matriks

Untuk melakukan ekstraksi data dengan tipe matriks, caranya sama


seperti melakukan ekstraksi data dengan tipe vektor, perbedaannya
yaitu untuk tipe data matriks, ekstraksi dilakukan dengan memasukkan
elemen kolom dan barisnya, nama_objek[no_baris,no_kolom]
Perintah lain yang bisa digunakan : cbind() dan rbind().

Pendah uluan dan M an aj e m e n Data di R 19


Gambar 1.12. Contoh Penambahan Elemen Matriks

20 a n a li s i s r e gr e s i t e r a pa n r
2. Statistika Deskriptif

Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc1) mahasiswa mampu membuat statistika deskriptif dan
mendeskripsikan hasil yang diperoleh.

2.1 Landasan Teori

Statistika deskriptif digunakan untuk menyajikan ukuran statistik


beberapa variabel dalam satu tabel, serta untuk mengetahui skor dari
suatu distribusi data. Skor biasa digunakan untuk menguji kenormalan
distribusi data.

2.2 Alat dan Bahan

Alat yang digunakan berupa laptop, software R, dan package


stat-decs. Bahan yang digunakan berupa data yang akan digunakan
untuk studi kasus statistika deskriptif.
1. Data yang digunakan dalam studi kasus statistika deskriptif adalah
data hasil survey terhadap Biaya Promosi dan Volume Penjualan
dari 10 toko yang disajikan pada Tabel 2.1. Dari data pada Tabel 2.1.
ingin diketahui besarnya rata-rata, nilai minimal, maximal, range
dan apakah datanya berdistribusi normal atau tidak.

Tabel 2.1. Data Volume Penjualan

No Biaya Promosi Volume Penjualan


1 12000 56000
2 13500 62430
3 12750 60850
4 12600 61300
5 14850 65825

Statistika Deskri p t if 21
6 15200 66354
7 15750 65260
8 16800 68798
9 18450 70470
10 17900 65200

2.3 Prosedur Kerja


Pada bagian ini akan dijelaskan prosedur kerja statistika deskriptif
pada Tabel 2.1 dengan software R.
1). Input data
Cara menginput data berupa file .csv yaitu:
data = read.csv(file.choose(), header=TRUE,
sep=”;”)
untuk menampilkan variabel-variabel apa saja yang ada di dalam
data, digunakan perintah names()sedangkan untuk mengambil
salah satu variabel digunakan perintah $, yaitu
data$Biaya.Promosi  nilai-nilai dari variabel biaya promosi
data$Volume.Penjualan  nilai-nilai dari variabel volume
penjualan

Gambar 2.1. Input data volume penjualan

22 a n a li s i s r e gr e s i t e r a pa n r
2). Statistika Deskriptif
Untuk menampilkan ringkasan dari data digunakan perintah
summary()
summary(data[-1])  ringkasan dari data tanpa kolom
pertama

Gambar 2.2. Summary data volume penjualan

Untuk menampilkan statistika deskriptif yang lebih lengkap, dapat


digunakan library(pastecs) dengan perintah stat.decs()
stat.desc(data[-1])  statistika deskriptif dari data tanpa
kolom pertama

Gambar 2.3. Statistika deskriptif data volume penjualan

Statistika Deskri p t if 23
Statistik deskriptif untuk biaya promosi:
• nbr.val menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai nilai, yaitu sebanyak 10.
• nbr.null menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai bernilai nol, yaitu tidak ada data yang
bernilai nol.
• nbr.na menunjukkan banyaknya data dalam variabel biaya
promosi yang mempunyai tidak mempunyai nilai atau NA (not a
number), yaitu tidak ada data yang tidak mempunyai nilai.
• min menunjukkan banyaknya data minimum dalam variabel
biaya promosi, yaitu sebesar 12000.
• max menunjukkan banyaknya data maksimum dalam variabel
biaya promosi, yaitu sebesar 18450.
• range menunjukkan nilai maksimum dikurangi dengan nilai
minimum dalam variabel biaya promosi, yaitu sebesar 6450. Range
untuk variabel biaya promosi cukup besar, hal ini menunjukkan
bahwa variasi data dari biaya promosi cukup beragam.
• sum menunjukkan jumlah data dalam variabel biaya promosi,
yaitu sebesar 149800.
• 1st Qu. menunjukkan kuartil 1 dalam variabel biaya promosi, yaitu
sebesar 12938.
• median menunjukkan median atau nilai tengah dalam variabel
biaya promosi, yaitu sebesar 15025.
• 3rd Qu. menunjukkan kuartil 3 dalam variabel biaya promosi, yaitu
sebesar 16538.
• mean menunjukkan rata-rata biaya promosi, yaitu sebesar 14980.
• SE.mean menunjukkan standar eror mean dari biaya promosi,
yaitu sebesar 7168294.
• CI.mean.0.95 menunjukkan interval konfidensi 95% dari
variabel biaya promosi, yaitu sebesar 1621581.
• var menunjukkan variansi dari variabel biaya promosi, yaitu
sebesar 5138444.
• std.dev menunjukkan standar deviasi dari variabel biaya
promosi, yaitu sebesar 2266814. Semakin besar standar deviasi
maka menunjukkan data semakin bervariasi
• coef.var menunjukkan ukuran variansi dari variabel biaya
promosi (standar deviasi/mean), yaitu sebesar 0,01513227.
Koefisien variansi digunakan untuk membandingkan suatu
distribusi data yang mempunyai satuan yang berbeda. Besarnya
koefisien variansi akan berpengaruh terhadap kualitas sebaran

24 a n a li s i s r e gr e s i t e r a pa n r
data. Jika koefisien variansi semakin kecil maka datanya semakin
homogen, dan jika koefisien variansi semakin besar maka datanya
semakin heterogen.

2.4 Lembar Kerja


Soal:
Terdapat data kecelakan pada Tabel 2.2. yang terdiri dari korban mati
yang menyebabkan kerugian materi.

Tabel 2.2. Data Kecelakaan Tahun 1992-2014

Korban Kerugian Korban Kerugian


Tahun Mati Materi (Juta Tahun Mati Materi (Juta
(Orang) Rupiah) (Orang) Rupiah)

1992 9819 15077 2004 11204 53044


1993 10038 14714 2005 16115 51556
1994 11004 16544 2006 15762 81848
1995 10990 17745 2007 16955 103289
1996 10869 18411 2008 20188 131207
1997 12308 20848 2009 19979 136285
1998 11694 26941 2010 19873 158259
1999 9917 32755 2011 31195 217435
2000 9536 36281 2012 29544 298627
2001 9522 37617 2013 26416 255864
2002 8762 41030 2014 28297 250021
2003 9856 45778
Sumber: (data.go.id, 2018)

Lakukanlah analisis deskriptif untuk satu variabel (NIM ganjil


menggunakan variabel korban mati, NIM genap menggunakan variabel
kerugian materi) dan jelaskan interpretasi dari output yang diperoleh.

Statistika Deskri p t if 25
2.5 Lembar Laporan Sementara

1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis
statistika deskriptif.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis statistika deskriptif.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil
output dari analisis statistika deskriptif.
4. Penutup
Tuliskan kesimpulan dari hasil analisis statistika deskriptif
5. Daftar Pustaka
Tuliskan referensi yang digunakan.

26 a n a li s i s r e gr e s i t e r a pa n r
3. Regresi Linier

Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi linier sederhana dan berganda.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi linier sederhana dan berganda.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.

3.1 Landasan Teori

Analisis regresi adalah metode yang umum digunakan untuk


memperoleh fungsi prediksi untuk memprediksi nilai-nilai variabel
respon Y menggunakan variabel prediktor X1,X2,...XK (Graybill, 1994).
Disebut analisis regresi linier karena grafik yang menunjukkan
hubungan variabel respon Y dan variabel prediktor X membentuk garis
lurus, selain itu yang dimaksud dengan linier adalah model ini linier
dalam parameter.
Dalam analsisi regresi linier hanya ada satu variabel respon Y yang
dipengaruhi oleh variabel-variabel prediktor X. Jika hanya terdapat satu
variabel prediktor yang berpengaruh maka disebut analisis regresi linier
sederhana, sedangkan jika variabel prediktor yang berpengaruh lebih
dari satu, maka disebut analisis regresi linier berganda.
Ada beberapa tahapan dalam melakukan analisis regresi linier
baik sederhana maupun berganda. Berikut ini adalah tahapan yang

Reg re si Linie r 27
dimaksud:
1). Menguji hubungan atau korelasi antar variabel respon dan
prediktor.
2). Mengestimasi parameter dalam model regresi menggunakan
metode Ordinary Least Square (OLS) atau metode Kuadrat Terkecil.
3). Menguji signifikansi masing-masing parameter.
4). Jika ada parameter yang tidak signifikan atau ada asumsi yang
tidak terpenuhi, maka analisis dilakukan kembali mulai tahap 1.
5). Interpretasi dari model yang diperoleh.

3.1.1 Analisis Regresi Linier Sederhana

Analisis regresi sederhana terdiri dari satu variabel respon dan


satu variabel prediktor. Analisis ini digunakan untuk seberapa besar
pengaruh perubahan variabel prediktor terhadap variabel respon.
1). Model Regresi Linier Sederhana
Yι = β0 + β1X ι + ει (Pers. 3.1)
dengan β0 dan β1 : parameter regresi
ει: faktor acak/error
2). Persamaan Regresi
yˆ=
ι b 0 + b1 X ι (Pers. 3.2)
dengan b 0 : intersep
b1 : slope/ kemiringan
3). Asumsi Model Linier
1. Bentuk hubungannya linier
2. Sisaan adalah peubah acak yang bebas terhadap nilai X
3. Sisaan merupakan peubah acak yang menyebar Normal dengan
rataan nol dan ragam yang konstan (homoskedastisitas).
4. Sisaan tidak berkorelasi satu sama lain.

3.1.2 Analisis Regresi Linier Berganda

Analisis regresi linier berganda terdiri dari satu variabel respon


dan lebih dari satu variabel prediktor. Analisis ini digunakan untuk

28 a n a li s i s r e gr e s i t e r a pa n r
mengetahui pengaruh dari masing-masing variabel prediktor terhadap
variabel respon, dan melihat variabel mana yang mempunyai pengaruh
lebih besar.
1). Model Regresi Linier Berganda
Y = β0 + β1 X 1 + β2 X 2 + β3 X 3 + ... + βκ X κ + ε (Pers. 3.3)
Persamaan Regresi
yˆ = b 0 + b1 X 1 + b 2 X 2 + b 3 X 3 + ... + b κ X κ (Pers. 3.4)
Persamaan regresi pada persamaan 3.4 harus memenuhi asumsi-
asumsi di bawah ini:
1). Kondisi Gauss-Markov
• Ε [ει ] = 0 , nilai harapan/rataan residual = 0
• Ε ει = var [ει ]= σ 2 , variansi residual homogen untuk setiap nilai
2

X (sifat dari variansi yang konstan disebut homoscedasticity)


• Ε ει , ε j  = 0 untuk semua ι ≠ j residual saling bebas
2). Residual menyebar normal
3). Residual ( ε ) bebas terhadap variabel prediktor (X), cov ( x ιε j ) = 0
4). Tidak ada multikolinieritas pada variabel prediktor, cov ( x ιx j ) = 0 ,
untuk setiap ι ≠ j

3.2 Alat dan Bahan

Alat yang digunakan adalah laptop/komputer yang terinstal R


dan RStudio. Bahan yang digunakan adalah data biaya produksi dan
volume penjualan pada Tabel 2.1. pada Bab 2 untuk analisis regresi
linier sederhana dan menjawab pertanyaan apakah biaya promosi
yang dikeluarkan oleh toko mempengaruhi volume penjualan yang
dihasilkan. Sedangkan bahan yang digunakan untuk analisis regresi
berganda adalah data yang berasal dari 15 toko yang telah disurvei,
terdiri dari variabel rata-rata penjualan perminggu, banyaknya pekerja
dan luas toko yang disajikan pada Tabel 3.1. Selanjutnya data pada Tabel
3.1. digunakan untuk menguji pengaruh dari banyaknya pekerja dan
luas toko terhadap rata-rata penjualan perminggunya.

Reg re si Linie r 29
Tabel 3.1. Data rata-rata penjualan

No rata-rata penjualan banyaknya luas toko


perminggu pekerja
1 7 17 7
2 17 39 9
3 10 32 8
4 5 17 4
5 7 25 5
6 15 43 9
7 11 25 8
8 13 32 10
9 19 48 12
10 3 10 5
11 17 48 12
12 15 42 10
13 14 36 10
14 12 30 10
15 8 19 8

3.3 Prosedur Kerja

Pada bagian ini akan dijelaskan prosedur kerja analisis regresi linier
sederhana pada Tabel 2.1dan analisis regresi linier berganda pada Tabel
3.1. dengan software R.

3.3.1 Prosedur Kerja Analisis Regresi Linier Sederhana

1). Input data


Cara menginput data berupa file .csv yaitu:
data = read.csv(file.choose(), header=TRUE)

untuk menampilkan variabel-variabel apa saja yang ada di dalam


data, digunakan perintah names()sedangkan untuk mengambil

30 a n a li s i s r e gr e s i t e r a pa n r
salah satu variabel digunakan perintah $, yaitu
data$Biaya.Promosi  nilai-nilai dari variabel biaya
promosi
data$Volume.Penjualan  nilai-nilai dari variabel volume
penjualan
2). Sebelum membuat plot data dari variabel biaya promosi dan
volume penjualan, terlebih dahulu membuat model dari variabel
biaya promosi dan volume penjualan menggunakan perintah
model1=volumepenjualan~biayapromosi, kemudian
membuat plot data dari model yang diperoleh menggunakan
perintah plot(model1,data=data)

Gambar 3.1. Plot model regresi data volume penjualan

3). Melakukan analisis regresi linier sederhana dari variabel biaya


promosi dan volume penjualan menggunakan perintah
regres1 =lm(volumepenjualan~biayapromosi,data
=data), untuk melihat ringkasan dari output regesi menggunakan
perintah
summary(regres1)

Reg re si Linie r 31
Gambar 3.2. Hasil analisis regresi linier sederhana data volume penjualan

Untuk mengetahui tes Anova dari model yang diperoleh dapat


dilakukan dengan perintah anova(regres1)

Gambar 3.3. Hasil Anova data volume penjualan

4). Interpretasi Hasil


a. Koefisien determinasi (R2)
Koefisien determinasi (R2) mengukur proporsi variabel respon
yang dapat dijelaskan oleh variabel prediktor dalam model.
menunjukan kebaikan atau kelayakan model, semakin besar nilai
R2 semakin baik modelnya. Nilai R2 berada antara 0% sampai 100%.

32 a n a li s i s r e gr e s i t e r a pa n r
Output pada Gambar 3.2 menunjukkan bahwa R2= 77,2%. Artinya
sebesar 77,2% variansi atau nilai-nilai dari variabel respon mampu
dijelaskan oleh variabel prediktor dalam model, sedangkan sisanya
dipengaruhi oleh variabel lain di luar model.
b. Uji F dari tabel Anova
Uji F digunakan untuk menguji kelayakan model dan menguji
parameter regresi secara keseluruhan. Berikut merupakan
Hipotesis uji F untuk model yang sudah terkoreksi oleh b 0 :
versus Η 0 : β0 = 0 Η1 : β0 ≠ 0
P-value yang diperoleh dibandingkan dengan taraf signifikansi. Jika
p-value kurang dari α , maka tolak Η0 dan sebaliknya. Berdasarkan
output pada Gambar 3.3, = =
Pvalue 0 , 0008148 < α 0 , 05 , maka tolak
Η 0 . Artinya model layak pada taraf nyata 5%.

c. Uji Parsial atau Uji t


Uji-t digunakan untuk menguji parameter estimasi secara parsial,
dengan kata lain untuk mengetahui apakah variabel prediktor (X)
berpengaruh secara signifikan terhadap variabel respon (Y).
Berikut hipotesisnya:
Η 0 : βι =0 ,ι =0 ,1
Η1 : βι ≠ 0 ,ι =0 ,1
P-value yang diperoleh kemudian dibandingkan dengan taraf
signifikansi. Jika p-value kurang dari α , maka tolak Η0 dan
sebaliknya. Misalnya p-value untuk β1 yaitu 0,000815 lebih kecil
dari α , maka X1 berpengaruh nyata terhadap variabel respon.
d. Persamaan regresi dan prediksi
=
Dari ouput R, diperoleh persamaan regresi yι 89775 , 842 +1, 643 χι .
Jika diketahui data untuk biaya promosi sebesar 12500,13800,145200
maka akan diperoleh hasil prediksi untuk volume penjualan
menggunakan persamaan regresi yang diperoleh, seperti berikut:

Reg re si Linie r 33
Gambar 3.4. Hasil prediksi dari model regresi

Dari hasil prediksi yang diperoleh seperti pada Gambar 3.4.


selanjutnya dilakukan pembulatan.

Tabel 3.2. Hasil prediksi volume penjualan

Biaya promosi Volume Penjualan


12500 60197,12 ≈ 60197
13800 62320,93 ≈ 62321
145200 276989,40 ≈ 276989

Jika digambarkan plot dari data dan garis regresi diperoleh dengan
perintah sebagai berikut:

Gambar 3.5. Hasil prediksi dengan variabel independent diberikan

34 a n a li s i s r e gr e s i t e r a pa n r
Untuk membentuk garis regresi, maka langkah pertama adalah
diberikan data variabel independent (biaya promosi) tertentu dan
dilakukan prediksi volume penjualan dari data tersebut

Gambar 3.6. Plot garis regresi

Titik-titik pada Gambar 3.6. menunjukkan hubungan biaya promosi


dan volume penjualan, sedangkan garis biru menunjukkan garis regresi
dari model yang dihasilkan.

3.3.2 Prosedur Kerja Analisis Regresi Linier Berganda

1). Input data


Cara menginput data berupa file .csv yaitu:
data1 = read.csv(file.choose(), header=TRUE)
untuk menampilkan variabel-variabel apa saja yang ada di dalam
data, digunakan perintah names()sedangkan untuk mengambil
salah satu variabel digunakan perintah $, yaitu
ratarata.penjualan=data1$rata.rata.penjualan.
perminggu  nilai-nilai dari rata-rata penjualan perminggu
banyak.pekerja = data1$banyaknya.pekerja  nilai-
nilai dari banyaknya pekerja
luas.toko = data1$luas.toko  nilai-nilai dari luas toko
2). Melakukan analisis regresi linier berganda dari variabel rata-rata
penjualan perminggu, banyaknya pekerja, dan luas took

Reg re si Linie r 35
menggunakan perintah
regres2=lm(ratarata.penjualan~banyak.
pekerja+luas.toko,data=data1), untuk melihat
ringkasan dari output regesi menggunakan perintah
summary(regres2)


Gambar 3.7. Hasil analisis regresi berganda data rata-rata penjualan
3). Interpretasi hasil
a. Koefisien determinasi (R2)
Ukuran dari kebaikan model ditunjukan oleh R-square (R2). Maksud
dari R Square 0,948 adalah sebanyak 94,8% variansi variabel
respon Y dapat dijelaskan oleh variabel prediktor X dalam model,
sedangkan sisanya sebesar 5,2 % dijelaskan atau dipengaruhi oleh
variabel lain yang di luar model.
b. Uji F dari tabel Anova
Uji F digunakan untuk menguji kelayakan model dan menguji
parameter regresi secara keseluruhan. Hipotesis uji F untuk model
regresi berganda dengan 2 peubah X yang sudah terkoreksi oleh
b0 :
Η 0 : β1 =β2 =0
Η1 : ada minimal satu ι dimana β1 ≠ 0 ,ι =
1, 2

P-value yang diperoleh kemudian dibandingkan dengan taraf


signifikansi. Jika p-value kurang dari α , maka tolak Η0 dan

36 a n a li s i s r e gr e s i t e r a pa n r
sebaliknya. Karena p-value kurang dari α , maka tolak Η0 . Artinya
model layak pada taraf nyata 5%, atau secara keseluruhan, variabel
X1 dan X2 berpengaruh terhadap variabel respon (Y) pada taraf
signifikansi 5%.

c. Uji Parsial atau Uji t


Uji-t digunakan untuk menguji parameter estimasi model regresi
secara parsial, yaitu untuk mengetahui apakah variabel independen
(X) berpengaruh secara signifikan terhadap variabel dependen (Y).
Berikut hipotesisnya:
Hipotesis :
Η 0 : βι =0 , i =0 ,1, 2
Η1 : βι ≠ 0 , i =
0 ,1, 2

P-value model tersebut dibandingkan dengan taraf nyata. Jika


kurang dari α , maka tolak Η0 dan sebaliknya. Misalnya p-value
untuk b1=0,000138 lebih kecil dari α , maka x1 (banyaknya
pegawai) berpengaruh terhadap respon rata-rata penjualan per
minggu. Begitu pula dengan p-value untuk b2=0,017334 lebih kecil
dari α , maka x2 (luas toko) berpengaruh terhadap respon rata-rata
penjualan per minggu. Dalam kasus ini, β0 saja yang tidak nyata.
d. Persamaan regresi dan prediksi
Dari ouput pada Gambar 3.7., diperoleh persamaan regresi
yι =−2 , 446 + 0 , 270 Χ1 + 0 , 668 Χ 2 .
Jika diketahui data untuk banyaknya pegawai yaitu 21, 38, 50 dan
data untuk luas toko yaitu 10, 7,5, 6 maka akan diperoleh hasil
prediksi untuk rata-rata penjualan perminggu menggunakan
persamaan regresi yang diperoleh, seperti berikut:

Gambar 3.8. Hasil prediksi dari model regresi linier berganda

Reg re si Linie r 37
Dari hasil prediksi yang diperoleh seperti pada Gambar 3.8.
selanjutnya dilakukan pembulatan.

Tabel 3.3. Hasil prediksi rata-rata penjualan

Banyak Luas Prediksi rata-rata penjualan


pekerja toko perminggu
21 10 9,895637 ≈ 10
38 7,5 12,812082 ≈ 13
50 6 15,047487 ≈ 15

3.4 Lembar Kerja

Soal Analisis Regresi Linier Sederhana:


Lakukan analisis regresi linier sederhana yang disajikan pada Tabel 2.2.
pada Bab 2.
a. Apakah jumlah korban mati mempengaruhi jumlah kerugian
materi?
b. Dari model yang diperoleh, lakukanlah prediksi untuk kerugian
materi jika diketahui data korban mati pada Tabel 3.4.:

Tabel 3.4. Data Korban Mati

Korban Mati (Orang)


8750
2038
5562
7243
21783
2243
1726
9823
635

38 a n a li s i s r e gr e s i t e r a pa n r
2955

Soal Analisis Regresi Linier Berganda:


Lakukanlah analisis regresi linier berganda terhadap faktor-faktor yang
mempengaruhi Indeks Gini di Indonesia pada tahun 2015 (tingkat
signifikansi 0.05)
Dengan:

Y : Indeks Gini
X1 : Indeks Pembangunan Manusia
X2 : PDRB
X3 : Persentase Tenaga Kerja Formal
X4 : Kepadatan Penduduk
X5 : Persentase Tenaga kerja Informal Sektor Pertanian

Tabel 3.5. Data Indeks Gini di Indonesia Tahun 2015

Provinsi Y X1 X2 X3 X4 X5
Aceh 0.34 69.45 22523.41 39.5 86 85.11
Sumatera Utara 0.33 69.51 31637.41 39.86 191 82.1
Sumatera Barat 0.32 69.98 27077.95 35.59 124 86.02
Riau 0.37 70.84 70769.78 51.36 73 65.61
Jambi 0.34 68.89 36753.23 41.35 68 74
Sumatera Selatan 0.33 67.46 31549.3 38.69 88 77.56
Bengkulu 0.37 68.59 20302.48 31.19 94 88.98
Lampung 0.35 66.95 24581.68 29.17 234 87.78
Kep. Bangka
Belitung 0.28 69.05 33479.77 45.87 84 78.7
Kep. Riau 0.34 73.75 78616.07 71.9 241 76.49
DKI Jakarta 0.42 78.99 142892.2 72.96 15328 47.91
Jawa Barat 0.43 69.5 25842.32 49.61 1320 86
Jawa Tengah 0.38 69.49 23887.37 38.28 1030 90.5
DI Yogyakarta 0.42 77.59 22688.35 48.79 1174 93.79
Jawa Timur 0.40 68.95 34272.29 36.81 813 89.7

Reg re si Linie r 39
Banten 0.39 70.27 30799.59 61.46 1237 89.37
Bali 0.40 73.27 31094.58 47.2 718 92.25
Nusa Tenggara
Barat 0.36 65.19 18476.51 26.8 260 96.77
Nusa Tenggara
Timur 0.35 62.67 11099.85 21.4 105 97.82
Kalimantan Barat 0.33 65.59 23451.95 34.44 33 85.34
Kalimantan Tengah 0.30 68.53 31619.18 45.56 16 68.8
Kalimantan Selatan 0.33 68.38 27787.88 41.48 103 82.9
Kalimantan Timur 0.32 74.17 128594.8 60.34 27 68.91
Kalimantan Utara 0.31 68.76 76823.85 56.82 9 73.49
Sulawesi Utara 0.37 70.39 29196.39 40.45 174 87.03
Sulawesi Tengah 0.37 66.76 28784.2 33.37 47 89.62
Sulawesi Selatan 0.40 69.15 29430.67 36.95 182 92.3
Sulawesi Tenggara 0.38 68.75 29201.9 30.48 66 94.39
Gorontalo 0.40 65.86 19473.94 37.14 101 87.57
Sulawesi Barat 0.36 62.96 20265.5 26.32 76 92.44
Maluku 0.34 67.05 14740.3 31.98 36 93.67
Maluku Utara 0.29 65.91 17534.41 31.4 36 91.94
Papua Barat 0.43 61.73 60064.13 39.45 9 92.84
Papua 0.39 57.25 41424.06 18.51 10 98.03
Sumber: (BPS, 2018)

40 a n a li s i s r e gr e s i t e r a pa n r
3.5 Lembar Laporan Sementara

1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi
linier sederhana dan berganda.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis regresi linier sederhana dan
berganda.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari analisis regresi linier sederhana dan berganda.
4. Penutup
Tuliskan kesimpulan dari hasil analisis regresi linier sederhana
dan berganda.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.

Reg re si Linie r 41
4. Pengujian Asumsi dan Pelanggarannya

Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi linier berganda dan uji asumsi.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi linier berganda dan uji asumsi.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.

4.1 Landasan Teori

Analisis Regresi merupakan alat analisis yang termasuk ke dalam


statistika parametrik. Dengan demikian, untuk menggunakan regresi,
harus melakukan pengujian asumsi terlebih dahulu. Asumsi yang harus
terpenuhi, yaitu:
1. Kenormalan Residual
2. Tidak ada autokorelasi/residual saling bebas
3. Homoscedasticity/kehomogenan variansi residual
4. Tidak ada multikolinieritas (untuk analisis regresi berganda)

4.1.1 Kenormalan Residual


Uji kenormalan residual digunakan untuk melihat apakah sebaran
data yang ada terdistribusi secara normal atau tidak. Model regresi
yang baik adalah model yang memiliki distribusi data normal atau

Peng uji an Asumsi dan p e l an g gar an n ya 43


mendekati normal. Untuk mendeteksi normalitas dapat dilakukan
dengan analisis grafik dan uji statistik. Salah satu cara termudah untuk
melihat normalitas residual yaitu dengan melihat grafik histogram
yang membandingkan antara data observasi dengan distribusi. Hal ini
dapat menyesatkan khususnya untuk jumlah sampel yang kecil. Metode
yang lebih handal adalah dengan melihat normal probability plot yang
membandingkan distribusi kumulatif dan distribusi normal. Distribusi
normal akan membentuk satu garis lurus diagonal dan ploting data
residual akan dibandingkan dengan garis diagonal. Jika distribusi data
residual normal maka garis yang menggambarkan data sesungguhnya
akan mengikuti garis diagonalnya (Ghozali, 2007).
Metode yang digunakan dalam pengujian kenormalan residual
salah satunya dapat menggunakan Uji Kolmogorov-Smirnov dengan
hipotesis sebagai berikut:
H0: Residual menyebar normal
H1: Residual tidak menyebar normal
Selanjutnya p-value yang diperoleh dibandingkan dengan taraf
signifikansi. Jika p-value kurang dari , maka tolak dan sebaliknya.
Transformasi terhadap peubah respon menjadi bentuk yang lebih
normal adalah cara yang umum dipakai pada masalah ketidaknormalan.
Secara teori, transformasi tersebut ada apabila sebaran dari peubah
respon dapat diketahui. Namun demikian, terdapat beberapa
transformasi yang umum dipakai, yaitu acrsin, akar kuadrat, logaritma
dan transformasi logistik (Rawlings, Pantula, & Dickey, 1998). Sebagai
alternatif transformasi tersebut, dapat dipakai transformasi dengan
metode Box-Cox.
Salah satu cara untuk mendapatkan nilai optimal pada metode
Box-Cox adalah dengan mencari nilai yang akan meminimalkan
jumlahan kuadrat residual dari model statistika tersebut untuk data
hasil transformasi . Tabel 4.1 di bawah ini menunjukkan beberapa nilai
dengan transformasinya yang bersesuaian.

44 a n a li s i s r e gr e s i t e r a pa n r
Tabel 4.1. Transformasi Box-Cox

Transformasi
λ
2 X2
0,5 X
0 In X
-0,5 1/ X
-1 1/X

Untuk mengestimasi nilai optimal untuk transformasi Box-Cox,


pada R dapat digunakan perintah box.cox.power() dalam
library(car).

4.1.2 Kebebasan Residual (Autokorelasi)

Residual yang berkorelasi mungkin disebabkan karena beberapa


hal. Residual dari pengamatan pada waktu tertentu cenderung untuk
berkorelasi dengan residual yang berdekatan. Misalkan saja pada
pengamatan pertumbuhan tanaman atau hewan, residual yang
didapatkan akan cenderung saling berkorelasi. Adanya autokorelasi
antar residual menyebabkan estimator yang diperoleh tidak memenuhi
sifat BLUE (Best Linear Unbiased Estimator), sama dengan jika variansi
dari residual bersifat heterogen. Apabila residual saling bebas, maka
plot antara residual dan urutan residual tersebut tidak akan memiliki
pola apapun.
Metode yang digunakan untuk mendiagnosis adanya autokorelasi
antar residual adalah dengan menggunakan uji Durbin-Watson. Berikut
adalah hipotesis pada Uji Durbin-Watson.
H0: Tidak terdapat autokorelasi pada residual
H1: Terdapat autokorelasi ordo pada residual
Selanjutnya p-value yang diperoleh dari uji ini dibandingkan
dengan taraf signifikansi. Jika p-value kurang dari α , maka tolak H0 dan

Peng uji an Asumsi dan p e l an g gar an n ya 45


sebaliknya.
Statistik Uji Durbin-Watson didasarkan pada residual dari metode
OLS adalah
(Pers. 2 4.1)
∑t =2 (εˆt − εˆt −1 )
T

DW =
∑t =1 εˆt 2
T
dengan T adalah banyaknya pengamatan.
Nilai DW tersebut berkisar antara 0 sampai 4. Jika nilai DW lebih
rendah daripada batas bawah (Lower Bound/) maka ada autokorelasi
positif, sedangkan jika nilai DW leboh besar dari ( 4 − d ι ) , maka ada
autokorelasi negatif (Ghozali, 2007). Dalam pengambilan keputusan,
nilai DW dibandingkan dengan nilai pada tabel Durbin-Watson dengan
kriteria pengambilan keputusannya seperti pada Tabel 4.2 berikut.

Tabel 4.2. Tabel Uji Durbin-Watson

Nilai DW Keputusan
0 < DW < d ι atau 4 − d ι < DW < 4 Tolak

d u < DW < 4 − d u Terima

d ι < DW < d u atau 4 − d u < DW < 4 − d ι Tidak ada keputusan

Untuk mengatasi masalah adanya korelasi antar sisaan dapat


dilakukan dengan mengakomodasi adanya korelasi antar sisaan
ini. Berbagai model deret waktu dapat digunakan untuk keperluan
ini. Alternatif lain adalah dengan menerapkan metode kuadrat
terkecil terampat (Generalized Least Squares). Metode ini merupakan
pengembangan dari metode kuadrat terkecil terboboti, di mana
bobot yang digunakan adalah keseluruhan matriks ragam-peragam
sisaan. Kesulitan dari metode ini adalah bahwa struktur keragaman
sisaan seringkali tidak diketahui sehingga harus diduga dari data. Hasil
pendugaan yang tidak sesuai justru mengakibatkan dugaan dari metode
ini lebih buruk jika dibandingkan metode kuadrat terkecil (Rawlings,
Pantula, & Dickey, 1998)
Lebih jauh mengenai metode ini dapat dibaca pada (Rawlings,

46 a n a li s i s r e gr e s i t e r a pa n r
Pantula, & Dickey, 1998). Metode lain yang dapat digunakan untuk
mengatasi masalah ini adalah Prosedur Cochran-Orcutt atau Prosedur
Hildreth-Lu. Kedua metode ini mengasumsikan terdapat autokorelasi
ordo 1 pada sisaan data deret waktu. Lebih jauh mengenai prosedur ini
dapat dibaca pada (Pindyck & Rubinfeld, 2013).

4.1.3 Kehomogenan Variansi Residual

Uji heterokedastisitas bertujuan menguji apakah dalam model


regresi terjadi ketidaksamaan varians dari residual satu pengamatan ke
pengamatan lain. Heterokedastisitas terjadi apabila variabel gangguan
tidak mempunyai varians yang sama untuk semua observasi. Model
regresi yang baik adalah yang homokedastisitas atau tidak terjadi
heterokedastisitas (Ghozali, 2007).
Pengaruh dari tidak dipenuhinya asumsi ini adalah presisi/
kecermatan dari estimator metode OLS menjadi lebih kecil
jika dibandingkan dengan estimator yang mengakomodir
ketidakhomogenan residual tersebut (Rawlings, Pantula, & Dickey,
1998).
Hipotesis untuk menguji kehomogenan variansi residual:
H0: Asumsi kehomogenan variansi residual terpenuhi
H1: Asumsi kehomogenan variansi residual tidak terpenuhi
Langkah berikutnya adalah membandingkan p-value yang
diperoleh dengan taraf signifikansi. Jika p-value kurang dari α , maka
tolak H0 dan sebaliknya.
Pengujian asumsi ini bisa menggunakan scatter plot antara nilai
residual standardize predicted value dengan regression studentized
residual. Selain itu dapat digunakan Uji Breusch Pagan ataupun Uji White.
Pada uji Breusch Pagan dihitung nilai statistik BP = ∑ yˆ ι / 2 dari regresi
2

( εˆ 2
)
semu (auxiliary) antara residual terstandardisasi pι = ι /σˆ , dimana
2


σˆ 2 = εˆι2 terdapat variabel-variabel prediktor. Berdasarkan asumsi
normalitas dari residual diketahui bahwa statistik BP akan berdistribusi
X2 dengan derajat bebas k yaitu banyaknya variabel prediktor dalam

Peng uji an Asumsi dan p e l an g gar an n ya 47


persamaan regresi semu, tidak termasuk konstanta dalam model.
Dua pendekatan yang dilakukan untuk mengatasi masalah
ketidakhomogenan variansi residual ini adalah dengan transformasi
variabel respon atau dengan menggunakan metode kuadrat terkecil
terboboti (Weighted Least Square). Lebih jauh mengenai metode ini
dapat dibaca di (Rawlings, Pantula, & Dickey, 1998), (Neter, Wasserman,
& Kutner, 1990) dan (Pindyck & Rubinfeld, 2013).

4.1.4 Multikolinearitas
Pengujian Multikolinearitas juga sering disebut uji independensi.
Pengujian ini akan melihat apakah antara sesama variabel prediktor
memiliki hubungan yang besar atau tidak. Jika hubungan antara sesama
variabel prediktor kuat, maka antara variabel prediktor tersebut tidak
saling bebas.
Untuk mendeteksi adanya masalah multikolinearitas dapat
dilakukan dengan eksplorasi hubungan antar variabel prediktor,
baik melalui scatter plot maupun menghitung korelasi antar variabel
prediktor. Cara lain dapat dilakukan dengan menghitung nilai VIF atau
Variance Inflation Factor.
Menurut (Santoso, 2012) rumus yang digunakan adalah sebagai
berikut:
1 atau Tolerance = 1 (Pers. 4.2)
VIF =
Tolerance VIF
Untuk mendeteksi ada atau tidaknya gejala multikolinearitas di
dalam model regresi adalah sebagai berikut:
1. Nilai R2 yang dihasilkan oleh suatu estimasi model regresi empiris
sangat tinggi, tetapi secara individual variabel-variabel prediktor
banyak yang tidak signifikan mempengaruhi variabel terikat.
2. Menganalisis matrik korelasi antar variabel prediktor. Jika ada
korelasi yang cukup tinggi, maka di dalam model regresi tersebut
terdapat multikolinearitas.
3. Multikolinearitas dapat dilihat dari nilai tolerance dan VIF. Jika
nilai tolerance yang rendah sama dengan nilai VIF tinggi, maka

48 a n a li s i s r e gr e s i t e r a pa n r
menunjukkan adanya kolonieritas yang tinggi (karena VIF=1/
Tolerance). Nilai cutoff yang umum dipakai untuk menunjukan
adanya multikolinearitas adalah nilai tolerance<0,10 atau sama
dengan nilai VIF>10

Terdapat beberapa cara yang dapat digunakan untuk mengatasi


masalah multikolinearitas ini, antara lain dengan menambah
pengamatan, menghilangkan peubah yang berkorelasi kuat dengan
peubah lain, menggunakan peubah penjelas lain yang tidak berkorelasi
dengan peubah penjelas lain, atau dengan menggunakan teknik selain
metode kuadrat terkecil dalam pendugaan paramater. Untuk cara
yang terakhir tersebut dikembangkan beberapa metode alternatif
di antaranya adalah Regresi Gulud (Ridge Regression) dan Regresi
Komponen Utama (Principal Component Regression).

4.2 Alat dan Bahan

Alat yang digunakan adalah R atau RStudio. Bahan yang digunakan


adalah data rata-rata penjualan yang disajikan pada Tabel 3.1. pada Bab
3.

4.3 Prosedur Kerja

4.3.1 Prosedur Kerja Pengujian Asumsi Kenormalan Sisaan

a. Dari hasil analisis regresi berganda, diperoleh beberapa


output, salah satunya adalah residuals yang akan kita uji
kenormalannya. Cara untuk mengambil data residuals dari
hasil regresi menggunakan perintah out2$residuals.

Peng uji an Asumsi dan p e l an g gar an n ya 49


Gambar 4.1. Pendefinisian residual dari model regresi berganda

Diperoleh data residuals sebagaimana pada Gambar 4.1. dengan


mean 0,00000 dan standard deviasi 1,085987.
b. Pengujian kenormalan sisaan/residual
• Shapiro Wilk Test : shapiro.test()
• Pengujian kenormalan sisaan/residual menggunakan
library(tseries)
⇒⇒ Jarque Bera Test (JB) :jarque.bera.test()
• Pengujian kenormalan sisaan/residual menggunakan
library(nortest)
⇒⇒ Lilliefors/ Kolmogorov-Smironov : lillie.test()
⇒⇒ Anderson-Darling : ad.test()
⇒⇒ Shapiro-Francia : sf.test()
⇒⇒ Cramer Von-Mises : cvm.test()
⇒⇒ Pearson Chi Square : pearson.test()

Misalkan kita ingin menguji kenormalan residual menggunakan


uji Kolmogorov-Smirnov maka menggunakan perintah lillie.
test(out2$residuals)

50 a n a li s i s r e gr e s i t e r a pa n r
Gambar 4.2. Uji normalitas residual dengan uji Kolmogorov-Smirnov

c. Histogram dan plot distribusi normal


Berikut ini adalah perintah dalam R untuk membuat histogram
dan plot distribusi normal.

Gambar 4.3. Perintah untuk membuat histogram dan plot distribusi normal

Gambar 4.4. Histogram dan plot distribusi normal

Dari output R pada Gambar 4.2. terlihat bahwa p-value > α (0,05),
maka tidak cukup bukti untuk menolak HO, berarti residual menyebar

Peng uji an Asumsi dan p e l an g gar an n ya 51


normal. Sedangkan dari Gambar 4.4. juga terlihat bahwa histogram dari
data residual memenuhi atau mempunyai bentuk yang hampir sama
dengan plot distribusi normal, sehingga dapat disimpulkan residual
menyebar normal, dengan kata lain asumsi kenormalan residual telah
terpenuhi.

4.3.2 Prosedur Kerja Pengujian Asumsi Kebebasan Residual

Uji Durbin-Watson menggunakan library(lmtest) dengan


perintah dwtest().

Gambar 4.5. Perintah Uji Durbin-Watson di R

Dari output R pada Gambar 4.5. diperoleh nilai DW yaitu sebesar


2,334 dengan nilai p-value sebesari 0,6959 lebih besar dari α (0,05), maka
tidak cukup bukti untuk menolak HO, berarti tidak terdapat autokorelasi
pada residual, dan asumsi kebebasan residual telah terpenuhi.

4.3.3 Prosedur Kerja Pengujian Asumsi Kehomogenan


Variansi Residual

Uji Breusch Pagan menggunakan library(lmtest) dengan


perintah bptest().

Gambar 4.6. Perintah Uji Breusch Pagan di R

52 a n a li s i s r e gr e s i t e r a pa n r
Dari output R pada Gambar 4.6. diperoleh nilai Breusch Pagan (BP)
yaitu sebesar 2,9137 dengan nilai p-value sebesari 0,233 lebih besar dari
α (0,05), maka tidak cukup bukti untuk menolak HO, berarti asumsi
kehomogenan variansi residual terpenuhi.

4.3.4 Prosedur Kerja Pengujian Asumsi Multikolinearitas


Untuk menghitung VIF menggunakan library(car) dengan
perintah vif().

Gambar 4.7. Perintah menghitung nilai VIF di R

Berdasarkan output R pada Gambar 4.7., diperoleh nilai VIF


untuk variabel banyaknya pekerja sebesar 3,480647 dan luas toko
sebesar 3,480647. Kedua nilai VIF ini tidak melebihi VIF sehingga
dapat disimpulkan bahwa asumsi tidak adanya multikolinearitas telah
terpenuhi.

4.4 Lembar Kerja

Soal:
Terdapat data populasi, kemiskinan, pendidikan, dan
pengangguran dari negara Jerman tahun 2016. Analisislah apakah ada
pengaruh tingkat kemiskinan dan populasi terhadap tingkat pendidikan
di negara jerman pada tahun 2016.

Tabel 4.3. Data Populasi di Jerman Tahun 2016

No Provinsi Pendidikan Kemiskinan Populasi


1 Baden-Wurttemberg 361855 27420 9355239
2 Bayern 389080 41893 11379653

Peng uji an Asumsi dan p e l an g gar an n ya 53


No Provinsi Pendidikan Kemiskinan Populasi
3 Berlin 187107 246 2918072
4 Brandenburg 49269 12190 2413079
5 Bremen 37149 114 578877
6 Hamburg 107455 190 1492489
7 Hessen 260184 16106 5307140
Mecklenburg-
39137 10005 1583154
8 Vorpommern
9 Niedersachsen 209770 28035 7352720
10 Nordhein-Westfalen 768840 29536 15932038
11 Rheinland-Pfalz 123211 18370 3717802
12 Saarland 31517 2048 933397
13 Sachsen 111550 13436 3979538
14 Sachsen-Anhalt 54212 10945 2247873
15 Schleswig-Holstein 62057 9874 2683060
16 Thuringen 49832 9562 2155853

a. Identifikasi variabel dependen dan variabel independen dari data


tersebut.
b. Lakukan analisis regresi linier berganda dengan menggunakan
software R.
c. Lakukan pemeriksaan asumsi untuk model analisis regresi yang
didapatkan (uji normalitas, uji autokorelasi, uji homoskedastisitas,
uji mulikolinearitas).
d. Tentukan model terbaik dan interpretasikan.
e. Lakukanlah prediksi untuk data tersebut.

54 a n a li s i s r e gr e s i t e r a pa n r
4.5 Lembar Kerja Sementara

1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan uji asumsi model
regresi linier berganda.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan uji asumsi model regresi linier
berganda.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari uji asumsi model regresi linier berganda, dan penjelasan dari
pertanyaan yang diberikan.
4. Penutup
Tuliskan kesimpulan dari pertanyaan yang diberikan.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.

Peng uji an Asumsi dan p e l an g gar an n ya 55


56 a n a li s i s r e gr e s i t e r a pa n r
5. Regresi Nonlinier

Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi nonlinier.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi nonlinier.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.

5.1 Landasan Teori

Dalam analisis Regresi, melalui metode Kuadrat Terkecil, model-


model yang linear dalam parameter dan yang berbentuk :
Y = β0 + β1Z1 + β2 Z 2 + ... + β p Z p + ε (Pers. 5.1)
dimana merupakan sembarang fungsi peubah-peubah peramal .
Dalam banyak bidang ilmu-ilmu fisika, kimia, teknik dan biologi, banyak
situasi percobaan yang secara teoritis menggunakan model regresi
nonlinear. Model-model nonlinear tersebut diantaranya berbentuk:
(Pers. y = α e βX + ε 5.2)

α
y +ε
(Pers.
( (
1 + exp − β x + β x + ... + β x
1 1 2
5.3)
2 k k ))

y = α + β1 x1 + β2 x 2 + ... + βK x K + ε
(Pers.
Y1 Y2 YK
5.4)

reg re si no nlinie r 57
Meskipun persamaan ini dapat merepresentasikan berbagai
keragaman yang luas, namun ada banyak situasi yang tidak dapat
dianalisis oleh model tersebut.Misalnya, dalam kasus tersedianya
informasi yang pasti tentang hubungan antara peubah respon dan
peubah peramal. Informasi yang seperti itu mungkin mengandung
pengetahuan yang langsung tentang bentuk model yang sesungguhnya
atau mungkin dapat dipresentasikan melalui suatu persamaan
diferensial yang harus dipenuhi oleh model tersebut. Bila informasi
membawa kita pada model nonlinier, biasanya bila mungkin kita lebih
suka menggunakannya daripada mengambil model linier alternatif
(hasil diferensial) yang mungkin kurang realistis (Draper & Smith, 1998).

5.2 Alat dan Bahan

Alat yang digunakan adalah laptop yang terinstall R dan RStudio.


Sementara bahan praktikum adalah data advisory fee yang disajikan
pada Tabel 5.1.

Tabel 5.1. Data Advisory Fee

No Fee (%) Asset


1 0.52 0.5
2 0.508 5
3 0.484 10
4 0.46 15
5 0.4398 20
6 0.4238 25
7 0.4115 30
8 0.402 35
9 0.3944 40
10 0.388 45
11 0.3825 55
12 0.3738 60
* Aset mewakili nilai aset bersih, miliaran dolar

58 a n a li s i s r e gr e s i t e r a pa n r
Data pada Tabel 5.1. berkaitan dengan biaya manajemen yang
merupakan perusahaan reksadana terkemuka di Amerika Serikat yang
membayar kepada penasihat investasinya (advisory fee) untuk mengelola
asetnya. Biaya yang dibayarkan tergantung pada nilai aset bersih dari
dana tersebut. Terlihat bahwa semakin tinggi nilai asset bersih dari dana
maka semakin rendah biaya penasihat investasi (Damodar, 2009).

5.3 Prosedur Kerja


5.3.1 Prosedur Kerja Model Regresi Linier Sederhana
1). Input data
Cara menginput data berupa file .csv yaitu:
data2 = read.csv(file.choose(), header=TRUE,
sep=”;”)

Gambar 5.1. Penginputan data di R

2). Mencoba menganalisis data menggunakan regresi linier


sederhana, yaitu

reg re si no nlinie r 59
Gambar 5.2. Output regresi linier sederhana

Dari output pada Gambar 5.2. diperoleh nilai R2 sebesar 91,27%


dan p-value untuk uji overall sebesar 0,000 yang lebih kecil dari taraf
signifikansi 0,05, sehingga dapat disimpulkan bahwa model regresi
linier sederhana yang digunakan layak untuk data advisory fee. Namun
jika data tersebut diplot, maka plot yang dihasilkan tidak linier atau
tidak membentuk garis lurus.

Gambar 5.3. Plot hubungan data asset dan fee

60 a n a li s i s r e gr e s i t e r a pa n r
Meskipun nilai R2 pada regresi linier sederhana cukup tinggi, tetapi
kurang tepat jika tetap digunakan model tersebut. Selanjutnya akan
dicoba model nonlinier, misalnya model kuadratik dan kubik.

5.3.2 Prosedur Kerja Model Regresi Nonlinier Kuadratik


Menggunakan perintah:
regreskuadratik=lm(fee~asset+I(asset^2),
data=data2)

Gambar 5.4. Output regresi nonlinier kuadratik

Dari output R pada Gambar 5.4. terlihat bahwa p-value untuk model
kuadratik kurang dari taraf signifikansi 0,05, artinya model kuadratik
tersebut layak pada taraf signifikansi 0,05 dengan nilai sebesar 99,56%.
Diperoleh model regresi kuadratik untuk data advisory fee adalah model
regresi.

reg re si no nlinie r 61
5.3.3 Prosedur Kerja Model Regresi Nonlinier Kubik

Menggunakan perintah
regreskubik=lm(fee~asset+I(asset^2)+
I(asset^3), data=data2)

Gambar 5.5. Output regresi nonlinier kubik

Dari output pada Gambar 5.4. dan Gambar 5.5. terlihat bahwa
p-value untuk model kuadratik dan kubik kurang dari taraf signifikansi
0,05, artinya kedua model tersebut layak pada taraf signifikansi 5%
dengan nilai R2 yang hampir sama yaitu sebesar 99,56%. Akan tetapi
pada model kubik terdapat satu variabel predictor yang tidak signifikan,
sehingga pada kasus ini dipilih model kuadratik. Jadi, persamaan regresi
untuk kasus ini adalah Y =
0 , 527 − 0 , 005088 X + 0 , 00004339 X 2 .

62 a n a li s i s r e gr e s i t e r a pa n r
5.4 Lembar Kerja

Soal:
Berikut merupakan data inflasi dan pertumbuhan ekonomi tahunan di
Indonesia tahun 2010-2017 pada Tabel 5.2.

Tabel 5.2. Data Inflasi dan Pertumbuhan Ekonomi Indonesia 2010-2017


Tahun Inflasi (%) Pertumbuhan ekonomi (%)
2010 6.96 6.81
2011 3.79 6.44
2012 4.3 6.19
2013 8.38 5.56
2014 8.36 5.02
2015 3.35 4.79
2016 3.02 5.02
2017 3.61 5.07
Sumber: (BI, Tingkat Inflasi, 2018)

Dengan menggunakan Inflasi sebagai variabel independen (X) dan


Pertumbuhan Ekonomi sebagai variabel dependen (Y). Lakukan :
1. Estimasi Plot
2. Estimasi model nonlinier
3. Model terbaik yang didapatkan
4. Koefisien determinasi model terbaik
5. Interprestasi model terbaik
6. Perbandingan data aktual dan data prediksi
7. Kesalahan prediksi (MAPE)

reg re si no nlinie r 63
5.5 Lembar Kerja Sementara

1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi
nonlinier.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis regresi nonlinier.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari analisis regresi nonlinier dan penjelasan dari pertanyaan
yang diberikan.
4. Penutup
Tuliskan kesimpulan dari pertanyaan yang diberikan.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.

64 a n a li s i s r e gr e s i t e r a pa n r
6. Regresi Dummy

Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi dummy.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi dummy.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.

6.1 Landasan Teori

Menurut (Damodar, 2009), dalam analisis regresi, variabel respon


sering dipengaruhi tidak hanya oleh variabel predictor dengan skala
rasio (misalnya, pendapatan, output, harga, biaya, tinggi, suhu) tetapi
juga oleh variabel yang pada dasarnya kualitatif atau berskala nominal
seperti jenis kelamin, ras, warna kulit, agama, kebangsaan, wilayah
geografis, pergolakan politik, dan afiliasi partai.
Salah satu cara untuk mengukur atribut-atribut tersebut adalah
dengan membangun variabel bantuan dengan memberikan kode
1 atau 0, 1 menunjukkan keberadaan dari atribut tersebut dan 0
yang menunjukkan tidak adanya atribut tersebut. Misalnya 1 dapat
menunjukkan bahwa seseorang adalah perempuan dan 0 adalah pria,
atau 1 dapat menunjukkan bahwa seseorang adalah lulusan perguruan
tinggi dan 0 bahwa orang tersebut bukan lulusan perguruan tinggi,

Reg re si Dummy 65
dan seterusnya. Variabel dengan kode nilai 0 dan 1 tersebut disebut
variabel dummy. Variabel dummy pada dasarnya merupakan alat untuk
mengklasifikasikan data ke dalam kategori yang telah ditentukan seperti
pria atau wanita.

6.2 Alat dan Bahan

Alat yang digunakan adalah laptop yang terinstall R dan RStudio.


Sementara bahan praktikum adalah data kepuasan kerja yang disajikan
pada Gambar 6.1.
Tabel 6.1. Data rata-rata gaji guru

Salary Spending D2 D3 Salary Spending D2 D3


19583 3346 1 0 22795 3366 0 1
20263 3114 1 0 21570 2920 0 1
20325 3554 1 0 22080 2980 0 1
26800 4642 1 0 22250 3731 0 1
29470 4669 1 0 20940 2853 0 1
26610 4888 1 0 21800 2533 0 1
30678 5710 1 0 22934 2729 0 1
27170 5536 1 0 18443 2305 0 1
25853 4168 1 0 19538 2642 0 1
24500 3547 1 0 20460 3124 0 1
24274 3159 1 0 21419 2752 0 1
27170 3621 1 0 25160 3429 0 1
30168 3782 1 0 22482 3947 0 0
26525 4247 1 0 20969 2509 0 0
27360 3982 1 0 27224 5440 0 0
21690 3568 1 0 25892 4042 0 0
21974 3155 1 0 22644 3402 0 0
20816 3059 1 0 24640 2829 0 0
18095 2967 1 0 22341 2297 0 0
20939 3285 1 0 25610 2932 0 0

66 a n a li s i s r e gr e s i t e r a pa n r
22644 3914 1 0 26015 3705 0 0
24624 4517 0 1 25788 4123 0 0
27186 4349 0 1 29132 3608 0 0
33990 5020 0 1 41480 8349 0 0
23382 3594 0 1 25845 3766 0 0
20627 2821 0 1        
Sumber: National Educational Association, as reported by Albuquerque Tribune, Nov. 7, 1986.

6.3 Prosedur Kerja


Tabel 6.1. menunjukkan data rata-rata gaji guru sekolah umum
di beberapa negara pada tahun 1986 berdasarkan area. Kode D2 =
1 menunjukkan area di Northeast dan North Cental, sedangkan 0
menunjukkan area lainnya. Kode D3 = 1 menunjukkan area South dan 0
menunjukkan area lain.

6.3.1 Prosedur Kerja Analisis Regresi Dummy

1). Input data


Cara menginput data berupa file .csv yaitu:
data3 = read.csv(file.choose(), header=TRUE,
sep=”;”)

Reg re si Dummy 67
Gambar 6.1. Penginputan data rata-rata gaji guru di R
2). Menggunakan perintah
regresdumi=lm(salary~spending+D2+D3,
data=data3)

Gambar 6.2. Output analisis regresi dummy

68 a n a li s i s r e gr e s i t e r a pa n r
Terlihat pada Gambar 6.3. untuk nilai F-statistic bahwa secara
overall semua variabel prediktor mampu memprediksi rata-rata gaji guru
(salary) secara signifikan ( p − value= 0 , 00 < α= 0 , 05 ) . Rata-rata gaji guru
dipengaruhi atau dapat dijelaskan oleh variabel spending, D2, dan D3
sebesari 72,27%, dan sisanya dijelaskan oleh variabel lain di luas model.
Berikut ini adalah persamaan regresi dummy dari data rata-rata gaji
guru: Y =13269 ,1141 + 3 , 2888spending −1673 , 5144D 2 −1144 ,1557D 3
Nilai signifikansi untuk masing-masing variabel prediktor
menunjukkan bahwa D3 tidak berpengaruh secara signifikan terhadap
rata-rata gaji guru ( p − value
= 0 ,1904 <= α 0 , 05 ) , maka akan dicoba
mengeluarkan variabel D3 dari model.

Gambar 6.3. Output analisis regresi dummy setelah variabel D3 dikeluarkan

Dari output pada Gambar 6.3. terlihat bahwa semua variabel


prediktor mampu memprediksi rata-rata gaji secara signifikan
( p − value= 0 , 00 < α= 0 , 05 ) . Namun variabel D2 mempunyai
p-value yang lebih besar dari taraf signifikansi, maka variabel D2 akan
dikeluarkan dari model.

Reg re si Dummy 69
Gambar 6.4. Output analisis regresi dummy setelah variabel D2 dikeluarkan

Pada Gambar 6.4. terlihat semua variabel telah signifikan secara


parsial maupun overall. Dalam kasus ini ternyata variabel dummy
tidak berpengaruh terhadap rata-rata gaji gutu. Persamaan akhir yang
diperoleh adalah
 = 1213 + 3 , 308spending .
salary

6.4 Lembar Kerja


Soal:
Download data saham Unilever Indonesia Tbk. (UNVR) dan data
Indeks Harga Saham Gabungan Bursa Efek Indonesia (IHSG) periode
harian dengan rentang waktu antara 16 Oktober 2014 sampai dengan
15 Oktober 2015 melalui https://finance.yahoo.com/ (Finance, 2018).
Kemudian lakukan analisis regresi dumi dengan variabel dependen
Return saham UNVR Close Prices (Y), variabel independen Return IHSG
Close Prices (X1) dan Efek Monday (X2).
Lakukan analisis menggunakan R.

70 a n a li s i s r e gr e s i t e r a pa n r
6.5 Lembar Kerja Sementara

1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi
dummy.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan
kegunaan dalam melakukan analisis regresi dummy.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output
dari analisis regresi dummy.
4. Penutup
Tuliskan kesimpulan dari analisis regresi dummy yang dilakukan.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.

Reg re si Dummy 71
7. Regresi Logistik

Capaian Pembelajaran
Setelah melakukan praktikum pada bab ini, diharapkan:
1. (PPc2) mahasiswa mampu mendeskripsikan output program R dari
model regresi logistik.
2. (KKa1) mahasiswa mampu melakukan cara pengorganisasian data
pada software R dan beberapa cara pengorganisasian data dari file
data yang berbeda pada software R.
3. (KKa2) mahasiswa mampu membuat kesimpulan dari output
software R dari model regresi logistik.
4. (KUi1) mahasiswa mampu menyimpan data dan sintaks dari model
yang dibuat dalam software R.
5. (KUi2) mahasiswa mampu memanggil kembali data dan sintaks dari
model yang dibuat dalam software R.
7.1 Landasan Teori
Regresi logistik merupakan perkembangan dari regresi linier.
Dalam regresi logistik variabel respon berupa kategori dan tidak
kontinu. Regresi logistik bisa berupa binomial dan multinomial. Pada
regresi logistik binomial atau binari, output dari variabel respon hanya
mempunyai dua output misalkan “Ya” atau “Tidak”, “Sukses” atau “Gagal”.
Secara umum, output ini dikodekan menjadi “0” dan “1”. Sedangkan
regresi logistik multinomial digunakan pada kasus output tiga atau
lebih seperti “bagus”, “sangat bagus”, dan “paling bagus”.
Tujuan dari regresi logistik adalah memprediksi peluang atau
probability dari variabel respon. Selain itu, untuk memprediksi efek
dari serangkaian variabel predictor pada variabel respon biner dan
mengklasifikasikan observasi dengan memperkirakan probabilitas
bahwa observasi tersebut ada dalam kategori tertentu atau tidak.
Model baseline dalam kasus regresi logistik adalah memprediksi
hasil yang paling sering muncul sebagai hasil untuk semua titik data,

Reg re si Lo g istik 73
misalkan sering muncul “Sukses”.
Output dari model regresi logistik adalah probabilitas, sehingga
perlu dipilih nilai ambang (threshold). Jika probabilitasnya lebih besar
dari nilai ambang ini, output tersebut diprediksi akan terjadi dan
sebaliknya.
Dalam pengklasifikasian digunakan confusion matrix dengan
membandingkan hasil aktual dengan hasil yang diprediksi. Baris diberi
label dengan hasil aktual sementara kolom diberi label dengan hasil
yang diprediksi.
Setelah proses pengklasifikasian kemudian dihitung seberapa
akurat model yang diperoleh yaitu Nilai True Positive (TP)+Nilai True
Negative (TN)/Total.

7.1.1 Persamaan Regresi Logistik

Peluang harapan bahwa Y=1 (sukses) berdasarkan nilai X yang


diberikan adalah
e β + β X + β X +... + β X
o 1 1 2 2 n n

= (Yι1IX ) .
π ι P= β + β X + β X + ... + β X .
(Pers. 7.1)
1+e o 1 1 2 2 n n

dengan βo  merupakan konstanta, β1 merupakan koefisien


masing- masing variabel.
Sedangkan nilai odds ratio
π (Pers. 7.2)
= e βo + β1X1 + β2 X 2 +... + βn X n
1 −π
Nilai odds ratio > 1 maka akan lebih mungkin masuk ke dalam Y=1
(sukses).
Nilai odds ratio < 1 maka akan lebih mungkin masuk ke dalamY=0
(gagal).
Nilai odds ratio = 0,5 maka tidak ada hubungan antara Y dan X.
7.2 Alat dan Bahan
Alat yang digunakan adalah laptop yang terinstall R dan RStudio.
Sementara bahan praktikum adalah data nilai akhir mahasiswa yang
disajikan pada Tabel 7.1.
Download data pada https://github.com/parulnith/A-guide-

74 a n a li s i s r e gr e s i t e r a pa n r
to-Machine-Learning-in-R/blob/master/Part%205%20Logistic%20
regression%20dataset/quality.csv. Data tersebut berisi data pelayanan
dalam sebuah rumah sakit, pelayanan bagus (good care) dikodekan
dengan 0 dan pelayanan buruk (poor care) dikodekan dengan satu.
Sementara itu variabel yang mempengaruhi adalah variabel Office Visits
dan Narcotics. Akan dilakukan analisis untuk meningkatkan kualitas
pelayanan rumah sakit tersebut (Pandey, 2018).

Tabel 7.1. Data Pelayanan Rumah Sakit


Member- Office- Narco- Poor- Member- Office- Narco- Poor-
ID Visits tics Care ID Visits tics Care
1 18 1 0 67 2 1 0
2 6 1 0 68 9 2 0
3 5 3 0 69 6 0 0
4 19 0 0 70 13 6 0
5 19 3 0 71 14 0 0
6 9 2 1 72 18 1 0
7 8 1 0 73 1 1 0
8 8 0 0 74 14 1 0
9 4 3 1 75 6 2 0
10 0 2 0 76 7 3 0
11 20 2 0 77 3 2 0
12 7 4 0 78 6 2 0
13 3 1 0 79 8 0 0
14 20 3 0 80 5 0 0
15 31 3 0 81 6 0 0
16 8 0 0 82 13 2 0
17 9 0 0 83 22 9 1
18 20 1 1 84 26 46 1
19 14 0 0 85 9 0 1
20 20 0 0 86 4 0 0
21 14 1 1 87 7 4 0
22 9 1 0 88 9 5 0
23 12 0 0 89 5 3 0

Reg re si Lo g istik 75
24 6 2 1 90 0 0 0
25 14 1 0 91 9 11 0
26 7 0 0 92 9 1 0
27 12 0 0 93 15 0 0
28 3 2 1 94 15 0 0
29 18 32 1 95 8 0 0
30 21 6 1 96 5 3 0
31 2 0 0 97 18 4 0
32 45 0 0 98 11 1 0
33 6 0 0 99 15 2 1
34 2 5 0 100 7 0 0
35 46 2 1 101 26 0 1
36 37 2 0 102 11 1 0
37 9 0 0 103 14 1 1
38 7 1 0 104 16 10 1
39 15 1 0 105 15 25 1
40 8 0 0 106 28 59 1
41 15 0 1 107 25 20 1
42 9 0 0 108 5 11 0
43 0 0 0 109 12 0 0
44 19 1 0 110 7 21 1
45 13 0 0 111 24 1 0
46 21 25 1 112 29 40 1
47 31 3 1 113 22 0 0
48 5 2 1 114 14 25 1
49 2 0 0 115 12 8 0
50 6 3 0 116 10 1 0
51 15 0 0 117 21 25 1
52 28 0 0 118 16 3 0
53 18 0 0 119 22 9 0
54 7 0 0 120 9 0 0
55 7 0 0 121 9 1 0
56 46 0 1 122 8 0 0

76 a n a li s i s r e gr e s i t e r a pa n r
57 10 0 0 123 7 1 0
58 25 34 0 124 17 0 0
59 19 19 0 125 23 0 1
60 17 2 1 126 6 0 0
61 7 0 0 127 5 3 0
62 13 30 1 128 3 2 0
63 20 1 0 129 5 9 0
64 13 0 1 130 14 1 1
65 19 1 0 131 22 3 0
66 25 0 0

7.3 Prosedur Kerja


1). Input data
Cara menginput data berupa file .csv yaitu:
datanilai=read.csv(file.choose(),
header=TRUE, sep=”;”)

Gambar 7.1. Penginputan data nilai di R


2). Menghitung model baseline

Gambar 7.2. Model baseline

Reg re si Lo g istik 77
Nilai untuk model baseline kurang lebih sebesar 75%, artinya
pelayanan rumah sakit sudah cukup baik.
3). Membagi data menjadi data training dan data testing

Gambar 7.3. Spliting data

Data dibagi menjadi dua yaitu sebanyak 75% digunakan untuk


data training yaitu untuk membangun model dan sisanya sebagai data
testing untuk menghitung akurasi dari model yang diperoleh. set.
seed(88)digunakan untuk merandom data sebanyak 88 kali.
4). Model regresi logistik

Gambar 7.4. Model regresi logistik

78 a n a li s i s r e gr e s i t e r a pa n r
Nilai signifikansi pada Gambar 7.4. menunjukkan seluruh variabel
predictor signifikan pada taraf signifikansi 5%.

Gambar 7.5. Hasil prediksi variabel respon berupa peluang

5). Penentuan threshold


library(ROCR)

ROCRpred = prediction(predictTrain,
qualityTrain$PoorCare)

ROCRperf = performance(ROCRpred, “tpr”,


“fpr”)

plot(ROCRperf)

plot(ROCRperf, colorize=TRUE)

plot(ROCRperf, colorize=TRUE, print.cutoffs.


at=seq(0,1,by=0.1), text.adj=c(-0.2,1.7))

Reg re si Lo g istik 79
Gambar 7.6. Plot Receiver Operator Characteristic (ROC)

Dalam penentuan threshold terdapat dua aturan, jika ingin


memilih threshold tinggi maka pilih specificity (false positive rate) tinggi
dan sensitivity (true positive rate) rendah. Sebaliknya jika ingin memilih
threshold rendah maka pilih specificity (false positive rate) rendah dan
sensitivity (true positive rate) tinggi.
Dalam kasus ini dipilih nilai threshold sebesar 0,3.
6). Menghitung tingkat akurasi

Gambar 7.7. Tingkat akurasi model

Berdasarkan output pada Gambar 7.7. prediksi tingkat pelayanan


bagus sebanyak 19 dan salah prediksi sebanyak 5, sedangkan prediksi
tingkat pelayanan buruk sebanyak 2 dan salah prediksi sebanyak 6. Oleh

80 a n a li s i s r e gr e s i t e r a pa n r
karena itu diperoleh tingkat akurasi sebesar 78%. Hasil ini lebih besar
dari model baseline yaitu sebesar 75%, artinya model regresi logistik
pada kasus ini dapat meningkatkan kualitas pelayanan rumah sakit
tersebut sebanyak 3%.

7.4 Lembar Kerja


Soal:

Tabel 7.2. merupakan daftar usia dalam tahun (AGE) dan ada atau
tidak adanya bukti penyakit jantung koroner yang signifikan (CHD)
untuk 100 individu yang dipilih untuk berpartisipasi dalam penelitian.
Tabel 7.2. juga berisi identifier variable (ID) dan variabel grup usia
(AGRP). Variabel hasil adalah CHD, yang dikodekan dengan nilai nol
menunjukkan tidak ada CHD dan 1 untuk menunjukkan bahwa itu CHD
ada dalam individu yang berpartisipasi (Hosmer, 2000).

Tabel 7.2. Data Penyakit Jantung Koroner

ID AGE AGRP CHD ID AGE AGRP CHD


1 20 1 0 51 44 4 1
2 23 1 0 52 44 4 1
3 24 1 0 53 45 5 0
4 25 1 0 54 45 5 1
5 25 1 1 55 46 5 0
6 26 1 0 56 46 5 1
7 26 1 0 57 47 5 0
8 28 1 0 58 47 5 0
9 28 1 0 59 47 5 1
10 29 1 0 60 48 5 0
11 30 2 0 61 48 5 1
12 30 2 0 62 48 5 1
13 30 2 0 63 49 5 0
14 30 2 0 64 49 5 0

Reg re si Lo g istik 81
15 30 2 0 65 49 5 1
16 30 2 1 66 50 6 0
17 32 2 0 67 50 6 1
18 32 2 0 68 51 6 0
19 33 2 0 69 52 6 0
20 33 2 0 70 52 6 1
21 34 2 0 71 53 6 1
22 34 2 0 72 53 6 1
23 34 2 1 73 54 6 1
24 34 2 0 74 55 7 0
25 34 2 0 75 55 7 1
26 35 3 0 76 55 7 1
27 35 3 0 77 56 7 1
28 36 3 0 78 56 7 1
29 36 3 1 79 56 7 1
30 36 3 0 80 57 7 0
31 37 3 0 81 57 7 0
32 37 3 1 82 57 7 1
33 37 3 0 83 57 7 1
34 38 3 0 84 57 7 1
35 38 3 0 85 57 7 1
36 39 3 0 86 58 7 0
37 39 3 1 87 58 7 1
38 40 4 0 88 58 7 1
39 40 4 1 89 59 7 1
40 41 4 0 90 59 7 1
41 41 4 0 91 60 8 0
42 42 4 0 92 60 8 1
43 42 4 0 93 61 8 1
44 42 4 0 94 62 8 1
45 42 4 1 95 62 8 1

82 a n a li s i s r e gr e s i t e r a pa n r
46 43 4 0 96 63 8 1
47 43 4 0 97 64 8 0
48 43 4 1 98 64 8 1
49 44 4 0 99 65 8 1
50 44 4 0 100 69 8 1

Lakukan analisis regresi logistik berdasarkan data pada Tabel 7.2.


menggunakan R.

7.5 Lembar Kerja Sementara

1. Pendahuluan
Tuliskan teori yang digunakan dalam melakukan analisis regresi logistik.
2. Deskripsi Kerja
Tuliskan deskripsi kerja yang meliputi sintaks dan penjelasan kegunaan
dalam melakukan analisis regresi logistik.
3. Pembahasan
Tuliskan penjelasan disertai dengan tembakan layar, hasil output dari
analisis regresi logistik.
4. Penutup
Tuliskan kesimpulan dari analisis regresi logistik yang dilakukan.
5. Daftar Pustaka
Tuliskan referensi yang digunakan.

Reg re si Lo g istik 83
Referensi
BI. (2018, 9 1). Tingkat Inflasi. Diambil kembali dari bi.go.id
BPS. (2018, 8 15). Data Indeks Gini di Indonesia Tahun 2015. Diambil
kembali dari bps.go.id
Cran. (2018, 7 2). The Comprehensive R Archive Network. Diambil kembali
dari Cran R-Project: https://cran.r-project.org/
Damodar, G. N. (2009). Basic Econometric 5th Edition. New York: McGraw
–Hill.
data.go.id. (2018, 8 8). Dataset. Diambil kembali dari : https://data.
go.id/dataset/jumlah-kecelakaan-korban-mati-luka-berat-luka-
ringan-dan-kerugian-materi/resource/8402261e-8bc4-4789-8059-
2b5c248b91ed
Draper, N. R., & Smith, H. (1998). Applied Regression Analysis, 3rd Edition.
New York: John Wiley & Sons.
Finance, Y. (2018, 9 20). Saham. Diambil kembali dari finance.yahoo.com
Ghozali, I. (2007). Aplikasi Analisis Multivariat dengan Program SPSS (Edisi
Ke 4). Semarang: Badan Penerbit Universitas Diponegoro.
Graybill, F. A. (1994). Regression Analysis; Concepts and Applications. USA:
Duxbury Pr.
Hosmer, D. W. (2000). Applied Logistic Regression. USA: John Willey and
Son, Inc.
Neter, J., Wasserman, W., & Kutner, M. H. (1990). Applied Linear Statistical
Models. New York: The McGraw Hill.
Pandey, P. (2018, August 1). A Guide to Machine Learning in R for Beginners:
Logistic Regression. Diambil kembali dari Medium: https://medium.
com/analytics-vidhya/a-guide-to-machine-learning-in-r-for-
beginners-part-5-4c00f2366b90
Pindyck, R., & Rubinfeld, D. (2013). Microeconomics, 8th Edition. USA:

84 a n a li s i s r e gr e s i t e r a pa n r
Pearson.
Rawlings, J. O., Pantula, S. G., & Dickey, D. A. (1998). Applied Regression
Analysis: A Research Tool, 2nd Edition. New York: Springer.
Rosadi, D. (2011). Analisis Ekonometrika dan Runtun Waktu Terapan
dengan R. Yogyakarta: Penerbit ANDI.
RStudio. (2018, 10 7). RStudio Open Source and Enterprise-Ready
Profesionnal Software for R. Diambil kembali dari https://www.
rstudio.com/
Santoso, S. (2012). Panduan Lengkap SPSS Versi 20. Jakarta: PT Elex Media
Komputindo.

Reg re si Lo g istik 85

Anda mungkin juga menyukai