Anda di halaman 1dari 8

Pemanfaatan Software R untuk Analisis Regresi Linier

PEMANFAATAN SOFTWARE R UNTUK ANALISIS REGRESI LINEAR

Anita Andriani
D3 Manajemen Informatika, Fakultas Teknologi Informasi
Universitas Hasyim Asy’ari Tebuireng Jombang
Email: anita.unhasy@gmail.com

Abstrak

R adalah suatu sistem untuk analisis data yang termasuk dalam kelompok open source
software atau disebut juga dengan freeware. Penggunaan software R sampai saat ini masih
kalah popular bila dibandingkan dengan software – software statistika lain yang berbayar,
seperti SPSS, MINITAB, SAS atau Eviews. Keterbatasan referensi dan penunjang, khusunya
dalam bahasa Indonesia, adalah salah alasan pengguna statistika lebih memilih paket – paket
statistika komersil daripada software R yang gratis dan memberikan hasil analisis yang tidak
kalah powerful dan sistem grafik yang menarik. Diantara banyaknya teknik – teknik statistika
yang dapat diselesaikan software R, salah satu yang paling diminati adalah analisis regresi
linear. Pada artikel ini akan dibahas tentang pemodelan regresi linear berganda menggunakan
software R sebagai salah satu alternatif software SPSS atau software berbayar lainnya. Versi
R yang digunakan adalah Command Line Interface (CLI). Analisa regresi pada artikel ini
meliputi pembentukan model regresi linear berganda dan analisis plot residual untuk melihat
kecocokan model yang telah dibentuk.

Kata kunci: software R, analisis regresi linear, open source

Abstract

R is a system used for data analysis which belongs to open source software group or known
by freeware. The use of R software is less popular than other paid statistics software, such as
SPSS, MINITAB, SAS or Eviews. The limitation of references, especially in bahasa, is one of
the reasons why users prefer to commercial statistical packages than R which is free and
provide no less robust analysis results and interesting graphics systems. One of the most
desirable statisticial techniques in R is linear regression analysis. This article will discuss
about multiple linear regression modeling using software R as an alternative SPSS software
using R-CLI (Command Line Interface). Multiple linear regression analysis and residual plot
analysis will be formed for fitting model.

Keywords: R software, linear regression analysis, open source

I. PENDAHULUAN
R adalah adalah bahasa pemrograman untuk komputasi dan pengolahan data yang bersifat open source.
Versi awal R dibuat oleh Ross Ihaka dan Robert Gentleman pada tahun 1992 di Universitas Auckland, dan dari
kedua nama inilah kemudian dinamakan dengan R. Saat ini R dikembangkakan oleh R Development Core Team
dan tersedia secara gratis. Software R dapat dioperasikan oleh beberapa sistem operasi seperti Linux, Windows
dan Mac.
Kelebihan R dibandingkan dengan software statistika lainnya adalah update software yang relatif cepat serta
kualitasnya yang relatif baik karena dikembangkan langsung oleh team statistisi. Selain itu, para ahli pengguna R di
seluruh dunia juga memberikan pengembangan kode, melaporkan bug dan membuat dokumentasi untuk R. Akan
tetapi, fasilitas GUI (Graphical User Interface) pada R masih kurang memadai karena lebih bersifat CLI (Command
Line Interface). Kemampuan R sebagian besar didapatkan dari add-on packages, yaitu kumpulan perintah yang
digunakan untuk melakukan suatu analisis. Package dasar yang sudah disediakan saat

52
Pemanfaatan Software R untuk Analisis Regresi Linier

pertama menginstal R adalah stats, graphics, datasets, utils, dan base. Package lainnya dapat didownload secara
online dengan memanfaatkan toolbar install package atau secara offline pada situs http://cran.rproject.org/.
R dikenal sebagai software statistik karena kemampuannya dalam mengolah dan menganalisis data yang
cukup baik. Oleh karena itu pada tulisan ini akan dibahas pemanfaatan software R sebagai alternative SPSS atau
software statistika lainnya dalam analisis model regresi linear. Analisa regresi adalah salah satu teknik statistika yang
sering digunakan dalam berbagai bidang. Dengan menggunakan software R, kesesuaian model, asumsi – asumsi
model serta masalah multikolinearitas dalam analisis regresi dapat dengan mudah dideteksi. Tulisan ini dibagi menjadi
3 bagian, bagian pertama membahas tentang latar belakang penulisan. Pada bagian 2 dibahas review singkat tentang
software R dan regresi linear, kemudian pada bagian 3 diberikan pemodelan regresi linear menggunaan R-CLI beserta
contoh studi kasusnya yang diperoleh dari hasil penelitian yang dilakukan oleh Pratomo (2015). Analisis kecocokan
model hanya dibahas dengan menggunakan analisis plot residu.

II. METODE
Penelitian ini dilakukan dengan mempelajari karya – karya ilmiah yang disajikan dalam bentuk buku,
jurnal, makalah, tesis, disertasi ataupun artikel yang relevan dengan topik penelitian, khususnya terkait dengan
regresi linear dan pemrograman R. Berikut diberikan beberapa dasar – dasar software R dan konsep regresi
linear berganda.

2.1 Dasar – Dasar Software R


Pada subbab ini akan dibahas tentang penggunaan software R dalam manajemen data menggunakan R
Commander yang meliputi data entry dan import data, jenis – jenis data seperti vector,matriks dan data frame,
serta plot data.
2.1.1 Input Data
Input data di R dapat dilakukan dengan dua cara: entry data (menginput data secara langsung di R) atau
melakukan import data (menginput data dari sumber lain yang berasal dari luar R, semisal file SPSS, Excel,
text, dll). Entry data dapat dilakukan dengan mengetik perintah langsung dari R Console:
> data1=c(1,2,3,4,5)
> data1
[1] 1 2 3 4 5
Misalkan ingin diimpor data teks dengan nama data.txt dan tersimpan di drive E, maka fungsi yang digunakan
yaitu read.table()
> data2=read.table("E:\\data.txt", header=T)
> data2
hari pengunjung pembeli nominal
1 1 41 27 0.621050
2 2 55 33 1.368500
3 3 39 20 0.571505
4 4 48 23 0.350050
5 5 41 28 0.401100
6 6 27 19 0.273300
7 7 21 19 0.656400
8 8 28 19 1.095350
9 9 32 22 0.541250
10 10 37 25 0.480000
11 11 27 18 0.333550
12 12 30 22 0.711300
13 13 28 21 1.032590
14 14 45 31 0.686400
15 15 36 22 1.099825

2.1.2 Jenis Data Objek

53
Pemanfaatan Software R untuk Analisis Regresi Linier

Data pada pemrograman R dipandang sebagai suatu objek yang memiliki atribut yang sifatnya ditentukan
oleh tipe data dan mode data. Beberapa tipe data yang sering digunakan adalah vector, matriks, dan data frame.,
sedangkan mode data yang dikenal R diantaranya adalah numeric, complex, logical dan character. Vektor secara
numerik dapat diartikan sebagai deretan dari angka – angka. Fungsi c() digunakan untuk mengumpulkan
koleksi data dalam sebuah vektor, ditulis sebagai berikut:
> x=c(0,7,8)
> x
[1] 0 7 8
Fungsi matrix () digunakan untuk menuliskan nilai – nilai vektor dalam bentuk matriks. Misalkan ingin
dibuat matriks dengan banyak baris = 2 dan kolom = 3, maka dapat dituliskan:
> m=matrix(1:6, nrow=2, ncol=3)
> m
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
Penggabungan satu kolom atau satu baris baru ke dalam matriks lain dapat dilakukan dengan menggunakan
perintah rbind untuk menambahkan ke baris dan cbind untuk menambahkan ke kolom.
> m2=cbind(m,c(7,8))
> m2
[,1] [,2] [,3] [,4]
[1,] 1 3 5 7
[2,] 2 4 6 8
> m3=rbind(m,c(7,8,9))
> m3
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
[3,] 7 8 9
Pada vektor data digunakan dengan mode tunggal, sehingga gabungan dua data atau lebih yang berbeda mode
tidak dapat dilakukan kedalam satu objek vektor. Penggabungan objek dengan mode data yang berbeda – beda
dapat dilakukan dengan menggunakan tipe data data frame.
> dataframe=data.frame(nomer=1:4,nama=c('ani','ita','andri','nita'),
nilai=7:10)
> dataframe
nomer nama nilai
1 1 ani 7
2 2 ita 8
3 3 andri 9
4 4 nita 10

2.1.3 Plot data


Penggambaran grafik pada R ditampilkan secara sederhana dan menarik menggunakan fungsi plot. Secara
umum perintah pembuatan grafik dibagi menjadi 3 bagian, yaitu:
1. Fungsi plot utama
2. Fungsi dalam kelompok ini digunakan untuk membuat suatu plot baru pada jendela grafik. Beberapa fungsi
tersebut adalah plot, qqplot, hist, image, contour, persp.
3. Fungsi plot tambahan
Fungsi pada plot tambahan digunakan untuk menambahkan informasi tambahan kedalam suatu grafik yang
telah dibuat dengan fungsi plot utama, seperti menambahkan titik atau garis baru ataupun keterangan
kedalam grafik. Beberapa fungsinya adalah points, lines, text, abline, legend, title.
4. Fungsi yang bersifat interaktif
Fungsi dalam kelompok ini memungkinkan pengguna untuk menambahkan atau mengambil informasi dari
suatu plot yang telah ada. Beberapa fungsi tersebut adalah locator, identify.
Contoh penggunaan fungsi plot adalah sebagai berikut:

54
Pemanfaatan Software R untuk Analisis Regresi Linier

> harga=c(1.3,2,1.7,1.5,1.6,1.2,1.6,1.4,1,1.1)
> sales=c(10,6,5,12,10,15,5,12,17,20)
> plot(harga,sales)

20
15

1.0 1.2 1.4 1.6 1.8 2.0

harga

Gambar 1. Plot Penjualan

Jika plot data diatas diberi fungsi tambahan lines, maka plot nya akan menjadi:
> plot(harga,sales, type='l')
20
15

1.0 1.2 1.4 1.6 1.8 2.0

harga

Gambar 2. Plot Penjualan dengan Fungsi Tambahan Lines

2.2 REGRESI LINEAR


Regresi secara umum diartikan sebagai alat statistik yang memberikan penjelasan tentang pola hubungan
antara dua variabel atau lebih. Pada analisis regresi dikenal dua jenis variabel, yaitu:
I. Variabel respon atau disebut juga dengan variabel dependen, adalah variabel yang keberadaanya dipengaruhi
oleh variabel lainnya dan dinotasikan dengan .
II. Variabel prediktor atau disebut juga dengan variabel independen, adalah variabel yang tidak dipengaruhi
oleh variabel lainnya dan dinotasikan dengan .
Analisa ini akan memberikan hasil apakah antara variabel – variabel yang sedang diteliti terdapat hubungan,
saling mempengaruhi dan berapa besar tingkat hubunganya.
Regresi linear berganda adalah regresi yang menjelaskan hubungan antara variabel respon dengan faktor –
faktor yang mempengaruhi lebih dari satu variabel prediktor. Tujuan analisis regresi linear berganda adalah
untuk mengukur intensitas hubungan antara dua variabel atau lebih dan membuat prediksi perkiraan nilai atas .
Secara umum regresi linear berganda untuk populasi dimodelkan sebagai berikut: = 0+1 1+

dengan 0, 1 adalah koefisien regresi. Model tersebut dapat ditaksir berdasarkan sampel acak ukuran n sebagai berikut:

55
Pemanfaatan Software R untuk Analisis Regresi Linier

dengan: = 0+1 1

̂
= nilai taksiran variable Y
0 = taksiran untuk parameter konstanta 0

1 = taksiran untuk parameter koefisien regresi 1, … ,


Nilai 0 dan 1 yang diperoleh dari estimasi parameter menggunakan metode least square dapat dituliskan sebagai berikut:

∑ − (∑ )(∑ ) ∑ ( − ̅)( − ̅)
= =
=1 =1 =1 =1

2 2 2
(∑ ) − (∑ ) ∑ ( − ̅)
1

=1 =1 =1

∑ − ∑ 2

=1 1 =1

= = ̅ − ̅

0 1

III. HASIL DAN PEMBAHASAN


Pada bab ini akan disajikan hasil analisis data dan analisa plot residu pada studi kasus menggunakan versi
R-CLI.

3.1 Analisa Data


Diberikan sebuah data sebagai berikut:
Tabel 1. Data Banyaknya Pengujung dan Pembeli serta Nominal Pembelian di Indomart Kedung Mundu
Semarang
Hari Ke- Pengunjung (X1) Pembeli (X2) Nominal
Pembelian (dlm jutaan) (Y)

1 41 27 0.62105
2 55 33 1.3685
3 39 20 0.57151
4 48 23 0.35005
5 41 28 0.4011
6 27 19 0.2733
7 21 19 0.6564
8 28 19 1.09535
9 32 22 0.54125
10 37 25 0.48
. . . .
. . . .
. . . .
. . . .
24 42 27 0.53925
25 45 34 0.481
26 35 23 0.34285
27 45 35 0.70285
28 51 31 0.76075
29 48 33 0.64903
30 40 24 1.05513

Dari data pada Tabel 1 ingin diketahui apakah nominal pembelian pada indomart Kedung Mundu Semarang
dipengaruhi oleh banyaknya kedatangan pengunjung dan pembeli. Langkah pertama yang dilakukan dalam
analisis regresi linear berganda dengan R adalah memanggil data yang telah disimpan di direktori computer,
dengan cara:
> data=read.table("E:\\data.txt", header=T)
Persamaan regresi linear berganda dengan metode least squared dapat diperoleh dengan memanggil fungsi lm:

56
Pemanfaatan Software R untuk Analisis Regresi Linier

> hasilanalisis=lm(nominal~pengunjung+pembeli,data)
Hasil estimasi koefisien – koefisien ini dapat dilihat dengan menuliskan
> hasilanalisis
maka akan muncul keterangan sebagai berikut:
Call:
lm(formula = nominal ~ pengunjung + pembeli, data = data)

Coefficients:
(Intercept) pengunjung pembeli
0.458728 0.006453 -0.003463

Dari hasil analisa diperoleh persamaan regresi linear berganda:


= 0.458728 + 0.006453 − 0.003463 … (1)
Koefisien – koefisien regresi dan beberapa statistic lainnya dapat pula dilihat dengan menggunakan fungsi
summary:
Call:
lm(formula = nominal ~ pengunjung + pembeli, data = data)

Residuals:
Min 1Q Median 3Q Max -0.33877 -0.17593
-0.07371 0.07895 0.66914

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.458728 0.262020 1.751 0.0913 .
pengunjung 0.006453 0.010466 0.617 0.5427
pembeli -0.003463 0.016267 -0.213 0.8330
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2741 on 27 degrees of freedom


Multiple R-squared: 0.02215, Adjusted R-squared: -0.05028
F-statistic: 0.3058 on 2 and 27 DF, p-value: 0.7391

Dari tampilan nilai estimasi intercept (konstanta) dan koefisien kedua variabel, dapat dilihat bahwa persamaan
regresi linearnya sama seperti pada persamaan (1). Dilihat dari nilai Pr(> | t |) dari variabel pengunjung, Pr(> | t |)
= 0,5427 > 0,05 artinya variabel pengunjung tidak signifikan atau tidak berpengaruh secara nyata terhadap
nominal pembelian. Hal yang sama juga terjadi pada variabel pembeli dengan nilai Pr(> | t |) = 0.8330 > 0,05,
variabel pembeli juga tidak terlalu berpengaruh secara nyata terhadap nominal pembelian di indomart Kedung
Mundu Semarang. Akibatnya secara teori kedua variabel yang tidak signifikan ini harus dikeluarkan dari model.
Akan tetapi tidak menutup kemungkinan bahwa variabel yang tidak signifikan tersebut tetap dipertahankan
seperti pada kasus ini. Berdasarkan nilai R-squared sebesar 0,02215, artinya bahwa penelitian ini hanya mampu
menjelaskan 2,215% keragaman nominal pembelian ditentukan oleh banyaknya pembeli dan pengunjung,
selebihnya ditentukan oleh faktor lain.

3.2 Analisis Plot


Residu adalah perbedaan antara nilai data pengamatan dengan nilai estimasi data dari model.
Umumnya residu ditampilkan dalam bentuk diagram atau plot, pada artikel ini akan ditampilkan plot antara
residu dengan nilai estimasi dan plot probabilitas normal dari residu.

3.2.1 Plot Residu dengan Nilai Estimasi


Plot antara residu dengan nilai estimasinya dapat ditampilkan dengan perintah sebagai berikut:
> residu=residuals(hasilanalisis)
> fitting=fitted(hasilanalisis)
> plot(fitting,residu, xlab="Hasil Fitting", ylab="Residu")
> abline(h=0, lty=2)
> text(fitting,residu,labels=rownames(hasilanalisis))

57
Pemanfaatan Software R untuk Analisis Regresi Linier

60.
Residu
20.
-0.2
0.55 0.60 0.65 0.70

Hasil Fitting

Gambar 3. Plot Residu VS Hasil Estimasi


Pada plot antara residu dengan hasil estimasi terlihat bahwa tidak ada pola yang jelas yang dapat ditunjukkan
dari plot tersebut. Sehingga disimpulkan bahwa plot residu vs hasil estimasi menunjukkan tidak ada masalah
yang mendasar terhadap model.

3.2.2 Plot Probabilitas Normal Residu


Plot probabilitas normal residu dapat ditampilkan dengan perintah sebagai berikut:
> qqnorm(residu, ylab="Residuals")
> qqline(residu)
Normal Q-Q Plot
60.
Residuals
-0.2 20.

-2 -1 0 1 2

Theoretical Quantiles

Gambar 4. Plot Probabilitas Normal


Dari Gambar 4 terlihat bahwa ada beberapa sampel yang menjauhi garis linear. Meskipun plot ini
interpretasinya tidak cukup jelas, masih dapat dikatakan bahwa tidak ada indikasi ketidaknormalan resiud.
Terlihat dari banyaknya sampel yang berada di garis linear.

IV. KESIMPULAN DAN SARAN


Berdasarkan hasil analisa sebelumnya, maka model regresi yang dihasilkan adalah:
= 0.458728 + 0.006453 − 0.003463

dimana kedua variabel pengunjung dan pembeli tidak berpengaruh secara signifikan secara statistik. Akan tetapi
kedua variabel tetap dipertahankan karena keterbatasan variabel penelitian. Berdasarkan nilai R-squared sebesar
0,02215, kedua variabel juga hanya mampu menjelaskan 2,215% keragaman nominal pembelian. Namun jika
dilihat dari plot antara residu dengan nilai estimasi dan plot probabilitas normal dari residu, model masih bisa
diterima.

58
Pemanfaatan Software R untuk Analisis Regresi Linier

V. DAFTAR PUSTAKA
Brian S. Everitt and Torsten Hothorn. 2007. A Handbook of Statistical Analyses Using R. A Chapman & Hall
Book.
Paradis, Emmanuel. 2005. R for Beginners. France: Institut des Sciences de l'Evolution.
Pratomo, Dedi Suwarsito dan Erna Zuni Astuti. 2015. Analisis Regresi dan Korelasi Antara Pengunjung dan
Pembeli Terhadap Nominal Pembelian di Indomaret Kedungmundu Semarang Dengan Metode Kuadrat
Terkecil. E-print Jurnal Udinus.
Walpole, Myers, and Ye. 2012. Probability & Statistics for Engineers & Scientists Ninth Edition. Prentice Hall.
Venables, W.N, D. M. Smith and the R Core Team. 2017. An Introduction to R, Notes on R: A Programming
Environment for Data Analysis and Graphics Version 3.4.2 (2017). R Project.

59

Anda mungkin juga menyukai