Anda di halaman 1dari 21

REGRESI LINEAR NON PARAMETRIK

MELALUI METODA THEIL

Oleh
SOEMARTINI , Dra,.MS

JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN
BANDUNG
2008

1
DAFTAR ISI
BAB I PENDAHULUAN
1.1 Latar Belakang Masalah ................................................................... 1
1.2 Identifikasi Masalah ................................................................................. 2
1.3 Maksud dan Tujuan .................................................................................. 2

BAB II LANDASAN TEORI ....................................................................................3


2.1 Pendahuluan ............................................................................................... 3
2.2 Estimasi Model regresi................................................................................ 3
2.3 Pengujian Model Regresi Secara Overall ................................................... 4
2.4 Pengujian Koefisien Regresi Slope .............................................................5
2.5 Interval Kepercayaan Koefisien Slope ...................................................... 6

BAB III ANALISIS DATA ......................................................................................8


3.1 Penjelasan Data ...........................................................................................8
3.2 Estimasi Model regresi ................................................................................9
3.3 Pengujian Model Regresi Secara Overall ..................................................10
3.4 Pengujian Koefisien Regresi Slope .........................................................11
3.5 Interval Kepercayaan Koefisien Slope .....................................................12

BAB IV KESIMPULAN DAN SARAN ...................................................................13


4.1 Kesimpulan ................................................................................................14
4.2 Saran ..........................................................................................................14

DAFTAR PUSTAKA .................................................................................................15

LAMPIRAN ................................................................................................................16

2
BAB I
PENDAHULUAN

1.1 Latar Belakang Masalah

Analisa regresi adalah Analisis statistik yang mempelajari bagaimana


membangun sebuah model fungsional dari data untuk dapat menjelaskan ataupun
meramalkan suatu fenomena alami atas dasar fenomena yang lain. Analisa regresi
merupakan salah satu teknik statistik yang digunakan secara luas dalam ilmu
pengetahuan terapan. Regresi di samping digunakan untuk mengetahui bentuk
hubungan antar peubah regresi, juga dapat dipergunakan untuk peramalan.
Dengan menggunakan n pengamatan untuk suatu model linier sederhana:
Yi = β 0 + β1 X 1 +Ei
dengan Yi adalah peubah tidak bebas
Xi adalah peubah bebas dengan i = 1,2,...,n
β 0 dan β1 adalah parameter-parameter yang tidak diketahui
Ei adalah Disturbance error

Diberlakukan asumsi-asumsi model ideal tertentu terhadap galat e yaitu bahwa galat
menyebar NID (0, σ 2 ). Dengan pemenuhan terhadap asumsi kenormalan dapat
digunakan regresi parametrik untuk mengetahui bentuk hubungan antar peubah regresi
pada data contoh yang diamati.
Dalam praktek, penyimpangan terhadap asumsi-asumsi itu sering terjadi dan
terkadang peubah acak yang diamati tidak dapat dianggap menyebar normal. Dari segi
statistika persoalan tersebut harus dapat diselesaikan dengan menggunakan teknik
statistika. Dalam statistika parametrik, teknik-teknik yang digunakan berhubungan
dengan pendugaan parameter serta pengujian hipotesis yang berhubungan dengan
parameter-parameternya. Asumsi-asumsi yang digunakan pada umumnya
menspesifikasikan bentuk sebarannya.

3
Salah satu analisis alternatif lain yang dapat digunakan adalah dengan regresi
nonparametric karena dalam regresi nonparametrik tidak diperlukan pemenuhan asumsi
kenormalan.

1.2 Identifikasi masalah

Dalam kenyataanya, penyimpangan terhadap asumsi-asumsi itu sering terjadi


dan terkadang peubah acak yang diamati tidak dapat dianggap menyebar normal.
Dari segi statistika persoalan tersebut harus dapat diselesaikan dengan
menggunakan teknik statistika. Dalam statistika parametrik, teknik-teknik yang
digunakan berhubungan dengan pendugaan parameter serta pengujian hipotesis
yang berhubungan dengan parameter-parameternya. Jadi identifikasi masalah pada
makalah ini adalah untuk mengetahui penyelasian model regresi dengan statistika
non-parametrik

Maksud dan Tujuan

Maksud dan tujuan dari penulisan makalah ini adalah untuk memperoleh model
analisis regresi, pengujian model dan interval kepercayaannya bila asumsi
parametrik tidak terpenuhi. Dalam hal ini metode yang kita ambil adalah
menyelesaikan masalh persamaan regresi non-parametrik dengan menggunakan
Metode Theil.

4
BAB II
LANDASAN TEORI

2.1 Pendahuluan
Menurut Daniel (1989) dalam banyak hal, pengamatan-pengamatan yang akan
dikaji tidak selalu memenuhi asumsi-asumsi yang mendasari uji-uji parametrik
sehingga kerap kali dibutuhkan teknik-teknik inferensial dengan validitas yang tidak
bergantung pada asumsi-asumsi yang kaku. Dalam hal ini, teknik-teknik dalam regresi
nonparametrik memenuhi kebutuhan ini karena tetap valid walaupun tidak diperlukan
pemenuhan asumsi kenormalan galat dan hanya berlandaskan asumsi-asumsi yang
sangat umum.
Conover (1980) menjelaskan bahwa penggunaan regresi nonparametric
dilandasi pada asumsi :
a. contoh yang diambil bersifat acak dan kontinu ;
b. regresi (Y|X) bersifat linier;
c. semua nilai Xi saling bebas.
d.data diasumsikan tidak berdistribusi normal

2.2 Estimasi Model


Metode Theil Untuk Regresi Linier Sederhana Nonparametrik
Misalkan ada n pasangan pengamatan, katakan (X1,Y1 ), (X2,Y2),…..,(Xn,Yn),
persamaan regresi linier sederhana adalah :
Yi =β 0 +β1X1 +ε i

dengan β 0 adalah intercept (titik potong)

β1 adalah slope (kemiringan) dari garis tersebut


Xi adalah peubah bebas
Yi adalah nilai teramati dari peubah Y (Hines dan Montgomery, 1990).

5
Theil (1950) dalam Sprent (1991) mengusulkan koefisien kemiringan (slope)
garis regresi sebagai median kemiringan dari seluruh pasangan garis dari titik-titik
dengan nilai X yang berbeda, selanjutnya disebut dengan metode Theil. Untuk satu
pasangan (Xi ,Yi ) dan (Xj ,Yj ) koefisien kemiringannya adalah :
Y j − Yi
bij =
X j − Xi

untuk i < j dan Xi ≠ Xj .


Penduga bagi β1 kita notasikan dengan β̂1 dinyatakan sebagai median dari nilai-nilai
bij sehingga :
β̂1 = median ( bij )

sedangkan penduga bagi β 0 adalah β̂ 0

β̂0 = med (Yi) - β̂1 med (Xi)


med(Xi) adalah median dari seluruh pengamatan dan med(Yi) adalah pasangan
nilai pengamatan untuk med(Xi) (Sprent,1991).

2.3 Pengujian Koefisien Regresi Secara Overall


Statistik uji yang digunakan :

τ − µT
Z=
σT
µT = 0
2(2n + 5)
σT =
9n(n − 1)
τ =Koefisien kendall

Hipotesis yang digunakan untuk menguji keberartian model regresi adalah :


Ho : β i = 0 ≈ tidak terdapat hubungan antara variable XdanY
H1 : β i = 0 ≈ terdapat hubungan antara variable XdanY

6
Kriteria uji :
Tolak Ho jika p Z ≤ α /2, terima dalam hal lain

2.4 Pengujian Koefisien Slope ( β1 )


Metode Theil untuk Pengujian Koefisien Kemiringan
Daniel (1989) menjelaskan bahwa pengujian koefisien kemiringan dengan
menggunakan metode Theil disusun berdasarkan statistik τ Kendall dan digunakan
untuk mengetahui bentuk hubungan peubah-peubah regresi.
Asumsi-asumsi yang melandasi pengujian pada koefisien kemiringan adalah :
a. persamaan regresinya adalah : Yi =β 0 +β1X1 +ε i , i=1,…,n dengan Xi peubah bebas,

β 0 dan β1 adalah parameter-parameter yang tidak diketahui;


b. untuk masing-masing nilai X i terdapat nilai Y i ;
c. Y i adalah nilai yang teramati dari Y yang acak dan kontinu untuk nilai X i;
d. semua nilai X i saling bebas dan kita menetapkan X1 < X2 <…< Xn. ;
e. nilai-nilai ε i saling bebas dan berasal dari populasi yang sama.
Hipotesis-hipotesis yang melandasi pengujian ini adalah :
a. dua arah : H0 : β 0 = β1 (0) H1 : β 0 ≠ β1 (0);
Seperti yang telah dijelaskan, prosedur yang diuraikan disusun berlandaskan
statistik τ Kendall, sehingga statistik ujinya adalah :
Uji Parsial untuk koefisien regresi β1
a. Jika tidak ada angka sama:
P −Q
ˆ =
0.5n(n − 1)
n = banyak pasangan
b. Jika ada angka sama:
P−Q
ˆ =
0.5n(n − 1) − Tx 0.5n(n − 1) − Ty
n = banyak pasangan
Tx = 0.5 t (t − 1)
Ty = 0.5 t (t − 1)
t = observasi angka sama

7
dengan τˆ = statistik uji τ Kendall
P = banyaknya pasangan berurutan wajar
Q = banyaknya pasangan berurutan terbalik
Kaidah pengambilan keputusan untuk ketiga pasangan hipotesis diatas adalah
sebagai berikut :

τˆ > τ (n, α / 2), tolak Ho


a. dua arah :
τˆ ≤ τ (n, α / 2), terima Ho

τ (n, α / 2) adalah harga-harga kritis dalam tabel statistik uji τ Kendall.


Pengujian koefisien kemiringan ini dengan membuat statistik tataan dan
memperbandingkan semua hasil pengamatan menurut nilai-nilai X (Daniel, 1989).

2.5 Interval Kepercayaan Koefisien Regresi Slope


Metode pembentukan interval kepercayaan terhadap koefisien kemiringan ini
dilandaskan pada prosedur pengujian hipotesis Theil untuk β1 , sedangkan asumsi-
asumsi yang mendasari prosedur pengujian hipotesis ini juga berlaku pada
pembentukan interval kepercayaan (1- ) bagi β1 .
Lebih lanjut Daniel(1989) menjelaskan bahwa konstanta untuk interval
kepercayaan adalah :

n C 2 − S( n ,α / 2) − 2
k=
2
dengan k = konstanta untuk interval kepercayaan

n C 2 = banyaknya nilai b ij yang mungkin dari n pasangan pengamatan

S( n,α / 2) = titik kritis τ Kendall untuk n pasangan pengamatan pada taraf .

Berdasarkan nilai konstanta tersebut akan diperoleh βˆL sebagai batas bawah

interval kepercayaan untuk β1 dan βˆU sebagai batas atas interval kepercayaan untuk

8
β1 . βˆL adalah nilai bij ke-k yang dihitung dari nilai yang paling kecil dalam statistik

tataan bagi nilai bij. βˆU adalah nilai bij ke-k yang dihitung mundur dari nilai yang paling
besar dalam statistik tataan tersebut.
Interval kepercayaan untuk β1 dengan suatu koefisien kepercayaan (1- )
adalah:
P( βˆL < β1 < βˆU ) = 1- (6)
dengan C adalah kependekan dari confidence (kepercayaan) dan menunjukkan bahwa
ekspresi ini lebih merupakan suatu pernyataan kepercayaan daripada suatu pernyataan
probabilitas (Daniel, 1989).

9
BAB III
ANALISIS DATA

3.1 Penjelasan Data


Data Yang digunakan dalam makalah ini adalah mengenai model ransel
berdasarkan harga yang dipengaruhi ukuran ransel. Data disajikan dalam tabel di
bawah ini. Data di bawah diasumsikan tidak berdistribusi normal dengan = 5%.
Kemudian. data ini digunakan hanya untuk aplikasi menyelesaikan teori yang sudah
dijelaskan di atas.
Tabel 3.1
No X Y
1 9 17
2 8 14
3 7 15
4 5 16
5 6 18
6 10 19
7 11 20
8 12 21
9 8 25
10 7 24
11 5 18
12 3 14
13 6 14
14 2 9
15 6 16
16 8 23
17 7 18
18 7 12
19 7 12
20 7 17
21 9 15
22 5 10

Keterangan:
Y = Harga Ransel(US $);
X = Ukuran Ransel (Inchi);

10
Metode Estimasi yang digunakan dalam penelitian ini adalah regresi sederhana metoda
theil , dengan spesifikasi model sebagai berikut :

Ýi = β0 + β1 X1 +εi

3.2 Model Regresi


Untuk Mendapatkan Model Regresi non-parametrik kita meggunakan metode Theil
engan rumusan :
Y j − Yi
bij =
X j − Xi

untuk i < j dan Xi ≠ Xj .


Di dapat :
(17,9 − 15,8)
b1 = = 0.6
(14,1 − 8, 2)
(13.2 − 14.6)
b2 = = -0.5
(14.2 − 10.4)
(15.1 − 16.1)
b3 = = -0.5
(14.6 − 10.6)
............................
...........................
(17.7 − 18.8)
b11 = = 0.6
(18.1 − 14.0)

Hasilnya bisa dilihat dalam Lampiran 1


Penduga bagi β1 kita notasikan dengan β̂1 dinyatakan sebagai median dari
nilai-nilai bij sehingga :
β̂1 = median ( bij )

β̂1 =-0.6
sedangkan penduga bagi β 0 adalah β̂ 0

β̂0 = med (Yi) - β̂1 med (Xi)

β̂0 =16.5 - (0.6 x 7)

11
β̂0 = 12.3
Sehingga didapat model :
Yˆi = 12.3+0.6 X1

Artinya adalah :
1. Bahwa variabel Y atau dalam hal ini adalah Harga ransel rata-rata
sebesar $ 12.3 dengan anggapan variabel lainnya konstan.
2. Setiap penambahan 1 satuan variabel X1 maka Y akan berkurang sebesar
0.6 satuan.
Tetapi model regresi diatas belum dapat dikatakan sebagai model regresi
terbaik. Untuk itu selain harus diidentifikasi terlebih dahulu perlu dilihat apakah
model tersebut koefisiennya berarti atau tidak dengan uji hipotesis.

3.3 Pengujian model secara overall


Hipotesis yang diuji :
Ho : β i = 0 ≈ tidak terdapat hubungan antara variable XdanY
H1 : β i = 0 ≈ terdapat hubungan antara variable XdanY
Statisitika ujinya:

τ − µT
Z=
σT
µT = 0
2(2n + 5)
σT =
9n(n − 1)
τ =Koefisien kendall
τ =0.384312142
2(2 x 22 + 5)
σT = = 0.153522062
9 x 22(22 − 1)

0.384312142 - 0
Z= = 2.503302367
0.153522062

12
Kriteria uji :
Tolak Ho jika p Z ≤ α /2, terima dalam hal lain
p z =P(Z=2.5033023)=1-(0.5 x 0.4938)=0.0062
α /2=0.025
Kesimpulan :
Ternyata P= 0.0062 < α /2=0.025 maka Ho ditolak artinya model ini bisa
digunakan untuk menyatakan hubungan antara variable harga ransel (x) dan dengan
variable ukuran ransel (y.)

3.4 Pengujian Koefisen Regresi Slope ( β1 )


Hipotesis Yang akan diuji :
H0 : β 1 =0 H1 : β1 ≠ 0

Statistik uji
Uji Parsial untuk koefisien regresi β1
a. Jika tidak ada angka sama:
P −Q
ˆ =
0.5n(n − 1)
n = banyak pasangan

b. Jika ada angka sama:


P−Q
ˆ =
0.5n(n − 1) − Tx 0.5n(n − 1) − Ty
n = banyak pasangan
Tx =0.5 t(t-1)
Ty =0.5 t(t-1)
t =observasi angka sama
Perhitungannya :
P = 21 + 15 + .... + 0 = 151
Q = 0 + 3 + .... + 0 = 69

n=22
Tx = 50
Ty = 20

13
Hasilnya bisa dilihat pada lampiran 2
151 − 69
τˆ = = 0.384312142
(0.5 x 22(22 − 1)) − 2 x(0.5 x 22(22 − 1)) − 8

Kriteria uji :
τˆ > τ (n, α / 2), tolak Ho
τˆ ≤ τ (n, α / 2), terima Ho

τ (22, 0.025) =0.190


Kesimpulan :
Ternyata τˆ =0.384312142 berada di luar interval -0.190 sampai 0.190 , maka
Ho ditolak artinya mengindikasikan bahwa koefisien slope berarti sehingga
kesimpulannya ukuran ransel sangat berpengaruh terhadap harga ransel.

3.5. Interval Kepercayaan Koefisien Regresi Slope


Konstanta untuk interval kepercayaannya adalah :

n C 2 − S( n ,α / 2) − 2
k=
2

n C 2 =11 pasang

S( n,α / 2) =0,190

11 − 0,190 − 2
k= = 4.4905
2

Jadi nilai k = 4 hasil pembulatan dari 4,4905


βˆL = -0.33333333

βˆU =1

Jadi interval kepercayaan untuk β1 adalah diantara -0,333333 sampai 1. artinya kita
yakin 95 % bahwa Koefisen regresi slope akan berada dalam interval -0,33333< β1 < 1
.

14
BAB IV
PENUTUP

Dalam dunia statistika terdapat berbagai macam alat untuk menyelesaikan suatu
masalah. Salah satunya adalah mencari model regresi apabila asumsi statistika
parametrik terpenuhi maka kita bisa menggunakan metoda OLS (Ordinary Least Square)
untuk mencari taksirannya tetapi jika data diasumsikan tidak berdistribusi normal yaitu
pelanggran dari parametrik maka kita harus menggunakan non parametrik maka dalam
penyelesaian model regresi non parametriknya dengan meggunakan metode theil.
Walaupun model regresi non parametriknya ada tetapi tidak bisa digunakan sebagai
peramalan. Hasil model non parametrik jika hasilnya Dibandingkan dengan regresi
parametrik hasilnya akan berbeda.

15
DAFTAR PUSTAKA
Hj. Ngadiman,Titty dkk.2005.Statistika Tak Parametrik.Bandung.
Daniel,W.W. 1989. Statistika Nonparametrik Terapan, Gramedia, Jakarta.
A Non Parametric Linear Regression With TheiL’s Methods.Internet
Kajian Teori Regresi Parametrik Normal dan Regresi Non Parametrik.Internet

16
Lampiran 1

Tabel X nilai kecil Tabel X nilai besar


No x y
No x y
1 2 9 12 7 12
2 3 14 13 7 12
3 5 16 14 7 17
4 5 18 15 8 14
5 5 10 16 8 25
6 6 18 17 8 23
7 6 14 18 9 17
8 6 16 19 9 15
9 7 15 20 10 19
10 7 24 21 11 20
11 7 18 22 12 21

Tabel b ij

No
1 0.6
2 -0.5
3 0.5
4 -1.333

5 5
6 2.5
7 1
8 -0.333
9 1.3333
10 -1
11 0.6

17
Lampiran 2
Tabel Nilai P dan Q
No x y P Q
1 2 9 21 0
2 3 14 15 3
3 5 16 11 7
4 5 18 6 10
5 5 10 17 0
6 6 18 6 9
7 6 14 12 2
8 6 16 9 5
9 7 15 9 3
10 7 24 1 11
11 7 18 5 5
12 7 12 9 0
13 7 12 9 0
14 7 17 5 2
15 8 14 7 0
16 8 25 0 6
17 8 23 0 5
18 9 17 3 1
19 9 15 3 0
20 10 19 2 0
21 11 20 1 0
22 12 21 0 0
total 155 367 151 69

Tabel jumlah angka kembar X Tabel jumlah angka kembar Y

TX TY
Xi t t(t-1) Yi t t(t-1)
5 3 6 12 2 2
6 3 6 14 3 6
7 6 30 15 2 2
8 3 6 16 2 2
9 2 2 17 2 2
Tx 50 18 3 6
Ty 20

18
Lampiran 3
(Jurnal )

A Non-Parametric Linear Regression


with
Theil's Method

Theory
Whenever the commonly used least-squares regression method is used for fitting an
equation into a set of (x,y)-data points, all errors in the y-direction are normally
distributed (i.e. the follow a gaussian distribution).

Non-parametric (or distribution-free) statistical methods are those, which make no


assumptions about the population distribution from which the data are taken.

A simple, non-parametric approach to fit a straight line to a set of (x,y)-points is the


'Theil's incomplete method', so called to distinguish this approach from another more
complex procedure (the 'complete method') developed by the same author.

Theil's 'Incomplete method' assumes that points (x1, y1), (x2, y2) . . . (xN, yN) are
described by the equation

y = a + bx

The calculation of a and b takes place as follows:

1st step: All N data points are ranked in ascending order of x-values.

2nd step: The data are separated into two equal size (m) groups, the low (L) and the high
(H) group. If N is odd the middle data point is not included to either group (hence: N =
2m or N = 2m+1).

3rd step: The slope bi of the line connecting the i-th point of group L with i-th point of
group H is calculated for all points of each group, i.e.

YH − YL
bij =
XH − XL

19
4th step: The median of the m slope values b1, b2, . . . bm is calculated and it is taken as
the best estimate of the slope (b) of the line, i.e. b = median(b1, b2, . . . bm).

5th step: For each data point (xi,yi) the value of intercept ai is calculated using the
previously calculated slope b, i.e.

a= med (Yi) - β̂1 med (Xi)

The method described for the estimation of a and b has the following distinct advantages
over the commonly used least-squares linear regression:

(i) It does not assume that all the errors are only in the y-direction.

(ii) It does not assume that either the x- or y-direction errors are normally distributed (i.e.
it is a typical non-parametric method).

(iii) It is not affected by the presence of outlying data points (i.e. it is a 'robust method'').

The main disadvantage of the described non-parametric method is its algorithmic nature,
i.e. no specific equations are provided for the direct calculation of a and b, as in the case
of least-squares regression [see Applet: Least-Squares Polynomial Approximation].
Instead, specific and repetitive steps must be made, a fact that makes manual calculations
tedious. The use of a computer program (e.g. a spreadsheet) is necessary, particularly
when many (x, y)-data points are involved.

Applet

This applet demonstrates the Theil's non-parametric method of fitting the equation y = a
+ bx to manually introduced (x, y)-data points and provides a visual comparison with the
corresponding least-squares method. Simply, the user must left-click N (4 N 200) data
points on the plot area. The corresponding lines (green for the non-parametric regression,
red for the least squares regression) appear soon after 4 data points have been clicked.

The corresponding (for each approach) estimated slope (b) and intercept values (a) are
shown in the corresponding (for each method) text fields.

20
One can test the robustness of the non-parametric regression, by clicking outlying data points. In the figure above is
shown a typical plot, where one outlying data point makes the least-squares line to pass closer to it, whereas the non-
parametric method seems like ignoring its presence.

21