Anda di halaman 1dari 31

MULTIPLE

LINEAR
REGRESSION

1. HIKMALIA
2. MAYASARI
3. RUMINDA
4. TUANI M.
NAPITUPULU

BAB - I
Pemodelan
matematika
adalah
bahasa
matematika
yang
digunakan
untuk
menyederhanakan
suatu fenomena atau
kejadian nyata hampir di segala bidang di suatu
kondisi
tertentu
untuk
memudahkan
penyelesaian.
Fase dalam melakukan pemodelan matematika
sebelumnya telah dijelaskan kelompok satu
dimana fase satu dimulai dari konsep
atau
logika yang ada pada fenomena dilanjutkan
formulasi, kemudian simulasi atau uji coba dan
yang terakhir aplikasi. Dalam dunia penelitian,
kerap kali metode statistika digunkan sebagai
Page 3
metode
untuk
mengumpulkan,
mengolah,

BAB - II

Pemodelan
matematika
memprediksi
jawaban
angka
yang
mendekati
kebenaran,
hal
ini
dinamakan ketepatan. Analisis regresi mungkin
sering meningkatkan ketepatan terhadap ketepatan
dari model regresi linier sederhana dengan adanya
variabel tambahan. Kebenarannyapun lebih akurat.
Contoh :(Mayer:1985, h:180)
Dapatkah kamu mengukur berat badan seseorang
dengan menggunakan alat ??...
Kita semua tahu bahwa orang yang lebih tinggi
akan lebih berat badannya, jadi jika kamu tahu
tinggi seseorang mungkin kamu bisa lebih cepat
memprediksi berat badan seseorang
Page 4

Contoh:
Pada tabel 1 berikut menunjukkan berat dan
tinggi untuk 10 orang siswa.
Sisw

Ukura

Ukuran

Ukuran

Tinggi

Berat

Pinggang

Leher

Badan

Badan

(Inchi)

(pon)

Sepatu
1

34

15,5

68

160

10

32

15,5

70

160

10,5

31

16

71

150

7,5

29

14,5

68

120

34

16

68

175

10,5

34

15,5

76

190

12

38

16,5

73,5

205

12

34

17,5

75,5

215

11

36

16,5

73

185

10

9,5

32

15,5

72

170

A
Tabel 1

Tbl 1

Page 5

sambungan

Adapun asumsi garis regresi yang cocok dapat dilihat


pada gambar 1 yang rumusnya.

Berat Badan = 7.07 Tinggi


Badan - 333
Pers -1
A
muncul pertanyaan apakah asumsi ini masuk akal ??...

siswa 1 yang memiliki tinggi 68, jika dimasukkan ke


rumus maka berat yang didapat 147,76 seharusnya 160
siswa 4 yang memiliki tinggi 68 jika dimasukkan ke
rumus maka berat yang didapat 147,76 seharusnya 120
Page 6

Hal ini menunjukkan bahwa tidak ada cara untuk


memprediksi bahwa berat badan dipengaruhi dari
tinggi badan
Adapun respon dari seorang ahli pemodelan
matematika untuk masalah ini adalah bahwa model
sebelumnya dapat ditingkatkan untuk memberikan
hasil yang lebih akurat.
Kita mungkin mengira bahwa siswa ke-4 dan siswa
ke-5 dapat dibedakan dengan pengukuran pinggang
mereka.Yang satu gemuk dan yang satu lagi kurus.
Hal ini mengarah pada gagasan bahwa jika kita
mengukur ukuran pinggang semua siswa, kita bisa
menggunakan rumus ini, dalam kombinasi dengan
tinggi badan,
untuk
memprediksi
berat badan.
Pers -2
Berat
Badan
= a Tinggi Badan
+b
Hasilnya mungkin persamaan
Pinggangseperti:
+c
Page 7

kita juga bisa menambahkan model ukuran kerah dan mencari


persamaan seperti:
Berat Badan = a Tinggi Badan + b Pinggang +
c Kerah+ d

Page 8

Pada prinsipnya kita dapat mengambil sejumlah


variabel yang ada, teknik inilah yang disebut regresi
linier ganda.
Regresi linier ganda adalah analisis yang digunakan
untuk menganalisis hubungan antara variabel bebas
(x) dan variabel terikat (y). Namun pada regresi linier
ganda ini, variabel bebas (x) yang digunakan lebih
dari dari satu.
Misalkan kita diberi nilai untuk tiga kuantitas, seperti
pengukuran pinggang, tinggi badan, dan berat
untuk berbagai individu seperti contoh sebelumnya.
Ketiga variabel disebut x, y dan z sehingga setiap
baris tabel dapat dianggap sebagai triple (x, y, z)
yang pada gilirannya, dianggap sebagai titik dalam
3-ruang
Page 9

kita akan mempertimbangkan kasus tersebut dan


kita sedang mencari penjelasan linier yang tepat,
yaitu dengan menggunakan persamaan:

Z = ax + by + c

Pers -3

Karena persamaan 3 adalah persamaan ruang


dimensi tiga, kita dapat menafsirkan masalah
geometris yang sedekat mungkin dapat melewati
titik-titik (gambar 2).
Jika di merupakan jarak vertikal dari (xi, yi, zi)
dengan beberapa bidang, kita mendefinisikan jarak
dari himpunan titik-titik terhadap bidang sebagai:

Page 10

Gambar 2

Untuk memudahkan perhitungan aljabar kita


akan membahas dengan jarak kuadrat yang kita
sebut S. Jika bidang memiliki persamaan z = ax
+ by + c, maka:
Pers -4
Page 11

Tugas kita adalah memilih nilai-nilai untuk a, b dan c


sehingga membuat S sekecil mungkin; dengan cara ini
kita juga akan meminimalkan D. Oleh karena itu nilainilai a, b dan c akan sesuai dengan bidang terdekat.
Untuk meminimalkan S, kami menetapkan derivatif
parsial terhadap a, b dan c = 0

Pers -5

Page 12

Kita gunakan ilmu aljabar untuk mengubah


persamaan (5) kepersamaan berikut dalam variabel
a, b dan c
Pers -6

Persamaan ini disebut persamaan normal a, b dan c,


yang terdiri dari tiga persamaan linier dalam a, b
dan c dan dapat diselesaikan dengan berbagai cara
seperti Eliminasi Gauss
Page 13

Contoh 2
Mari kita perhatikan versi singkat dari tabel 1, yang
hanya terdiri dari lima siswa pertama. Kita perlu
menghitung 12 koefisien untuk disubsitusi ke dalam
persamaan (6). Seperti sebelumnya x = ukuran
pinggang, y= tinggi badan, dan z = berat badan.
Untuk persamaan pertama kita perlukan:

sekarang kita memiliki koefisien, yaitu


5.138a + 11.037b + 160c = 24.640Pers -7
11.037a + 23.813b + 345c = 52.790
160a + 345b + 5c =765
Page 14

solusi dari persamaan ini adalah


a = 9,59,
b = 4,22,
c = -445,30
Oleh karena itu bidang yang sesuai adalah
Z = 9,59x + 4,22y - 455,30

Pers -8

Jika prosedur dalam contoh terakhir dilakukan untuk seluruh


tabel 1 dari lima entri pertama, kita mendapatkan sistem yang
berbeda dari persamaan (7) dan mengikuti bidang yang sesuai:
Z = 6,35x + 4,59y 368

Pers -9
Pers. (1) dan (9) memberikan dua model yang
terpisah
yang
memungkinkan
kita
untuk
membuat prediksi berat badan dengan pengukur
yang mana lebih baik?

Page 15

Kita membutuhkan sesuatu yang lebih baik untuk


menyelesaikan pertanyaan itu. Kita membutuhkan
cara matematis untuk mengukur kecocokan yang
terbaik.
Pemakalah akan menjelaskan salah satu dari
semuanya yaitu yang disebut koefisien korelasi
berganda, dilambangkan R (koefisien korelasi sampel).
Koefisienkorelasi berganda didefinisikan sebagai,

Pers
-10

Page 16

Contoh
Kita hitung R2 ke dalam persamaan regresi
pers.(9):
Z = 6,35x + 4,59y 368

Gunakan formula, kita hitung:


.
.
.

.
.
.

Maka di dapat;
Page 17

Sebagai perbandingan, kita melaksanakan perhitungan


persamaan regresi pers. (1), yang mencoba untuk
menjelaskan data yang sama dengan hanya y (tinggi)
sebagai variabel penjelas.
Setelah menggunakan formula, maka didapatlah;

Dilihat dengan dua nilai dari (0,594 dan 0,862), kita


melihat telah terjadi kenaikan yang cukup besar dalam
akurasi
dengan
mengambil
variabel
tambahan
pengukuran pinggang ke perhitungan tinggi dan
pinggang bersama-sama melalui persamaan (9), dan
pekerjaan tersebut lebih akurat dari pada memprediksi
berat dari ketinggian saja, melalui persamaan(1).
Page 18

Contoh: Kanker dan Fluoridasi (Real Data)


Hal ini diketahui bahwa menambahkan fluoride untuk
sumber air dapat mencegah gigi berlubang. Tapi
apakah ada harga yang harus dibayar untuk berkah
ini? Beberapa kritikus, terutama di luar komunitas
ilmiah,
telah
menyatakan
bahwa
fluoride
menyebabkan kanker. Apakah ada bukti untuk
pandangan ini? Tampaknya tidak ada bukti bahwa para
ilmuwan menganggap persuasif, tetapi ini tidak berarti
bahwa seseorang tidak dapat menemukan bukti sama
sekali. (jika ini tampaknya membingungkan, perlu
diingat bahwa, statistik adalah ilmu matematika,
penggunaan
statistik
bukan
ilmu
melainkan
memerlukan pertimbangan). Untuk menggambarkan
hal ini, kita sekarang mempertimbangkan dua model
untuk hubungan antara fluoride-kanker. Kedua model
didasarkan pada data pada Tabel 2.
Page 19

TABEL 2
City

Cancer
Mortality
rate

Number of
years
fluoridates

Percent
age 65 or
more

New York

215

0,70

12,1

Chicago

204

14

1,15

10,6

Philadelphia

217

16

1,20

11,7

Detroit

213

0,48

11,5

Baltimore

223

17

1,23

10,6

Dallas

191

0,60

7,9

Washington

200

18

1,26

9,4

Cleveland

219

14

1,15

10,6

Page 20

City

Cancer

Number of years

Percent age 65 or

mortality

fluoridated

more

14

1,1

10,6

rate
Cleveland

219

5
Milwaukee

189

16

1,2

11,0

0
San

249

17

Fransisco
St. Louis

1,2

14,0

3
207

14

1,1

14,7

5
Pittsburgh

243

17

1,2

13,5

3
Denver

157

16

1,2

11,5

0
Buffalo

248

15

1,1

13,3

8
Minneapolis

228

12

1,0
8

15,0
Page 21

City

Cancer

Number of years

Percent age 65 or

mortality

fluoridated

more

0,7

9,6

rate
Fort Worth

169

0
Oklahoma

170

15

City
Louisville

1,1

9,8

8
230

18

1,2

12,4

6
Miami

266

18

1,2

14,5

5
Tulsa

159

16

1,2

9,1

Page 22

Pendekatan sederhana untuk data tersebut adalah


untuk mencari hubungan antara angka kematian
kanker dan tahun fluoridasi, tanpa memperhitungkan
profil usia masing-masing kota. Dalam hal ini, kita
akan merencanakan pasangan (L, C) dan mencari
garis regresi. Pada bagian ini, kita menggunakan L
sebagai
satu-satunya
variabel
penjelas
untuk
memprediksi C, angka kematian kanker. Hasil regresi
linier sederhana.
C = 27,1 L + 181

Maka didapat R2 = 0,047. Semakin L lebih tinggi (lebih


tahun fluoridasi), maka akan semakin tinggi pula C.
Nilai R2 sangatlah rendah dan cukup untuk membuat
seorang ahli statistik yang bijaksana gelisah tentang
model ini.
Page 23

Pendekatan yang lebih baik untuk pertanyaan ini


adalah untuk mengambil variabel penjelas lain ke
perhitungan. Hal ini juga diketahui bahwa orangorang yang lebih tua lebih rentan untuk terkena
kanker, dan ini menyebabkan ide bahwa variasi angka
kematian kanker dari satu kota ke kota lain mungkin
lebih disebabkan fakta bahwa kota-kota bervariasi
dalam proporsi warga yang lebih tua dari pada variasi
dalam fluoridasi
Cara untuk menguji ini adalah untuk melakukan
regresi linier berganda di mana L dan A (profil usia)
digunakan sebagai variabel penjelas untuk C. Ketika
kita melakukan ini, kita memperoleh
C = 0,566L + 10,6A + 85,8
R2 = 0,493
Page 24

Tetapi koefisien ini 0,566 jauh lebih kecil


daripada koefisien 27,1 yang ditemukan di
model sebelumnya; sehingga dugaan hubungan
antara fluoride dan kanker adalah sekitar 50
kali lebih lemah dalam model yang lebih masuk
akal.

Page 25

Contoh; Jarak dan Waktu (Real Data)


Jika contoh sebelumnya meyakinkan Kita bahwa
menambahkan
variabel
penjelas
untuk
meningkatkan R2 adalah strategi yang baik, maka
bagian
selanjutnyanya
mungkin
tampak
mengganggu:
menambahkan
variabel
penjelas
kadang-kadang ide yang buruk, bahkan variabel
yang tidak ada sama sekali hubungannya dengan
apa yang akan coba kita jelaskan, seperti dalam
contoh berikut:
Jaminan
Tabel 3 berisiMil data Waktu
yang No.dikumpulkan
untuk
Sosial
mencoba memprediksi berapa lama waktu yang
27
10
95
dibutuhkan siswa
dari rumah
menuju
Universitas
4
15
09
Adelphi, dalam satuan
mil.
Tabel 25,8

50

10

24

43

5,8

20

35

2,8

11

62

15,2

50

15

Page 26

regresi linear pada dua kolom pertama, menggunakan


jarak sebagai variabel penjelas, kita memperoleh:
Waktu = 1,89 mil + 8,05R2 = 0.867
Regresi selanjutnya di mana nomor jaminan sosial
digunakan sebagai variabel penjelas kedua. Ini hasilnya:
Waktu = 1,7 mil - 0,0872 nomor jaminan sosial + 13,2
R2 = 0.883
Perhatikan bahwa dalam model ini nilai R2 sedikit lebih
tinggi dari sebelumnya.
Hal ini dimungkinkan untuk menunjukkan secara
teoritis, ketika kita menambahkan variabel penjelas lain,
nilai R2 pernah menurun dan umumnya meningkat.
Page 27

Pada contoh sebelumnya, menambahkan nomor jaminan


sosial tidak membuat model deskriptif realistis, dan kita
tidak perlu perhitungan yang rumit untuk memberitahu
bahwa itu adalah ide yang buruk. Namun, yang lebih
masuk akal tentang realisme deskriptif tidak selalu dapat
diandalkan dengan baik. Ini adalah subyek dari contoh
berikut.
CONTOH
Di tengah tahun 1960-an Dinas Pendidikan Amerika
Serikat mencoba untuk mencari tahu apa yang membuat
siswa berhasil di sekolah. Secara khusus, mereka ingin
tahu apakah kualitas sistem sekolah, yang diukur dengan
uang yang dihabiskan untuk pendidikan, kualitas guru,
dan faktor-faktor yang sama bisa menjelaskan mengapa
beberapa siswa, terutama siswa minoritas, menunjukkan
nilai yang lebih rendah pada tes standar.
Page 28

Kita perhatikan tabel


berikut
Keterangan:
SLRY-Rata-rata gaji
guru per siswa
WHTC-Persentase
siswa kulit putih
SES-ukuran tingkat
sosial ekonomi siswa
TCHR-skor tes verbal
guru
MOM-level pendidikan
orang tua siswa (1
satuan=2 tahun)
SCOR-skor tes verbal
siswa

Page 29

Pendekatan pertama, untuk SCOR boleh digunakan pada semua


variabel penjelas. Hasilnya:
SCOR = 19,95 -1,79 SLRY + 0,04 WHTC + 0,65 SES + 1,11 TCHR
1,81 MOM
R2 = 0,9063
Nilai R2 tinggi. Sekarang jika kita menghilangkan WHTC dan MOM
SCOR = 12,12 - 1,79SLRY + 0,55 SES + 1,01TCHR
R2 = 0,9007
Kita bisa mencoba menyederhanakan lebih lanjut dengan
menghilangkan SLRY. sehingga didapat:
SCOR = 0,54 SES+ 0,75 TCHR +14,58
R2 = 0,8873
sekali lagi, kita hanya memperoleh harga kecil di R2 untuk
penyederhanaan ini, jadi mungkin itu adalah ide yang baik

Page 30

Thank You

Anda mungkin juga menyukai