Anda di halaman 1dari 21

MODEL REGRESI DATA CAR MENGGUNAKAN

LOGISTIC REGRESSION

Laporan Tugas Akhir Semester


Mata kuliah Generalized Linear Model

Oleh:
Fikri Sundara
10112009

PROGRAM STUDI MATEMATIKA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI BANDUNG
2015

BAB I

PENDAHULUAN

1.1

Latar Belakang
Berdasarkan data yang penulis peroleh, penulis tertarik untuk memodelkan
seberapa besar probabilitas seseorang dengan karakteristik tertentu mengajukan klaim
atau tidak dalam asuransi kendaraan bermotor. Hanya dengan mengetahui karakteristik
calon pemegang polis, kita dapat memperkirakan apakah calon pemegang polis itu akan
mengajukan klaim atau tidak. Data yang digunakan adalah data yang sudah diperoleh
dari buku Generalized Linear Model for Insurance Data yang ditulis oleh Piet de Jong
dan Gillian Z. Heller. Data yang akan diolah merupakan data asuransi kendaraan
bermotor yang dicatat selama satu tahun (tahun 2004 sampai 2005) yang terdiri dari
67856 polis dimana 4624 diantaranya memiliki setidaknya satu klaim.

1.2

Tujuan
Menentukan model regresi untuk mengestimasi probabilitas seseorang dengan
karakteristik tertentu mengajukan klaim atau tidak dalam asuransi kendaraan bermotor.

1.3

Sistematika Penulisan
Laporan ini terdiri dari empat bab. Bab pertama adalah pendahuluan yang terdiri
dari latar belakang, tujuan, dan sistematika penulisan. Bab kedua adalah landasan teori
yang terdiri dari variabal kategorikal (biner, nominal, dan ordinal) serta teori-teori dasar
generalized linear model untuk pemodelannya. Bab ketiga adalah analisis dan hasil
penelitian yang berisi anilisis proses pemodelan dan model yang dipilih. Dan terakhir
bab keempat yang berisi kesimpulan dan saran.

BAB II

LANDASAN TEORI

2.1

Variabel Kategorikal
Variabel kategorikal merupakan variabel hitung yang berupa kategori data dan
bersifat tidak dapat dilakukan operasi matematika. Variabel kategorikal dibagi dalam
tiga jenis, yaitu:
2.1.1

Variabel Kategorikal Biner


Variabel kategorikal biner adalah jenis variabel kategorikal yang hanya
memiliki dua jawaban. Contohnya jenis kelamin. Seseorang dapat berjenis
kelamin laki-laki atau perempuan.

2.1.2

Variabel Kategorikal Nominal


Variabel kategorikal nominal adalah jenis variabel kategorikal yang
memiliki lebih dari dua jawaban tanpa memperhatikan tingkatannya.
Contohnya golongan darah. Seseorang dapat memiliki golongan darah berjenis
A/B/AB/O, namun golongan darah A bukan berarti lebih baik daripada
golongan darah B begitu pula yang lainnya. Jadi, keempat jawaban tersebut
sama tingkatannya.

2.1.3

Variabel Kategorikal Ordinal


Variabel kategorikal ordinal adalah jenis variabel kategorikal yang
memiliki lebih dari dua jawaban dengan memperhatikan tingkatannya.
Contohnya tingkat luka yang dialami dalam kecelakaan (1: ringan, 2: sedang, 3:
berat).

2.2

Generalized Linear Model (GLM)


Generalized linear model (GLM) merupakan sebuah metode untuk melihat
hubungan antara variabel respon (variable bebas) dengan variabel prediktor (variable
terikat). Variabel respon adalah variabel yang dipilih untuk diamati perubahannya
akibat dari perubahan variabel-variabel lain dimana variabel-variabel lain itu
dinamakan variabel prediktor. Sehingga, Hubungan ini dapat kita lihat melalui
perubahan yang terjadi pada variabel respon ketika variabel prediktor juga berubah.
Pemilihan variabel prediktor pada umumnya diasumsikan menurut logika dari fakta
yang terjadi, kemudian pengaruhnya terhadap variabel respon akan di cek melalui
proses seleksi variabel.
Dua hal yang harus diperhatikan dalam menggunakan metode ini, yaitu:
1. distribusi variabel respon merupakan anggota dari distribusi keluarga eksponensial,
2. transformasi nilai mean untuk variabel respon memiliki hubungan yang linier
terhadap variable-variabel prediktornya.
2.2.1

Distribusi Keluarga Eksponensial


Distribusi yang merupakan anggota distribusi keluarga eksponensial
memiliki fungsi peluang yang dapat dituliskan ke dalam bentuk
() = (, ) exp {

()
}

dimana disebut parameter kanonik dan disebut parameter dispersi.


Pemilihan dan fungsi () akan mempengaruhi jenis distribusinya. Untuk
nilai mean dan variansinya dapat ditulis
() = () () = ()
dimana () turunan pertama () terhadap dan () turunan kedua ()
terhadap . Kita juga dapat menuliskan () = () =

()

yang merupakan

fungsi variansi yang memperlihatkan hubungan mean dengan variansinya.


Contoh dari distribusi keluarga eksponensial adalah distribusi normal, distribusi
poisson, distribusi gamma, dan distribusi binomial.

2.2.1.1 Link dan Canonical Link


Telah dijelaskan sebelumnya bahwa transformasi nilai mean
untuk variabel respon memiliki hubungan yang linier terhadap variablevariabel prediktornya atau dapat kita tulis
() =
dimana fungsi transformasi ini disebut sebagai fungsi link. Fungsi ini
menentukan hubungan yang seperti apa antara mean dengan variabelvariabel prediktornya. Apabila () = , maka fungsi transformasi
ini dinamakan canonical link. Berikut ini beberapa fungsi link yang
umum digunakan.

2.2.2

Distribusi Bernoulli Sebagai Salah Satu Anggota Keluarga Eksponensial


Misalkan Y adalah variabel respon berdistribusi Bernoulli (B(1, )).
Fungsi peluang dari Y adalah

( = ) = (1 )1 = (1) (1 ) = exp { ln (1) + ln(1 )}


dan didapat

(, ) = 1, = 1, = ln (1) , () = ln(1 + )
sehingga distribusi Bernoulli merupakan salam satu anggota dari distribusi keluarga
eksponensial.

2.2.3

Base Level Variabel Kategorikal


Base level diperlukan jika variabel prediktor yang digunakan merupakan
variabel

kategorikal.

Gunanya

sebagai

dasar

pengukuran

untuk

membandingkan level (kategori) lain yang termuat pada variabel kategorikal


yang sama. Base level yang dipilih merupakan level (kategori) yang memiliki
jumlah frekuensi terbanyak dalam variabel kategori tersebut. Selain itu pula,
dalam membangun model ini dibutuhkan variabel dummy. Misalkan sebuah
variabel kategorikal memiliki r level, maka dibutuhkan variabel dummy
sebanyak r-1 variabel. Variabel dummy dibentuk dari level-level (kategorikategori) yang bukan merupakan base level.

BAB III

ANALISIS DAN HASIL PENELITIAN

3.1

Variabel Respon dan Variabel Prediktor pada Data


Variabel respon adalah variabel yang dipilih untuk diamati perubahannya akibat
dari perubahan variabel-variabel lain dimana variabel-variabel lain itu dinamakan
variabel prediktor. Oleh karena itu, variabel respon yang dipilih dari data ini adalah
variabel clm yang menyatakan occurrence of a claim. Pemilihan variabel clm sebagai
variabel respon juga dipengaruhi oleh tujuan awal, yaitu menentukan model regresi
yang cocok untuk mengestimasi probabilitas seseorang dengan karakteristik tertentu
mengajukan klaim atau tidak dalam asuransi kendaraan bermotor. Variabel clm ini
termasuk ke dalam variabel kategorikal biner dimana
0: menyatakan seseorang tidak mengajukan klaim, dan
1: menyatakan seseorang mengajukan klaim
atas asuransi kendaraan bermotornya. Adapun variabel-variabel lain yang menjadi
variabel prediktornya, yaitu
agecat: kategori usia pengemudi yang terdiri dari 6 kategori (1, 2, 3, 4, 5, 6) dimana
kategori 1 yang paling muda,
area: wilayah tempat tinggal pengemudi yang terdiri dari 6 kategori (A, B, C, D, E, F),
veh_body: kategori tipe badan kendaraan yang terdiri dari 13 kategori yaitu
o BUS,
o CONVT: convertible,
o COUPE,
o HBACK: hatchback,
o HDTOP: hardtop,
o MCARA: motorized caravan,
o MIBUS: minibus,
o PANVN: panel van,
o RDSTR: roadster,
o SEDAN,

o STNWG: station wagon,


o TRUCK, dan
o UTE utility,
veh_value: menyatakan harga kendaraan dalam satuan 10.000 dolar.
3.2

Statistika Deskriptif dan Base Level


1. Variabel agecat
Pada histogram disamping, terlihat bahwa
polis sebagian besar berada pada kategori 4.
Artinya

frekuensi

kategori

lebih

besar

dibandingkan kategori-kategori lain, jadi kategori


4 dimasukkan sebagai base level untuk variabel
agecat.

2. Variabel area
Pada histogram disamping, terlihat bahwa
polis sebagian besar memiliki tempat tinggal
diwilayah berkategori C. Artinya frekuensi
kategori C lebih besar dibandingkan kategorikategori lain, jadi kategori C dimasukkan sebagai
base level untuk variabel area.

3. Variabel veh_body

Pada histogram disamping, terlihat bahwa polis sebagian besar memiliki


kendaraan dengan tipe badan SEDAN. Artinya frekuensi kategori SEDAN lebih besar
dibandingkan kategori-kategori lain, jadi kategori SEDAN dimasukkan sebagai base
level untuk variabel veh_body.
4. Variabel veh_value

Terlihat bahwa nilai mean lebih besar dari nilai median. Ini menunjukkan
bahwa ada beberapa harga kendaraan yang relatif tinggi (mahal).

Kemudian boxplot dari occurrence of claim terhadap harga kendaraan (vehicle


value) memperlihatkan pemegang polis yang memiliki harga kendaraan yang
variansinya lebih besar cenderung tidak mengajukan klaim. Hal ini mungkin terjadi
karena harga kendaraan yang tinggi (mahal) jarang untuk rusak. Untuk harga kendaraan
yang relatif rendah, pemegang polis cenderung untuk mengajukan klaim.

Grafik diatas menunjukkan scatterplot untuk smoothed data, model kuadratik,


dan model kubik. Pada scatterplot untuk smoothed data terlihat bahwa harga kendaraan
tidak berhubungan secara linier dengan occurrence of claim. Oleh karena itu muncul
perkiraan bahwa model regresi yang mungkin cocok adalah model kuadratik atau
kubik. Setelah dilakukan regresi polinomial berderajat dua dan tiga dimana variabel
responnya clm dan variabel prediktornya veh_value (terdapat pada buku Generalized
Linear Model for Insurance Data yang ditulis oleh Piet de Jong dan Gillian Z. Heller),

model kuadratik yang terlihat lebih cocok dibandingkan dengan model kubik. Akan
tetapi, pada scatterplot diatas, terlihat pula model kuadratik ini tidak cocok untuk nilai
kendaraan yang tinggi. Oleh karena itu, dilakukanlah banding. Kita akan
mengkategorikan variabel veh_value menjadi 6 kategori dan membuatnya menjadi
variabel baru yaitu variabel valuecat.

Hasil banding pada scatterplot diatas menunjukan bahwa variabel valuecat


lebih cocok untuk datanya dibandingkan model kuadratik sebelumnya yang
menggunakan variabel veh_value sebagai variabel prediktor tanpa banding. Oleh
karena itu, variabel valuecat akan menggantikan variabel veh_value sebagai variabel
prediktornya.

Pada histogram disamping, terlihat


bahwa

polis

sebagian

besar

memiliki

kendaraan dengan harga pada kategori 1.


Artinya frekuensi kategori 1 lebih besar
dibandingkan kategori-kategori lain, jadi
kategori 1 dimasukkan sebagai base level
untuk variabel valuecat.

Karena semua variabel prediktornya merupakan variabel kategorikal, maka


untuk memodelkan data ini diperlukan suatu base level yang sudah dipilih diatas dan
juga pembuatan variabel dummy. Jadi, variabel dummy untuk variabel agecat berjumlah
5 variabel, variabel dummy untuk variabel area berjumlah 5 variabel, variabel dummy
untuk variabel veh_body berjumlah 12 variabel, dan variabel dummy untuk variabel
valuecat berjumlah 5 variabel. Sehingga jumlah variabel dummy untuk seluruh variabel
prediktor adalah 27 variabel.
3.3

Pemodelan Menggunakan Logistic Regression


Variabel respon (clm) merupakan variabel kategorikal biner sehingga sangat
cocok dengan sifat distribusi Bernoulli, yaitu hanya memiliki dua kemungkinan
kejadian yang saling lepas. Dapat disimpulkan bahwa variabel clm berdistribusi
B(1, ), dimana adalah peluang seseorang mengajukan klaim. Karena variabel

responnya berdistribusi Bernoulli, maka dipilih fungsi link logit sehingga ln (1)
sebagai canonical link. Untuk distribusi Bernoulli, nilai = .
Sudah dijelaskan bahwa terdapat 27 variabel dummy untuk model ini. Kita
misalkan:

11 menyatakan umur pemegang polis dengan kategori usia 1,


12 menyatakan umur pemegang polis dengan kategori usia 2,
13 menyatakan umur pemegang polis dengan kategori usia 3,
14 menyatakan umur pemegang polis dengan kategori usia 5,
15 menyatakan umur pemegang polis dengan kategori usia 6,
21 menyatakan wilayah tempat tinggal pemegang polis dengan kategori area A,
22 menyatakan wilayah tempat tinggal pemegang polis dengan kategori area B,
23 menyatakan wilayah tempat tinggal pemegang polis dengan kategori area D,
24 menyatakan wilayah tempat tinggal pemegang polis dengan kategori area E,
25 menyatakan wilayah tempat tinggal pemegang polis dengan kategori area F,
31 menyatakan pemegang polis dengan tipe badan kendaraan kategori BUS,
32 menyatakan pemegang polis dengan tipe badan kendaraan kategori CONVT,
33 menyatakan pemegang polis dengan tipe badan kendaraan kategori COUPE,
34 menyatakan pemegang polis dengan tipe badan kendaraan kategori HBACK,
35 menyatakan pemegang polis dengan tipe badan kendaraan kategori HDTOP,
36 menyatakan pemegang polis dengan tipe badan kendaraan kategori MCARA,
37 menyatakan pemegang polis dengan tipe badan kendaraan kategori MIBUS,
38 menyatakan pemegang polis dengan tipe badan kendaraan kategori PANVN,
39 menyatakan pemegang polis dengan tipe badan kendaraan kategori RDSTR,
3,10 menyatakan pemegang polis dengan tipe badan kendaraan kategori STNWG,
3,11 menyatakan pemegang polis dengan tipe badan kendaraan kategori TRUCK,
3,12 menyatakan pemegang polis dengan tipe badan kendaraan kategori UTE,
41 menyatakan harga kendaraan dengan kategori 2,
42 menyatakan harga kendaraan dengan kategori 3,
43 menyatakan harga kendaraan dengan kategori 4,
44 menyatakan harga kendaraan dengan kategori 5, dan
45 menyatakan harga kendaraan dengan kategori 6.
Jadi, model yang akan dibangun adalah

) = + + + + + +

+ + + , + + + .

Dengan menggunakan software SAS, akan dibuat model regresinya. Berikut adalah
hasil output SAS untuk model regresinya.

Keterangan:

Maksud dari clm = 1 pada Response Profile diatas adalah kita memilih
parameter sebagai peluang bahwa pemegang polis mengajukan klaim.

Pada Class Level Information, matriks tersebut adalah design matriksnya.

Pada Analysis of Maximum Likelihood Estimate, bagian Estimate adalah


estimasi nilai untuk 0 , 1 , , 27.

Pada Type 3 Analysis of Effect, untuk menguji signifikansi variabel-variabel


prediktor terhadap model regresinya.

Pada Odds Ratio Estimate, menunjukkan proporsi peluang seseorang


mengajukan klaim dengan peluang seseorang tidak mengajukan klaim, yaitu

.
1
Contohnya pada agecat 1 vs 4,

ln (
) = 2.6199 + 0.2614 1
= 2.6199 0.2614
1
1
= 1.299 2.6199

Jadi, model yang didapat adalah

(
) = . + . + . . + +

. + . + . , + . + . .

BAB IV

Kesimpulan dan Saran

4.1

Kesimpulan
Model regresi yang diperoleh dimana clm sebagai variabel respon dan agecat,
area, veh_body, dan veh_value sebagai variabel prediktornya adalah

ln (1) = 2.6199 + 0.261411 + 0.200615 0.037121 + +


0.067725 + 1.080831 + 0.253,12 + 0.173241 + 0.777945 .
4.2

Saran
Penulis belum memasukkan semua variabel yang terdapat pada data sehingga
regresi yang terbaik mungkin akan didapatkan jika semua variabel yang terdapat pada
data dimasukkan. Diharapkan pembaca dapat mencoba membangun model regresinya
untuk dibandingkan dengan model regresi ini.

DAFTAR PUSTAKA

Heller, Gillian Z. dan Piet de Jong. 2008. Generalized Linear Model for Insurance Data.
New York: Cambridge University Press

Hapsari, Indah Nurina Fitri. 2014. Pemodelan Data Car Menggunakan Logistic Regression.
Diakses pada 13 Mei 2015

Ferly, Aldo. 2013. Pojok Statistik: Memahami Variabel. http://www.aldoferly.com/pojokstatistik-memahami-variabel/ (Diakses pada 13 Mei 2015)

LAMPIRAN

Histogram Variabel Agecat

PROC GCHART DATA=Fiksun.Car;


VBAR agecat/NAME="Age Category" TYPE=FREQ
MAXIS=AXIS1 MIDPOINTS= 1 to 6 by 1;
label agecat="age category";
run;

Histogram Variabel Area

PROC GCHART DATA=Fiksun.Car;


VBAR area/NAME="Area" TYPE=FREQ
MAXIS=AXIS1;
label area="Area";
run;

Histogram Variabel Veh_Body

PROC GCHART DATA=Fiksun.Car;


VBAR veh_body/NAME="veh_body" TYPE=FREQ
MAXIS=AXIS1;
label veh_body="veh_body";
run;

Histogram Variabel Veh_Value

PROC UNIVARIATE data=Fiksun.Car;


histogram veh_value;
run;

Boxplot Variabel Veh_Value

symbol interpol=boxt;
proc gplot data=Fiksun.Car;
plot veh_value*clm;
run;

Pemodelan Menggunakan Logistic Regression

DATA Fs.Car;
SET Fs.Car;
valuecat = .;
IF (veh_value<=2.5) THEN valuecat = 1;
IF (2.5<veh_value<=5) THEN valuecat = 2;
IF (5<veh_value<=7.5) THEN valuecat = 3;
IF (7.5<veh_value<=10) THEN valuecat = 4;
IF (10<veh_value<=12.5) THEN valuecat = 5;
IF (veh_value>12.5) THEN valuecat = 6;
RUN;
Proc logistic data=Fiksun.Car descending;
class agecat(ref="4") area(ref="C") veh_body(ref="SEDAN")
param=ref;
model clm = agecat area veh_body valuecat /
ctable pprob=0.08 outroc=Fiksun.Car3; run;

valuecat(ref="1") /