Anda di halaman 1dari 11

Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,

Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012

PENDEKATAN CART DAN REGRESI LOGISTIK


PADA POLA TINGKAT KEPARAHAN KORBAN KECELAKAAN LALU LINTAS
DI SURABAYA
Atika Nurani Ambarwati1), Heri Kuswanto2), Ismaini Zain3)
1)
Mahasiswa Pascasarjana, Jurusan Statistik, ITS Surabaya
(atika.nurani@gmail.com)
2)
Pengajar, jurusan Statistik, ITS Surabaya
(heri_k@statistika.its.ac.id)
3)
Pengajar, jurusan Statistik, ITS Surabaya
(ismaini_z@statistika.its .ac.id)
Abstrak
Kecelakaan lalu lintas merupakan kejadian dimana sebuah kendaraan bermotor
bertabrakan dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini
mungkin dapat mengakibatkan luka-luka atau kematian manusia atau binatang.
Berdasarkan informasi data penyebab kematian di Indonesia, kecelakaan lalu lintas
termasuk dalam penyebab kematian ketiga terbesar setelah HIV/AIDS dan TBC. Oleh
karena itu masalah ini perlu mendapat perhatian untuk mengantisipasi jatuhnya korban
meninggal dunia pada kecelakaan lalu lintas.
Dalam berbagai penelitian yang ada, ditemukan banyak faktor yang
berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas. Oleh karena itu
dalam penelitian ini dilakukan klasifikasi tingkat keparahan korban kecelakaan lalu
lintas dengan pendekatan CART (Classification and Regression Trees) dan regresi
logistik untuk melihat karakteristik dan faktor yang paling berpengaruh terhadap tingkat
keparahan korban kecelakaan lalu lintas. Pada penelitian ini tingkat keparahan korban
kecelakaan lalu lintas dibagi menjadi tiga kategori yaitu meninggal dunia, luka berat
dan luka ringan. Hasil klasifikasi yang diperoleh dari dua pendekatan tersebut akan
dibandingkan untuk mendapatkan model terbaik. Selanjutnya, setelah dilakukan
klasifikasi didapatkan hasil bahwa variabel prediktor yang paling berpengaruh terhadap
tingkat keparahan korban kecelakaan lalu lintas pada pendekatan regresi logistik ordinal
adalah jenis kecelakaan dengan ketepatan klasifikasi untuk data learning dan testing
masing-masing 42,79 persen dan 38,77 persen. Sedangkan untuk pendekatan CART
adalah jenis kecelakaan, usia, peran korban dalam kecelakaan, dan jenis kendaran
dengan ketepatan klasifikasi untuk data learning dan testing masing-masing 52,80
persen dan 48 persen.
Kata kunci: CART, kecelakaan lalu lintas, regresi logistik.

1. PENDAHULUAN
Kecelakaan lalu lintas adalah kejadian dimana sebuah kendaraan bermotor bertabrakan
dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini mungkin dapat
mengakibatkan luka-luka atau kematian manusia atau binatang. Kecelakaan lalu lintas di Indonesia
masih cukup tinggi. Saat ini di Indonesia, kecelakaan lalu lintas adalah penyebab kematian ketiga
terbesar setelah HIV/AIDS dan TBC. (Departeman Perhubungan RI, 2010). Kota Surabaya sebagai
salah satu kota besar di Indonesia, memiliki tingkat kecelakaan lalu lintas yang cukup tinggi. Kota
Surabaya terbagi menjadi dua kawasan hukum, yaitu kawasan hukum jajaran Polrestabes Surabaya
dan Polres Pelabuhan Tanjung Perak. Selama tahun 2010 di kawasan hukum jajaran Polrestabes
Surabaya terjadi kecelakaan lalu lintas sebanyak 411 kasus yang menyebabkan jatuhnya korban
sebanyak 507 orang.
M-1

Atika Nurani Ambarwati / CART, regresi logistik

Karena tingginya tingkat kecelakaan lalu lintas, maka perlu dilakukan penelitian tentang
pola tingkat keparahan korban kecelakaan lalu lintas di Surabaya. Penelitian tentang kecelakaan
lalu lintas untuk mengetahui faktor-faktor yang mempengaruhi tingkat keparahan korban
kecelakaan lalu lintas Kota Surabaya pernah dilakukan oleh Afidah (2011) metode yang digunakan
dalam penelitian tersebut yaitu metode regresi logistik. Namun dalam penelitian tersebut
menghasilkan ketepatan klasifikasi yang kecil, sehingga perlu untuk memodelkan dengan metode
lain yang diharapkan dapat menghasilkan ketepatan klasifikasi yang lebih besar.
Regresi logistik adalah salah satu metode statistik untuk menganalisis hubungan variabel
respon yang memiliki skala nominal atau ordinal dengan variabel prediktor. Regresi logistik tidak
memerlukan asumsi normalitas, meskipun screening data outliers tetap dapat dilakukan. Regresi
logistik yang memiliki variabel respon dengan tiga atau lebih kategori yang memiliki tingkatan
dinamakan regresi logistik ordinal. CART adalah suatu metode nonparametrik dimana setelah
didapatkan model klasifikasinya, maka struktur data dapat dilihat secara visual, sehingga
memudahkan dalam eksplorasi dan pengambilan keputusan, selain itu CART dapat mengekplorasi
struktur data yang komplek dengan banyak variabel.
Penelitian tentang regresi logistik telah banyak dilakukan antara lain Analisis regresi
ordinal oleh Salam (2010) membahas tentang pengujian kesamaan vektor parameter pada beberapa
model regresi logistik ordinal (faktor-faktor yang mempengaruhi indeks pembangunan manusia di
Provinsi Jawa Timur, Nusa Tenggara Timur, dan Papua) dengan kesimpulan ketiga provinsi
mempunyai perbedaan antara satu dan yang lainnya dalam hal pengaruh indikator pendidikan
terhadap IPM. Sementara itu CART lebih banyak digunakan karena kemudahan interpretasi dan
kemampuan penanganan data missing. Aplikasi yang menggunakan CART adalah oleh Prasetyo
(2009) membahas tentang klasifikasi deteksi intrusi menggunakan pendekatan CART dan MARS.
Penelitian tersebut menunjukkan bahwa tingkat akurasi CART dalam mengidentifikasi ketepatan
klasifikasi lebih tinggi dibandingkan dengan MARS.
Kuhnert,P.M., Do,Kim-Anh dan McClure,Rod, (2000) meneliti tentang penggabungan
antara regresi logistik, CART dan MARS dapat menghasilkan model yang lebih informatif dan
prediktif. Dalam penelitian tersebut juga dijelaskan penggunaan gabungan CART, MARS dengan
regresi logistik tidak hanya untuk pemodelan tetapi sebagai alat eksplorasi untuk analisa yang lebih
rinci dengan menggunakan metode konvensional seperti regresi logistik. Dalam penelitian ini akan
diaplikasikan dua pendekatan yang berbeda yaitu CART dan regresi logistik untuk mengetahui
tingkat keparahan korban kecelakaan lalu lintas yang dibagi menjadi tiga kategori yaitu meninggal
dunia, luka berat dan luka ringan.. Hasil klasifikasi yang diperoleh dari dua pendekatan tersebut
akan dibandingkan untuk mendapatkan model terbaik.
2. Regresi Logistik Ordinal
Model yang dapat digunakan untuk regresi logistik ordinal adalah model logit kumulatif
(cumulative logit models). Misalkan variabel respon Y berskala ordinal memiliki G buah kategori

x x
x
dan i menyatakan vektor variabel prediktor pada pengamatan ke-i, i i1
dengan i 1, 2,..., n , maka model logit kumulatif dinyatakan :
T
logit P Yi g xi g xi , g 1, 2,..., G 1
dengan

P Yi g x i

adalah peluang kumulatif kategori ke-g terhadap

M-2

(1)

xi , g adalah parameter

2 ... G 1 dan 1 2 ... p


intersep dan memenuhi 1
x
regresi yang bersesuaian dengan i .
Logit kumulatif didefinisikan sebagai (Agresti, 2002) :

xi 2 ... xip

adalah vektor koefisien

Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,


Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012

P Yi g x i
logit P Yi g xi ln

1 P Yi g x i

g 1, 2,..., G 1

(2)

berdasarkan persamaan (1) dan (2) maka model regresi logistik ordinal dapat dinyatakan

P Yi g xi
T
logit P Yi g xi ln
g xi
1 P Yi g x i

, g 1, 2,..., G 1

(3)
Penaksiran parameter model regresi logistik ordinal dilakukan dengan menggunakan
metode Maximum Likelihood Estimation (MLE), kemudian diselesaikan dengan metode iterasi
numerik yaitu Newton-Raphson. Pengujian parameter model regresi logistik ordinal dapat
dilakukan secara serentak maupun parsial. Hipotesis dalam uji serentak adalah :

H 0 : 1 2 ... p 0

H1 : minimal ada satu k 0 , k =1,2,,p

G 2 2 ln L ln L

Statistik uji yang digunakan:

dengan L() merupakan nilai maksimum likelihood di bawah populasi dan L( ) merupakan
nilai maksimum likelihood di bawah
lebih besar dari

(2 , p )

H 0 . Kriteria penolakan H 0 yaitu tolak H 0 apabila nilai G 2

atau p-value kurang dari . Sedangkan hipotesis dalam uji parsial adalah :

H 0 : k 0
H1 : k 0 , k =1,2,,p

Wk
Statistik uji yang digunakan:
Kriteria penolakan
dari .

k
SE ( k )

H 0 yaitu tolak H 0 apabila nilai Wk lebih besar dari Z 2 atau p-value kurang

3. CART (Classification and Regression Trees)


CART adalah salah satu metode nonparametrik dari salah satu teknik eksplorasi data yaitu
suatu teknik pohon keputusan (decisions tree). Jika variabel responnya berupa variabel kontinu
maka disebut regresi pohon (regression trees), jika variabel responnya kategorik maka metode
CART menghasilkan classification trees (pohon klasifikasi) (Breiman, Friedman, Olshen dan
Stone, 1984). Klasifikasi pohon merupakan metode alternatif untuk memodelkan dan memprediksi
nilai variabel respon berjenis kategorik yang dipengaruhi variabel-variabel bebas berjenis
kategorik, kontinyu ataupun kombinasi keduanya.

Simpul
utamanode
(root
Child
node)
Simpul terminal
M-3

Atika Nurani Ambarwati / CART, regresi logistik

Gambar 3.1 Struktur Pohon Klasifikasi


Proses pembentukan CART
a. Proses pembentukan klasifikasi pohon meliputi 3 tahapan yaitu (Breiman et al., 1993):
1. Pemilihan pemilah
a. Fungsi keheterogenan simpul untuk mengurangi keheterogenan pada simpul utama dan
memaksimumkan kehomogenan pada simpul anak.
b. Pemilahan simpul
c. Kriteria Goodness of Split
2. Penentuan simpul terminal
3. Penandaan label kelas
proses pembentukan pohon dilakukan sampai tidak memungkinkan lagi untuk dilanjutkan (Lewis,
2000).
b. Pemangkasan Klasifikasi Pohon
Untuk mendapatkan pohon yang layak maka perlu dilakukan pemangkasan (pruning) yaitu
suatu penilaian ukuran pohon tanpa pengorbanan ketepatan atau kebaikannya melalui pengurangan
simpul pohon sehingga dicapai ukuran pohon yang layak dan berdasarkan pada ukuran cost
complexity pruning.
c. Pohon Klasifikasi Optimal
Pohon klasifikasi optimal yang dipilih adalah pohon optimal yang berukuran tepat dan
mempunyai nilai penduga pengganti yang cukup kecil. Ukuran pohon klasifikasi yang sangat besar
akan memberikan nilai penduga pengganti yang sangat kecil, sehingga pohon ini cenderung dipilih
untuk menduga nilai respon. Yang perlu diperhatikan adalah ukuran pohon yang besar akan
mempunyai nilai kompleksitas yang tinggi karena struktur data yang digambarkan cenderung
kompleks. Data sampel akan digunakan untuk mendapatkan nilai pengganti yang paling kecil dari
pohon klasifikasi yang dipilih.
Ada 2 jenis penduga pengganti yaitu (Breiman et. al., 1993) :
1. Penduga sampel uji (test sample estimate).
2. Penduga validasi silang lipat V (cross validation V-fold estimate).
4. Kecelakaan lalu lintas
Kecelakaan lalu lintas adalah kejadian dimana sebuah kendaraan bermotor bertabrakan
dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini dapat mengakibatkan lukaluka atau kematian manusia atau binatang. (www.republika.co.id)
Pada suatu kecelakaan lalu lintas yang terjadi, ada beberapa kriteria keparahan korban
kecelakaan menurut PP No 43 Thn 1993 Pasal 93, antara lain:
1. Korban Meninggal
Korban meninggal adalah korban yang dipastikan meninggal dunia akibat kecelakaan lalu
lintas dalam jangka waktu paling lama 30 hari setelah kecelakaan tersebut.
2. Korban Luka Berat
Korban luka berat adalah korban yang karena luka-lukanya menderita cacat tetap atau harus
dirawat dalam jangka waktu lebih dari 30 hari sejak terjadi kecelakaan.
3. Korban Luka Ringan
Korban luka ringan adalah korban yang tidak termasuk dalam kategori korban meninggal
dunia dan korban luka berat.
5. Metode Penelitian
Penelitian ini menggunakan data yang diambil dari penelitian sebelumnya oleh Afidah
(2011). Data ini terdiri dari 507 data korban kecelakaan lalu lintas selama tahun 2010 di kawasan
hukum jajaran Polrestabes Surabaya.
Variabel respon (Y) dalam penelitian ini adalah tingkat keparahan korban kecelakaan lalu
lintas yang terdiri dari tiga kategori, yaitu korban meninggal dunia, korban luka berat dan korban
luka ringan. Sedangkan variabel prediktor (Xj) yang digunakan yaitu jenis kecelakaan (X1) yang
terdiri dari empat kategori, yaitu tabrakan belakang (TB), tabrakan depan (TD), tabrakan samping
M-4

Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,


Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012

(TS), dan lain-lain, jenis kelamin (X2) yang terdiri dari dua kategori, yaitu laki-laki dan perempuan,
Usia (X3) yang terdiri dari tiga kategori, yaitu anak-anak dan remaja (0-21 tahun), dewasa (22-55
tahun) dan lanjut usia (lebih dari 55 tahun), peran korban dalam kecelakaan (X4) yang terdiri dari
tiga kategori, yaitu pengendara, penumpang kendaraan selain pengendara dan penggunna jalan non
penumpang kendaraan (penyeberang jalan, pejalan kaki, dll), jenis kendaraan (X5) yang terdiri dari
tiga kategori, yaitu sepeda motor (kendaraan bermotor roda dua atau tiga), kendaraan roda empat
atau lebih dan lain-lain (sepeda angin, becak atau kendaraan bukan bermotor lainnya), Waktu
kecelakaan (X6) yang terdiri dari dua kategori, yaitu padat kendaraan (pukul 06.00 WIB-08.00
WIB, 12.00 WIB-13.30 WIB, 16.00 WIB-18.00 WIB) dan sepi (selain waktu padat), tanggal
perayaan khusus (X7) yang terdiri dari dua kategori, yaitu libur hari raya idul fitri, natal, dan tahun
baru dan lainnya.
Untuk mengetahui faktor-faktor yang berpengaruh terhadap tingkat keparahan korban
kecelakaan lalu lintas dilakukan analisis dengan langkah-langkah sebagai berikut :
1.
Memodelkan dengan menggunakan regresi logistik ordinal
2.
Memodelkan dengan menggunakan CART dengan langkah-langkah :
a. Penentuan pemilah dan pemilahan secara rekrusif pada simpul.
Penentuan pemilah dilakukan dengan menentukan satu gugus pertanyaan dikotomus,
dimana jawaban dari pertanyaan tersebut menentukan sekatan atau pemilah, bagi ruang
variabel prediktor. Selanjutnya pemilahan dievaluasi dengan menggunakan kriteria
goodness-of-split ( s ,t ) . Pemilah terbaik adalah pemilah yang memberikan penurunan
keheterogenan tertinggi.
b. Penentuan simpul terminal (terminal node).
Penentuan simpul terminal dilakukan jika suatu simpul t dicapai sehingga tidak terdapat
penurunan keheterogenan secara berarti.
c. Penandaan label kelas (class label).
Label kelas dari simpul terminal ditentukan berdasarkan aturan jumlah terbanyak, yaitu
jika

r ( t ) =1max ( jt )=max p( jt)=max


j

terminal t adalah

j0

N j (t)
N ( t)

maka label kelas untuk simpul

yang memberikan nilai dugaan kesalahan pengklasifikasian pada

simpul t paling kecil sebesar

r ( t ) =1max p( jt) .
j

d. Penghentian pembentukan pohon klasifikasi.


Penghentian pembentukan pohon klasifikasi dilakukan dengan menentukan minimum n
pada simpul anak, kedalaman (depth) dalam pohon maksimal (maximal tree) atau dengan
menentukan ambang batas (threshold) .
e. Pemangkasan pohon klasifikasi (pruning).
Pemangkasan pohon klasifikasi dilakukan dengan menggunakan kriteria ukuran cost
complexity minimum.
f. Pemilihan pohon klasifikasi optimal melalui test sample estimates.
g. Memilih model pohon terbaik dengan nilai kesalahan relatif tes set (test set relative cost)
yang minimum.
6. PEMBAHASAN
Sebelum dilakukan analisis regresi logistik ordinal, maka perlu dilakukan pemilihan
variabel prediktor yang berpengaruh nyata secara individu terhadap variabel respon, yaitu dengan
cara meregresikan tiap-tiap variabel prediktor terhadap variabel responnya sehingga dapat
diketahui variabel prediktor mana saja yang secara univariabel berpengaruh nyata terhadap variabel
respon. Untuk menentukan variabel prediktor yang berpengaruh, digunakan statistik uji Wald.
Hipotesis yang digunakan adalah sebagai berikut:

H 0 : k =0

M-5

Atika Nurani Ambarwati / CART, regresi logistik

H1 :

k 0 , dengan k =1,2,... , 7

Statistik uji yang digunakan adalah statistik

W=

^
SE( ^ )

Kesimpulan H 0 ditolak jika |W |> 1,64485 atau pvalue 10


Apabila digunakan tingkat signifikansi sebesar 10%, maka variabel jenis kecelakaan
(X 1 ) , usia ( X 3 ) , peran korban dalam kecelakaan ( X 4) dan jenis kendaran ( X 5 )
memiliki nilai W lebih besar dari Z 0,05=1,64485 atau p-value yang kurang
10
.
Setelah didapatkan variabel-variabel yang signifikan berpengaruh secara parsial, maka
akan dimodelkan secara serentak untuk mendapatkan model yang lebih sederhana dan tepat
berpengaruh secara serentak terhadap tingkat keparahan korban kecelakaan lalu lintas.
Hipotesisnya adalah:

H 0 : 1= 2== 4 =0
H 1 : paling sedikit ada satu

k 0 , k =1,2,3,4 .
^ ))
Statistik uji G =2 ( ln (
^ ) lnL (
2
2
Kesimpulan : H 0 ditolak jika G > x(db , ) atau p-value 10 .
Dapat dilihat bahwa nilai statistik G 2 yang dihasilkan adalah sebesar 257,901 dan apabila
dibandingkan dengan nilai x 20,1 ;9 maka nilai statistik G 2 lebih besar dari pada x 20,1 ;9
H 0 yang berarti minimal ada satu variabel prediktor yang
sehingga keputusan tolak
2

berpengaruh signifikan terhadap tingkat keparahan korban kecelakaan lalu lintas di Surabaya.
2
Tabel 6.1 Nilai statistik uji G model regresi logistik ordinal multivariabel
2
df
P-value
Statistik G

257,901

0,000

Tabel 6.2 Pengujian serentak variabel prediktor


Kategori variabel
B
Exp(B)
prediktor
Konstanta (1)
1,304
3,684
Konstanta (2)
2,965
19,395
Jenis Kecelakaan ( X 1 )
TB
1,365
3,916
TD
0,971
2,641
TS
1,161
3,193

wald

p-value

10,001
46,868

0,002*
0,000*

17,735
9,373
13,233

0,000*
0,002*
0,000*

keputusan

Tolak
Tolak
Tolak

H0
H0
H0

Variabel-variabel prediktor yang digunakan dalam pengujian analisis regresi ordinal secara
parsial yaitu jenis kecelakaan (X 1 ) , usia ( X 3 ) , peran korban dalam kecelakaan ( X 4)
dan jenis kendaran ( X 5 ) . Dari pengujian serentak digunakan tingkat signifikansi sebesar
10%, variabel yang berpengaruh signifikan terhadap tingkat keparahan korban kecelakaan lalu
(X 1 )
W
lintas yaitu jenis kecelakaan
karena memiliki nilai
lebih besar dari
Z 0,05=1,64485 atau p-value yang kurang
10 .
Fungsi logit yang terbentuk digunakan untuk membentu fungsi model peluang yang
menggambarkan pola hubungan antar variabel respon dengan variabel prediktor. Fungsi logit
tersebut adalah:

g1 ( x )=1,304 +1,365 x 1 ( TB )+ 0,971 x 1 (TD )+1,161 x 1 ( TS )


g2 ( x )=2,965+ 1,365 x 1 (TB )+ 0,971 x 1 ( TD ) +1,161 x1 ( TS )
Fungsi model peluang untuk kategori korban meninggal dunia dilambangkan
M-6

0 ( x) ,

Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,


Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012

1 ( x ) dan korban luka ringan 2 (x) , sehingga mendapatkan nilai peluang

korban luka berat


sebagai berikut:

0 ( x )=1

2,965+1,365 x 1 ( TB ) + 0,971 x1 ( TD ) +1,161 x 1( TS )

( 1+ e2,965+ 1,365 x (T B )+0,971 x (TD )+1,161 x (TS ) )


1

e1,304 +1,365 x ( TB )+0,971 x


1

1 ( x )=

( TD ) +1,161 x 1 ( TS )

( 1+e 1,304+1,365 x (TB )+0,971 x (TD )+1,161 x ( TS ))


1

2,965+1,365 x1 ( TB ) +0,971 x1 ( TD ) +1,161 x 1 ( TS )

2 ( x )=

e 1,304+1,365 x (TB )+0,971 x ( TD )+1,161 x ( TS )


1

( 1+e 2,965+1,365 x (TB )+0,971 x (TD ) +1,161 x (TS ) )( 1+e 1,304+1,365 x (TB ) +0,971 x ( TD )+1,161 x (TS ) )
1

Pada variabel jenis kecelakaan menunjukkan bahwa risiko korban kecelakaan kategori
tabrak belakang 3,916 kali lebih banyak daripada korban kecelakaan kategori lainnya. Risiko
korban kecelakaan kategori tabrak depan 2,641 kali lebih banyak daripada korban kecelakaan
kategori lainnya, dan risiko korban kecelakaan kategori tabrak samping 3,193 kali lebih banyak
daripada korban kecelakaan kategori lainnya.
Berdasarkan perhitungan peluang di atas, maka dapat diperoleh hasil prediksi sehingga
kebenaran model logit ini dapat dilihat berdasarkan hasil pengklasifikasian antara prediksi dan
observasi.
Tabel 6.3 Hasil Klasifikasi dengan Model Regresi Logistik Data Learning

observasi
Meninggal
Dunia
Luka Berat
Luka Ringan

prediksi
Luka
Ringan

Meninggal Dunia

Luka
Berat

68

78

36,9%

45
91
23
69
Total keseluruhan

14
16

36,7%
26,4%
42,79%

Ketepatan klasifikasi

Tabel 6.4 Hasil Klasifikasi dengan Model Regresi Logistik Data Testing

observasi
Meninggal
Dunia
Luka Berat
Luka Ringan

Meninggal Dunia
0
0
0
Total keseluruhan

prediksi
Luka
Luka
Berat
Ringan

Ketepatan klasifikasi

42

0%

38
18

0
0

100%
0%
38,77%

Selanjutnya dilakukan pemodelan menggunakan model CART. Model yang dihasilkan


dalam CART bukan merupakan model matematis akan tetapi berupa model pohon/topologi.
Tabel 6.5 Nilai Simpul Terminal, Test Set Relative Cost, Resubstitution Relative Cost dan
Complexity menurut nomor pohon
Tree
Number
1*
2
3
4
5
6

Terminal
Nodes
52
47
45
43
42
41

Test Set
Relative Cost
0.936 0.079
0.901 0.080
0.845 0.080
0.845 0.080
0.845 0.080
0.858 0.080

Resubstitution
Relative Cost
0.624
0.624
0.625
0.628
0.630
0.632

M-7

Complexity
-1.000
3.57E-005
0.000257
0.001
0.001
0.001

Atika Nurani Ambarwati / CART, regresi logistik


Tree
Number
7
8
9
10
11
12**
13
14
15
16
17
18
19
20
21
22
23
24

Terminal
Nodes
37
36
35
33
26
24
22
21
19
17
16
14
9
8
5
4
3
1

Test Set
Relative Cost
0.806 0.080
0.792 0.080
0.792 0.080
0.792 0.080
0.792 0.080
0.753 0.080
0.779 0.080
0.794 0.080
0.781 0.080
0.766 0.080
0.766 0.080
0.765 0.079
0.753 0.079
0.757 0.079
0.798 0.075
0.788 0.076
0.806 0.072
1.000 0.000

Resubstitution
Relative Cost
0.642
0.645
0.648
0.655
0.678
0.685
0.693
0.697
0.706
0.715
0.722
0.736
0.772
0.779
0.805
0.821
0.844
1.000

Complexity
0.002
0.002
0.002
0.002
0.002
0.002
0.002
0.003
0.003
0.003
0.004
0.005
0.005
0.005
0.006
0.011
0.015
0.052

* Maksimum ** Optimal

Pohon klasifikasi maksimal yang dihasilkan terdiri dari 52 simpul terminal. Pohon
maksimal yang terbentuk mengandung test set relative cost sebesar 0,936 0,079 dengan
resubstitution relative cost sebesar 0,624 dan kompleksitas paramete -1,000. Pohon klasifikasi
maksimal menggambarkan struktur data yang sangat kompleks, sehinga perlu dilakukan
pemangkasan pohon agar diperoleh nilai kompleksitas yang relatif kecil (Breiman, dkk 1993).
Pohon optimal merupakan pohon yang memiliki test set relative cost terkecil. Pohon
optimal yang terbentuk terdiri dari jumlah simpul terminal sebanyak 24 buah terlihat pada nomor
pohon 12.
Classification tree topology for: KEPARAHAN

Gambar 6.1 Pohon Klasifikasi Optimal dengan 24 Simpul Terminal


Node 1
Class = 0
JENIS_TA = (3)
Class Cases
0
151
1
150
2
108
N = 409

%
36.9
36.7
26.4

Terminal
Node 2
Node
Class1= 0
Class = =
0 (1)
MOMEN
Class
%
ClassCases
cases %
00
35
60.3
35 60,3
11
24.1
1414 24,1
22
15.5
9 9 15,5
N=
58
N = 58

Terminal
Node 1
Class = 0
Class cases %
0
33 63,5
1
13 25,0
2
6
11,5
N = 52

Node 2
Class = 2
JENIS_TA = (1,2)
Class Cases %
0
116 33.0
1
136 38.7
2
99 28.2
N = 351

Terminal
Node 2
Class = 2
Class cases %
0
2 33,3
1
1 16,7
2
3 50,0
N=6

Node 3
Class = 1
USIA = (2)
Class Cases
0
84
1
105
2
58
N = 247

Terminal

%
34.0
42.5
23.5

Terminal
Terminal
NodeNode
4 4
Class Class
=2 =2
Class
Class casesCases
%
0
0
32
30.832
1
1
31
29.831
2
2
41
39.441
N = 104
N = 104

Terminal

%
30.8
29.8
39.4

Node Klasifikasi
2
Node
3
Gambar 6.2 Ilustrasi Proses Pemilahan pada Pohon
Optimal
dengan 24 Simpul Terminal
Class = 0
Class Cases %
0
18 54.5
1
11 33.3
2
4 12.1
N = 33

M-8

Class = 1
Class Cases
0
66
1
94
2
54
N = 214

%
30.8
43.9
25.2

Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,


Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012

Pada pohon optimal yang menjadi simpul utama adalah kelompok jenis tabrakan (simpul
1), dimana ada 409 korban kecelakaan yang dipilah menjadi 2 simpul anak yaitu simpul kiri
sebanyak 58 korban dan 351 korban menjadi simpul kanan. Kelompok jenis tabrakan lain-lain
(kecelakaan yang bukan termasuk dalam tabrakan belakang, tabrakan depan, dan tabrakan
samping) dikelompokkan pada simpul kiri (simpul 2). Simpul 2 dipilah lagi dengan variabel
pemilah adalah variabel momen. Simpul kiri (simpul terminal 1) sebanyak 52 korban dengan
karakteristik selain libur hari raya idul fitri, natal, dan tahun baru. Simpul kanan (simpul terminal
2) sebanyak 6 korban dengan karakteristik selain libur hari raya idul fitri, natal, dan tahun baru.
Setiap simpul terminal tidak dipilah lagi karena sudah bersifat homogen.
Adapun interpretasi hasil untuk masing-masing simpul terminal adalah sebagai berikut:
1. Simpul terminal 1, korban kecelakaan dengan
- jenis tabrakan lain-lain (kecelakaan yang bukan termasuk dalam tabrakan belakang,
tabrakan depan, dan tabrakan samping),
- momen lainnya (bukan libur hari raya idul fitri, natal, dan tahun baru),
mempunyai dugaan sebesar 52 korban kecelakaan. Dimana sebanyak 33 korban meninggal
dengan presentase 63,5 persen, 13 korban mengalami luka berat dan 6 korban mengalami luka
ringan, masing-masing dengan presentase sebesar 25,0 persen dan 11,5 persen.
2. Simpul terminal 2, korban kecelakaan dengan
- jenis tabrakan lain-lain (kecelakaan yang bukan termasuk dalam tabrakan belakang,
tabrakan depan, dan tabrakan samping),
- momen libur hari raya idul fitri, natal, dan tahun baru,
mempunyai dugaan sebesar 6 korban kecelakaan. Dimana sebanyak 2 korban meninggal
dengan presentase 33,3 persen, 1 korban mengalami luka berat dan 3 korban mengalami luka
ringan, masing-masing dengan presentase sebesar 16,7 persen dan 50,0 persen.
3. Simpul terminal 4, korban kecelakaan dengan
- jenis tabrakan tabrak depan dan tabrak samping,
- usia lebih dari 55 tahun (lanjut usia),
- peran korban dalam kecelakaan pengendara dan penumpang,
- pada jam sepi,
mempunyai dugaan sebesar 7 korban kecelakaan. Dimana sebanyak 1 korban meninggal
dengan presentase 14,3 persen, masing-masing 3 korban mengalami luka berat dan luka
ringan, dengan presentase sebesar 42,9 persen.
Pada pohon optimal yang terbentuk ternyata semua variabel prediktor masuk dalam model,
yaitu jenis kecelakaan ( X 1 ) , jenis kelamin ( X 2 ) , usia ( X 3 ) , peran korban dalam
kecelakaan ( X 4) , jenis kendaran (X 5 ) , waktu kecelakaan ( X 6 ) , dan tanggal perayaan
khusus (X 7 ) . Lebih jelasnya dapat dilihat pada Tabel 6.6.
Tabel 6.6 Variabel yang Masuk dalam Pohon Klasifikasi
Variable
JENIS_TA
USIA
PERAN_KO
JENIS_KE
MOMENT
JAM
JK

Score
100.00
79.47
53.02
51.19
49.48
40.34
32.10

||||||||||||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||
||||||||||||||||||||||
|||||||||||||||||||||
||||||||||||||||||||
||||||||||||||||
|||||||||||||

Variabel prediktor yang menjadi pemilah pertama (utama) pada simpul induk adalah
variabel jenis tabrakan ( X 1 ) , hal ini disebabkan variabel X 1 merupakan variabel paling
dominan dalam pembentukan model klasifikasi dengan skor 100.
Berdasarkan perhitungan peluang di atas, maka dapat diperoleh hasil prediksi sehingga
kebenaran model logit ini dapat dilihat berdasarkan hasil pengklasifikasian antara prediksi dan
observasi.
M-9

Atika Nurani Ambarwati / CART, regresi logistik

Tabel 6.7 Hasil Klasifikasi Pohon Optimal untuk Data Learning

Prediksi kelas
Meninggal Luka Berat Luka Ringan
Meninggal
59
47
45
Luka Berat
17
83
50
Luka Ringan
9
25
74
Ketepatan klasifikasi total (%)
52,80
Kelas aktual

Ketepatan
klasifikasi (%)
39,07
55,33
68,52

Pada Tabel 6.6 besarnya ketepatan klasifikasi total 52,8 persen, artinya pohon klasifikasi
yang terbentuk mampu memprediksi pengamatan dengan tepat sebesar 52,80 persen.
Tabel 6.8 Hasil Klasifikasi Pohon Optimal untuk Data Testing

Kelas aktual
Meninggal
Luka Berat
Luka Ringan
Ketepatan
48,00

Prediksi kelas
Meninggal Luka Berat Luka Ringan
14
12
16
5
23
10
0
8
10
klasifikasi
total

Ketepatan
klasifikasi (%)
33,33
60,53
55,56
(%)

Pada Tabel 6.7 besarnya ketepatan klasifikasi total 48 persen, artinya pohon klasifikasi yang
terbentuk mampu memprediksi pengamatan dengan tepat sebesar 48 persen.
7. KESIMPULAN
Berdasarkan analisis dan pembahasan yang telah dilakukan pada bab sebelumnya, maka
dapat ditarik kesimpulan sebagai berikut:
1. Variabel yang berpengaruh terhadap tingkat keprahan korban kecelakaan lalu lintas di
Surabaya berdasarkan penelitian ini adalah variabel jenis kecelakaan ( X 1 ) , usia ( X 3 ) ,
peran korban dalam kecelakaan (X 4) dan jenis kendaran (X 5 ) . Tetapi pada pengujian
serentak hanya variabel jenis kecelakaan ( X 1 ) . Model regresi logistik yang didapatkan
adalah sebagai berikut:

g1 ( x )=1,304 +1,365 x 1 ( TB )+ 0,971 x 1 (TD )+1,161 x 1 ( TS )


g2 ( x )=2,965+ 1,365 x 1 (TB )+ 0,971 x 1 ( TD ) +1,161 x1 ( TS )
2. Analisis menggunakan metode CART menunjukkan bahwa variabel prediktor yang
berpengaruh terhadap tingkat keprahan korban kecelakaan lalu lintas di Surabaya pada kondisi
pohon optimal yang terbentuk ternyata semua variabel prediktor masuk dalam model, yaitu
jenis kecelakaan ( X 1 ) , jenis kelamin (X 2 ) , usia (X 3 ) , peran korban dalam
( X 4) , jenis kendaran (X 5 ) , waktu/jam kecelakaan (X 6 ) , dan
kecelakaan
momen/tanggal perayaan khusus ( X 7 ) . Variabel jenis tabrakan ( X 1 ) merupakan
variabel yang paling dominan berpengaruh dibandingkan dengan variabel lainnya.
3. Dilihat dari besarnya ketepatan klasifikasi dalam model maka metode CART lebih baik
dibandingkan model regresi logistik karena memiliki nilai ketepatan klasifikasi yaitu 52,80
persen.
Saran
Model yang dihasilkan dalam penelitian ini menghasilkan ketepatan klasifiasi yang kecil,
sehingga dalam penelitian selanjutnya disarankan untuk memodelkan dengan metode lain dan
hendaknya menggunakan variabel prediktor yang lebih lengkap.
8. DAFTAR PUSTA
M-10

Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,


Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012

Afidah, L. N., (2011), Pola Tingkat Keparahan Korban Kecelakaan Lalu Lintas Dengan
Menggunakan Regresi Logistik Multinomial (Studi kasus : Kecelakaan Lalu Lintas di
Surabaya, Tugas Akhir, (Tidak Dipubilkasikan), Institut Teknologi Sepuluh Nopember,
Surabaya.
Agresti, A., (2002), Categorical Data Analysis, John Willey and Sons, New York.
Anonim, (2011) Kecelakaan Lalu Lintas,id.wikipedia.org/wiki/Kecelakaan_ lalu-lintas, Diakses
1 Juni 2011.
Anonim, (2011), Kecelakaan Lalu Lintas Tempati Urutan Tiga Penyebab Kematian Pusat
KomunikasiPublik,http://www.dephub.go.id/read/ berita/direktorat-jenderal...darat/5131,
Diakses 30 Oktober 2011.
Breiman, L., Friedman, J.H., Olshen, R.A., dan Stone, C.J., (1993), Cassification and Regression
Tree, Chapman And Hall, New York..
Dillon, W.R, (1978), On the performance of soma multnomial classification rules, Journal of
American statical Association, vol 73, hal 305-313.
Farida, A. (2008), Analisis Regresi Logistk Ordinal (Studi Kasus: Akreditasi SMK di Jawa Timur),
Tesis (Tidak Dipubilkasikan),, Institut Teknologi Sepuluh Nopember, Surabaya.
Frank, I.E., (1995), Modern nonlinear regression methods, Chem.Int.Lab.Systems Vol 27, hal 1-9.
Kuhnert,P.M., Do,Kim-Anh dan McClure,Rod, (2000), Combining non-parametric models with
logistic regression: an application to motor vehicle injury data, computational statistics &
data analysis, Vol 34, hal 371-386.
Maradona, S., (2010), Sebanyak 28 Nyawa Melayang Tiap Hari Akibat Kecelakaan Lalu Lintas,
http://www.republika.co.id/berita/breaking-news/nasional/10/12/30/155169-sebanyak-28nyawa-melayang-tiap-hari-akibat-kecelakaan-lalu-lintas, diakses 30 Oktober 2011.
Prasetyo, G. C., (2009), Klasifikasi Deteksi Intrusi Menggunakan Pendekatan Classi-fication And
Regression Trees (CART) Dan Multivariate Adaptive Regression Spline (MARS), Tesis,
(Tidak Dipubilkasikan), Institut Teknologi Sepuluh Nopember, Surabaya.
Salam, R., (2010), Pengujian Kesamaan Vektor Parameter pada Beberapa Model Regresi Logistik
Ordinal (Faktor-faktor Yang Mempengaruhi Indeks Pembangunan Manusia di Provinsi
Jawa Timur, Nusa Tenggara Timur, dan Papua Tahun 2006), Tesis, (Tidak Dipubilkasikan),
Institut Teknologi Sepuluh Nopember, Surabaya.
Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan.

M-11

Anda mungkin juga menyukai