Anda di halaman 1dari 11

Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,

Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012

PENDEKATAN CART DAN REGRESI LOGISTIK


PADA POLA TINGKAT KEPARAHAN KORBAN KECELAKAAN LALU LINTAS
DI SURABAYA

Atika Nurani Ambarwati1), Heri Kuswanto2), Ismaini Zain3)


1)
Mahasiswa Pascasarjana, Jurusan Statistik, ITS Surabaya
(atika.nurani@gmail.com)
2)
Pengajar, jurusan Statistik, ITS Surabaya
(heri_k@statistika.its.ac.id)
3)
Pengajar, jurusan Statistik, ITS Surabaya
(ismaini_z@statistika.its .ac.id)

Abstrak
Kecelakaan lalu lintas merupakan kejadian dimana sebuah kendaraan bermotor
bertabrakan dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini
mungkin dapat mengakibatkan luka-luka atau kematian manusia atau binatang.
Berdasarkan informasi data penyebab kematian di Indonesia, kecelakaan lalu lintas
termasuk dalam penyebab kematian ketiga terbesar setelah HIV/AIDS dan TBC. Oleh
karena itu masalah ini perlu mendapat perhatian untuk mengantisipasi jatuhnya korban
meninggal dunia pada kecelakaan lalu lintas.
Dalam berbagai penelitian yang ada, ditemukan banyak faktor yang
berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas. Oleh karena itu
dalam penelitian ini dilakukan klasifikasi tingkat keparahan korban kecelakaan lalu
lintas dengan pendekatan CART (Classification and Regression Trees) dan regresi
logistik untuk melihat karakteristik dan faktor yang paling berpengaruh terhadap tingkat
keparahan korban kecelakaan lalu lintas. Pada penelitian ini tingkat keparahan korban
kecelakaan lalu lintas dibagi menjadi tiga kategori yaitu meninggal dunia, luka berat
dan luka ringan. Hasil klasifikasi yang diperoleh dari dua pendekatan tersebut akan
dibandingkan untuk mendapatkan model terbaik. Selanjutnya, setelah dilakukan
klasifikasi didapatkan hasil bahwa variabel prediktor yang paling berpengaruh terhadap
tingkat keparahan korban kecelakaan lalu lintas pada pendekatan regresi logistik ordinal
adalah jenis kecelakaan dengan ketepatan klasifikasi untuk data learning dan testing
masing-masing 42,79 persen dan 38,77 persen. Sedangkan untuk pendekatan CART
adalah jenis kecelakaan, usia, peran korban dalam kecelakaan, dan jenis kendaran
dengan ketepatan klasifikasi untuk data learning dan testing masing-masing 52,80
persen dan 48 persen.

Kata kunci: CART, kecelakaan lalu lintas, regresi logistik.

1. PENDAHULUAN
Kecelakaan lalu lintas adalah kejadian dimana sebuah kendaraan bermotor bertabrakan
dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini mungkin dapat
mengakibatkan luka-luka atau kematian manusia atau binatang. Kecelakaan lalu lintas di Indonesia
masih cukup tinggi. Saat ini di Indonesia, kecelakaan lalu lintas adalah penyebab kematian ketiga
terbesar setelah HIV/AIDS dan TBC. (Departeman Perhubungan RI, 2010). Kota Surabaya sebagai
salah satu kota besar di Indonesia, memiliki tingkat kecelakaan lalu lintas yang cukup tinggi. Kota
Surabaya terbagi menjadi dua kawasan hukum, yaitu kawasan hukum jajaran Polrestabes Surabaya
dan Polres Pelabuhan Tanjung Perak. Selama tahun 2010 di kawasan hukum jajaran Polrestabes
Surabaya terjadi kecelakaan lalu lintas sebanyak 411 kasus yang menyebabkan jatuhnya korban
sebanyak 507 orang.
M-1
Atika Nurani Ambarwati / CART, regresi logistik
Karena tingginya tingkat kecelakaan lalu lintas, maka perlu dilakukan penelitian tentang
pola tingkat keparahan korban kecelakaan lalu lintas di Surabaya. Penelitian tentang kecelakaan
lalu lintas untuk mengetahui faktor-faktor yang mempengaruhi tingkat keparahan korban
kecelakaan lalu lintas Kota Surabaya pernah dilakukan oleh Afidah (2011) metode yang digunakan
dalam penelitian tersebut yaitu metode regresi logistik. Namun dalam penelitian tersebut
menghasilkan ketepatan klasifikasi yang kecil, sehingga perlu untuk memodelkan dengan metode
lain yang diharapkan dapat menghasilkan ketepatan klasifikasi yang lebih besar.
Regresi logistik adalah salah satu metode statistik untuk menganalisis hubungan variabel
respon yang memiliki skala nominal atau ordinal dengan variabel prediktor. Regresi logistik tidak
memerlukan asumsi normalitas, meskipun screening data outliers tetap dapat dilakukan. Regresi
logistik yang memiliki variabel respon dengan tiga atau lebih kategori yang memiliki tingkatan
dinamakan regresi logistik ordinal. CART adalah suatu metode nonparametrik dimana setelah
didapatkan model klasifikasinya, maka struktur data dapat dilihat secara visual, sehingga
memudahkan dalam eksplorasi dan pengambilan keputusan, selain itu CART dapat mengekplorasi
struktur data yang komplek dengan banyak variabel.
Penelitian tentang regresi logistik telah banyak dilakukan antara lain Analisis regresi
ordinal oleh Salam (2010) membahas tentang pengujian kesamaan vektor parameter pada beberapa
model regresi logistik ordinal (faktor-faktor yang mempengaruhi indeks pembangunan manusia di
Provinsi Jawa Timur, Nusa Tenggara Timur, dan Papua) dengan kesimpulan ketiga provinsi
mempunyai perbedaan antara satu dan yang lainnya dalam hal pengaruh indikator pendidikan
terhadap IPM. Sementara itu CART lebih banyak digunakan karena kemudahan interpretasi dan
kemampuan penanganan data missing. Aplikasi yang menggunakan CART adalah oleh Prasetyo
(2009) membahas tentang klasifikasi deteksi intrusi menggunakan pendekatan CART dan MARS.
Penelitian tersebut menunjukkan bahwa tingkat akurasi CART dalam mengidentifikasi ketepatan
klasifikasi lebih tinggi dibandingkan dengan MARS.
Kuhnert,P.M., Do,Kim-Anh dan McClure,Rod, (2000) meneliti tentang penggabungan
antara regresi logistik, CART dan MARS dapat menghasilkan model yang lebih informatif dan
prediktif. Dalam penelitian tersebut juga dijelaskan penggunaan gabungan CART, MARS dengan
regresi logistik tidak hanya untuk pemodelan tetapi sebagai alat eksplorasi untuk analisa yang lebih
rinci dengan menggunakan metode konvensional seperti regresi logistik. Dalam penelitian ini akan
diaplikasikan dua pendekatan yang berbeda yaitu CART dan regresi logistik untuk mengetahui
tingkat keparahan korban kecelakaan lalu lintas yang dibagi menjadi tiga kategori yaitu meninggal
dunia, luka berat dan luka ringan.. Hasil klasifikasi yang diperoleh dari dua pendekatan tersebut
akan dibandingkan untuk mendapatkan model terbaik.

2. Regresi Logistik Ordinal


Model yang dapat digunakan untuk regresi logistik ordinal adalah model logit kumulatif
(cumulative logit models). Misalkan variabel respon Y berskala ordinal memiliki G buah kategori
T
x x =
x xi 2 ... xip
dan i menyatakan vektor variabel prediktor pada pengamatan ke-i, i i1
dengan i = 1, 2,..., n , maka model logit kumulatif dinyatakan :
P ( Yi g xi )
T
logit = a g + xi b , g = 1, 2,..., G - 1 (1)
P ( Yi g xi ) xi , { a g } adalah parameter
dengan adalah peluang kumulatif kategori ke-g terhadap
T
b1 b 2
a1 a 2 ... a G -1 dan =
... b p

intersep dan memenuhi adalah vektor koefisien
x
regresi yang bersesuaian dengan i .
Logit kumulatif didefinisikan sebagai (Agresti, 2002) :

M-2
Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,
Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012
P ( Yi g x i )
logit
P ( Y g x ) = ln
i i
1

- P ( Yi g x i )
, g = 1, 2,..., G - 1
(2)
berdasarkan persamaan (1) dan (2) maka model regresi logistik ordinal dapat dinyatakan
P ( Yi g xi )
logit
P (
i Y g x )
i
= ln = a g + xi b
1 - P ( Yi g x i )
T


(3), g = 1, 2,..., G - 1
Penaksiran parameter model regresi logistik ordinal dilakukan dengan menggunakan
metode Maximum Likelihood Estimation (MLE), kemudian diselesaikan dengan metode iterasi
numerik yaitu Newton-Raphson. Pengujian parameter model regresi logistik ordinal dapat
dilakukan secara serentak maupun parsial. Hipotesis dalam uji serentak adalah :
H 0 : b1 = b 2 = ... = b p = 0
H1 : minimal ada satu b k 0 , k =1,2,,p

(
G 2 = -2 ln L ( w ) - ln L W
Statistik uji yang digunakan:
( ))
)
L (W L( )
^
dengan merupakan nilai maksimum likelihood di bawah populasi dan
H 0 . Kriteria penolakan H 0 yaitu tolak H 0
merupakan nilai maksimum likelihood di bawah
c (2a , p )
atau p-value kurang dari a . Sedangkan hipotesis dalam
2
apabila nilai G lebih besar dari
uji parsial adalah :
H 0 : bk = 0
H1 : b k 0 , k =1,2,,p
bk
Wk =
Statistik uji yang digunakan:
SE ( bk )

H 0 yaitu tolak H 0 apabila nilai Wk lebih besar dari Za 2 atau p-value kurang
Kriteria penolakan
dari a .

3. CART (Classification and Regression Trees)


CART adalah salah satu metode nonparametrik dari salah satu teknik eksplorasi data yaitu
suatu teknik pohon keputusan (decisions tree). Jika variabel responnya berupa variabel kontinu
maka disebut regresi pohon (regression trees), jika variabel responnya kategorik maka metode
CART menghasilkan classification trees (pohon klasifikasi) (Breiman, Friedman, Olshen dan
Stone, 1984). Klasifikasi pohon merupakan metode alternatif untuk memodelkan dan memprediksi
nilai variabel respon berjenis kategorik yang dipengaruhi variabel-variabel bebas berjenis
kategorik, kontinyu ataupun kombinasi keduanya.

M-3
Atika Nurani Ambarwati / CART, regresi logistik

Simpul
utamanode
Child (root
node)

Simpul terminal
Gambar 3.1 Struktur Pohon Klasifikasi
Proses pembentukan CART
a. Proses pembentukan klasifikasi pohon meliputi 3 tahapan yaitu (Breiman et al., 1993):
1. Pemilihan pemilah
a. Fungsi keheterogenan simpul untuk mengurangi keheterogenan pada simpul utama dan
memaksimumkan kehomogenan pada simpul anak.
b. Pemilahan simpul
c. Kriteria Goodness of Split
2. Penentuan simpul terminal
3. Penandaan label kelas
proses pembentukan pohon dilakukan sampai tidak memungkinkan lagi untuk dilanjutkan (Lewis,
2000).
b. Pemangkasan Klasifikasi Pohon
Untuk mendapatkan pohon yang layak maka perlu dilakukan pemangkasan (pruning) yaitu
suatu penilaian ukuran pohon tanpa pengorbanan ketepatan atau kebaikannya melalui pengurangan
simpul pohon sehingga dicapai ukuran pohon yang layak dan berdasarkan pada ukuran cost
complexity pruning.
c. Pohon Klasifikasi Optimal
Pohon klasifikasi optimal yang dipilih adalah pohon optimal yang berukuran tepat dan
mempunyai nilai penduga pengganti yang cukup kecil. Ukuran pohon klasifikasi yang sangat besar
akan memberikan nilai penduga pengganti yang sangat kecil, sehingga pohon ini cenderung dipilih
untuk menduga nilai respon. Yang perlu diperhatikan adalah ukuran pohon yang besar akan
mempunyai nilai kompleksitas yang tinggi karena struktur data yang digambarkan cenderung
kompleks. Data sampel akan digunakan untuk mendapatkan nilai pengganti yang paling kecil dari
pohon klasifikasi yang dipilih.
Ada 2 jenis penduga pengganti yaitu (Breiman et. al., 1993) :
1. Penduga sampel uji (test sample estimate).
2. Penduga validasi silang lipat V (cross validation V-fold estimate).

4. Kecelakaan lalu lintas


Kecelakaan lalu lintas adalah kejadian dimana sebuah kendaraan bermotor bertabrakan
dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini dapat mengakibatkan luka-
luka atau kematian manusia atau binatang. (www.republika.co.id)
Pada suatu kecelakaan lalu lintas yang terjadi, ada beberapa kriteria keparahan korban
kecelakaan menurut PP No 43 Thn 1993 Pasal 93, antara lain:
1. Korban Meninggal
Korban meninggal adalah korban yang dipastikan meninggal dunia akibat kecelakaan lalu
lintas dalam jangka waktu paling lama 30 hari setelah kecelakaan tersebut.
2. Korban Luka Berat
Korban luka berat adalah korban yang karena luka-lukanya menderita cacat tetap atau harus
dirawat dalam jangka waktu lebih dari 30 hari sejak terjadi kecelakaan.
3. Korban Luka Ringan

M-4
Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,
Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012
Korban luka ringan adalah korban yang tidak termasuk dalam kategori korban meninggal
dunia dan korban luka berat.

5. Metode Penelitian
Penelitian ini menggunakan data yang diambil dari penelitian sebelumnya oleh Afidah
(2011). Data ini terdiri dari 507 data korban kecelakaan lalu lintas selama tahun 2010 di kawasan
hukum jajaran Polrestabes Surabaya.
Variabel respon (Y) dalam penelitian ini adalah tingkat keparahan korban kecelakaan lalu
lintas yang terdiri dari tiga kategori, yaitu korban meninggal dunia, korban luka berat dan korban
luka ringan. Sedangkan variabel prediktor (Xj) yang digunakan yaitu jenis kecelakaan (X1) yang
terdiri dari empat kategori, yaitu tabrakan belakang (TB), tabrakan depan (TD), tabrakan samping
(TS), dan lain-lain, jenis kelamin (X2) yang terdiri dari dua kategori, yaitu laki-laki dan perempuan,
Usia (X3) yang terdiri dari tiga kategori, yaitu anak-anak dan remaja (0-21 tahun), dewasa (22-55
tahun) dan lanjut usia (lebih dari 55 tahun), peran korban dalam kecelakaan (X4) yang terdiri dari
tiga kategori, yaitu pengendara, penumpang kendaraan selain pengendara dan penggunna jalan non
penumpang kendaraan (penyeberang jalan, pejalan kaki, dll), jenis kendaraan (X5) yang terdiri dari
tiga kategori, yaitu sepeda motor (kendaraan bermotor roda dua atau tiga), kendaraan roda empat
atau lebih dan lain-lain (sepeda angin, becak atau kendaraan bukan bermotor lainnya), Waktu
kecelakaan (X6) yang terdiri dari dua kategori, yaitu padat kendaraan (pukul 06.00 WIB-08.00
WIB, 12.00 WIB-13.30 WIB, 16.00 WIB-18.00 WIB) dan sepi (selain waktu padat), tanggal
perayaan khusus (X7) yang terdiri dari dua kategori, yaitu libur hari raya idul fitri, natal, dan tahun
baru dan lainnya.
Untuk mengetahui faktor-faktor yang berpengaruh terhadap tingkat keparahan korban
kecelakaan lalu lintas dilakukan analisis dengan langkah-langkah sebagai berikut :
1. Memodelkan dengan menggunakan regresi logistik ordinal
2. Memodelkan dengan menggunakan CART dengan langkah-langkah :
a. Penentuan pemilah dan pemilahan secara rekrusif pada simpul.
Penentuan pemilah dilakukan dengan menentukan satu gugus pertanyaan dikotomus,
dimana jawaban dari pertanyaan tersebut menentukan sekatan atau pemilah, bagi ruang
variabel prediktor. Selanjutnya pemilahan dievaluasi dengan menggunakan kriteria
goodness-of-split ( s , t ) . Pemilah terbaik adalah pemilah yang memberikan penurunan
keheterogenan tertinggi.
b. Penentuan simpul terminal (terminal node).
Penentuan simpul terminal dilakukan jika suatu simpul t dicapai sehingga tidak terdapat
penurunan keheterogenan secara berarti.
c. Penandaan label kelas (class label).
Label kelas dari simpul terminal ditentukan berdasarkan aturan jumlah terbanyak, yaitu jika
N j (t)
r ( t ) =1max ( jt )=max p( jt)=max maka label kelas untuk simpul
j j j N (t)
terminal t adalah j0 yang memberikan nilai dugaan kesalahan pengklasifikasian pada
simpul t paling kecil sebesar r ( t ) =1max p( jt) .
j
d. Penghentian pembentukan pohon klasifikasi.
Penghentian pembentukan pohon klasifikasi dilakukan dengan menentukan minimum n
pada simpul anak, kedalaman (depth) dalam pohon maksimal (maximal tree) atau dengan
menentukan ambang batas (threshold) .
e. Pemangkasan pohon klasifikasi (pruning).
Pemangkasan pohon klasifikasi dilakukan dengan menggunakan kriteria ukuran cost
complexity minimum.
f. Pemilihan pohon klasifikasi optimal melalui test sample estimates.

M-5
Atika Nurani Ambarwati / CART, regresi logistik
g. Memilih model pohon terbaik dengan nilai kesalahan relatif tes set (test set relative cost)
yang minimum.

6. PEMBAHASAN
Sebelum dilakukan analisis regresi logistik ordinal, maka perlu dilakukan pemilihan
variabel prediktor yang berpengaruh nyata secara individu terhadap variabel respon, yaitu dengan
cara meregresikan tiap-tiap variabel prediktor terhadap variabel responnya sehingga dapat
diketahui variabel prediktor mana saja yang secara univariabel berpengaruh nyata terhadap variabel
respon. Untuk menentukan variabel prediktor yang berpengaruh, digunakan statistik uji Wald.
Hipotesis yang digunakan adalah sebagai berikut:
H 0 : k =0
H 1 : k 0 , dengan k =1,2,... , 7
^
Statistik uji yang digunakan adalah statistik W=
SE( ^ )
Kesimpulan H 0 ditolak jika |W |>1,64485 atau pvalue 10
Apabila digunakan tingkat signifikansi sebesar 10%, maka variabel jenis kecelakaan
(X 1 ) , usia (X 3 ) , peran korban dalam kecelakaan ( X 4) dan jenis kendaran (X 5 )
memiliki nilai W lebih besar dari Z 0,05 =1,64485 atau p-value yang kurang 10
.
Setelah didapatkan variabel-variabel yang signifikan berpengaruh secara parsial, maka
akan dimodelkan secara serentak untuk mendapatkan model yang lebih sederhana dan tepat
berpengaruh secara serentak terhadap tingkat keparahan korban kecelakaan lalu lintas.
Hipotesisnya adalah:
H 0 : 1= 2== 4 =0
H 1 : paling sedikit ada satu k 0 , k =1,2,3,4 .
Statistik uji G 2=2 ( ln (
^ )lnL ( ^ ))
2 2
Kesimpulan : H 0 ditolak jika G > x(db , ) atau p-value 10 .
Dapat dilihat bahwa nilai statistik G 2 yang dihasilkan adalah sebesar 257,901 dan apabila
2 2
dibandingkan dengan nilai x 0,1;9 maka nilai statistik G 2 lebih besar dari pada x 0,1;9
sehingga keputusan tolak H 0 yang berarti minimal ada satu variabel prediktor yang
berpengaruh signifikan terhadap tingkat keparahan korban kecelakaan lalu lintas di Surabaya.
2
Tabel 6.1 Nilai statistik uji G model regresi logistik ordinal multivariabel
2 df P-value
Statistik G
257,901 9 0,000

Tabel 6.2 Pengujian serentak variabel prediktor


Kategori variabel
B Exp(B) wald p-value keputusan
prediktor
Konstanta (1) 1,304 3,684 10,001 0,002*
Konstanta (2) 2,965 19,395 46,868 0,000*
Jenis Kecelakaan ( X 1 )
TB 1,365 3,916 17,735 0,000* Tolak H0
TD 0,971 2,641 9,373 0,002* Tolak H0
TS 1,161 3,193 13,233 0,000* Tolak H0
Variabel-variabel prediktor yang digunakan dalam pengujian analisis regresi ordinal secara
parsial yaitu jenis kecelakaan (X 1 ) , usia ( X 3 ) , peran korban dalam kecelakaan ( X 4)

M-6
Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,
Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012
dan jenis kendaran (X 5 ) . Dari pengujian serentak digunakan tingkat signifikansi sebesar
10%, variabel yang berpengaruh signifikan terhadap tingkat keparahan korban kecelakaan lalu
lintas yaitu jenis kecelakaan (X 1 ) karena memiliki nilai W lebih besar dari
Z 0,05 =1,64485 atau p-value yang kurang 10 .
Fungsi logit yang terbentuk digunakan untuk membentu fungsi model peluang yang
menggambarkan pola hubungan antar variabel respon dengan variabel prediktor. Fungsi logit
tersebut adalah:
g1 ( x )=1,304 +1,365 x1 ( TB ) +0,971 x 1 ( TD )+ 1,161 x 1 ( TS )
g2 ( x )=2,965+ 1,365 x 1 (TB )+ 0,971 x 1 (TD ) +1,161 x 1 ( TS )
Fungsi model peluang untuk kategori korban meninggal dunia dilambangkan 0 ( x) ,
korban luka berat 1 ( x ) dan korban luka ringan 2 (x) , sehingga mendapatkan nilai peluang
sebagai berikut:
e2,965+1,365 x (TB ) +0,971 x ( TD )+1,161 x (TS )
1 1 1

0 ( x )=1
( 1+ e2,965 +1,365 x ( T B )+ 0,971 x (TD )+1,161 x (TS ) )
1 1 1

1,304 +1,365 x 1 ( TB ) +0,971 x 1 ( TD ) +1,161 x1 ( TS )


e
1 ( x )=
( 1+e 1,304+1,365 x (TB ) +0,971 x ( TD )+1,161 x (TS ) )
1 1 1

e2,965+1,365 x (TB )+0,971 x ( TD ) +1,161 x 1 ( TS )


1 1
e1,304 +1,365 x ( TB )+0,971 x (TD )+1,161 x (TS )
1 1 1

2 ( x )=
( 1+e 2,965+1,365 x (TB )+ 0,971 x (TD )+1,161 x (TS ) )( 1+ e1,304 +1,365 x (TB )+0,971 x (TD ) +1,161 x ( TS ))
1 1 1 1 1 1

Pada variabel jenis kecelakaan menunjukkan bahwa risiko korban kecelakaan kategori
tabrak belakang 3,916 kali lebih banyak daripada korban kecelakaan kategori lainnya. Risiko
korban kecelakaan kategori tabrak depan 2,641 kali lebih banyak daripada korban kecelakaan
kategori lainnya, dan risiko korban kecelakaan kategori tabrak samping 3,193 kali lebih banyak
daripada korban kecelakaan kategori lainnya.
Berdasarkan perhitungan peluang di atas, maka dapat diperoleh hasil prediksi sehingga
kebenaran model logit ini dapat dilihat berdasarkan hasil pengklasifikasian antara prediksi dan
observasi.
Tabel 6.3 Hasil Klasifikasi dengan Model Regresi Logistik Data Learning
prediksi
observasi Luka Luka
Meninggal Dunia Ketepatan klasifikasi
Berat Ringan
Meninggal
68 78 5 36,9%
Dunia
Luka Berat 45 91 14 36,7%
Luka Ringan 23 69 16 26,4%
Total keseluruhan 42,79%

Tabel 6.4 Hasil Klasifikasi dengan Model Regresi Logistik Data Testing
prediksi
observasi Luka Luka
Meninggal Dunia Ketepatan klasifikasi
Berat Ringan
Meninggal
0 42 0 0%
Dunia
Luka Berat 0 38 0 100%
Luka Ringan 0 18 0 0%
Total keseluruhan 38,77%
M-7
Atika Nurani Ambarwati / CART, regresi logistik

Selanjutnya dilakukan pemodelan menggunakan model CART. Model yang dihasilkan


dalam CART bukan merupakan model matematis akan tetapi berupa model pohon/topologi.

Tabel 6.5 Nilai Simpul Terminal, Test Set Relative Cost, Resubstitution Relative Cost dan
Complexity menurut nomor pohon
Tree Terminal Test Set Resubstitution Complexity
Number Nodes Relative Cost Relative Cost
1* 52 0.936 0.079 0.624 -1.000
2 47 0.901 0.080 0.624 3.57E-005
3 45 0.845 0.080 0.625 0.000257
4 43 0.845 0.080 0.628 0.001
5 42 0.845 0.080 0.630 0.001
6 41 0.858 0.080 0.632 0.001
7 37 0.806 0.080 0.642 0.002
8 36 0.792 0.080 0.645 0.002
9 35 0.792 0.080 0.648 0.002
10 33 0.792 0.080 0.655 0.002
11 26 0.792 0.080 0.678 0.002
12** 24 0.753 0.080 0.685 0.002
13 22 0.779 0.080 0.693 0.002
14 21 0.794 0.080 0.697 0.003
15 19 0.781 0.080 0.706 0.003
16 17 0.766 0.080 0.715 0.003
17 16 0.766 0.080 0.722 0.004
18 14 0.765 0.079 0.736 0.005
19 9 0.753 0.079 0.772 0.005
20 8 0.757 0.079 0.779 0.005
21 5 0.798 0.075 0.805 0.006
22 4 0.788 0.076 0.821 0.011
23 3 0.806 0.072 0.844 0.015
24 1 1.000 0.000 1.000 0.052
* Maksimum ** Optimal

Pohon klasifikasi maksimal yang dihasilkan terdiri dari 52 simpul terminal. Pohon
maksimal yang terbentuk mengandung test set relative cost sebesar 0,936 0,079 dengan
resubstitution relative cost sebesar 0,624 dan kompleksitas paramete -1,000. Pohon klasifikasi
maksimal menggambarkan struktur data yang sangat kompleks, sehinga perlu dilakukan
pemangkasan pohon agar diperoleh nilai kompleksitas yang relatif kecil (Breiman, dkk 1993).
Pohon optimal merupakan pohon yang memiliki test set relative cost terkecil. Pohon
optimal yang terbentuk terdiri dari jumlah simpul terminal sebanyak 24 buah terlihat pada nomor
pohon 12.
Classification tree topology for: KEPARAHAN

Gambar 6.1 Pohon Klasifikasi Optimal dengan 24 Simpul Terminal

M-8
Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,
Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012
Node 1
Class = 0
JENIS_TA = (3)
Class Cases %
0 151 36.9
1 150 36.7
2 108 26.4
N = 409

Terminal Node 2
Node 2
Node 1 Class = 2
Class = 0
Class = =
MOMEN 0 (1) JENIS_TA = (1,2)
Class
ClassCases
cases %% Class Cases %
00 3535 60,3
60.3 0 116 33.0
11 1414 24,1
24.1 1 136 38.7
22 9
9 15,5 15.5 2 99 28.2
N= 58
N = 58 N = 351

Node 3 Terminal
Terminal Terminal Terminal
Class = 1 NodeNode
4 4
Node 1 Node 2 USIA = (2)
Class = 0 Class = 2 Class Class
=2 =2
Class Cases % Class casesCases
Class % %
Class cases % Class cases % 0 84 34.0 0
0 33 63,5 0 2 33,3 0 32 30.832 30.8
1 105 42.5 1 1
31 29.831 29.8
1 13 25,0 1 1 16,7 2 58 23.5 2
2 6 11,5 2 3 50,0 2 41 39.441 39.4
N = 247 N = 104
N = 104
N = 52 N=6
Terminal Terminal
Gambar 6.2 Ilustrasi Proses
Node 2
Pemilahan
Class = 0
Node 3
pada Pohon
Class = 1
Klasifikasi Optimal dengan
Class Cases %
0
24 Simpul
18 54.5
Terminal
Class Cases %
0 66 30.8
1 11 33.3 1 94 43.9
Pada pohon optimal yang menjadi simpul 2
N = 33
utama
4 12.1
adalah
2
kelompok jenis tabrakan (simpul
54 25.2
N = 214
1), dimana ada 409 korban kecelakaan yang dipilah menjadi 2 simpul anak yaitu simpul kiri
sebanyak 58 korban dan 351 korban menjadi simpul kanan. Kelompok jenis tabrakan lain-lain
(kecelakaan yang bukan termasuk dalam tabrakan belakang, tabrakan depan, dan tabrakan
samping) dikelompokkan pada simpul kiri (simpul 2). Simpul 2 dipilah lagi dengan variabel
pemilah adalah variabel momen. Simpul kiri (simpul terminal 1) sebanyak 52 korban dengan
karakteristik selain libur hari raya idul fitri, natal, dan tahun baru. Simpul kanan (simpul terminal
2) sebanyak 6 korban dengan karakteristik selain libur hari raya idul fitri, natal, dan tahun baru.
Setiap simpul terminal tidak dipilah lagi karena sudah bersifat homogen.
Adapun interpretasi hasil untuk masing-masing simpul terminal adalah sebagai berikut:
1. Simpul terminal 1, korban kecelakaan dengan
- jenis tabrakan lain-lain (kecelakaan yang bukan termasuk dalam tabrakan belakang,
tabrakan depan, dan tabrakan samping),
- momen lainnya (bukan libur hari raya idul fitri, natal, dan tahun baru),
mempunyai dugaan sebesar 52 korban kecelakaan. Dimana sebanyak 33 korban meninggal
dengan presentase 63,5 persen, 13 korban mengalami luka berat dan 6 korban mengalami luka
ringan, masing-masing dengan presentase sebesar 25,0 persen dan 11,5 persen.
2. Simpul terminal 2, korban kecelakaan dengan
- jenis tabrakan lain-lain (kecelakaan yang bukan termasuk dalam tabrakan belakang,
tabrakan depan, dan tabrakan samping),
- momen libur hari raya idul fitri, natal, dan tahun baru,
mempunyai dugaan sebesar 6 korban kecelakaan. Dimana sebanyak 2 korban meninggal
dengan presentase 33,3 persen, 1 korban mengalami luka berat dan 3 korban mengalami luka
ringan, masing-masing dengan presentase sebesar 16,7 persen dan 50,0 persen.
3. Simpul terminal 4, korban kecelakaan dengan
- jenis tabrakan tabrak depan dan tabrak samping,
- usia lebih dari 55 tahun (lanjut usia),
- peran korban dalam kecelakaan pengendara dan penumpang,
- pada jam sepi,
mempunyai dugaan sebesar 7 korban kecelakaan. Dimana sebanyak 1 korban meninggal
dengan presentase 14,3 persen, masing-masing 3 korban mengalami luka berat dan luka
ringan, dengan presentase sebesar 42,9 persen.
M-9
Atika Nurani Ambarwati / CART, regresi logistik
Pada pohon optimal yang terbentuk ternyata semua variabel prediktor masuk dalam model,
yaitu jenis kecelakaan (X 1 ) , jenis kelamin ( X 2 ) , usia ( X 3 ) , peran korban dalam
kecelakaan ( X 4) , jenis kendaran (X 5 ) , waktu kecelakaan (X 6 ) , dan tanggal perayaan
khusus (X 7 ) . Lebih jelasnya dapat dilihat pada Tabel 6.6.

Tabel 6.6 Variabel yang Masuk dalam Pohon Klasifikasi


Variable Score
JENIS_TA 100.00 ||||||||||||||||||||||||||||||||||||||||||
USIA 79.47 |||||||||||||||||||||||||||||||||
PERAN_KO 53.02 ||||||||||||||||||||||
JENIS_KE 51.19 |||||||||||||||||||||
MOMENT 49.48 ||||||||||||||||||||
JAM 40.34 ||||||||||||||||
JK 32.10 |||||||||||||
Variabel prediktor yang menjadi pemilah pertama (utama) pada simpul induk adalah
variabel jenis tabrakan (X 1 ) , hal ini disebabkan variabel X 1 merupakan variabel paling
dominan dalam pembentukan model klasifikasi dengan skor 100.
Berdasarkan perhitungan peluang di atas, maka dapat diperoleh hasil prediksi sehingga
kebenaran model logit ini dapat dilihat berdasarkan hasil pengklasifikasian antara prediksi dan
observasi.

Tabel 6.7 Hasil Klasifikasi Pohon Optimal untuk Data Learning


Prediksi kelas Ketepatan
Kelas aktual
Meninggal Luka Berat Luka Ringan klasifikasi (%)
Meninggal 59 47 45 39,07
Luka Berat 17 83 50 55,33
Luka Ringan 9 25 74 68,52
Ketepatan klasifikasi total (%) 52,80
Pada Tabel 6.6 besarnya ketepatan klasifikasi total 52,8 persen, artinya pohon klasifikasi
yang terbentuk mampu memprediksi pengamatan dengan tepat sebesar 52,80 persen.

Tabel 6.8 Hasil Klasifikasi Pohon Optimal untuk Data Testing


Prediksi kelas Ketepatan
Kelas aktual
Meninggal Luka Berat Luka Ringan klasifikasi (%)
Meninggal 14 12 16 33,33
Luka Berat 5 23 10 60,53
Luka Ringan 0 8 10 55,56
Ketepatan klasifikasi total (%) 48,00
Pada Tabel 6.7 besarnya ketepatan klasifikasi total 48 persen, artinya pohon klasifikasi yang
terbentuk mampu memprediksi pengamatan dengan tepat sebesar 48 persen.

7. KESIMPULAN
Berdasarkan analisis dan pembahasan yang telah dilakukan pada bab sebelumnya, maka
dapat ditarik kesimpulan sebagai berikut:
1. Variabel yang berpengaruh terhadap tingkat keprahan korban kecelakaan lalu lintas di
Surabaya berdasarkan penelitian ini adalah variabel jenis kecelakaan ( X 1 ) , usia ( X 3 ) ,
peran korban dalam kecelakaan ( X 4) dan jenis kendaran (X 5 ) . Tetapi pada pengujian
serentak hanya variabel jenis kecelakaan ( X 1 ) . Model regresi logistik yang didapatkan
adalah sebagai berikut:
g1 ( x )=1,304 +1,365 x1 ( TB ) +0,971 x 1 ( TD )+ 1,161 x 1 ( TS )
g2 ( x )=2,965+ 1,365 x 1 (TB )+ 0,971 x 1 (TD ) +1,161 x 1 ( TS )

M-10
Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA,
Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012
2. Analisis menggunakan metode CART menunjukkan bahwa variabel prediktor yang
berpengaruh terhadap tingkat keprahan korban kecelakaan lalu lintas di Surabaya pada kondisi
pohon optimal yang terbentuk ternyata semua variabel prediktor masuk dalam model, yaitu
jenis kecelakaan ( X 1 ) , jenis kelamin ( X 2 ) , usia (X 3 ) , peran korban dalam
kecelakaan (X 4) , jenis kendaran (X 5 ) , waktu/jam kecelakaan ( X 6 ) , dan
momen/tanggal perayaan khusus ( X 7 ) . Variabel jenis tabrakan (X 1 ) merupakan
variabel yang paling dominan berpengaruh dibandingkan dengan variabel lainnya.
3. Dilihat dari besarnya ketepatan klasifikasi dalam model maka metode CART lebih baik
dibandingkan model regresi logistik karena memiliki nilai ketepatan klasifikasi yaitu 52,80
persen.
Saran
Model yang dihasilkan dalam penelitian ini menghasilkan ketepatan klasifiasi yang kecil,
sehingga dalam penelitian selanjutnya disarankan untuk memodelkan dengan metode lain dan
hendaknya menggunakan variabel prediktor yang lebih lengkap.

8. DAFTAR PUSTA
Afidah, L. N., (2011), Pola Tingkat Keparahan Korban Kecelakaan Lalu Lintas Dengan
Menggunakan Regresi Logistik Multinomial (Studi kasus : Kecelakaan Lalu Lintas di
Surabaya, Tugas Akhir, (Tidak Dipubilkasikan), Institut Teknologi Sepuluh Nopember,
Surabaya.
Agresti, A., (2002), Categorical Data Analysis, John Willey and Sons, New York.
Anonim, (2011) Kecelakaan Lalu Lintas,id.wikipedia.org/wiki/Kecelakaan_ lalu-lintas, Diakses
1 Juni 2011.
Anonim, (2011), Kecelakaan Lalu Lintas Tempati Urutan Tiga Penyebab Kematian Pusat
KomunikasiPublik,http://www.dephub.go.id/read/ berita/direktorat-jenderal...darat/5131,
Diakses 30 Oktober 2011.
Breiman, L., Friedman, J.H., Olshen, R.A., dan Stone, C.J., (1993), Cassification and Regression
Tree, Chapman And Hall, New York..
Dillon, W.R, (1978), On the performance of soma multnomial classification rules, Journal of
American statical Association, vol 73, hal 305-313.
Farida, A. (2008), Analisis Regresi Logistk Ordinal (Studi Kasus: Akreditasi SMK di Jawa Timur),
Tesis (Tidak Dipubilkasikan),, Institut Teknologi Sepuluh Nopember, Surabaya.
Frank, I.E., (1995), Modern nonlinear regression methods, Chem.Int.Lab.Systems Vol 27, hal 1-9.
Kuhnert,P.M., Do,Kim-Anh dan McClure,Rod, (2000), Combining non-parametric models with
logistic regression: an application to motor vehicle injury data, computational statistics &
data analysis, Vol 34, hal 371-386.
Maradona, S., (2010), Sebanyak 28 Nyawa Melayang Tiap Hari Akibat Kecelakaan Lalu Lintas,
http://www.republika.co.id/berita/breaking-news/nasional/10/12/30/155169-sebanyak-28-
nyawa-melayang-tiap-hari-akibat-kecelakaan-lalu-lintas, diakses 30 Oktober 2011.
Prasetyo, G. C., (2009), Klasifikasi Deteksi Intrusi Menggunakan Pendekatan Classi-fication And
Regression Trees (CART) Dan Multivariate Adaptive Regression Spline (MARS), Tesis,
(Tidak Dipubilkasikan), Institut Teknologi Sepuluh Nopember, Surabaya.
Salam, R., (2010), Pengujian Kesamaan Vektor Parameter pada Beberapa Model Regresi Logistik
Ordinal (Faktor-faktor Yang Mempengaruhi Indeks Pembangunan Manusia di Provinsi
Jawa Timur, Nusa Tenggara Timur, dan Papua Tahun 2006), Tesis, (Tidak Dipubilkasikan),
Institut Teknologi Sepuluh Nopember, Surabaya.
Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan.

M-11

Anda mungkin juga menyukai