Disusun Oleh:
YOGYAKARTA
2019
i
HALAMAN PENGESAHAN
Diajukan oleh:
Yogyakarta,
Disetujui oleh:
Dosen Pembimbing 1 Dosen Pembimbing 2
Nama Nama
Mengetahui,
Ketua Jurusan Statistika
Nama
ii
ABSTRAK
Klasifikasi adalah bentuk analisis data yang mencari sekumpulan pola, model
atau fungsi yang menggambarkan dan membedakan objek data untuk
dikelompokan kedalam kelas tertentu dari sejumlah kelas yang tersedia. Pada
penelitian ini akan dilakukan klasifikasi tingkat kelancaran alumni IST AKPRIND
Yogyakarta tahun 2018 yang dibagi menjadi tiga kelas bertingkat, yaitu kelas
Tidak Lancar (TL),kelas Kurang Lancar (KL) dan kelas Lancar (L). Metode
analisis yang digunakan adalah Regresi Logistik Ordinal yang merupakan
metode pengklasifikasi dengan teknik statistika dan Naive Bayes yang merupakan
metode pengklasifikasi dengan menggabungkan metode statistika dan data
mining. Penelitian ini bertujuan untuk mengetahui metode mana yang mempunyai
tingkat akurasi yang lebih baik dalam mengkalsifikasi tingkat kelancaran alumni
IST AKPRIND Yogyakarta tahun 2018 dalam mencari pekerjaan.
iii
BAB I
PENDAHULUAN
1
Adapun metode – metode Statistika yang dapat digunakan dalam
klasifikasi yaitu Regresi Logistik Biner, Regresi Logistik Multinomial,
Regresi Logistik Ordinal dan Model Log Linier. Selain itu, adapun metode
klasifikasi lain dari data mining adalah Klasifikasi Naïve Bayes.
Dalam pengklasifikasian ini, peneliti menggunakan metode Regresi
Logistik Ordinal karena skala data yang dipakai pada variabel respon adalah
skala data ordinal atau kategori bertingkat. Selain Regresi Logistik Ordinal,
peneliti juga menggunakan metode Klasifikasi Naïve Bayes yang didasari
Teorema Bayes dan Data Mining dengan asumsi bahwa antar satu kelas
dengan kelas yang lain tidak saling tergantung.
Berdasarkan uraian latar belakang, peneliti akan menggunakan data alumni
IST AKPRIND Yogyakarta tahun 2018 untuk pengklasifikasian yang diberi
judul “Analisis Klasifikasi Menggunakan Metode Regresi Logistik
Ordinsl dan Klasifikasi Naive Bayes Pada Data Alumni IST AKPRIND
Yogyakarta Tahun 2018”.
2
1.3 Tujuan
Tujuan yang ingin dicapai dari penelitian ini adalah sebagai berikut:
1. Mengetahui karakteristik alumni IST AKPRIND Yogyakarta tahun lulus
2018.
2. Mengetahui klasifiksi alumni IST AKPRIND Yogyakarta tahun lulus 2018
menggunakan metode Regresi Logistik Ordinal.
3. Mengetahui klasifiksi alumni IST AKPRIND Yogyakarta tahun lulus 2018
menggunakan metode Naïve Bayes.
4. Mengetahui perbandingan klasifiksi alumni IST AKPRIND Yogyakarta
tahun lulus 2018 menggunakan metode Regresi Logistik Ordinal dan
Naive Bayes.
1.5 Manfaat
Beberapa manfaat yang diharapkan dari penelitian ini adalah sebagai
berikut:
1. Bagi peneliti:
Menambah pengetahuan tentang metode Regresi Loistik Ordinal dan
Naïve Bayes serta memperkya wawasan terntang cara mendapatkan
pekerjaan.
2. Bagi Alumni:
Sebagai informasi tambahan bagi alumni yang kesulitan mendapatkan
pekerjaan.
3. Bagi IST AKPRIND Yogyakarta:
Sebagai informasi tambahan bagi pihak kampus yang ingin mengetahui
data alumni.
3
BAB II
4
secara global sebesar 81,7%. Berdasarkan rasio odd dari 200 responden
diketahui peluang pengguna jasa menilai pelayanan di stasiun Jakarta Kota
dengan skala sangat baik adalah yang paling tinggi dibandingkan 3 skala
lainnya yaitu sebesar 12,71 kali dibandingkan jawaban buruk, 3,87 kali
dibandingkan jawaban cukup dan 1,1 kali dibandingkan jawaban baik.
5
2.2.3 Pengertian Klasifikasi
(Prasetyo, 2012) menyatakan bahwa klasifikasi merupakan kegiatan
menilai objek data untuk memasukkanya ke dalam kelas tertentu dari sejumlah
kelas yang tersedia. Dalam klasifikasi terdapat dua pekerjaan utama yang
dilakukan, yaitu pembangunan model sebagai prototipe untuk disimpan sebagai
memori dan penggunaan model tersebut untuk melakukan pengenalan, klasifikasi,
prediksi pada suatu objek data lain agar diketahui di kelas mana objek data
tersebut dalam model yang sudah disimpan.
g j ( x )=ln
[ πj( x)
1−π j ( x ) ]
6
[( ]
β j 0− β 1 x 1−β 2 x2−. . .− β i xi
e
β − β x − β x −.. .− β x
1+ e j0 1 1 2 2 i i
ln
)
β j 0− β1 x 1− β2 x2 −. ..−βi x i
e
1− β j 0 −β 1 x 1−β 2 x 2−...−β i xi
1+e
=
β j 0− β1 x1 −β 2 x2−. ..− βi xi
= ln( e )
7
{ [ ] [ ] [ ]}
g1 ( x ) g2 ( x) g 1 (x ) g1 ( x)
n e e −e e
=∑i=1 y 1 ln g 1( x )
+ y 2 ln g2 (x ) g1 ( x)
+ y 3 ln 1− g 1( x )
1+ e ( 1+ e )( 1+e ) 1+ e
(2.6)
Maksimum ln-Likelihood diperoleh dengan mendeferensialkan L(β) terhadap
parameternya kemudian hasil dari turunan tersebut dibuat sama dengan nol seperti
pada rumus (2.6) sampai (2.15).
6
β 01 −∑i=1 βi X i ∑6i=1 β i X i β
dL( β ) y1 y 2 (e )( e +e 02 )
= −
dβ 01 6
β 01−∑ i=1 β i X i
6
β 01−∑i=1 βi X i β β
1+e (e )(e 02 −e 01 ) (2.7)
6
β 02− ∑i=1 β i X i 6
∑i=1 βi X i β
6
β 02−∑i=1 βi X i
dL( β ) y 2 (e )(e +e 01 ) y 2 (e )
= −
dβ 02 β 01−∑
6
β X β β β02− ∑
6
β X
(e i =1 i i
)(e 02 −e 01 ) (1+e i=1 i i
) (2.8)
dL( β )
=0
dβ 02 (2.9)
dL( β ) − y1 x1
=
dβ 1 6
β 01−∑ i=1 β i X i
1+e
6
−2 ∑i=1 β i X i 6
β 01+2 ∑i=1 β i Xi β01−2 β 2 2 β 01 +β 02
6
β02+ 2∑i=1 β i X i
y 2 x1 (e )(e +e −e −e )
+ 6 6
β 01−∑ β X β β β02− ∑ β X
(1+e i=1 i i
)(e 02−e 01 )(1+ e i=1 i i
)
6
β 02 +2 ∑i=1 β i X i
y 3 x1 (e )
+ 6
β 02 +2∑ i=1 βi X i
(1+e ) (2.10)
dL( β ) − y1 x2
=
dβ 2 6
β 01−∑ i=1 β i X i
1+e
6 6 6
−2 ∑i =1 β i X i β01+2 ∑i=1 β i Xi β01−2 β2 2 β01 +β 02 β02 +2∑i=1 β i X i
y 2 x2 (e )(e +e −e −e )
+ 6 6
β01− ∑ β X β β β02− ∑ β X
(1+e i=1 i i
)(e 02−e 01 )(1+ e i=1 i i
)
6
β 02− ∑i=1 β i X i
y 3 x 2 (e )
+ 6
β02−∑i=1 βi Xi
(1+e ) (2.11)
dL( β ) − y1 x3
=
dβ 3 6
β 01−∑ i=1 β i X i
1+e
8
6
−2 ∑i=1 β i X i 6
β 01+2 ∑i=1 β i X i β01−2 β 2 2 β01 +β 02
6
β02 +2∑i=1 βi X i
y 2 x3 (e )(e +e −e −e )
+ 6 6
β01− ∑i=1 β i Xi β β β02− ∑i=1 β i Xi
(1+e )(e 02−e 01 )(1+ e )
6
β 02 −∑i=1 β i X i
y 3 x3 (e )
+ 6
β02− ∑ β X
(1+e i=1 i i
) (2.12)
dL( β ) − y1 x 4
=
dβ 4 6
β 01−∑ i=1 β i X i
1+e
6
−2 ∑i=1 β i X i 6
β01 +2 ∑i=1 β i X i β01−2 β 2 2 β 01+ β02
6
β 02+2 ∑i=1 β i Xi
y2 x4( e )(e +e −e −e )
+ 6 6
β01− ∑i=1 β i X i β β β02 −∑i =1 βi X i
(1+ e )(e 02 −e 01 )(1+ e )
6
β 02− ∑i=1 βi X i
y 3 x 4 (e )
+ 6
β02− ∑ i=1 β i X i
(1+e ) (2.13)
dL( β ) − y 1 x5
=
dβ 5 6
β 01−∑ i=1 β i X i
1+e
6
−2 ∑i =1 β i X i 6
β01+2 ∑i=1 β i Xi β01−2 β2 2 β01 +β 02
6
β02 +2∑i=1 β i X i
y 2 x5 (e )(e +e −e −e )
+ 6 6
β01− ∑ i=1 βi Xi β β β02− ∑ i=1 β i X i
(1+e )(e 02−e 01 )(1+ e )
6
β 02 −∑ β X
y 3 x5 (e i=1 i i
)
+ 6
β02− ∑ i=1 βi Xi
(1+e ) (2.14)
dL( β ) − y 1 x6
=
dβ 6 6
β 01−∑ i=1 β i X i
1+e
6
−2 ∑i=1 β i X i 6
β 01+ 2∑i =1 βi X i β01 −2 β 2 2 β01 +β 02
6
β02 +2∑i=1 βi X i
y 2 x6 (e )( e +e −e −e )
+ 6 6
β01− ∑ i=1 β i Xi β β β02− ∑ i=1 β i Xi
(1+ e )(e 02−e 01 )(1+ e )
6
β 02−∑ βi X i
y 3 x 6 (e i=1
)
+ 6
β 02− ∑ β X
(1+e i=1 i i
) (2.15)
9
Raphson. Newton Raphson adalah metode iterasi untuk menyelesaikan persamaan
nonlinier. Berikut cara kerja Newton Raphson dalam menentukan nilai ̂
berdasarkan fungsi L(β) yang telah dimaximumkan, Persamaan Newton Rapshon
sebagai berikut :
[ ⋮]
¿
β
i+ 1
¿
( t +1)
β = β i+ 1 =
¿
β p+1
[⋮]
¿
β
1i
¿
t
β = β i=
¿
β pi
[ ]
∂ ln L ( β )
∂ β1
ut =
∂ ln L ( β )
∂β
= ⋮
∂ ln L ( β )
∂ βn
[ ]
∂2 ln L ( β ) 2
∂ ln L ( β )
2
∂ β ∂ β ∂ β
a1 a1 n
⋮ ⋱ ⋮
⋯
t
( H )= …
∂ ln L ( β ) 2
∂ ln L ( β )
∂ βa ∂ β1 ∂ βn
2
k
(2.17)
Uji serentak disebut juga uji model chi-square, dilakukan sebagai upaya
memeriksa peranan variabel terikat dalam model secara bersama-sama. Statistik
uji yang digunakan adalah statistik uji G atau Likelihood Ratio Test.
Uji Ratio Likelihood dilakukan untuk menguji kesesuain model dengan
variable variable prediktor secara keseluruhan (Hosmer & Lemeshow, 2000).
Adapun hipotesis yang digunakan dalam uji ratio likelihood:
10
H 0 : β1 = β 2 = … = β p = 0
H1 : paling sedikit salah satu dari βr ≠ 0 dengan r = 1,2,…,p
Dengan statistik uji:
[ ( )( )
]
n1 n1 n0 n0
n n
G=−2 ln ¿ ¿
yi
Π
n
i=1 π (1−π 1 )(1− y i ) (2.19)
{∑ [ (π ) ( ( ]
π ) −[ n ln (n )+n ln(n )−n ln (n )] }
¿ ¿
n
G=2 i=1
y i ln i + 1− y t ) ln 1− i 1 1 0 0
(2.20)
Dengan :
n1 = banyaknya observasi berkategori 1
n0 = banyaknya observasi berkategori 0
n = banyaknya observasi (n1+ n0)
Statistik uji G mengikuti distribusi chi-square. Sehingga untuk mengambil
keputusan dilakukan perbandingan dengan χ2 tabel. Kriteria penolakan tolak H0
jika χ2 hit > χ2
(db,a)
11
[ ]
¿ 2
Wi=
βt
¿
SE( β t )
(2.21)
Y=1 e
g 1 (a )
e
g 1 (a )
φ1 (a )= 3
φ1 ( b )= 3
∑i=1 e ∑i=1 e
gi (a ) gi( a )
Y=0 e
g 0 ( a)
e
g 0 ( a)
φ0 ( a )= 3
φ0 (b )= 3
∑i=1 e ∑i=1 e
gi (a ) gi (a )
Secara umum, nilai odds rasio pada model ke-𝑗 dapat dicari dengan:
P(Y=k|x=a)/P (Y =0|x=a)
ORk ( a,b)=
P(Y=k|x=b)/P (Y =0|x=b) (2.22)
Misalkan nilai 𝑎 = 1 dan 𝑏 = 0 kemudian ingin dicari nilai odd pada saat 𝑌 = 3
dengan 𝑌 = 0 untuk nilai 𝑥 = 1 dan 𝑥 = 0 adalah:
12
P (Y =3|x=1)/ P(Y =0|x=1) φ3 (1)/[ φ0 (1)]
OR 3 (1,0)= = exp( β 31 )
P(Y =3|x=0)/ P(Y =0|x=0) φ 3 (0)/[ φ0 (0)] (2.23)
13
sederhana dan mempunyai kecepatan serta tingkat akurasi yang tinggi sebanding
dengan metode pengklasifikasi lain tak terkecuali pada database yang besar. Ciri
utama klasifikasi Naive Bayes adalah asumsi akan independensi dari masing-
masing atribut terhadap kelas yang ada, asumsi ini disebut bebas bersyarat.
Rumus Naive Bayes ditunjukan pada persamaan (2.26).
q
P(Y j ) ∏i=1 P( X i|Y j )
P(Y j| X )=
P(X) (2.26)
Dengan:
n(Y j )
P(Y j )=
Probabilitas Y. n(Y ) (2.27)
n( X 1 −k ) n( X 2 −k ) n( X i −k )
P( X i )= x x . .. x
Probabilitas X. n( X 1 ) n( X 2 ) n( X i ) (2.28)
k = atribut pada Xi
Pada Klasifikasi Naive Bayes hasil klasifikasi ditentukan dengan melihat nilai
P(Yj|X) paling besar dari setiap variabel Y.
14
2.8. Error Rate
Untuk mengetahui tingkat akurasi hasil klasifikasi, maka dilakukan uji
ketepatan hasil klasifikasi dengan menggunakan APER (Apparent Error Rate)
atau yang disebut juga dengan laju error. APER merupakan ukuran evaluasi
dengan melihat nilai eror dari suatu klasifikasi. Untuk menghitung nilai APER,
langkah yang harus dilakukan membentuk tabel perbandingan hasil klasifikasi
berdasarkan observasi dengan hasil klasifikasi berdasarkan prediksi suatu metode
yang disebut dengan matrik konfusi hasil klasifikasi (Prasetyo, 2012).
Hasil Prediksi
Fij Kelas =1 Kelas =2 Kelas =3
Kelas =1 F11 F12 F13
Hasil Kelas = 2 F21 F22 F23
Observasi Kelas = 3 F31 F32 F33
Dengan:
F11 = Jumlah alumni kelas 1 pada kelas asli dan kelas 1 pada kelas prediksi
F12 = Jumlah alumni kelas 1 pada kelas asli dan kelas 2 pada kelas prediksi
F13 = Jumlah alumni kelas 1 pada kelas asli dan kelas 3 pada kelas prediksi
Fij = Jumlah alumni kelas i pada kelas asli dan kelas j pada kelas prediksi.
Selanjutnya dapat dilakukan perhitungan nilai APER dengan formulasi
sebagai
berikut :
15
Formulasi tingkat akurasi = 1- APER (2.32). Suatu metode dikatakan memiliki
tingkat akurasi yang baik jika mempunyai nilai APER yang kecil dan tingkat
akurasi yang tinggi.
x 1 −x 2
t= exp
√
2
1 1
s p( + )
n1 n2 (2.33)
Dengan:
X 1 : adalah rata-rata sampel pertama.
X 2 : adalah rata-rata sampel kedua.
n1 :: adalah jumlah pengamatan sampel pertama.
16
BAB III
METODOLOGI PENELITIAN
17
Variabel Prediktor (X) Kategori
Program Studi (X1) (X1)=1 = Eksak
(X1)=2 = Non Eksak
(X2)=1 = D3
Jenjang Pendidikan (X2) (X2)=2 = S1
(X3)=1 = ≤ 2.75
IPK(X3) (X3)=2 = > 2.75 - ≤ 3.50
(X3)=3 = > 3.50
(X4) =1 = < 4 tahun
Lama Studi (X4) (X4) =2 = 4 tahun
(X4) =3 = > 4 tahun
(X5) =1 = melalui media
Cara mencari pekerjaan ( X5) (X5) =2 = mandiri
(X5) =3 = relasi
(X6) =1 = Bahasa Inggris
Kompetensi yang dikuasai (X6) (X6) =2 = TIK
(X6) =3 = Komunikasi
(X6) =4 = Kerjasama Tim
(X6) =5 = Pengetahuan Umum
18
Tidak Lancar (Y1) Mendapat pekerjaan > 12 bulan setelah lulus
Lancar (Y2) Mendapat pekerjaan > 6 - 12 bulan setelah lulus
Sangat Lancar (Y3) Mendapat pekerjaan < 6 bulan setelah lulus
4. Membagi data menjadi dua, yaitui data training 75% dan data testing 25%,
kemudian dilakukan sepuluh kali pengacakan dalam memilih data training
dan data testing, dengan proporsi yang sama .
5. Membuat model regresi logistik ordinal
a. Membentuk model awal regresi logistik ordinal dengan menggunakan
data training.
b. Menguji signifikansi parameter secara keseluruhan dengan
menggunakan Uji Ratio Likelihood.
c. Menguji parameter secara parsial dengan Uji Wald. Pengujian ini
dilakukan untuk mengetahui variabel-variabel prediktor
mempengaruhi variabel respon secara individu.
d. Pembentukan model akhir regresi logistik ordinal
e. Menentukan klasifikasi data testing menggunakan model akhir. Dalam
regresi logistik ordinal kelas hasil prediksi adalah kelas yang memiliki
nilai peluang paling tinggi.
f. Menghitung nilai APER dan akurasi dari model yang terbentuk.
6. Naive Bayes
Adapun tahapan klasifikasi Naive Bayes sebagai berikut :
a. Menghitung probabilitas awal (prior probability) peluang P(Y) dan
P(X) serta nilai probailitas Xi bersyarat Yj P(Xi|Yj) dengan data
training.
b. Menentukan hasil Klasifikasi Naive Bayes hasil klasifikasi dengan
melihat nilai P(Yj|X) paling besar dari setiap variabel Y dan data yang
digunakan adalah data testing.
c. Menghitung nilai APER dan akurasi dari model yang terbentuk.
d. Menghitung rata-rata tingkat akurasi dan tingkat error dan menguji dua
ratarata tingkat akurasi dan tingkat error kedua metode tersebut .
19
3.6 Tahapan Penelitian
Mulai
Referensi
Menyusun Kuesoner
Teknik Sampling
Tidak
Uji Validitas &
reliabilitas
Ya
survey inti
Input data
selesai
20
Gambar.3.1. Diagram Alir Regresi Logistik Ordinal
Mulai
Referensi
Menyusun Kuesoner
Teknik Sampling
Input data
selesai
21
BAB IV
JADWAL PENELITIAN
Pelaksanaan penelitian skripsi ini dimulai dari bulan April 2019 sampai Agustus
2019. Adapun tabel rencana kegiatan sebagai berikut:
22
DAFTAR PUSTAKA
Fallo, S. I. (2017). Metode Fuzzy Time Series Markov Chain dan Weigthed Fuzzy Time
Series Untuk Memprediksi Data Historis Curah Hujan di Kabupaten Gunung
Kidul. Yogyakarta: IST AKPRIND Yogyakarta.
Faroh, R. A. (2016). Penerapan Model Fuzzy Time Series-Markov Chain Untuk
Peramalan Inflasi. Malang: Universitas Islam Negeri Maulana Malik Ibrahim.
Fauziah, N., Wahyuningsih, S., & Nasution, Y. N. (2016). Peramalan Menggunakan
Fuzzy Time Series Chen (Studi Kasus: Curah Hujan Kota Samarinda). Statistika,
Vol. 4, No. 2, Universitas Mulawarman Samarinda.
Gusriani, N., Suryamah, E., & Firdaniza. (2016). Distribusi Stasioner Rantai Markov
Untuk Prediksi Curah Hujan di Wilayah Jawa Barat. Prosiding Seminar
Matematika dan Pendidikan Matematika, hal 1035-1050.
Narulita, I. (2016). Distribusi Spasial dan Temporal Curah Hujan di DAS Cerucuk Pulau
Belitung. Riset Geologi dan Pertambangan, Vol. 26, No. 2.
Navianti, D. R., Usadha, I. G., & Widjajati, F. A. (2012). Penerapan Fuzzy Inference
System pada Prediksi Curah Hujan di Surabaya Utara. Jurnal Sains dan Seni ITS,
Vol.1, No.1, Institut Teknologi Sepuluh Nopember (ITS), Surabaya.
purwaningsih, t. (2011). anlisis regresi logistik ordinal sasial untuk menudga status
kemiskinan di pulau jawa.
Putra, N. A. (2016). Prediksi Jumlah Penduduk Menggunakan Fuzzy Time Series Model
Chen (Studi Kasus: Kota Tanjungpinang.
Rizanti, I. N., & Soehardjoepri. (2017). Prediksi Produksi Kayu Bundar Kabupaten
Malang dengan Menggunakan Metode Markov Chains. Jurnal Sains dan Seni
ITS, Vol. 6, No. 2, Institut Teknologi Sepuluh Nopember (ITS)'.
Rukhansah, N., Muslim, M. A., & Arifudin, R. (2015). Fuzzy Time Series Markov Chain
dalam Meramalkan Harga Saham. Seminar Nasional Ilmu Komputer, Universitas
Negeri Semarang.
Sidauruk, A., Kurniawan, H., Efendi, A. R., & Winarko, E. (2015). Prediksi Infeksi
Saluran Pernafasan Akut (ISPA) dengan Menggunakan Metode Rantai Markov
pada Klinik Cihideung. Seminar Nasional Teknologi Informasi dan Multimedia,
STMIK AMIKOM Yogyakarta.
23
24