Queen

ANALISIS KLASIFIKASI MENGGUNAKAN METODE REGRESI
LOGISTIK ORDINAL DAN KLASIFIKASI NAIVE BAYES PADA DATA
ALUMNI IST AKPRIND YOGYAKARYA TAHUN 2018
Disusun Oleh:
Nama : Gabriela Hulu Tedemaking

NIM : 151061038
Program Studi : Statistika
Jurusan : Statistika
FAKULTAS SAINS TERAPAN
INSTITUT SAINS & TEKNOLOGI AKPRIND
YOGYAKARTA
2019
i
HALAMAN PENGESAHAN
ANALISIS KLASIFIKASI MENGGUNAKAN METODE REGRESI

LOGISTIK ORDINAL DAN KLASIFIKASI NAÏVE BAYES PADA DATA
ALUMNI IST AKPRIND YOGYAKARTA TAHUN 2018
Diajukan oleh:
Nama : Gabriela Hulu Tedemaking

NIM : 151061038
Program Studi : Statistika
Jurusan : Statistika
Yogyakarta,
Disetujui oleh:
Dosen Pembimbing 1 Dosen Pembimbing 2
Nama Nama
Mengetahui,
Ketua Jurusan Statistika
Nama
*) di isi setelah SK penunjukkan pembimbing diterima
ii
ABSTRAK
Klasifikasi adalah bentuk analisis data yang mencari sekumpulan pola, model
atau fungsi yang menggambarkan dan membedakan objek data untuk
dikelompokan kedalam kelas tertentu dari sejumlah kelas yang tersedia. Pada
penelitian ini akan dilakukan klasifikasi tingkat kelancaran alumni IST AKPRIND
Yogyakarta tahun 2018 yang dibagi menjadi tiga kelas bertingkat, yaitu kelas
Tidak Lancar (TL),kelas Kurang Lancar (KL) dan kelas Lancar (L). Metode
analisis yang digunakan adalah Regresi Logistik Ordinal yang merupakan
metode pengklasifikasi dengan teknik statistika dan Naive Bayes yang merupakan
metode pengklasifikasi dengan menggabungkan metode statistika dan data
mining. Penelitian ini bertujuan untuk mengetahui metode mana yang mempunyai
tingkat akurasi yang lebih baik dalam mengkalsifikasi tingkat kelancaran alumni
IST AKPRIND Yogyakarta tahun 2018 dalam mencari pekerjaan.
Kata Kunci : Klasifikasi, Regresi Logistik Ordinal, Klasifikasi Naive Bayes
iii
BAB I
PENDAHULUAN
1.1 Latar Belakang

Pada era sekarang ini, kelancaran mencari pekerjaan menjadi masalah
yang ramai dibicarakan terlebih pada fresh graduate. Berdasarkan isu yang
beredar di masyarakat, ada beberapa faktor yang berpengaruh terhadap
kelancaran mendapatkan pekerjaan, antara lain Program Studi, Jenjang
Pendidikan, Lama Studi, dan Cara Mencari Pekerjaan.
Menristek Dikti, Muhamad Nasir dalam detik.com tahun 2016 menyatakan
bahwa kategori normal untuk pengangguran sarjana adalah enam bulan
sehingga sangat dibutuhkan kompetensi dari para pencari kerja. Selain itu,
faktor penghambat lainnya adalah ketidaksesuaian kurikulum akademik dan
kebutuhan industri kerja. Sehingga Dikti dalam proses pengupayaan untuk
melibatkan industri dalam pembuatan kurikulum akademik.
Studi kasus yang diangkat dalam penelitian ini adalah tingkat kelancaran
mendapatkan pekerjaan pada alumni IST AKPRIND Yogyakarta tahun lulus
2018 dengan melihat banyaknya alumni yang kesulitan mendapatkan
pekerjaan serta sebagian lainnya yang dengan mudah mendapatkan pekerjaan.
Sehingga pada kesempatan ini, peneliti mengklasifikasikan tingkat kelancaran
mendapakan pekerjaan tersebut menjadi tiga bagian yaitu tidak lancar(Y 1),
kurang lancar (Y2), dan lancar (Y3).
Klasifikasi merupakan bentuk analisis data dengan mencari sekumpulan
model, pola atau fungsi yang menggambarkan dan membedakan objek data
untuk dikelompokan kedalam kelas tertentu dari sejumlah kelas yang tersedia.
Dalam klasifikasi terdapat tiga tahapan utama, yaitu identifikasi atau
pembentukan model berdasarkan data training, evaluasi model dan penerapan
model dengan menggunakan data testing. Variabel yang digunakan dalam
klasifikasi terdiri dari variabel prediktor yang merupakan faktor-faktor yang
mempengaruhi atau dapat menggambarkan variabel respon. Dalam hal ini
variabel respon berupa variable kategorik baik yang mempunyai pengurutan
dalam penomoran (ordinal) maupun tidak (nominal). (Kamber, 2012)
1
Adapun metode – metode Statistika yang dapat digunakan dalam
klasifikasi yaitu Regresi Logistik Biner, Regresi Logistik Multinomial,
Regresi Logistik Ordinal dan Model Log Linier. Selain itu, adapun metode
klasifikasi lain dari data mining adalah Klasifikasi Naïve Bayes.
Dalam pengklasifikasian ini, peneliti menggunakan metode Regresi
Logistik Ordinal karena skala data yang dipakai pada variabel respon adalah
skala data ordinal atau kategori bertingkat. Selain Regresi Logistik Ordinal,
peneliti juga menggunakan metode Klasifikasi Naïve Bayes yang didasari
Teorema Bayes dan Data Mining dengan asumsi bahwa antar satu kelas
dengan kelas yang lain tidak saling tergantung.
Berdasarkan uraian latar belakang, peneliti akan menggunakan data alumni
IST AKPRIND Yogyakarta tahun 2018 untuk pengklasifikasian yang diberi
judul “Analisis Klasifikasi Menggunakan Metode Regresi Logistik
Ordinsl dan Klasifikasi Naive Bayes Pada Data Alumni IST AKPRIND
Yogyakarta Tahun 2018”.
1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah dikemukakan diatas, maka
permasalahan yang dapat dirumuskan adalah sebagai berikut:
1. Bagaimana karakteristik alumni IST AKPRIND Yogyakarta tahun lulus
2018?
2. Bagaimana klasifiksi alumni IST AKPRIND Yogyakarta tahun lulus 2018
menggunakan metode Regresi Logistik Ordinal?
3. Bagaimana klasifiksi alumni IST AKPRIND Yogyakarta tahun lulus 2018
menggunakan metode Naïve Bayes?
4. Bagaimana perbandingan klasifiksi alumni IST AKPRIND Yogyakarta
tahun lulus 2018 menggunakan metode Regresi Logistik Ordinal dan
Naive Bayes?
2
1.3 Tujuan
Tujuan yang ingin dicapai dari penelitian ini adalah sebagai berikut:
1. Mengetahui karakteristik alumni IST AKPRIND Yogyakarta tahun lulus
2018.
2. Mengetahui klasifiksi alumni IST AKPRIND Yogyakarta tahun lulus 2018
menggunakan metode Regresi Logistik Ordinal.
3. Mengetahui klasifiksi alumni IST AKPRIND Yogyakarta tahun lulus 2018
menggunakan metode Naïve Bayes.
4. Mengetahui perbandingan klasifiksi alumni IST AKPRIND Yogyakarta
tahun lulus 2018 menggunakan metode Regresi Logistik Ordinal dan
Naive Bayes.
1.5 Manfaat
Beberapa manfaat yang diharapkan dari penelitian ini adalah sebagai
berikut:
1. Bagi peneliti:
Menambah pengetahuan tentang metode Regresi Loistik Ordinal dan
Naïve Bayes serta memperkya wawasan terntang cara mendapatkan
pekerjaan.
2. Bagi Alumni:
Sebagai informasi tambahan bagi alumni yang kesulitan mendapatkan
pekerjaan.
3. Bagi IST AKPRIND Yogyakarta:
Sebagai informasi tambahan bagi pihak kampus yang ingin mengetahui
data alumni.
3
BAB II
TINJAUAN PUSTAKA DAN LANDASAN TEORI
4.1 Tinjauan Pustaka

Tinjaan pustaka yang digunakan dalam penelitian ini adalah referensi
buku-buku dan penelitian yang sudah dilakukan oleh peneliti sebelumnya.
Penelitian ini mengacu pada beberapa penelitian tersebut. Adapun beberapa
penelitian sebelumnya adalah sebagai berikut:
1. Penelitian dari Tuti Purwaningsih pada tahun 2011 yang membahas tentang
penudgaan kemiskinan kabupaten di pulau Jawa. Penelitian tersebut
menggunakan metode Regresi Logisik Ordinal Spasial. Hasil analisis
menunjukan bahwa model regresi logistik ordinal non spasial memiliki nilai
Correct Classification Rate (CCR) sebesar 51.85%, sedangkan model Regresi
logistik ordinal spasial memiliki nilai CCR sebesar 55.56% dengan besarnya
sumbangan keragaman dari variabel spasial sebesar 43.056. Jadi dapat
disimpulkan bahwa model regresi logistik ordinal spasial lebih baik dari pada
model non spasialnya.
2. Hesham Mohamed pada tahun 2015 yang meneliti tentang proses seleksi
penerima beasiswa LIBYAN EMBASSY berbasis WEB. Penelitian tersebut
menggunakan metode Naive Bayes. Hasil yang dieroleh dari penelitian
tersebut adalah proses penerimaan mahasiswa beasiswa Libyan embasy
dengan akurari 88,3% dari 60 sampel mahasiswa yaitu sebanyak 7 hasil yang
tidak sesuai dan 53 yang sesuai.
3. Penelitian Majid Habana pada tahun 2013 tentang tingka kepuasan pengguna
jasa terhadap pelayanan di stasiun Jakara kota. Penelitian tersebut
menggunakan metode Regresi Logisik Ordinal. Hasil penelitian menunjukkan
bahwa variabel yang berpengaruh secara signifikan terhadap kepuasan
pengguna jasa di stasiun Jakarta Kota adalah lokasi toilet, kebersihan stasiun,
turun naik penumpang, masuk keluar penumpang, ruang tunggu, loket,
keramahan petugas keamanan, sikap pedagang, serta keramahan petugas
customer care. Model regresi logistik ordinal aspek pelayanan, aspek
keamanan dan aspek komersial mempengaruhi penilaian pelayanan stasiun
4
secara global sebesar 81,7%. Berdasarkan rasio odd dari 200 responden
diketahui peluang pengguna jasa menilai pelayanan di stasiun Jakarta Kota
dengan skala sangat baik adalah yang paling tinggi dibandingkan 3 skala
lainnya yaitu sebesar 12,71 kali dibandingkan jawaban buruk, 3,87 kali
dibandingkan jawaban cukup dan 1,1 kali dibandingkan jawaban baik.
2.2 Landasan Teori

2.2.1 Pengertian Alumni
Menurut Kamus Besar Bahasa Indonesia, alumni merupakan orang-orang
yang telah mengikuti atau taman dari suatu sekolah atau pendidikan.
(Almanfaluthi, 2009), alumni dimaksudkan sebagai orang-orang yang
telah mengikuti atau lulus pada suatu sekolah atau perguruan tinggi. Alumni
merupakan bagian yang tak terpisahkan dari dunia pendidikan, dalam hal ini
sebagai penghubung antara sekolah dengan kampus dan dunia global.
Sehingga dapat dikatakan bahwa alumni adalah orang-orang yang telah
menyelesaikan atau menamatkan studi pada suatu lembaga pendidikan dan
memiliki peran dalam penyampaian visi. Selain itu, alumni juga menjadi tolak
ukur relevansi kurikulum pendidikan dengan kebutuhan dunia kerja.
2.2.2 Keterserapan Alumni Pada Dunia Kerja

Keterserapan alumni di dunia kerja akan menjadi sumber akuntabilitas
sosial terhadap suatu perguruan tinggi atau pun program studi. Apalagi jika setiap
alumni mampu menjadi perevisi dan pemberdaya nilai-nilai budaya lokal yang
sesuai dengan perkembangan dan tuntutan global (Yana, 2002:2).
Pada era sekarang ini alumni dituntut untuk harus mampu bersaing dalam
mendapatkan pekerjaan, maka mereka harus memiliki ketrampilan yang luwes
sehingga memungkinkan memasuki pekerjaan yang beragam (Depdikbud, 1997:
24). Sehingga standar yang dikembangkan tidak hanya keterampilan teknis untuk
memenuhi kebutuhan proses-proses kerja tertentu, tetapi juga mempertimbangkan
keterampilan umum yang relevan.
5
2.2.3 Pengertian Klasifikasi
(Prasetyo, 2012) menyatakan bahwa klasifikasi merupakan kegiatan
menilai objek data untuk memasukkanya ke dalam kelas tertentu dari sejumlah
kelas yang tersedia. Dalam klasifikasi terdapat dua pekerjaan utama yang
dilakukan, yaitu pembangunan model sebagai prototipe untuk disimpan sebagai
memori dan penggunaan model tersebut untuk melakukan pengenalan, klasifikasi,
prediksi pada suatu objek data lain agar diketahui di kelas mana objek data
tersebut dalam model yang sudah disimpan.
2.2.4 Regresi Logistik Ordinal

Regresi Logistik Ordinal merupakan salah satu metode statistika untuk
menganalisis variabel respon yang mempunyai skala data ordinal atau lebih dari
tiga kategori. Variabel prediktor yang digunakan bisa berupa data kategorik atau
kuantitatif. Model yang digunakan pada regresi logistik ordinal berupa Model
Logit Kumulatif (Cumulative Logit Models).
Model logit diperoleh dengan membandingkan peluang kumulatif yaitu
peluang kurang dari atau sama dengan kategori respon ke-j pada i variable
prediktor yang dinyatakan dalam vektor xi adalah P(Y≤ j |Xi), dengan peluang
lebih dari kategori respon ke-j pada i variabel prediktor vektor X i P(Y>j|Xi).
Peluang kumulatif P(Y≤ j|Xi) didefinisikan sebagai berikut :
g j( x )
e
P( Y ≤ j|X i )=π ( x )= g j( x )
1+e
i
β j 0−∑ i=1 β i x i
e
i
β −∑ β x
= 1+e
j0 i=1 i i
(2.2)
Model logit kumulatif defenisikan dengan:
g j ( x )=ln
[ πj( x)
1−π j ( x ) ]
6
[( ]
β j 0− β 1 x 1−β 2 x2−. . .− β i xi
e
β − β x − β x −.. .− β x
1+ e j0 1 1 2 2 i i
ln
)
β j 0− β1 x 1− β2 x2 −. ..−βi x i
e
1− β j 0 −β 1 x 1−β 2 x 2−...−β i xi
1+e
=
β j 0− β1 x1 −β 2 x2−. ..− βi xi
= ln( e )
β j0− β 1 x 1−β 2 x2−. ..− β i x i

= (2.3)
Dimana, j adalah jumlah kategori variabel respon j = 1, 2, ..., J dan i adalah

jumlah variabel prediktor. Jika terdapat kategori respon dimana j=1,2,3,..,J maka
nilai peluang untuk tiap kategori respon dapat dihitung dengan menggunakan
persamaan dibawah ini :
Φ j (x)={¿ 1−π j−1 (x), j=J j

π (x )−π j−1 (x ), j=1,..., J−1
(2.4)
Untuk menentukan kelas dari suatu objek dapat dilihat dari nilai peluang kategori
yang paling besar.
Terdapat tiga metode yang digunakan dalam regresi logistic ordinal, antara
lain Estimasi Likelihood Maksimum.
2.2.4.1 Estimasi Likelihood Maksimum

Metode nilai kemungkinan maksimum (Maximum Likelihood Estimation)
merupakan metode yang digunakan untuk menduga parameter-parameter model
regresi logistik dengan memberikan nilai estimasi dengan memaksimumkan
fungsi Likelihood. Fungsi kumulatif peluang bersama dari Y= ( Y1, Y2, ..., Yn)
yang dinotasikan dengan f(y|β). Bentuk umum dari fungsi Likelihood untuk
regresi logistik ordinal ditunjukan oleh rumus (2.5).
n
[ y
l( β )=∏ i=1 Φ1 ( xi ) 1 Φ 2 ( xi ) 2 Φ 3 ( xi ) 2 Φ 3 ( xi )
y y y3
] (2.5)
Dengan yj = { ¿ 0 untuk y≠j

1 untuk y=j
Likelihood sebagai berikut:

Dari persamaan di atas didapatkan fungsi ln-
n
{
L ( β )=ln l( β )=∑i=1 y 1 ln [ Φ 1 ( x i ) ] + y 2 ln [ Φ 2 ( x i ) ] + y3 ln [ Φ3 ( x i ) ] }
7
{ [ ] [ ] [ ]}
g1 ( x ) g2 ( x) g 1 (x ) g1 ( x)
n e e −e e
=∑i=1 y 1 ln g 1( x )
+ y 2 ln g2 (x ) g1 ( x)
+ y 3 ln 1− g 1( x )
1+ e ( 1+ e )( 1+e ) 1+ e
(2.6)
Maksimum ln-Likelihood diperoleh dengan mendeferensialkan L(β) terhadap
parameternya kemudian hasil dari turunan tersebut dibuat sama dengan nol seperti
pada rumus (2.6) sampai (2.15).
6
β 01 −∑i=1 βi X i ∑6i=1 β i X i β
dL( β ) y1 y 2 (e )( e +e 02 )
= −
dβ 01 6
β 01−∑ i=1 β i X i
6
β 01−∑i=1 βi X i β β
1+e (e )(e 02 −e 01 ) (2.7)
6
β 02− ∑i=1 β i X i 6
∑i=1 βi X i β
6
β 02−∑i=1 βi X i
dL( β ) y 2 (e )(e +e 01 ) y 2 (e )
= −
dβ 02 β 01−∑
6
β X β β β02− ∑
6
β X
(e i =1 i i
)(e 02 −e 01 ) (1+e i=1 i i
) (2.8)
dL( β )
=0
dβ 02 (2.9)
dL( β ) − y1 x1
=
dβ 1 6
β 01−∑ i=1 β i X i
1+e
6
−2 ∑i=1 β i X i 6
β 01+2 ∑i=1 β i Xi β01−2 β 2 2 β 01 +β 02
6
β02+ 2∑i=1 β i X i
y 2 x1 (e )(e +e −e −e )
+ 6 6
β 01−∑ β X β β β02− ∑ β X
(1+e i=1 i i
)(e 02−e 01 )(1+ e i=1 i i
)
6
β 02 +2 ∑i=1 β i X i
y 3 x1 (e )
+ 6
β 02 +2∑ i=1 βi X i
(1+e ) (2.10)
dL( β ) − y1 x2
=
dβ 2 6
β 01−∑ i=1 β i X i
1+e
6 6 6
−2 ∑i =1 β i X i β01+2 ∑i=1 β i Xi β01−2 β2 2 β01 +β 02 β02 +2∑i=1 β i X i
y 2 x2 (e )(e +e −e −e )
+ 6 6
β01− ∑ β X β β β02− ∑ β X
(1+e i=1 i i
)(e 02−e 01 )(1+ e i=1 i i
)
6
β 02− ∑i=1 β i X i
y 3 x 2 (e )
+ 6
β02−∑i=1 βi Xi
(1+e ) (2.11)
dL( β ) − y1 x3
=
dβ 3 6
β 01−∑ i=1 β i X i
1+e
8
6
−2 ∑i=1 β i X i 6
β 01+2 ∑i=1 β i X i β01−2 β 2 2 β01 +β 02
6
β02 +2∑i=1 βi X i
y 2 x3 (e )(e +e −e −e )
+ 6 6
β01− ∑i=1 β i Xi β β β02− ∑i=1 β i Xi
(1+e )(e 02−e 01 )(1+ e )
6
β 02 −∑i=1 β i X i
y 3 x3 (e )
+ 6
β02− ∑ β X
(1+e i=1 i i
) (2.12)
dL( β ) − y1 x 4
=
dβ 4 6
β 01−∑ i=1 β i X i
1+e
6
−2 ∑i=1 β i X i 6
β01 +2 ∑i=1 β i X i β01−2 β 2 2 β 01+ β02
6
β 02+2 ∑i=1 β i Xi
y2 x4( e )(e +e −e −e )
+ 6 6
β01− ∑i=1 β i X i β β β02 −∑i =1 βi X i
(1+ e )(e 02 −e 01 )(1+ e )
6
β 02− ∑i=1 βi X i
y 3 x 4 (e )
+ 6
β02− ∑ i=1 β i X i
(1+e ) (2.13)
dL( β ) − y 1 x5
=
dβ 5 6
β 01−∑ i=1 β i X i
1+e
6
−2 ∑i =1 β i X i 6
β01+2 ∑i=1 β i Xi β01−2 β2 2 β01 +β 02
6
β02 +2∑i=1 β i X i
y 2 x5 (e )(e +e −e −e )
+ 6 6
β01− ∑ i=1 βi Xi β β β02− ∑ i=1 β i X i
(1+e )(e 02−e 01 )(1+ e )
6
β 02 −∑ β X
y 3 x5 (e i=1 i i
)
+ 6
β02− ∑ i=1 βi Xi
(1+e ) (2.14)
dL( β ) − y 1 x6
=
dβ 6 6
β 01−∑ i=1 β i X i
1+e
6
−2 ∑i=1 β i X i 6
β 01+ 2∑i =1 βi X i β01 −2 β 2 2 β01 +β 02
6
β02 +2∑i=1 βi X i
y 2 x6 (e )( e +e −e −e )
+ 6 6
β01− ∑ i=1 β i Xi β β β02− ∑ i=1 β i Xi
(1+ e )(e 02−e 01 )(1+ e )
6
β 02−∑ βi X i
y 3 x 6 (e i=1
)
+ 6
β 02− ∑ β X
(1+e i=1 i i
) (2.15)
Pada saat diferensial pertama dalam suatu parameter masih mengandung

parameter lain, maka mendapatkan nilai pendugaan parameter dari fungsi
lnlikelihood pada regresi logistik ordinal dilakukan metode iterasi Newton
9
Raphson. Newton Raphson adalah metode iterasi untuk menyelesaikan persamaan
nonlinier. Berikut cara kerja Newton Raphson dalam menentukan nilai ̂
berdasarkan fungsi L(β) yang telah dimaximumkan, Persamaan Newton Rapshon
sebagai berikut :
β( t+1)=β t −( H t )−1 u t (2.16)

Dengan :
[ ⋮]
¿
β
i+ 1
¿
( t +1)
β = β i+ 1 =
¿
β p+1
[⋮]
¿
β
1i
¿
t
β = β i=
¿
β pi
[ ]
∂ ln L ( β )
∂ β1
ut =
∂ ln L ( β )
∂β
= ⋮
∂ ln L ( β )
∂ βn
[ ]
∂2 ln L ( β ) 2
∂ ln L ( β )
2
∂ β ∂ β ∂ β
a1 a1 n
⋮ ⋱ ⋮
⋯
t
( H )= …
∂ ln L ( β ) 2
∂ ln L ( β )
∂ βa ∂ β1 ∂ βn
2
k
(2.17)
Matriks Hessian adalah matrik yang mempunyai elemen-elemen ha,b yang

merupakan turunan kedua dari fungsi ln-likelihood terhadap semua parameter
(Agresti, 2002).
2.2.6.2 Uji Simultan
Uji serentak disebut juga uji model chi-square, dilakukan sebagai upaya
memeriksa peranan variabel terikat dalam model secara bersama-sama. Statistik
uji yang digunakan adalah statistik uji G atau Likelihood Ratio Test.
Uji Ratio Likelihood dilakukan untuk menguji kesesuain model dengan
variable variable prediktor secara keseluruhan (Hosmer & Lemeshow, 2000).
Adapun hipotesis yang digunakan dalam uji ratio likelihood:
10
H 0 : β1 = β 2 = … = β p = 0
H1 : paling sedikit salah satu dari βr ≠ 0 dengan r = 1,2,…,p
Dengan statistik uji:
G=−2 log ( Likelihood

Likelihood dengan variabel bebas )
tanpa variabel bebas
(2.18)
[ ( )( )
]
n1 n1 n0 n0
n n
G=−2 ln ¿ ¿
yi
Π
n
i=1 π (1−π 1 )(1− y i ) (2.19)
{∑ [ (π ) ( ( ]
π ) −[ n ln (n )+n ln(n )−n ln (n )] }
¿ ¿
n
G=2 i=1
y i ln i + 1− y t ) ln 1− i 1 1 0 0
(2.20)
Dengan :
n1 = banyaknya observasi berkategori 1
n0 = banyaknya observasi berkategori 0
n = banyaknya observasi (n1+ n0)
Statistik uji G mengikuti distribusi chi-square. Sehingga untuk mengambil
keputusan dilakukan perbandingan dengan χ2 tabel. Kriteria penolakan tolak H0
jika χ2 hit > χ2
(db,a)
2.6.3 Uji Parsial

Uji parsial digunakan untuk menguji apakah setiap βi secara individual.
Hasil pengujian secara parsial/individual akan menunjukan apakah suatu variabel
terikat layak untuk masuk dalam model atau tidak (Agresti, 1990).
Pengujian Parsial dapat dilakukan dengan Uji Wald dilakukan untuk
mengetahui variabel-variabel prediktor mempengaruhi variabel respon secara
individu dengan kata lain apakah suatu variabel predictor layak dimasukan
kedalam model. Hipotesis yang digunakan dalam uji wald :
H0 : βi = 0;
H1 : βi ≠ 0, dengan i = 1,2,…,n
Dengan statistik uji:̂
11
[ ]
¿ 2
Wi=
βt
¿
SE( β t )
(2.21)
Statistik uji Wi mengikuti sebaran normal baku. Sehingga untuk

memperoleh keputusan dilakukan perbandingan dengan distribusi normal baku
(Z). Dengan kriteria pengambilan keputusan tolak H0 Jika Wi > Zα/2.
2.6.4 Odds Ratio

Odds Ratio merupakan ukuran asosiasi paparan yang menggambarkan
besarnya kemungkinan suatu kejadian dapat terjadi, atau dengan kata lain
perbandingan sukses dan gagal dalam dua kelompok. Odds ratio digunakan untuk
interpretasi parameter yang bertujuan untuk menentukan hubungan fungsional
antara variabel prediktor dengan variabel respon serta menentukan unit perubahan
dalam variabel prediktor ( Horemer dan Lemeshow, 2000 dalam Fattah, 2013).
Tabel 2.1 Nilai-nilai Model Logistik

Variabel Bebas
Variabel Respon x=a x=b
Y=2 e
g 2 (a )
e
g 2 (a )
φ2 ( a )= 3
φ2 (b )= 3
∑i =1 e ∑i=1 e
gi (a ) gi (a )
Y=1 e
g 1 (a )
e
g 1 (a )
φ1 (a )= 3
φ1 ( b )= 3
∑i=1 e ∑i=1 e
gi (a ) gi( a )
Y=0 e
g 0 ( a)
e
g 0 ( a)
φ0 ( a )= 3
φ0 (b )= 3
∑i=1 e ∑i=1 e
gi (a ) gi (a )
Secara umum, nilai odds rasio pada model ke-𝑗 dapat dicari dengan:
P(Y=k|x=a)/P (Y =0|x=a)
ORk ( a,b)=
P(Y=k|x=b)/P (Y =0|x=b) (2.22)
Misalkan nilai 𝑎 = 1 dan 𝑏 = 0 kemudian ingin dicari nilai odd pada saat 𝑌 = 3
dengan 𝑌 = 0 untuk nilai 𝑥 = 1 dan 𝑥 = 0 adalah:
12
P (Y =3|x=1)/ P(Y =0|x=1) φ3 (1)/[ φ0 (1)]
OR 3 (1,0)= = exp( β 31 )
P(Y =3|x=0)/ P(Y =0|x=0) φ 3 (0)/[ φ0 (0)] (2.23)
ln(OR 3 (1,0 ))=ln

( φ 3 (1)/[φ 0 (1 )]
φ3 (0)/[φ 0 (0 )] )
=ln (exp( β 31 ))=β 31
(2.24)
Model logistik dengan satu variabel bebas dikotomi, koefisien 𝛽𝑘1 adalah
beda logit sedangkan exp(𝛽𝑘1 ) adalah nilai odds rasio (Hosmer dan Lemeshow,
2000). Berdasarkan persamaan (2.23), dapat diinterpretasikan bahwa rasio odds
(𝑂𝑅3 (1,0)) = 1 berarti bahwa individu dengan nilai 𝑥 = 1 mempunyai peluang
yang sama dengan individu dengan nilai 𝑥 = 0 dalam kaitannya dengan 𝑌 = 3.
Apabila (𝑂𝑅3 (1,0)) > 1 maka individu dengan nilai 𝑥 = 1 mempunyai peluang
yang lebih besar dibandingkan dengan 𝑥 = 0 terhadap 𝑌 = 3. Sebaliknya apabila 0
≤ (𝑂𝑅3 (1,0)) < 1 individu 𝑥 = 1 mempunyai peluang yang lebih kecil
dibandingkan dengan 𝑥 = 0 untuk 𝑌 = 3.
2.7. Klasifikasi Naive Bayes

Menurut Han dan Kamber (2012), metode Klasifikasi Bayesian atau yang
sering disebut Naive Bayes Classifier merupakan metode pengklasifikasian secara
statistika yang memprediksi peluang anggota kelas tertentu berdasarkan database
yang memenuhi syarat keanggotaan kelas tersebut. Naive Bayes dibangun
berdasarkan Teorema Bayes.
Teorema Bayes adalah sebagai berikut :
P( X|Y )P(Y )
P(Y|X )=
P(X) (2.25)
Dengan,
P(Y|X) = Posterior Probability Y di dalam X
P(Y) = Prior Probability dari Y
P(X|Y) = Posterior Probability X di dalam Y
P(X) = Prior Probability dari X
Berdasarkan Teorema Bayes dan banyaknya penelitian dalam

membandingkan algoritma pengklasifikasi, sehingga ditemukanlah Klasifikasi
Bayesian yang dikenal dengan Naive Bayes Classificier dengan kinerja yang
13
sederhana dan mempunyai kecepatan serta tingkat akurasi yang tinggi sebanding
dengan metode pengklasifikasi lain tak terkecuali pada database yang besar. Ciri
utama klasifikasi Naive Bayes adalah asumsi akan independensi dari masing-
masing atribut terhadap kelas yang ada, asumsi ini disebut bebas bersyarat.
Rumus Naive Bayes ditunjukan pada persamaan (2.26).
q
P(Y j ) ∏i=1 P( X i|Y j )
P(Y j| X )=
P(X) (2.26)
Dengan:
n(Y j )
P(Y j )=
Probabilitas Y. n(Y ) (2.27)
n( X 1 −k ) n( X 2 −k ) n( X i −k )
P( X i )= x x . .. x
Probabilitas X. n( X 1 ) n( X 2 ) n( X i ) (2.28)
k = atribut pada Xi
Untuk menghitung P(Xi|Yj) terdapat dua aturan yakni:

a. Jika data dari atribut X merupakan data kategorik maka nilai P(X i|Yj)
adalah nilai Xi yang terdapat pada kelas Yj dibagi dengan jumlah dari nilai
Yj.
n( X i|Y j )
P( X i|Y j )=
n( y j ) (2.29)
b. Jika data kontinou maka untuk mencari nilai P(X i|Yj) diasumsikan
mengikuti distribusi Normal Gaussian dengan parameter mean(µ) dan
standar deviasi (σ )
2
1 ( xi−μi)
g( x, μ , σ )= exp−
√2 πσ ij 2σ 2 ij (2.30)
P( X i|Y j )=g( x, μ , σ ) (2.31)
Pada Klasifikasi Naive Bayes hasil klasifikasi ditentukan dengan melihat nilai
P(Yj|X) paling besar dari setiap variabel Y.
14
2.8. Error Rate
Untuk mengetahui tingkat akurasi hasil klasifikasi, maka dilakukan uji
ketepatan hasil klasifikasi dengan menggunakan APER (Apparent Error Rate)
atau yang disebut juga dengan laju error. APER merupakan ukuran evaluasi
dengan melihat nilai eror dari suatu klasifikasi. Untuk menghitung nilai APER,
langkah yang harus dilakukan membentuk tabel perbandingan hasil klasifikasi
berdasarkan observasi dengan hasil klasifikasi berdasarkan prediksi suatu metode
yang disebut dengan matrik konfusi hasil klasifikasi (Prasetyo, 2012).
Tabel.2.1 Matrik Konfusi Hasil Klasifikasi
Hasil Prediksi
Fij Kelas =1 Kelas =2 Kelas =3
Kelas =1 F11 F12 F13
Hasil Kelas = 2 F21 F22 F23
Observasi Kelas = 3 F31 F32 F33
Dengan:
F11 = Jumlah alumni kelas 1 pada kelas asli dan kelas 1 pada kelas prediksi
Fij = Jumlah alumni kelas i pada kelas asli dan kelas j pada kelas prediksi.
Selanjutnya dapat dilakukan perhitungan nilai APER dengan formulasi
sebagai
berikut :
f 12+f 13+ f 21+f 23+f 31+ f 31

APER= x 100 %
f 11+f 12+f 13+f 21+f 22+f 23+f 31+ f 32+ f 33 (2.32)
15
Formulasi tingkat akurasi = 1- APER (2.32). Suatu metode dikatakan memiliki
tingkat akurasi yang baik jika mempunyai nilai APER yang kecil dan tingkat
akurasi yang tinggi.
2.9 Uji Dua Rata-Rata

Uji dua rata-rata digunakan untuk mengetahui apakah ada perbedaan
penggunaan kedua metode pengklasifikasi dengan menguji rata-rata tingkat
akurasi dan tingkat error. Hipotesis yang digunakan pada uji dua rata-rata adalah:
H0 = μ1= μ1 (tidak ada perbedaan dalam rata-rata kedua sampel)
H1 = μ1≠ μ1 (terdapat perbedaan dalam rata-rata kedua sampel)
Statistik Uji :
x 1 −x 2
t= exp
√
2
1 1
s p( + )
n1 n2 (2.33)
Dengan:
X 1 : adalah rata-rata sampel pertama.
X 2 : adalah rata-rata sampel kedua.
n1 :: adalah jumlah pengamatan sampel pertama.
n2 :: adalah jumlah pengamatan sampel kedua.

2
S 1 : adalah variansi (standar deviasi kuadrat) dari sampel pertama.
2
S 2 : adalah variansi (standar deviasi kuadrat) dari sampel kedua.
16
BAB III
METODOLOGI PENELITIAN
3.1 Lokasi Penelitian

Lokasi penelitian yang digunakan adalah lingkungan kampus IST
AKPRIND Yogyakarta.
3.2 Metode Pengumpulan Data

Data yang digunakan dalam penelitian ini adalah data alumni IST
AKPRIND Yogyakarta tahun 2016/2017, 2017/2018, 2018/2019. Data yang
digunakan merupakan data sekunder yang diambil dari Biro Administrasi &
Akademik Kemahasiswaan ( BAAK) IST AKPRIND Yogyakarta.
3.4 Variabel Penelitian

Variabel yang digunakan dalam penelitian ini terdiri atas variabel respon
(Y) dan variabel prediktor (X). Variabel respon terdiri dari 3 kategori tingkat
kelancaran alumni dalam mendapatkan pekerjaan, yaitu Y= (1) tidak lancar,
Y=(2) kurang lancar dan Y=(3) lancar. Variabel prediktor yang digunakan
merupakan variable yang dianggap dapat mempengaruhi alumni dalam
mendapatkan pekerjaan setelah lulus.
Tabel.3.1 Variabel Prediktor
17
Variabel Prediktor (X) Kategori
Program Studi (X1) (X1)=1 = Eksak
(X1)=2 = Non Eksak
(X2)=1 = D3
Jenjang Pendidikan (X2) (X2)=2 = S1
(X3)=1 = ≤ 2.75
IPK(X3) (X3)=2 = > 2.75 - ≤ 3.50
(X3)=3 = > 3.50
(X4) =1 = < 4 tahun
Lama Studi (X4) (X4) =2 = 4 tahun
(X4) =3 = > 4 tahun
(X5) =1 = melalui media
Cara mencari pekerjaan ( X5) (X5) =2 = mandiri
(X5) =3 = relasi
(X6) =1 = Bahasa Inggris
Kompetensi yang dikuasai (X6) (X6) =2 = TIK
(X6) =3 = Komunikasi
(X6) =4 = Kerjasama Tim
(X6) =5 = Pengetahuan Umum
3.5 Tahapan Analisis Data

Langkah-langkah yang dilakukan pada penelitian ini adalah sebagai
berikut:
1. Menentukan klasifikasi awal
Pada studi kasus klasifikasi tingkat kelancaran alumni dalam mendapatkan
pekerjaan dapat dibuat klasifikasi awal dengan indikator waktu yang diperlukan
untuk mendapatkan pekerjaan pertama :
Tabel.2.2. Variabel Respon
Variabel Respon Kriteria

(Y)
18
Tidak Lancar (Y1) Mendapat pekerjaan > 12 bulan setelah lulus
Lancar (Y2) Mendapat pekerjaan > 6 - 12 bulan setelah lulus
Sangat Lancar (Y3) Mendapat pekerjaan < 6 bulan setelah lulus
4. Membagi data menjadi dua, yaitui data training 75% dan data testing 25%,
kemudian dilakukan sepuluh kali pengacakan dalam memilih data training
dan data testing, dengan proporsi yang sama .
5. Membuat model regresi logistik ordinal
a. Membentuk model awal regresi logistik ordinal dengan menggunakan
data training.
b. Menguji signifikansi parameter secara keseluruhan dengan
menggunakan Uji Ratio Likelihood.
c. Menguji parameter secara parsial dengan Uji Wald. Pengujian ini
dilakukan untuk mengetahui variabel-variabel prediktor
mempengaruhi variabel respon secara individu.
d. Pembentukan model akhir regresi logistik ordinal
e. Menentukan klasifikasi data testing menggunakan model akhir. Dalam
regresi logistik ordinal kelas hasil prediksi adalah kelas yang memiliki
nilai peluang paling tinggi.
f. Menghitung nilai APER dan akurasi dari model yang terbentuk.
6. Naive Bayes
Adapun tahapan klasifikasi Naive Bayes sebagai berikut :
a. Menghitung probabilitas awal (prior probability) peluang P(Y) dan
P(X) serta nilai probailitas Xi bersyarat Yj P(Xi|Yj) dengan data
training.
b. Menentukan hasil Klasifikasi Naive Bayes hasil klasifikasi dengan
melihat nilai P(Yj|X) paling besar dari setiap variabel Y dan data yang
digunakan adalah data testing.
c. Menghitung nilai APER dan akurasi dari model yang terbentuk.
d. Menghitung rata-rata tingkat akurasi dan tingkat error dan menguji dua
ratarata tingkat akurasi dan tingkat error kedua metode tersebut .
19
3.6 Tahapan Penelitian
Mulai
Referensi
Menyusun Kuesoner
Teknik Sampling
survey pendahuluan ( n=30)
Tidak
Uji Validitas &
reliabilitas
Ya
survey inti
Input data
Analisis Deskriptif, Uji Maksimum Likelihood,

Uji Simultan, Uji Parsial & Odds Ratio
Kesimpulan statistik & kesimpulan umum
selesai
20
Gambar.3.1. Diagram Alir Regresi Logistik Ordinal
Mulai
Referensi
Menyusun Kuesoner
Teknik Sampling
Input data
Menghitung Probabilitas Awal Y

P(Y)
Menghitung Probabilitas Posterior

P(Xi|Yj)
Klasifikasi peluang Prior & Posterior
Menghitung APER dan Akurasi dari Naive

Bayes
selesai
Gambar.3.2. Diagram Alir Klasifikasi Naive Bayes
21
BAB IV
JADWAL PENELITIAN
Pelaksanaan penelitian skripsi ini dimulai dari bulan April 2019 sampai Agustus
2019. Adapun tabel rencana kegiatan sebagai berikut:
Tabel 4.1 Rencana kegiatan

Bulan
KEGIATAN April Mei Juni Juli Agustus
2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Tahap
Persiapan:
Pengumpulan
Materi dan
Penyusunan
Proposal
Tahap
Pelaksanaan
: Pembuatan,
Pengujian dan
Analisis
Tahap Akhir:
Penyusunan
Laporan
22
DAFTAR PUSTAKA
Fallo, S. I. (2017). Metode Fuzzy Time Series Markov Chain dan Weigthed Fuzzy Time
Series Untuk Memprediksi Data Historis Curah Hujan di Kabupaten Gunung
Kidul. Yogyakarta: IST AKPRIND Yogyakarta.
Faroh, R. A. (2016). Penerapan Model Fuzzy Time Series-Markov Chain Untuk
Peramalan Inflasi. Malang: Universitas Islam Negeri Maulana Malik Ibrahim.
Fauziah, N., Wahyuningsih, S., & Nasution, Y. N. (2016). Peramalan Menggunakan
Fuzzy Time Series Chen (Studi Kasus: Curah Hujan Kota Samarinda). Statistika,
Vol. 4, No. 2, Universitas Mulawarman Samarinda.
Gusriani, N., Suryamah, E., & Firdaniza. (2016). Distribusi Stasioner Rantai Markov
Untuk Prediksi Curah Hujan di Wilayah Jawa Barat. Prosiding Seminar
Matematika dan Pendidikan Matematika, hal 1035-1050.
Narulita, I. (2016). Distribusi Spasial dan Temporal Curah Hujan di DAS Cerucuk Pulau
Belitung. Riset Geologi dan Pertambangan, Vol. 26, No. 2.
Navianti, D. R., Usadha, I. G., & Widjajati, F. A. (2012). Penerapan Fuzzy Inference
System pada Prediksi Curah Hujan di Surabaya Utara. Jurnal Sains dan Seni ITS,
Vol.1, No.1, Institut Teknologi Sepuluh Nopember (ITS), Surabaya.
purwaningsih, t. (2011). anlisis regresi logistik ordinal sasial untuk menudga status
kemiskinan di pulau jawa.
Putra, N. A. (2016). Prediksi Jumlah Penduduk Menggunakan Fuzzy Time Series Model
Chen (Studi Kasus: Kota Tanjungpinang.
Rizanti, I. N., & Soehardjoepri. (2017). Prediksi Produksi Kayu Bundar Kabupaten
Malang dengan Menggunakan Metode Markov Chains. Jurnal Sains dan Seni
ITS, Vol. 6, No. 2, Institut Teknologi Sepuluh Nopember (ITS)'.
Rukhansah, N., Muslim, M. A., & Arifudin, R. (2015). Fuzzy Time Series Markov Chain
dalam Meramalkan Harga Saham. Seminar Nasional Ilmu Komputer, Universitas
Negeri Semarang.
Sidauruk, A., Kurniawan, H., Efendi, A. R., & Winarko, E. (2015). Prediksi Infeksi
Saluran Pernafasan Akut (ISPA) dengan Menggunakan Metode Rantai Markov
pada Klinik Cihideung. Seminar Nasional Teknologi Informasi dan Multimedia,
STMIK AMIKOM Yogyakarta.
23
24

Queen

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Queen

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS KLASIFIKASI MENGGUNAKAN METODE REGRESI

LOGISTIK ORDINAL DAN KLASIFIKASI NAIVE BAYES PADA DATA

ALUMNI IST AKPRIND YOGYAKARYA TAHUN 2018

Nama : Gabriela Hulu Tedemaking

FAKULTAS SAINS TERAPAN

INSTITUT SAINS & TEKNOLOGI AKPRIND

ANALISIS KLASIFIKASI MENGGUNAKAN METODE REGRESI

Nama : Gabriela Hulu Tedemaking

*) di isi setelah SK penunjukkan pembimbing diterima

Kata Kunci : Klasifikasi, Regresi Logistik Ordinal, Klasifikasi Naive Bayes

1.1 Latar Belakang

1.2 Rumusan Masalah

TINJAUAN PUSTAKA DAN LANDASAN TEORI

4.1 Tinjauan Pustaka

2.2 Landasan Teori

2.2.2 Keterserapan Alumni Pada Dunia Kerja

2.2.4 Regresi Logistik Ordinal

β j0− β 1 x 1−β 2 x2−. ..− β i x i

Dimana, j adalah jumlah kategori variabel respon j = 1, 2, ..., J dan i adalah

Φ j (x)={¿ 1−π j−1 (x), j=J j

2.2.4.1 Estimasi Likelihood Maksimum

Dengan yj = { ¿ 0 untuk y≠j

Likelihood sebagai berikut:

Pada saat diferensial pertama dalam suatu parameter masih mengandung

β( t+1)=β t −( H t )−1 u t (2.16)

Matriks Hessian adalah matrik yang mempunyai elemen-elemen ha,b yang

2.2.6.2 Uji Simultan

G=−2 log ( Likelihood

2.6.3 Uji Parsial

Statistik uji Wi mengikuti sebaran normal baku. Sehingga untuk

2.6.4 Odds Ratio

Tabel 2.1 Nilai-nilai Model Logistik

ln(OR 3 (1,0 ))=ln

2.7. Klasifikasi Naive Bayes

Berdasarkan Teorema Bayes dan banyaknya penelitian dalam

Untuk menghitung P(Xi|Yj) terdapat dua aturan yakni:

Tabel.2.1 Matrik Konfusi Hasil Klasifikasi

f 12+f 13+ f 21+f 23+f 31+ f 31

2.9 Uji Dua Rata-Rata

n2 :: adalah jumlah pengamatan sampel kedua.

3.1 Lokasi Penelitian

3.2 Metode Pengumpulan Data

3.4 Variabel Penelitian

Tabel.3.1 Variabel Prediktor

3.5 Tahapan Analisis Data

Tabel.2.2. Variabel Respon

Variabel Respon Kriteria

survey pendahuluan ( n=30)

Analisis Deskriptif, Uji Maksimum Likelihood,

Kesimpulan statistik & kesimpulan umum

Menghitung Probabilitas Awal Y

Menghitung Probabilitas Posterior

Klasifikasi peluang Prior & Posterior

Menghitung APER dan Akurasi dari Naive

Gambar.3.2. Diagram Alir Klasifikasi Naive Bayes

Tabel 4.1 Rencana kegiatan

Anda mungkin juga menyukai