Anda di halaman 1dari 25

PENGKLASIFIKASIAN PENYAKIT HEPATOCELLULAR CARCINOMA

(KANGKER HATI) DI NEGARA PORTUGAL DENGAN


MENGGUNAKAN ALGORITMA K-NN (K-NEAREST NEIGHBOR)

Disusun oleh:
Aiderman Makakombo(15013020)

PROGRAM STUDI TEKNIK INFORMATIKA


FAKULTAS TEKNIK
UNIVERSITAS KATOLIK DE LA SALE MANADO
2018
KATA PENGANTAR

puji syukur di panjatkan kehadirat tuhan yang maha esa atas kasih
dan rahmatnya saya dapat menyelesaikan penelitian ini hingga selesai.
saya juga berterima kasih untuk semua pihak yang telah membantu dalam
pembuatan penelitian ini sehingga penelitian ini dapat terselesaikan tepat
waktu.
Harapan saya semoga penelitian ini dapat menambah ilmu sehingga
pembaca dapat memahami tentang cara mengklasifikasikan data dengan
menggunakan metode KNN pada dataset.

Saya menyadari dalam penyusunan laporan akhir masih belum


sempurna baik dari isi maupun penyusunan laporannya, untuk itu saya
mengharapkan saran dan kritik yang membangun untuk bekal ilmu di masa
yang mendatang.

Manado , Mei 2018

Aiderman Makakombo
DAFTAR ISI

DAFTAR ISI ................................................................................................ i

BAB I.......................................................................................................... 1

PENDAHULUAN ........................................................................................ 1

1.1 Latar Belakang .............................................................................. 1

1.2 Perumusan Masalah ..................................................................... 2

1.3 Tujuan ........................................................................................... 2

1.4 Manfaat ......................................................................................... 2

1.5 Metodologi Penelitian.................................................................... 2

1.5.1 Studi pustaka atau literatur ......................................................... 2


1.5.2 Pengumpulan data ..................................................................... 2
1.5.3 Perdalam materi ......................................................................... 3
1.5.4 Analisis ....................................................................................... 3
1.5.5 Implementasi .............................................................................. 3
1.5.6 Pengujian ................................................................................... 4
1.5.6 Penyusunan laporan................................................................... 4
BAB II ......................................................................................................... 5

STUDI PUSTAKA ...................................................................................... 5

2.1 Data mining................................................................................... 5

2.2 Klasifikasi ...................................................................................... 6

2.3 Hepatocellular Carcinoma ............................................................. 7

2.3.1 Hepatocellular carcinoma (HCC). ........................................... 7


2.3.2 Cholangiocarcinoma............................................................... 8
2.3.3 Hepatoblastoma ..................................................................... 8
2.3.4 Angiosarcoma dan hemangiosarcoma. .................................. 8
2.4 Algoritma usulan ........................................................................... 9

2.5 Algoritma pembanding ................................................................ 11

Bab iii ....................................................................................................... 12

i
pembahasan ............................................................................................ 12

3.1 Pemrosesan Data ....................................................................... 12

3.1.1. Menghilangkan missing value .............................................. 12


3.1.2. Mengecek duplikasi data ......................................................... 13
3.2 metode ........................................................................................ 14

3.3. Hasil pembahasan ................................................................... 14


3.3.1 menggunakan k-NN.................................................................. 14
3.3.2 menggunakan naïve bayes ...................................................... 15
Bab iv ....................................................................................................... 17

Kesimpulan dan saran ............................................................................ 17

4.1 kesimpulan.................................................................................. 17

4.2 saran ........................................................................................... 17

DAFTAR PUSTAKA ................................................................................. 18

ii
DAFTAR GAMBAR
Gambar 3.1 Proses menghilangkan missing value dengan
menggunakan Rstudio
Gambar 3.2 Proses menghilangkan missing value dengan
menggunakan WEKA
Gambar 3.3 pengecekan duplikasi data
Gambar 3.4 flowcart
Gambar 3.5 Hasil menggunakan weka
Gambar 3.6 menggunakan cros validation folds 10
Gambar 3.7 menggunakan Percentage Split 66%

iii
DAFTAR TABEL
Tabel 3.1 menggunakan Rstudio

iv
BAB I
PENDAHULUAN
1.1 Latar Belakang
Hepatocellular Carcinoma (HCC) adalah salah satu jenis tumor yang
di temukan dalam organ hati. Karsinoma hepatoselular (Hepatocelluar
Carcinoma = HCC) merupakan tumor ganas hati primer yang berasal dari
hepatosit, demikian pula dengan karsinoma fibrolamelar dan
hepatoblastoma. Tumor ganas hati lainnya, kolangiokasrinoma dan
sitoadenokarsinoma berasal dari sel epitel bilier, sedangkan
angiokarsinoma dan leiomiosarkoma berasal dari sel mesenkim. Dari
seluruh tumor ganas hati yang pernah didiagnosis, 85% merupakan HCC;
10% CC; dan 5% adalah jenis lainnya. Dalam dasawarsa terakhir terjadi
perkembangan yang cukup berarti menyangkut HCC, antara lain pada
modalitas terapi yang memberikan harapan untuk sekurang-kurangnya
perbaikan pada kualitas hidup pasien HCC merupakan neoplasma
malignan yang terdiri dari sel-sel yang berdiferensiasi pada hepatosit
tersebut. HCC adalah tumor yang sangat menarik untuk ditelusuri,
khususnya mengenai patogenesis penyakit, bagaimana kaitan dengan
letak geografis tempat tinggal, infeksi virus, dan agen kimia, serta gangguan
hati kronik lainnya yang juga memiliki kata kunci penting pada mekanisme
karsinogenetik [1].
Dalam bidang kesehatan data mining dapat di gunakan
mendiagnosis faktor risiko peyakit dan kemungkinan kelangsungan hidup
pasien. Data Mining adalah proses ekstraksi sebelumnya tidak dikenal dan
dipahami dari database berukuran besar dan digunakan untuk membuat
keputusan yang penting [2].
Algoritma k-Nearest Neighbor (k-NN) adalah sebuah algoritma
untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran
yang jaraknya paling dekat dengan objek tersebut. [3].
Naive Bayes merupakan sebuah pengklasifikasian probabilistik
sederhana yang menghitung sekumpulan probabilitas dengan
menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan.

1
Algoritma mengunakan teorema Bayes dan mengasumsikan semua
atribut independen atau tidak saling ketergantungan yang diberikan oleh
nilai pada variabel kelas [4]

Berdasarkan penjelasan di atas kita dapat mengklasifikasikan


penyakit hepatocellular carcinoma yang ada di negara Portugal dengan
menggunakan algoritma k-NN dan menguji kebenaranya dengan
menggukan algoritma Naive Bayes
2

1.2 Perumusan Masalah


1. Bagaimana kita dapat mengetahui seberapa besar probabilatas
penyakit hepatocellular carcinoma terhadap manusia.
2. Bagaimana mendiagnosis kelangsungan hidup orang yang
menderita hepatocellular carcinoma dengan menggunakan
algoritma k-NN

1.3 Tujuan
1. Dengan adanya karya tulis ini pembaca dapat mengetahui informasi
faktor – faktor yang dapat menyebabkan hepatocellular carcinoma.
2. Agar dapat mengerti cara pengklasifikasian data dengan
menggunakan algoritma k-NN

1.4 Manfaat
1. Memberikan informasi tentang cara mengklasifikasikan data
menggunakan algoritma KNN.
2. Memberikan informasi agar kita dapat mengetahui probabilitas
penyakit hepatocellular carcinoma khususnya di negara Portugal.
3. Mengerti cara pengklasifikasian menggunakan algoritma k-NN

1.5 Metodologi Penelitian


Metodologi yang di gunakan untuk tugas mid semester ini adalah
sebagai berikut:
1.5.1 Studi pustaka atau literatur
Penulis belajar tentang teori – teori tentang klasifikasi k-NN
dalam pengklasifikasian data.
1.5.2 Pengumpulan data
Data set yang di dapat berasal dari UCI (University of
California, Irvine) Machine Learning Repositor yang di ambil dari
Rumah Sakit Universitas di Portugal yang berisi tentang data klinis
nyata dari 165 pasien yang didiagnosis terkena penyakit HCC.

2
3

Untuk di jadikan objek penelitian tambahan data lain seperti


jurnal buku - buku dan lain - lain diperoleh dari internet.

1.5.3 Perdalam materi


Memperdalam materi tentang konsep algoritma k-NN agar
dapat mengerti cara pengimplementasianya dalam
mengklasifikasikan data.
1.5.4 Analisis
Analisis dilakukan untuk mengidentifikasi permasalahan yang
ada sesuai dengan data set yang dignakan .
1.5.5 Implementasi
Bagian implementasi disini membahas tentang metodologi
pengembangan aplikasi yang digunakan yaitu RAD (Rapid
Application Development). Rapid Aplication Development (RAD)
adalah sebuah proses perkembangan perangkat lunak sekuensial
linier yang menekankan siklus perkembangan dalam waktu yang
singkat. RAD menggunakan metode iteratif (berulang) dalam
mengembangkan sistem dimana working model (model bekerja)
sistem dikonstruksikan di awal tahap pengembangan dengan tujuan
menetapkan kebutuhan (requirement) pengguna. [5]
Model RAD memiliki 3 tahapan sebagai berikut.
1. Rencana Kebutuhan (Requirement Planning)
mengidentifikasi tujuan dari sistem dan kebutuhan
informasi untuk mencapai tujuan berdasarkan data yang telah di
dapat.
2. Proses Desain Sistem (Design System)
Pada tahap ini untuk mencapai tujuan karena pada proses
ini melakukan proses desain dan melakukan perbaikan-
perbaikan apabila masih terdapat ketidaksesuaian desain antara
user dan analyst. Seorang user dapat langsung memberikan
komentar apabila terdapat ketidaksesuaian pada desain,

3
4

merancang sistem dengan mengacu pada dokumentasi


kebutuhan user yang dibuat pada tahap sebelumnya. Keluaran
dari tahapan ini adalah spesifikasi software yang meliputi
organisasi sistem secara umum, struktur data dan yang lain.
a. Menganalisis data dari sistem yang akan di buat apakah
sudah sesuai dengan data yang telah dikumpulkan
3. Implementasi (Implementation)
Tahapan ini adalah tahapan mengembangkan desain suatu
program yang telah disetujui oleh user dan analyst. Sebelum
diaplikasikan pada suatu organisasi terlebih dahulu dilakukan
proses pengujian terhadap program tersebut apakah ada
kesalahan atau tidak.
1.5.6 Pengujian
1. Pada tahap ini akan dilakukan pengujian terhadap
pengklasifikasian data apakah sudah sesuai dengan analisis
yang telah dilakukan.
2. melakukan perbandingan antara kedua algoritma yang
digunakan agar dapat mengetahui algoritma mana yang lebih
baik.
1.5.6 Penyusunan laporan
Laporan yan ditulis merupakan seluruh hasil analisis dan
pengujian serta kesimpulan dari hasil penelitian yang sudah
dilakukan.

4
BAB II
STUDI PUSTAKA
2.1 Data mining
Data mining didefinisikan sebagai satu set teknik yang digunakan
secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa
ke permukaan relasirelasi yang kompleks pada set data yang sangat besar.
Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi,
seperti yang banyak diimplementasikan dalam teknologi manajemen basis
data relasional. Akan tetapi, teknik-teknik data mining dapat juga
diaplikasikan pada representasi data yang lain, seperti domain data spatial,
berbasis text, dan multimedia (citra). Data mining dapat juga didefinisikan
sebagai “pemodelan dan penemuan polapola yang tersembunyi dengan
memanfaatkan data dalam volume yang besar”. Data mining menggunakan
pendekatan discovery-based dimana pencocokan pola (patternmatching)
dan algoritmaalgoritma yang lain digunakan untuk menentukan relasirelasi
kunci di dalam data yang diekplorasi. Data mining merupakan komponen
baru pada arsitektur sistem pendukung keputusan (DSS) di
perusahaanperusahaan. Beberapa pengertian data mining yang berhasil
penulis himpun dari beberapa pendapat adalah sebagai berikut.
1. Secara sederhana dapat didefinisikan bahwa Data mining adalah
ekstraksi informasi atau pola yang penting atau menarik dari data
yang ada di database yang besar sehingga menjadi informasi yang
sangat berharga.
2. Data mining merupakan proses penemuan yang efisien sebuah pola
terbaik yang dapat menghasilkan sesuatu yang bernilai dari suatu
koleksi data yang sangat besar.
3. Data mining adalah suatu pola yang menguntungkan dalam
melakukan search pada sebuah database yang terdapat pada
sebuah model. Proses ini dilakukan berulang-ulang (iterasi) hingga
didapat satu set pola yang memuaskan yang dapat berfungsi sesuai
yang diharapkan .

5
4. Data mining adalah sebuah class dari suatu aplikasi database yang
mencari pola-pola yang tersembunyi di dalam sebuah group data
yang dapat digunakan untuk memprediksi prilaku yang akan datang.
Data mining adalah suatu kelas aplikasi database yang berfungsi
melakukan pencarian pola-pola tersembunyi di dalam suatu
kumpulan data yang bisa digunakan untuk memprediksikan trend
atau perilaku yang akan datang. Berdasarkan beberapa pengertian
diatas dapat ditarik kesimpulan bahwa data mining adalah suatu
algoritma di dalam menggali informasi berharga yang terpendam
atau tersembunyi pada suatu koleksi data (database) yang sangat
besar sehingga ditemukan suatu pola yang menarik yang
sebelumnya tidak diketahui. Oleh sebab itu istilah data mining sering
disalahgunakan untuk menggambarkan perangkat lunak yang
mengolah data dengan cara yang baru. Sebenarnya perangkat lunak
data mining bukan hanya mengganti presentasi, tetapi benarbenar
menemukan sesuatu yang sebelumnya belum diketahui menjadi
muncul diantara sekumpulan data yang ada. Bahkan dengan
menggunakan data mining dapat memprediksikan prilaku dan tren
yang akan terjadi kemudian, sehingga bias membuat para
pengusaha menjadi lebih proaktif dan dapat mengambil keputusan
dengan benar [6].

2.2 Klasifikasi
Klasifikasi adalah salah satu pembelajaran yang paling umum di data
mining. Klasifikasi didefinisikan sebagai bentuk analisis data untuk
mengekstrak model yang akan digunakan untuk memprediksi label kelas.
Kelas dalam klasifikasi merupakan atribut dalam satu set data yang paling
unik yang merupakan variabel bebas dalam statistik. Klasifikasi data terdiri
dari dua proses yaitu tahap pembelajaran dan tahap pengklasifikasian.
Tahap pembelajaran merupakan tahapan dalam pembentukan model
klasifikasi, sedangkan tahap pengklasifikasian merupakan tahapan
penggunaan model klasifikasi untuk memprediksi label kelas dari suatu

6
data. Contoh sederhana dari teknik data mining klasifikasi adalah
pengklasifikasian hewan berdasarkan atribut jumlah kaki, habitat dan organ
pernafasannya akan diklasifikasikan ke dalam dua label kelas yaitu unggas
dan ikan. Label kelas unggas adalah data yang memiliki jumlah kaki dua,
habitatnya di darat, dan organ pernafasannya menggunakan paru-paru,
sedangkan label kelas ikan adalah data yang memiliki jumlah kaki nol (tidak
memiliki kaki), habitat di air, dan organ pernafasannya menggunakan
insang. Banyak algoritma yang dapat digunakan dalam pengklasifikasian
data, namun dalam penelitian ini hanya akan membandingkan tiga
algoritma saja, yakni naive bayes, nearest neighbour, dan decision tree. [7]

2.3 Hepatocellular Carcinoma


Hepatocellular Carcinoma (HCC) adalah jenis tumor yang ditemukan
di organ hati yang dikenal sebagai kanker hati primer atau hepatoma. Setiap
tahun, karsinoma hepatoseluler didiagnosis di lebih dari setengah juta
orang di seluruh dunia, Dimana sekitar tiga per empat kasus-kasus kanker
hati ditemukan di Asia Tenggara (China, Hong Kong, Taiwan, Korea, dan
Japan).
Hati terbentuk dari tipe-tipe sel yang berbeda (contohnya, pembuluh-
pembuluh empedu, pembuluh-pembuluh darah, dan sel-sel penyimpan
lemak). Sel-sel hati (hepatocytes) membentuk sampai 80% dari jaringan
hati. Lebih dari 90% kanker-kanker hati primer timbul dari sel-sel hati dan
disebut kanker hepatoselular. Apabila kanker yang dimulai dari area lain
(seperti usus besar, paru-paru atau payudara) kemudian menyebar ke hati
disebut kanker hati sekunder, kondisi ini disebut sebagai kanker metastatik.
Kanker hati primer yang berasal dari sel hati terbagi dalam beberapa tipe,
antara lain :
2.3.1 Hepatocellular carcinoma (HCC).
Kanker hati yang paling umum terjadi pada anak-anak dan orang
dewasa. Kanker ini dimulai dari hepatosit yang merupakan tipe utama sel
hati.

7
2.3.2 Cholangiocarcinoma.
Kanker ini berasal dari saluran kantung empedu.
2.3.3 Hepatoblastoma
Ini adalah tipe kanker langka yang menyerang anak-anak berusia 4
tahun ke bawah. Tipe kanker ini banyak yang berhasil disembuhkan.
2.3.4 Angiosarcoma dan hemangiosarcoma.
Tipe kanker langka ini dimulai di pembuluh darah di hati dan tumbuh
dengan sangat cepat. Walaupun organ yang seringkali diperiksa baik
melalui pemeriksaan rutin seperti ultrasonografi ataupun melalui tes darah,
ternyata mayoritas kasus hati dijumpai saat stadium sudah lanjut. Hal inilah
yang menyebabkan terapi dengan pembedahan sebagian organ hati yang
terkena tumor (partial hepatectomy) atau bahkan dengan pencangkokan
organ hati yang baru (liver transplantation) menjadi tidak memungkinkan.
Hal ini juga didukung karena banyak orang tidak memiliki tanda atau gejala
pada tahap awal kanker hati primer. Tetapi ketika memiliki tanda dan gejala,
maka yang mungkin terjadi antara lain : Penurunan berat badan,hilang
nafsu makan, sakit pada area perut bagian atas, mual dan muntah,
kelelahan dan lemah, pembesaran hati, bengkak pada area perut.
Beberapa faktor yang meningkatkan risiko kanker hati antara lain jenis
kelamin, usia, infeksi kronis, sirosis, hemochromatosis, hepatitis dan
Wilson’s disease, diabetes, nonalcoholic fatty liver disease, dan aflatoxins.
Tindakan pencegahan yang dapat dilakukan untuk menghindari penyakit
kanker hati ini seperti vaksinasi , menghindari konsumsi alkohol, terapi
dengan antivirus, melakukan screening, Tumor Marker (AFP),
Ultrasonography.
1. Vaksinasi, Vaksinasi yang dilakukan sejak usia dini ternyata terbukti
efektif dan aman dalam hal mencegah timbulnya virus hepatitis B di
tubuh.
2. Alkohol, hindari mengkonsumsi alkohol terutama bila mengkonsumsi
dalam jumlah banyak dalam jangka waktu yang lama. Penelitian sekali
lagi menunjukan bahwa penderita kronik hepatitis B dan C yang

8
mengkonsumsi alkohol akan mempercepat kerusakan sel-sel hati yang
mengarah ke sirosis dan kanker hati.
3. Antivirus, Berbagai penelitian menunjukkan bahwa bila seseorang
terkena hepatitis C kronik di usia muda, saat diterapi mampu
menghilangkan virusnya dengan cepat dan hasil laboratorium darah
menunjukkan perbaikan fungsi liver, maka golongan ini biasanya
memberikan respons yang baik dengan terapi.
4. Screening, tujuannya adalah mendeteksi adanya pertumbuhan kanker
pada saat dini, mengingat pilihan terapi termasuk pembedahan (reseksi)
maupun transplantasi menjadi tidak dimungkinkan bila ukurannya
melewati batas yang sudah ditetapkan.
5. Ultrasonography, Beberapa faktor sangat berperan pada peniliaian
hasil USG, Termasuk di sini adalah ketrampilan operator saat
menggunakan alat USG, ukuran tubuh penderita karena ukuran
seseorang yang semakin gemuk akan semakin sulit menilai kualitas
gambar USG yang dihasilkan. Terutama untuk menemukan kanker hati
stadium dini atau awal.

2.4 Algoritma usulan


Algoritma k-nearest neighbor (k-NN) adalah sebuah metode untuk
melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang
jaraknya paling dekat dengan objek tersebut. K-Nearest Neighbor
berdasarkan konsep ‘learning by analogy’. Data learning dideskripsikan
dengan atribut numerik n-dimensi. Tiap data learning merepresentasikan
sebuah titik, yang ditandai dengan c, dalam ruang n-dimensi. Jika sebuah
data query yang labelnya tidak diketahui diinputkan, maka K-Nearest
Neighbor akan mencari k buah data learning yang jaraknya paling dekat
dengan data query dalam ruang n-dimensi. Jarak antara data query dengan
data learning dihitung dengan cara mengukur jarak antara titik yang
merepresentasikan data query dengan semua titik yang merepresentasikan
data learning dengan rumus Euclidean Distance. Pada fase training,
algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan

9
klasifikasi data training sample. Pada fase klasifikasi, fitur – fitur yang sama
dihitung untuk testing data (klasifikasinya belum diketahui). Jarak dari
vektor yang baru ini terhadap seluruh vektor training sample dihitung, dan
sejumlah k buah yang paling dekat diambil. Titik yang baru klasifikasinya
diprediksikan termasuk pada klasifikasi terbanyak dari titik – titik tersebut.
Nilai k yang terbaik untuk algoritma ini tergantung pada data; secara
umumnya, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi,
tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai
k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan
menggunakan cross-validation. Kasus khusus di mana klasifikasi
diprediksikan berdasarkan data pembelajaran yang paling dekat (dengan
kata lain, k = 1) disebut algoritma nearest neighbor. Ketepatan algoritma k-
NN ini sangat dipengaruhi oleh ada atau tidaknya fitur-fitur yang tidak
relevan, atau jika bobot fitur tersebut tidak setara dengan relevansinya
terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar membahas
bagaimana memilih dan memberi bobot terhadap fitur, agar performa
klasifikasi menjadi lebih baik. K buah data learning terdekat akan
melakukan voting untuk menentukan label mayoritas. Label data query
akan ditentukan berdasarkan label mayoritas dan jika ada lebih dari satu
label mayoritas maka label data query dapat dipilih secara acak di antara
label-label mayoritas yang ada. [3]
Kemiripan data uji dengan data pelatihan didasarkan pada jaraknya.
Banyak persamaan yang dapat digunakan untuk menghitung jarak antara
data uji dan data pelatihan. diantaranya yang paling sering digunakan
adalah:

𝐷𝑖𝑠𝑡(𝑥1, 𝑥2) = √∑(𝑥1𝑖 − 𝑥2𝑖 ) (2)


𝑖=1

Keterangan:
n : jumlah data
x1 : data uji
x2 : data pembelajaran

10
Persamaan yang kedua yaitu Manhattan distance sebagai berikut :
𝑃𝑖 (𝑎𝑛) − 𝑃𝑖 (𝑛𝑐)
𝐷𝑖𝑠𝑡(𝑃𝑖 (𝑎𝑛), 𝑃𝑖 (𝑛𝑐)) = (3)
max _𝑑𝑖𝑠𝑡_𝑖
Keterangan:
pi : atribut ke-i
an : data pembelajaran
nc : data uji

2.5 Algoritma pembanding


Yang menjadi algoritma pembanding adalah Naive Bayes. Teorema
Naive Bayes adalah perhitungan statistik dengan menghitung probabilitas
kemiripan kasus lama yang ada dibasis kasus dengan kasus baru. Teorema
bayes memiliki tingkat akurasi yang tinggi dan kecepatan yang baik ketika
diterapkan pada database yang besar. Naïve bayes termasuk ke dalam
pembelajaran supervised, sehingga pada tahapan pembelajaran
dibutuhkan data awal berupa data pelatihan untuk dapat mengambil
keputusan. Pada tahapan pengklasifikasian akan dihitung nilai probabilitas
dari masing-masing label kelas yang ada terhadap masukan yang
diberikan. Label kelas yang memiliki nilai probabilitas paling besar yang
akan dijadikan label kelas data masukan tersebut. Naive bayes merupakan
perhitungan teorema bayes yang paling sederhana, karena mampu
mengurangi kompleksitas komputasi menjadi multiplikasi sederhana dari
probabilitas. Selain itu, algoritma naive bayes juga mampu menangani data
set yang memiliki banyak atribut [7]. Persamaan dari naive bayes
sebagaiberikut:
𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖)
𝑃 (𝐶𝑖 | 𝑋 ) = (1)
𝑃(1)
Keterangan :
X : Kriteria suatu kasus berdasarkan masukan
Ci : Kelas solusi pola ke-i, dimana i adalah jumlah label kelas
P(Ci|X) : Probabilitas kemunculan label kelas Ci dengan kriteria masukan X
P(X|Ci) : Probabilitas kriteria masukan X dengan label kelas Ci
P(Ci) : Probabilitas label kelas Ci

11
BAB III
PEMBAHASAN

3.1 Pemrosesan Data


dalam tahap awal unutk proses pengklasifikasian data set, proses yang di
lewati yaitu menghilangkan missing value dan pengecekan duplikasi data
yang ada di data set sehingga data set yang akan di klasifikasikan akan
mendapatkan hasil yang lebih baik dan akan terhindar dari error data saat
proses pengcodean.

3.1.1. Menghilangkan missing value


Proses penghilangan missing value di lakukan dengan dua cara , yang
pertama menggunakan weka dan yang kedua menggunakan Rstudio.
Rstudio dilakukan dengan cara memasukan coding “na.omit(nama data
frame)” , sedangkan pada weka kita cukup mencari filter dengan
nama”ReplaceMissingValue”

Gambar 3.1 Proses menghilangkan missing value dengan


menggunakan Rstudio

12
Dalam proses ini weka akan otomatis akan mengisi data yang hilang
dengan data yang terdekat dengan data tersebut.

Gambar 3.2 Proses menghilangkan missing value dengan


menggunakan WEKA

3.1.2. Mengecek duplikasi data


Dalam proses ini kita hanya perlu memasukan coding “duplicated(nama
data frame)” pada pada text editor Rstudio. kita dapat mengetahui adanya
duplikasi data dalam data set kita dengan cara, melihat hasil coding. Jika
hasilnya “FALSE” semua berarti tidak ada data yang terduplikasi namun jika
ada hasil yang keluar berupa “TRUE” berarti dalam data set tersebut ada
data yang terduplikasi.

Gambar 3.3 pengecekan duplikasi data

13
3.2 metode
metode pengklasifikasian yang di pakai didataset ini yaitu k-NN. Metode ini
di lakukan untuk pengklasifikasian seberapa banyak pasien dengan kondisi
died dan survives. Parameter yang digunakan dalam dataset ini adalah
k=7

Gambar 3.4 flowcart

3.3. Hasil pembahasan


Berdasarkan hasil pengklasifikasian yang dilakukan pada dataset HCC ini
adalah hasil dari pengklasifikasian dengan menggunakan metode k-NN

3.3.1 menggunakan k-NN


Died Survives
died 9 1
survives 12 33
Tabel 3.1 menggunakan Rstudio

14
3.3.2 menggunakan naïve bayes

Gambar 3.5 Hasil menggunakan weka

Hasil Akurasi Naïve Bayes dengan Cross Validation and Confusion Matrix

Gambar 3.6 menggunakan cros validation folds 10

15
Hasil Akurasi Naïve Bayes dengan Percentage Split and Confusion Matrix

Gambar 3.7 menggunakan Percentage Split 66%

16
BAB IV
KESIMPULAN DAN SARAN

4.1 kesimpulan
berdasarkan hasil di atas saya menarik kesimpulan bahwa metode naiive
bayes lebih baik untuk mengklasifikasi dataset di bandingkan dengan k-NN
karena hasil akurasi yang di berikan oleh naïve bayes lebih besar di
bandingkan k-NN

4.2 saran
untuk mengembangkan aplikasi selanjutnya kiranya peneliti dapat
menggunakan metode - metode yang lainya.

17
DAFTAR PUSTAKA

[1] W. Oktalisa and R. Maulida, "Hepatocellular carcinoma," Palembang.


[2] S. Abdillah, "PENERAPAN ALGORITMA DECISION TREE C4.5
UNTUK DIAGNOSA," vol. 1, no. 1, pp. 1-12.
[3] n. mariana, R. S. Redjeki and J. A. Razaq, "PENERAPAN ALGORITMA
k-NN (nearest Neighbor) UNTUK DETEKSI PENYAKIT (KANKER
SERVIKS)," DINAMIKA INFORMATIKA, vol. VII, no. 1, pp. 26-34, 2015.
[4] A. Saleh, "Implementasi Metode Klasifikasi Naïve Bayes Dalam
Memprediksi Besarnya Penggunaan Listrik Rumah Tangga," Citec
Journal, vol. 2, no. 3, pp. 207-217, 2015.
[5] S. Aswati and Y. Siagian, "MODEL RAPID APPLICATION
DEVELOPMENT DALAM RANCANG BANGUN SISTEM INFORMASI
PEMASARAN RUMAH (STUDI KASUS : PERUM PERUMNAS
CABANG MEDAN," Seminar Nasional Sistem Informasi Indonesia, no.
1, pp. 318-324, 2016.
[6] S. HIKAYAT, "TUGAS MATA KULIAH BASIS DATA PENGERTIAN
DAN PENGETAHUAN TENTANG DATA WARE HOUSE DAN DATA
MINING," Jalan Babakan Sirna No. 25 Kota Sukabumi.
[7] D. Sartika and D. . I. Sensuse, "Perbandingan Algoritma Klasifikasi
Naive Bayes, Nearest," Jatisi, vol. I, no. 2, pp. 151-161, 2017.
[8] "pt.autoimun care indonesia," 15 juli 2017. [Online]. Available:
http://autoimun.id/pengertian-dan-penjelasan-penyakit-hepatocellular-
carcinoma/.
[9] "Jenis-Jenis Data dan Metode Pengumpulan Data Terlengkap,"
pelajaran.co.id, 2016. [Online]. Available:
http://www.pelajaran.co.id/2016/14/jenis-jenis-data-dan-metode-
pengumpulan-data-terlengkap.html. [Accessed 19 April 2018].

18

Anda mungkin juga menyukai