Disusun oleh:
Aiderman Makakombo(15013020)
puji syukur di panjatkan kehadirat tuhan yang maha esa atas kasih
dan rahmatnya saya dapat menyelesaikan penelitian ini hingga selesai.
saya juga berterima kasih untuk semua pihak yang telah membantu dalam
pembuatan penelitian ini sehingga penelitian ini dapat terselesaikan tepat
waktu.
Harapan saya semoga penelitian ini dapat menambah ilmu sehingga
pembaca dapat memahami tentang cara mengklasifikasikan data dengan
menggunakan metode KNN pada dataset.
Aiderman Makakombo
DAFTAR ISI
BAB I.......................................................................................................... 1
PENDAHULUAN ........................................................................................ 1
i
pembahasan ............................................................................................ 12
4.1 kesimpulan.................................................................................. 17
ii
DAFTAR GAMBAR
Gambar 3.1 Proses menghilangkan missing value dengan
menggunakan Rstudio
Gambar 3.2 Proses menghilangkan missing value dengan
menggunakan WEKA
Gambar 3.3 pengecekan duplikasi data
Gambar 3.4 flowcart
Gambar 3.5 Hasil menggunakan weka
Gambar 3.6 menggunakan cros validation folds 10
Gambar 3.7 menggunakan Percentage Split 66%
iii
DAFTAR TABEL
Tabel 3.1 menggunakan Rstudio
iv
BAB I
PENDAHULUAN
1.1 Latar Belakang
Hepatocellular Carcinoma (HCC) adalah salah satu jenis tumor yang
di temukan dalam organ hati. Karsinoma hepatoselular (Hepatocelluar
Carcinoma = HCC) merupakan tumor ganas hati primer yang berasal dari
hepatosit, demikian pula dengan karsinoma fibrolamelar dan
hepatoblastoma. Tumor ganas hati lainnya, kolangiokasrinoma dan
sitoadenokarsinoma berasal dari sel epitel bilier, sedangkan
angiokarsinoma dan leiomiosarkoma berasal dari sel mesenkim. Dari
seluruh tumor ganas hati yang pernah didiagnosis, 85% merupakan HCC;
10% CC; dan 5% adalah jenis lainnya. Dalam dasawarsa terakhir terjadi
perkembangan yang cukup berarti menyangkut HCC, antara lain pada
modalitas terapi yang memberikan harapan untuk sekurang-kurangnya
perbaikan pada kualitas hidup pasien HCC merupakan neoplasma
malignan yang terdiri dari sel-sel yang berdiferensiasi pada hepatosit
tersebut. HCC adalah tumor yang sangat menarik untuk ditelusuri,
khususnya mengenai patogenesis penyakit, bagaimana kaitan dengan
letak geografis tempat tinggal, infeksi virus, dan agen kimia, serta gangguan
hati kronik lainnya yang juga memiliki kata kunci penting pada mekanisme
karsinogenetik [1].
Dalam bidang kesehatan data mining dapat di gunakan
mendiagnosis faktor risiko peyakit dan kemungkinan kelangsungan hidup
pasien. Data Mining adalah proses ekstraksi sebelumnya tidak dikenal dan
dipahami dari database berukuran besar dan digunakan untuk membuat
keputusan yang penting [2].
Algoritma k-Nearest Neighbor (k-NN) adalah sebuah algoritma
untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran
yang jaraknya paling dekat dengan objek tersebut. [3].
Naive Bayes merupakan sebuah pengklasifikasian probabilistik
sederhana yang menghitung sekumpulan probabilitas dengan
menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan.
1
Algoritma mengunakan teorema Bayes dan mengasumsikan semua
atribut independen atau tidak saling ketergantungan yang diberikan oleh
nilai pada variabel kelas [4]
1.3 Tujuan
1. Dengan adanya karya tulis ini pembaca dapat mengetahui informasi
faktor – faktor yang dapat menyebabkan hepatocellular carcinoma.
2. Agar dapat mengerti cara pengklasifikasian data dengan
menggunakan algoritma k-NN
1.4 Manfaat
1. Memberikan informasi tentang cara mengklasifikasikan data
menggunakan algoritma KNN.
2. Memberikan informasi agar kita dapat mengetahui probabilitas
penyakit hepatocellular carcinoma khususnya di negara Portugal.
3. Mengerti cara pengklasifikasian menggunakan algoritma k-NN
2
3
3
4
4
BAB II
STUDI PUSTAKA
2.1 Data mining
Data mining didefinisikan sebagai satu set teknik yang digunakan
secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa
ke permukaan relasirelasi yang kompleks pada set data yang sangat besar.
Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi,
seperti yang banyak diimplementasikan dalam teknologi manajemen basis
data relasional. Akan tetapi, teknik-teknik data mining dapat juga
diaplikasikan pada representasi data yang lain, seperti domain data spatial,
berbasis text, dan multimedia (citra). Data mining dapat juga didefinisikan
sebagai “pemodelan dan penemuan polapola yang tersembunyi dengan
memanfaatkan data dalam volume yang besar”. Data mining menggunakan
pendekatan discovery-based dimana pencocokan pola (patternmatching)
dan algoritmaalgoritma yang lain digunakan untuk menentukan relasirelasi
kunci di dalam data yang diekplorasi. Data mining merupakan komponen
baru pada arsitektur sistem pendukung keputusan (DSS) di
perusahaanperusahaan. Beberapa pengertian data mining yang berhasil
penulis himpun dari beberapa pendapat adalah sebagai berikut.
1. Secara sederhana dapat didefinisikan bahwa Data mining adalah
ekstraksi informasi atau pola yang penting atau menarik dari data
yang ada di database yang besar sehingga menjadi informasi yang
sangat berharga.
2. Data mining merupakan proses penemuan yang efisien sebuah pola
terbaik yang dapat menghasilkan sesuatu yang bernilai dari suatu
koleksi data yang sangat besar.
3. Data mining adalah suatu pola yang menguntungkan dalam
melakukan search pada sebuah database yang terdapat pada
sebuah model. Proses ini dilakukan berulang-ulang (iterasi) hingga
didapat satu set pola yang memuaskan yang dapat berfungsi sesuai
yang diharapkan .
5
4. Data mining adalah sebuah class dari suatu aplikasi database yang
mencari pola-pola yang tersembunyi di dalam sebuah group data
yang dapat digunakan untuk memprediksi prilaku yang akan datang.
Data mining adalah suatu kelas aplikasi database yang berfungsi
melakukan pencarian pola-pola tersembunyi di dalam suatu
kumpulan data yang bisa digunakan untuk memprediksikan trend
atau perilaku yang akan datang. Berdasarkan beberapa pengertian
diatas dapat ditarik kesimpulan bahwa data mining adalah suatu
algoritma di dalam menggali informasi berharga yang terpendam
atau tersembunyi pada suatu koleksi data (database) yang sangat
besar sehingga ditemukan suatu pola yang menarik yang
sebelumnya tidak diketahui. Oleh sebab itu istilah data mining sering
disalahgunakan untuk menggambarkan perangkat lunak yang
mengolah data dengan cara yang baru. Sebenarnya perangkat lunak
data mining bukan hanya mengganti presentasi, tetapi benarbenar
menemukan sesuatu yang sebelumnya belum diketahui menjadi
muncul diantara sekumpulan data yang ada. Bahkan dengan
menggunakan data mining dapat memprediksikan prilaku dan tren
yang akan terjadi kemudian, sehingga bias membuat para
pengusaha menjadi lebih proaktif dan dapat mengambil keputusan
dengan benar [6].
2.2 Klasifikasi
Klasifikasi adalah salah satu pembelajaran yang paling umum di data
mining. Klasifikasi didefinisikan sebagai bentuk analisis data untuk
mengekstrak model yang akan digunakan untuk memprediksi label kelas.
Kelas dalam klasifikasi merupakan atribut dalam satu set data yang paling
unik yang merupakan variabel bebas dalam statistik. Klasifikasi data terdiri
dari dua proses yaitu tahap pembelajaran dan tahap pengklasifikasian.
Tahap pembelajaran merupakan tahapan dalam pembentukan model
klasifikasi, sedangkan tahap pengklasifikasian merupakan tahapan
penggunaan model klasifikasi untuk memprediksi label kelas dari suatu
6
data. Contoh sederhana dari teknik data mining klasifikasi adalah
pengklasifikasian hewan berdasarkan atribut jumlah kaki, habitat dan organ
pernafasannya akan diklasifikasikan ke dalam dua label kelas yaitu unggas
dan ikan. Label kelas unggas adalah data yang memiliki jumlah kaki dua,
habitatnya di darat, dan organ pernafasannya menggunakan paru-paru,
sedangkan label kelas ikan adalah data yang memiliki jumlah kaki nol (tidak
memiliki kaki), habitat di air, dan organ pernafasannya menggunakan
insang. Banyak algoritma yang dapat digunakan dalam pengklasifikasian
data, namun dalam penelitian ini hanya akan membandingkan tiga
algoritma saja, yakni naive bayes, nearest neighbour, dan decision tree. [7]
7
2.3.2 Cholangiocarcinoma.
Kanker ini berasal dari saluran kantung empedu.
2.3.3 Hepatoblastoma
Ini adalah tipe kanker langka yang menyerang anak-anak berusia 4
tahun ke bawah. Tipe kanker ini banyak yang berhasil disembuhkan.
2.3.4 Angiosarcoma dan hemangiosarcoma.
Tipe kanker langka ini dimulai di pembuluh darah di hati dan tumbuh
dengan sangat cepat. Walaupun organ yang seringkali diperiksa baik
melalui pemeriksaan rutin seperti ultrasonografi ataupun melalui tes darah,
ternyata mayoritas kasus hati dijumpai saat stadium sudah lanjut. Hal inilah
yang menyebabkan terapi dengan pembedahan sebagian organ hati yang
terkena tumor (partial hepatectomy) atau bahkan dengan pencangkokan
organ hati yang baru (liver transplantation) menjadi tidak memungkinkan.
Hal ini juga didukung karena banyak orang tidak memiliki tanda atau gejala
pada tahap awal kanker hati primer. Tetapi ketika memiliki tanda dan gejala,
maka yang mungkin terjadi antara lain : Penurunan berat badan,hilang
nafsu makan, sakit pada area perut bagian atas, mual dan muntah,
kelelahan dan lemah, pembesaran hati, bengkak pada area perut.
Beberapa faktor yang meningkatkan risiko kanker hati antara lain jenis
kelamin, usia, infeksi kronis, sirosis, hemochromatosis, hepatitis dan
Wilson’s disease, diabetes, nonalcoholic fatty liver disease, dan aflatoxins.
Tindakan pencegahan yang dapat dilakukan untuk menghindari penyakit
kanker hati ini seperti vaksinasi , menghindari konsumsi alkohol, terapi
dengan antivirus, melakukan screening, Tumor Marker (AFP),
Ultrasonography.
1. Vaksinasi, Vaksinasi yang dilakukan sejak usia dini ternyata terbukti
efektif dan aman dalam hal mencegah timbulnya virus hepatitis B di
tubuh.
2. Alkohol, hindari mengkonsumsi alkohol terutama bila mengkonsumsi
dalam jumlah banyak dalam jangka waktu yang lama. Penelitian sekali
lagi menunjukan bahwa penderita kronik hepatitis B dan C yang
8
mengkonsumsi alkohol akan mempercepat kerusakan sel-sel hati yang
mengarah ke sirosis dan kanker hati.
3. Antivirus, Berbagai penelitian menunjukkan bahwa bila seseorang
terkena hepatitis C kronik di usia muda, saat diterapi mampu
menghilangkan virusnya dengan cepat dan hasil laboratorium darah
menunjukkan perbaikan fungsi liver, maka golongan ini biasanya
memberikan respons yang baik dengan terapi.
4. Screening, tujuannya adalah mendeteksi adanya pertumbuhan kanker
pada saat dini, mengingat pilihan terapi termasuk pembedahan (reseksi)
maupun transplantasi menjadi tidak dimungkinkan bila ukurannya
melewati batas yang sudah ditetapkan.
5. Ultrasonography, Beberapa faktor sangat berperan pada peniliaian
hasil USG, Termasuk di sini adalah ketrampilan operator saat
menggunakan alat USG, ukuran tubuh penderita karena ukuran
seseorang yang semakin gemuk akan semakin sulit menilai kualitas
gambar USG yang dihasilkan. Terutama untuk menemukan kanker hati
stadium dini atau awal.
9
klasifikasi data training sample. Pada fase klasifikasi, fitur – fitur yang sama
dihitung untuk testing data (klasifikasinya belum diketahui). Jarak dari
vektor yang baru ini terhadap seluruh vektor training sample dihitung, dan
sejumlah k buah yang paling dekat diambil. Titik yang baru klasifikasinya
diprediksikan termasuk pada klasifikasi terbanyak dari titik – titik tersebut.
Nilai k yang terbaik untuk algoritma ini tergantung pada data; secara
umumnya, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi,
tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai
k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan
menggunakan cross-validation. Kasus khusus di mana klasifikasi
diprediksikan berdasarkan data pembelajaran yang paling dekat (dengan
kata lain, k = 1) disebut algoritma nearest neighbor. Ketepatan algoritma k-
NN ini sangat dipengaruhi oleh ada atau tidaknya fitur-fitur yang tidak
relevan, atau jika bobot fitur tersebut tidak setara dengan relevansinya
terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar membahas
bagaimana memilih dan memberi bobot terhadap fitur, agar performa
klasifikasi menjadi lebih baik. K buah data learning terdekat akan
melakukan voting untuk menentukan label mayoritas. Label data query
akan ditentukan berdasarkan label mayoritas dan jika ada lebih dari satu
label mayoritas maka label data query dapat dipilih secara acak di antara
label-label mayoritas yang ada. [3]
Kemiripan data uji dengan data pelatihan didasarkan pada jaraknya.
Banyak persamaan yang dapat digunakan untuk menghitung jarak antara
data uji dan data pelatihan. diantaranya yang paling sering digunakan
adalah:
Keterangan:
n : jumlah data
x1 : data uji
x2 : data pembelajaran
10
Persamaan yang kedua yaitu Manhattan distance sebagai berikut :
𝑃𝑖 (𝑎𝑛) − 𝑃𝑖 (𝑛𝑐)
𝐷𝑖𝑠𝑡(𝑃𝑖 (𝑎𝑛), 𝑃𝑖 (𝑛𝑐)) = (3)
max _𝑑𝑖𝑠𝑡_𝑖
Keterangan:
pi : atribut ke-i
an : data pembelajaran
nc : data uji
11
BAB III
PEMBAHASAN
12
Dalam proses ini weka akan otomatis akan mengisi data yang hilang
dengan data yang terdekat dengan data tersebut.
13
3.2 metode
metode pengklasifikasian yang di pakai didataset ini yaitu k-NN. Metode ini
di lakukan untuk pengklasifikasian seberapa banyak pasien dengan kondisi
died dan survives. Parameter yang digunakan dalam dataset ini adalah
k=7
14
3.3.2 menggunakan naïve bayes
Hasil Akurasi Naïve Bayes dengan Cross Validation and Confusion Matrix
15
Hasil Akurasi Naïve Bayes dengan Percentage Split and Confusion Matrix
16
BAB IV
KESIMPULAN DAN SARAN
4.1 kesimpulan
berdasarkan hasil di atas saya menarik kesimpulan bahwa metode naiive
bayes lebih baik untuk mengklasifikasi dataset di bandingkan dengan k-NN
karena hasil akurasi yang di berikan oleh naïve bayes lebih besar di
bandingkan k-NN
4.2 saran
untuk mengembangkan aplikasi selanjutnya kiranya peneliti dapat
menggunakan metode - metode yang lainya.
17
DAFTAR PUSTAKA
18