Algoritma KNN&Naive Bayes

MANAJEMEN DATA & INFORMASI
K-Nearest Neighbors (KNN)
Disusun oleh :
Hertas Jelang Ramadhani (22STI9005)
Institut Teknologi & Bisnis Semarang
2023
K-Nearest Neighbors (KNN)
 Algoritma K-Nearest Neighbors (KNN) – Pengertian dan Penerapan
Algoritma K-Nearest Neighbor (KNN) merupakan algoritma machine learning sederhana dan
mudah diterapkan yang dapat digunakan untuk menyelesaikan masalah klasifikasi dan regresi.
Algoritma ini termasuk dalam jenis supervised learning.
 Pengertian K-Nearest Neighbor (KNN)
Algoritma K-Nearest Neighbor (KNN) adalah algoritma machine learning yang bersifat non-
parametric dan lazy learning. Metode yang bersifat non-parametric memiliki makna bahwa
metode tersebut tidak membuat asumsi apa pun tentang distribusi data yang mendasarinya.
Dengan kata lain, tidak ada jumlah parameter atau estimasi parameter yang tetap dalam model,
terlepas data tersebut berukuran kecil ataupun besar.
 Non-parametric algorithm
Algoritma non-parametric seperti KNN menggunakan sejumlah parameter yang fleksibel, dan
jumlah parameter seringkali bertambah seiring data yang semakin banyak. Algoritma non-
parametric secara komputasi lebih lambat, tetapi membuat lebih sedikit asumsi tentang data.
Algoritma KNN juga bersifat lazy learning, yang artinya tidak menggunakan titik data training
untuk membuat model. Singkatnya pada algoritma KNN tidak ada fase training, kalaupun ada
juga sangat minim. Semua data training digunakan pada tahap testing. Hal ini membuat proses
training lebih cepat dan tahap testing lebih lambat dan cenderung ‘mahal’ atau membutuhkan
banyak cost dari sisi waktu dan memori. Dalam kasus terburuk, KNN membutuhkan lebih banyak
waktu untuk memindai semua titik data. Proses ini juga akan membutuhkan lebih banyak
memori untuk menyimpan data training.
K-Nearest Neighbor termasuk salah satu algoritma paling sederhana yang digunakan dalam
machine learning untuk regresi dan klasifikasi. KNN mengikuti strategi “bird of a feather” dalam
menentukan di mana data baru sebaiknya ditempatkan. Algoritma KNN mengasumsikan bahwa
sesuatu yang mirip akan ada dalam jarak yang berdekatan atau bertetangga. Artinya data-data
yang cenderung serupa akan dekat satu sama lain. KNN menggunakan semua data yang tersedia
dan mengklasifikasikan data atau kasus baru berdasarkan ukuran kesamaan atau fungsi jarak.
Data baru kemudian ditugaskan ke kelas tempat sebagian besar data tetangga berada.
 Pengaplikasian Algoritma KNN mengunakan Excel
Cara Menghitung Distance Algoritma k-NN Di Excel
1. Persiapan Data
Data latih adalah data atau informasi yang diambil dari waktu sebelumnya yang sudah di
ketahui kelas atau labelnya. berikut adalah contoh dari data latih yang akan di klasifikasikan
dengan algoritma k-NN.
Data latih yang digunakan diatas memiliki 6 atribut data yang bertipe numerik. Dan untuk atribut
kelasnya saya menggunakan angka 1 untuk kategori Keluar dan angka 2 untuk Lulus.
2. Hitung Normalisasi
Tahap selanjutnya adalah kamu buat tabel untuk perhitungan normalisasinya. Rumus dari
normalisasinya sendiri adalah
Dimana data x adalah baris pertama dari satu atribut data latih, kemudian data min adalah
nilai terkecil dari seluru data pada atribut x berlaku juga untuk data max yang mencari nilai
terbesar dari semua atribut data x. Dibawah ini adalah contoh dari perhitungan atribut
Jumlah MK dari baris kesatu.
i) Formula atau Rumus Excel adalah
# =( Baris 1 atribut Jumlah MK - MIN(Blok Kolom Jumlah MK ) / ( MAX( Blok Kolom
Jumlah MK) - MIN(Blok Kolom Jumlah MK ).
# atau dalam rumus manual seperti dibawah ini
~Baris kesatu atribut Jumlah MK = 60
~Angka minimal = 35
~Angka Maksimal = 66, maka
=(60-35) / (66-35)
Lakukan perhitungan tersebut pada masing-masing semua atribut, dan pastikan hasil yang
diperoleh interval antara angka 0 s/d 1 seperti hasil yang sudah saya peroleh dibawah ini.
3. Euclidean Distance atau jarak

Tahap selanjutnya adalah menghitung jarak euclidean, adalah dengan rumus seperti
Dengan memperhatikan konsep rumus diatas maka kita harus memiliki data uji baru untuk di
klasifikasikan jarak eulicedan-nya.
Jumlah MK = 50, ACsensi = 48,00, Jumlah SKS 1-3 = 100, IPS S1 = 2, IPS S2 = 2.1, IPS S3 = 1.5
Data diatas adalah data uji atau data baru yang belum diketahui atribut kelasnya yaitu Lulus
atau Tidak Lulus. Untuk penulisan Formula atau Rumus excelnya adalah sebagai berikut.
=SQRT((Baris satu normalisasi atribut Jumlah MK - Nilai Data uji atribut Jumlah MK)^2 +
rumus yang sama untuk atribut yang lainnya. Contoh ;
=SQRT((0.8045 - 50)^2 + (0.28182 - 48,00)^2 + (0.91026 - 100)^2 + (0.36245 - 2)^2 + (0 -

2.1)^2 + (0 - 1.5 ) ^2) Hasilnya adalah 120.52.
Lakukan perhitungan tersebut pada semua data dari masing-masing barisnya. Dan dibawah
ini adalah contoh tabel hasil perhitungan Euclidean Distance.
4. Menghitung nilai k atau nilai tetangga terdekat.
Tahapan ini adalah menentukan atau pemilihan nilai distance terkecil yang masuk peringkat
sejumlah nilai k. Misalnya jika nilai k adalah 2 maka harus mencari nilai distance terkecil
sebanyak dua nilai.
Contoh : Nilai k = 1 maka kita ambil satu nilai distance terkecil yaitu 120.393 dan nilai ini
memiliki atribut kelas nomor 2 maka statusnya adalah Lulus (Lihat Tabel Diatas)
Bagaimana menentukan atribut kelasnya ?. Untuk menentukan atribut kelasnya maka kita
hanya memvoting dari semua nilai k yang telah ditentukan. Untuk Formula / Rumus Excelnya
adalah seperti ini.
=IF(Baris satu nilai Distance <= SMALL(Blok semua kolom disctance, Nilai k), Baris satu
atribut Kelas, "")
Contoh dengan nilai k = 1
=IF(120,52 <= SMALL(Blok baris satu sampai terakhir, 1), kolom atribut kelas baris 1, "")
hasilnya jika bukan nilai terkecil maka kolom akan kosong dan jika nilai nya adalah nilai
terkecil maka akan muncul atribut kelas nya.
Tabel dibawah ini adalah contoh penentuan nilai k = 1, k = 5 dan k = 9.
KESIMPULAN
Dengan 4 tahap perhitungan k-NN dengan menggunakan excel maka selesai sudah proses
perhitungannya. Nah, sedangkan untuk menentukan hasil akhirnya adalah kamu voting atribut
kelas mana yang paling banyak muncul. Contoh diatas menunjukkan bahwa atribut kelas nomor
2 atau Lulus yang paling banyak muncul.
Dengan begitu maka dapat disimpul kan bahwa suatu data dengan nilai
Jumlah MK = 50, ACsensi = 48,00, Jumlah SKS 1-3 = 100, IPS S1 = 2, IPS S2 = 2.1, IPS S3 = 1.5
Maka hasilnya prediksinya adalah Lulus.

Algoritma Naive Bayes
 Definisi Algoritma Naive Bayes

Naive Bayes adalah kumpulan algoritma yang disusun berdasarkan Teorema Bayes. Nah,
Teorema Bayes sendiri merupakan model matematika dengan dasar statistik dan
probabilitas. Meski bukan suatu hal yang baru, algoritma ini tetap relevan dengan machine
learning (ML) yang berkembang belakangan ini, terutama yang masih berkaitan dengan
masalah NLP atau natural language processing. Namun, sebenarnya apa itu algoritma Naive
Bayes?
Apa Itu Naive Bayes?
Naive Bayes, atau kadang disebut Naïve Bayes Classifier, adalah algoritma machine learning
probabilistik yang digunakan dalam berbagai macam tugas klasifikasi. Untuk bisa memahami
algoritma ini, berikut rumus umum Teorema Bayes yang menjadi dasar dari Naive Bayes
berikut:
Sederhananya, Teorema Bayes membantu Anda untuk bisa mengetahui sebuah probabilitas
dengan menghitung probabilitas lain yang masih berkaitan. Setelah diterapkan pada
algoritma Naive Bayes, rumus ini menghasilkan suatu asumsi dasar. Dalam melihat sebuah
fitur, algoritma ini selalu berasumsi bahwa fitur tersebut mandiri, setara, dan memiliki
kontribusi pada hasil.
 Contoh pengaplikasihan Algoritma Naive Bayes pada Excel
Rumus Excel Menghitung Naive Bayes Classifier
Pada kasus ini yang akan saya jelaskan adalah bagaimana menghitung naive bayes pada
kasus data bertipe kategorik atau kategorikal.
1. Persiapan Data
2. Hitung Probabilitas Kelasnya
Selanjutnya adalah menghitung nilai probabilitas atau peluang dari setiap kelasnya. Disini kita
akan menggunakan formula COUNTIF dan COUNTA.
=COUNTIF(Blok atribut Kolom Kelas;"Tepat"/COUNTA(Blok atribut Kolom Kelas) kemudian ENTER.

dan untuk atribut kelas Terlambat maka kita hanya mengganti "Tepat" menjadi "Terlambat" dengan
formula yang sama. Berikut hasil dari perhitungannya
3. Hitung Probabilitas Setiap Atributnya
Selanjutnya adalah menghitung nilai peluang dari masing-masing atributnya. Dari set data yang
terdapat pada poin 1 memiliki 6 atribut data yaitu, Jenis Kelamin, Program, Cuti, Asal SMA, Nikah
dan Asal Daerah.
Rumus Naive Bayes adalah

Lalu Bagaimana cara kita menerapkan rumus tersebut di excel ?
Jawabna adalah Diterapkan dengan menggunakan fungsi COUNTIF, COUNTIFS
Pertama adalah kalian buat tabel tersendiri untuk memisahkan disetiap atributnya. Contoh dibawah
ini adalah tabel untuk atribut Jenis Kelamin.
# Rumus 1 adalah Jumlah Jenis Kelamin Laki-laki dengan Kelas Tepat dibagi Jumlah Kelas Tepat.
Maka tuliskan formula di excelnya adalah
=COUNTIFS(Blok Kolom Jenis Kelamin,"Laki-Laki",Blok Kolom Kelas,"Tepat") / COUNTIF(Blok Kolom

Kelas,"Tepat")
# Rumus 2 adalah Jumlah Jenis Kelamin Laki-laki dengan Kelas Terlambat dibagi Jumlah Kelas
Terlambat. Maka tuliskan formula di excelnya adalah
=COUNTIFS(Blok Kolom Jenis Kelamin,"Laki-Laki",Blok Kolom Kelas,"Terlambat") / COUNTIF(Blok

Kolom Kelas,"Terlambat")
Next untuk Rumus 3 dan Rumus 4 sama dengan penggunaan Rumus 1 dan 2, hanya saja kalian ganti
bagian "Laki-Laki" menjadi "Perempuan"
Selanjutnya untuk Atribut yang lainnya buat tabel seperti diatas dan kalian hanya tinggal
menyesuaikan dengan cara mengkondisikan nama-nama dari masing-masing setiap atribut.
DAFTAR PUSTAKA
https://www.pengalaman-edukasi.com/2020/10/hitung-knn-dengan-excel.html?m=1
https://blog.algorit.ma/algoritma-naive-bayes/

Algoritma KNN&Naive Bayes

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Algoritma KNN&Naive Bayes

Diunggah oleh

Hak Cipta:

Format Tersedia

MANAJEMEN DATA & INFORMASI

K-Nearest Neighbors (KNN)

Hertas Jelang Ramadhani (22STI9005)

Institut Teknologi & Bisnis Semarang

 Pengertian K-Nearest Neighbor (KNN)

Cara Menghitung Distance Algoritma k-NN Di Excel

3. Euclidean Distance atau jarak

=SQRT((0.8045 - 50)^2 + (0.28182 - 48,00)^2 + (0.91026 - 100)^2 + (0.36245 - 2)^2 + (0 -

Contoh dengan nilai k = 1

Tabel dibawah ini adalah contoh penentuan nilai k = 1, k = 5 dan k = 9.

Maka hasilnya prediksinya adalah Lulus.

 Definisi Algoritma Naive Bayes

2. Hitung Probabilitas Kelasnya

=COUNTIF(Blok atribut Kolom Kelas;"Tepat"/COUNTA(Blok atribut Kolom Kelas) kemudian ENTER.

3. Hitung Probabilitas Setiap Atributnya

Rumus Naive Bayes adalah

Jawabna adalah Diterapkan dengan menggunakan fungsi COUNTIF, COUNTIFS

=COUNTIFS(Blok Kolom Jenis Kelamin,"Laki-Laki",Blok Kolom Kelas,"Tepat") / COUNTIF(Blok Kolom

=COUNTIFS(Blok Kolom Jenis Kelamin,"Laki-Laki",Blok Kolom Kelas,"Terlambat") / COUNTIF(Blok

Anda mungkin juga menyukai