Anda di halaman 1dari 9

MANAJEMEN DATA & INFORMASI

K-Nearest Neighbors (KNN)

Disusun oleh :

Hertas Jelang Ramadhani (22STI9005)

Institut Teknologi & Bisnis Semarang

2023
K-Nearest Neighbors (KNN)
 Algoritma K-Nearest Neighbors (KNN) – Pengertian dan Penerapan

Algoritma K-Nearest Neighbor (KNN) merupakan algoritma machine learning sederhana dan
mudah diterapkan yang dapat digunakan untuk menyelesaikan masalah klasifikasi dan regresi.
Algoritma ini termasuk dalam jenis supervised learning.

 Pengertian K-Nearest Neighbor (KNN)

Algoritma K-Nearest Neighbor (KNN) adalah algoritma machine learning yang bersifat non-
parametric dan lazy learning. Metode yang bersifat non-parametric memiliki makna bahwa
metode tersebut tidak membuat asumsi apa pun tentang distribusi data yang mendasarinya.
Dengan kata lain, tidak ada jumlah parameter atau estimasi parameter yang tetap dalam model,
terlepas data tersebut berukuran kecil ataupun besar.

 Non-parametric algorithm

Algoritma non-parametric seperti KNN menggunakan sejumlah parameter yang fleksibel, dan
jumlah parameter seringkali bertambah seiring data yang semakin banyak. Algoritma non-
parametric secara komputasi lebih lambat, tetapi membuat lebih sedikit asumsi tentang data.
Algoritma KNN juga bersifat lazy learning, yang artinya tidak menggunakan titik data training
untuk membuat model. Singkatnya pada algoritma KNN tidak ada fase training, kalaupun ada
juga sangat minim. Semua data training digunakan pada tahap testing. Hal ini membuat proses
training lebih cepat dan tahap testing lebih lambat dan cenderung ‘mahal’ atau membutuhkan
banyak cost dari sisi waktu dan memori. Dalam kasus terburuk, KNN membutuhkan lebih banyak
waktu untuk memindai semua titik data. Proses ini juga akan membutuhkan lebih banyak
memori untuk menyimpan data training.

K-Nearest Neighbor termasuk salah satu algoritma paling sederhana yang digunakan dalam
machine learning untuk regresi dan klasifikasi. KNN mengikuti strategi “bird of a feather” dalam
menentukan di mana data baru sebaiknya ditempatkan. Algoritma KNN mengasumsikan bahwa
sesuatu yang mirip akan ada dalam jarak yang berdekatan atau bertetangga. Artinya data-data
yang cenderung serupa akan dekat satu sama lain. KNN menggunakan semua data yang tersedia
dan mengklasifikasikan data atau kasus baru berdasarkan ukuran kesamaan atau fungsi jarak.
Data baru kemudian ditugaskan ke kelas tempat sebagian besar data tetangga berada.
 Pengaplikasian Algoritma KNN mengunakan Excel

Cara Menghitung Distance Algoritma k-NN Di Excel

1. Persiapan Data
Data latih adalah data atau informasi yang diambil dari waktu sebelumnya yang sudah di
ketahui kelas atau labelnya. berikut adalah contoh dari data latih yang akan di klasifikasikan
dengan algoritma k-NN.

Data latih yang digunakan diatas memiliki 6 atribut data yang bertipe numerik. Dan untuk atribut
kelasnya saya menggunakan angka 1 untuk kategori Keluar dan angka 2 untuk Lulus.

2. Hitung Normalisasi
Tahap selanjutnya adalah kamu buat tabel untuk perhitungan normalisasinya. Rumus dari
normalisasinya sendiri adalah

Dimana data x adalah baris pertama dari satu atribut data latih, kemudian data min adalah
nilai terkecil dari seluru data pada atribut x berlaku juga untuk data max yang mencari nilai
terbesar dari semua atribut data x. Dibawah ini adalah contoh dari perhitungan atribut
Jumlah MK dari baris kesatu.
i) Formula atau Rumus Excel adalah
# =( Baris 1 atribut Jumlah MK - MIN(Blok Kolom Jumlah MK ) / ( MAX( Blok Kolom
Jumlah MK) - MIN(Blok Kolom Jumlah MK ).
# atau dalam rumus manual seperti dibawah ini
~Baris kesatu atribut Jumlah MK = 60
~Angka minimal = 35
~Angka Maksimal = 66, maka
=(60-35) / (66-35)
Lakukan perhitungan tersebut pada masing-masing semua atribut, dan pastikan hasil yang
diperoleh interval antara angka 0 s/d 1 seperti hasil yang sudah saya peroleh dibawah ini.

3. Euclidean Distance atau jarak


Tahap selanjutnya adalah menghitung jarak euclidean, adalah dengan rumus seperti

Dengan memperhatikan konsep rumus diatas maka kita harus memiliki data uji baru untuk di
klasifikasikan jarak eulicedan-nya.
Jumlah MK = 50, ACsensi = 48,00, Jumlah SKS 1-3 = 100, IPS S1 = 2, IPS S2 = 2.1, IPS S3 = 1.5

Data diatas adalah data uji atau data baru yang belum diketahui atribut kelasnya yaitu Lulus
atau Tidak Lulus. Untuk penulisan Formula atau Rumus excelnya adalah sebagai berikut.

=SQRT((Baris satu normalisasi atribut Jumlah MK - Nilai Data uji atribut Jumlah MK)^2 +
rumus yang sama untuk atribut yang lainnya. Contoh ;

=SQRT((0.8045 - 50)^2 + (0.28182 - 48,00)^2 + (0.91026 - 100)^2 + (0.36245 - 2)^2 + (0 -


2.1)^2 + (0 - 1.5 ) ^2) Hasilnya adalah 120.52.
Lakukan perhitungan tersebut pada semua data dari masing-masing barisnya. Dan dibawah
ini adalah contoh tabel hasil perhitungan Euclidean Distance.
4. Menghitung nilai k atau nilai tetangga terdekat.
Tahapan ini adalah menentukan atau pemilihan nilai distance terkecil yang masuk peringkat
sejumlah nilai k. Misalnya jika nilai k adalah 2 maka harus mencari nilai distance terkecil
sebanyak dua nilai.
Contoh : Nilai k = 1 maka kita ambil satu nilai distance terkecil yaitu 120.393 dan nilai ini
memiliki atribut kelas nomor 2 maka statusnya adalah Lulus (Lihat Tabel Diatas)

Bagaimana menentukan atribut kelasnya ?. Untuk menentukan atribut kelasnya maka kita
hanya memvoting dari semua nilai k yang telah ditentukan. Untuk Formula / Rumus Excelnya
adalah seperti ini.

=IF(Baris satu nilai Distance <= SMALL(Blok semua kolom disctance, Nilai k), Baris satu
atribut Kelas, "")

Contoh dengan nilai k = 1

=IF(120,52 <= SMALL(Blok baris satu sampai terakhir, 1), kolom atribut kelas baris 1, "")
hasilnya jika bukan nilai terkecil maka kolom akan kosong dan jika nilai nya adalah nilai
terkecil maka akan muncul atribut kelas nya.

Tabel dibawah ini adalah contoh penentuan nilai k = 1, k = 5 dan k = 9.

KESIMPULAN

Dengan 4 tahap perhitungan k-NN dengan menggunakan excel maka selesai sudah proses
perhitungannya. Nah, sedangkan untuk menentukan hasil akhirnya adalah kamu voting atribut
kelas mana yang paling banyak muncul. Contoh diatas menunjukkan bahwa atribut kelas nomor
2 atau Lulus yang paling banyak muncul.

Dengan begitu maka dapat disimpul kan bahwa suatu data dengan nilai

Jumlah MK = 50, ACsensi = 48,00, Jumlah SKS 1-3 = 100, IPS S1 = 2, IPS S2 = 2.1, IPS S3 = 1.5

Maka hasilnya prediksinya adalah Lulus.


Algoritma Naive Bayes

 Definisi Algoritma Naive Bayes


Naive Bayes adalah kumpulan algoritma yang disusun berdasarkan Teorema Bayes. Nah,
Teorema Bayes sendiri merupakan model matematika dengan dasar statistik dan
probabilitas. Meski bukan suatu hal yang baru, algoritma ini tetap relevan dengan machine
learning (ML) yang berkembang belakangan ini, terutama yang masih berkaitan dengan
masalah NLP atau natural language processing. Namun, sebenarnya apa itu algoritma Naive
Bayes?
Apa Itu Naive Bayes?
Naive Bayes, atau kadang disebut Naïve Bayes Classifier, adalah algoritma machine learning
probabilistik yang digunakan dalam berbagai macam tugas klasifikasi. Untuk bisa memahami
algoritma ini, berikut rumus umum Teorema Bayes yang menjadi dasar dari Naive Bayes
berikut:

Sederhananya, Teorema Bayes membantu Anda untuk bisa mengetahui sebuah probabilitas
dengan menghitung probabilitas lain yang masih berkaitan. Setelah diterapkan pada
algoritma Naive Bayes, rumus ini menghasilkan suatu asumsi dasar. Dalam melihat sebuah
fitur, algoritma ini selalu berasumsi bahwa fitur tersebut mandiri, setara, dan memiliki
kontribusi pada hasil.
 Contoh pengaplikasihan Algoritma Naive Bayes pada Excel
Rumus Excel Menghitung Naive Bayes Classifier
Pada kasus ini yang akan saya jelaskan adalah bagaimana menghitung naive bayes pada
kasus data bertipe kategorik atau kategorikal.

1. Persiapan Data

2. Hitung Probabilitas Kelasnya

Selanjutnya adalah menghitung nilai probabilitas atau peluang dari setiap kelasnya. Disini kita
akan menggunakan formula COUNTIF dan COUNTA.

=COUNTIF(Blok atribut Kolom Kelas;"Tepat"/COUNTA(Blok atribut Kolom Kelas) kemudian ENTER.


dan untuk atribut kelas Terlambat maka kita hanya mengganti "Tepat" menjadi "Terlambat" dengan
formula yang sama. Berikut hasil dari perhitungannya

3. Hitung Probabilitas Setiap Atributnya

Selanjutnya adalah menghitung nilai peluang dari masing-masing atributnya. Dari set data yang
terdapat pada poin 1 memiliki 6 atribut data yaitu, Jenis Kelamin, Program, Cuti, Asal SMA, Nikah
dan Asal Daerah.

Rumus Naive Bayes adalah


Lalu Bagaimana cara kita menerapkan rumus tersebut di excel ?

Jawabna adalah Diterapkan dengan menggunakan fungsi COUNTIF, COUNTIFS

Pertama adalah kalian buat tabel tersendiri untuk memisahkan disetiap atributnya. Contoh dibawah
ini adalah tabel untuk atribut Jenis Kelamin.

# Rumus 1 adalah Jumlah Jenis Kelamin Laki-laki dengan Kelas Tepat dibagi Jumlah Kelas Tepat.
Maka tuliskan formula di excelnya adalah

=COUNTIFS(Blok Kolom Jenis Kelamin,"Laki-Laki",Blok Kolom Kelas,"Tepat") / COUNTIF(Blok Kolom


Kelas,"Tepat")

# Rumus 2 adalah Jumlah Jenis Kelamin Laki-laki dengan Kelas Terlambat dibagi Jumlah Kelas
Terlambat. Maka tuliskan formula di excelnya adalah

=COUNTIFS(Blok Kolom Jenis Kelamin,"Laki-Laki",Blok Kolom Kelas,"Terlambat") / COUNTIF(Blok


Kolom Kelas,"Terlambat")

Next untuk Rumus 3 dan Rumus 4 sama dengan penggunaan Rumus 1 dan 2, hanya saja kalian ganti
bagian "Laki-Laki" menjadi "Perempuan"

Selanjutnya untuk Atribut yang lainnya buat tabel seperti diatas dan kalian hanya tinggal
menyesuaikan dengan cara mengkondisikan nama-nama dari masing-masing setiap atribut.
DAFTAR PUSTAKA

https://www.pengalaman-edukasi.com/2020/10/hitung-knn-dengan-excel.html?m=1

https://blog.algorit.ma/algoritma-naive-bayes/

Anda mungkin juga menyukai