Disusun Oleh:
Seperti yang kita ketahui bersama bahwa machine learning dapat melakukan prediksi
dengan mempelajari data-data historical yang telah tersedia.
Contoh dalam memprediksi seekor hewan yang tampak dari kejauhan, memprediksi apakah
hewan tersebut adalah seekor kucing ?
Dalam melakukan Analisa terhadap objek yang akan diprediksi, maka diperlukan beberapa
data pengetahuan dari masing-masing objek. Seperti contoh pada kasus prediksi objek
kucing, ada beberapa atribut yang harus diperhatikan ;
Dan dari beberapa atribut atau karakteristik dari dua objek tersebut ternyata yang memiliki
kedekatan/ korelasi yang sangat signifikan adalah sharp claws, uses to climb dan bigger
length of ears.
2
Selanjutnya, kita posisikan objek yang akan kita prediksi ke dalam grafik kluster di atas,
menurut analisa, objek yang kita amati memiliki kuku yang tajam dan telinganya sedikit lebih
Panjang. Dan ternyata posisi objek kita adalah sebagai berikut :
Amati dengan seksama, objek yang kita prediksi lebih condong berada dalam lingkaran data
kucing atau anjing. Dengan memprehatikan jumlah objek lain yang terdekat, maka bisa
simpulkan dengan objek tetangga terbanyak, maka objek kita berada pada kluster kucing.
Dan kita prediksi bahwa objek tersebut adalah seekor kucing.
Kenapa menggunakan KNN ? Karena KNN berdasar pada fitur kesamaan, dan kita dapat
melakukan klasifikasi menggunakan KNN classifier.
2. WHAT IS KNN ?
KNN adalah algoritma supervised machine learning yang sederhana dan banyak digunakan
untuk melakukan klasifikasi.
KNN mengelompokkan seluruh data historical yang tersedia dan mengklasifikasikan data
baru berdasarkan pengukuran kesamaan.
K di KNN adalah parameter yang mengacu pada jumlah tetangga terdekat untuk
dimasukkan dalam proses pemungutan suara mayoritas.
Misalkan K=5, Artinya Titik data diklasifikasikan oleh suara mayoritas dari 5 tetangga
terdekatnya.
3
Contoh :
Di sini, titik yang tidak diketahui akan diklasifikasikan sebagai merah, karena 4 dari 5
tetangga berwarna merah.
Diberikan dataset dengan 2 variabel : length (cm) dan berat (kg) dan setiap titik
diklasifikasikan sebagai normal atau kurang berat badan.
4
Atas dasar data yang diberikan, kita harus mengklasifikasikan set di bawah ini sebagai
normal atau kurang berat badan menggunakan KNN.
Oleh karena itu, kita telah menghitung jarak Euclidean dari titik data yang tidak diketahui
dari semua titik seperti yang ditunjukkan.
5
Kita memiliki n=10 dan sqrt(10)=3.1. Maka dari itu kita gunakan K = 3
Jadi, tetangga mayoritas menunjuk kea rah ‘normal’
Oleh karena itu, sesuai algoritma KNN kelas (57, 170) harus ‘normal’
Rekap KNN
1. K bilangan bulat positif ditentukan, bersama dengan sampel baru
2. Kami memilih entri k dalam database kami yang paling dekat dengan sampel baru
3. Kami menemukan klasifikasi yang paling umum dari entri ini
4. Ini adalah klasifikasi yang kami berikan untuk sampel baru
Tujuan : memprediksi apakah seseorang akan didiagnosis menderita diabetes atau tidak.
Kami memiliki kumpulan data 768 orang yang atau tidak didiagnosis menderita diabetes.
6
7
8
K Nearest Neighbor (KNN) Algorithm Explained
Oleh Dr. Rajesh Kumar
Data Science Head at SCG Chemicals
1. Machine learning
Machine learning adalah bagian dari kecerdasan buatan yang memberikan kemampuan
pada mesin belajar secara otomatis dan meningkatkan dari pengalaman.
Apa itu kecerdasan buatan ? intinya jika kita terapkan kebiasaan kita sebagai manusia,
Bahasa kita, cara kita bekerja, dan lain-lain kedalam mesin dan mesin tersebut
berperilaku layaknya manusia.
Machine learning merupakan cara mesin belajar dari sejarah atau dari pengalaman
seperti yang kita pelajari sebagai manusia .
Ada banyak sekali manfaat dan kegunaan dari machine learning, seperti untuk
memprediksi harga beberapa tahun kedepan untuk keperluan usaha/ bisnis.
9
3. KNN Algorithm
Cara menghitung Euclidean distance sama halnya seperti yang dijelaskan oleh materi
simplilearn.
5. Hands – On
10
11
12
13
14
15
16