Lihat diskusi, statistik, dan profil penulis untuk publikasi ini di: https://www.researchgate.net/publication/357235411
KUTIPAN MEMBACA
4 1,046
3 penulis:
LIHAT PROFIL
Semua konten yang mengikuti halaman ini diunggah oleh Jogeswar Tripathy pada 02 Februari 2022.
Abstract- Data mining adalah proses mendapatkan basis data, gudang data. Di sini, entah bagaimana server
pengetahuan dan informasi dari data dalam jumlah yang bertanggung jawab untuk mengambil data pengguna sesuai
sangat besar. Data mining sebagian besar digunakan dengan basis pengetahuan permintaan data mining
untuk analisis data. Dalam Data Mining, berbagai teknik pengguna.
digunakan seperti association mining, regresi, prediksi, Dalam pembelajaran mesin, akurasi prediksi
klasifikasi, pengelompokan, dll. Klasifikasi algoritma kategorisasi yang berasal dari data empiris
dideskripsikan sebagai proses mengidentifikasi (contoh) dinilai terlebih dahulu. Namun, dalam praktiknya,
kumpulan model (atau fungsi) yang menjelaskan dan kemampuan interpretasi atau transparansi pengklasifikasi
membedakan kelas data dan ide, untuk menggunakan sering kali menjadi hal yang krusial. Penelitian ini
model tersebut untuk mendeteksi kelas objek atau pola menyelidiki keakuratan pengklasifikasi k-nearest neighbor
yang tidak diketahui, yang penunjukan kelasnya tidak dalam mengklasifikasikan dataset. Banyak jenis algoritma
jelas. Klasifikasi adalah masalah pembelajaran yang pembelajaran klasifikasi yang luar biasa dan beragam,
diawasi. Artinya dalam machine learning, Klasifikasi seperti Support Vector Machine (SVM), k tetangga terdekat,
adalah masalah mengidentifikasi pola data dari dan Naive Bayes Classifier (NBC), merupakan algoritma
kelompok pola sesuai dengan karakteristiknya dan yang berhubungan dengan klasifikasi karena signifikansi
mendefinisikan pola mana yang berasal dari kelas mana. utama mereka dalam analisis pola eksplorasi.
Klasifikasi pola dapat dilakukan dengan menggunakan
berbagai macam classifier. Pengklasifikasi adalah Berikut ini adalah berbagai jenis strategi penggalian data:
program yang memasukkan vektor fitur dari sebuah Klasifikasi:
pola atau titik data dan menugaskannya ke salah satu Pada langkah ini, contoh data yang diberikan harus
dari sekumpulan kelas yang telah ditentukan. diklasifikasikan ke dalam salah satu kelas target yang telah
Pengklasifikasi seperti Jaringan Syaraf Tiruan (JST), diidentifikasi. Salah satu contohnya adalah menentukan
pengklasifikasi k-Nearest Neighbor (k-NN), Support apakah konsumen dalam database transaksi kartu kredit
Vector Machine (SVM), dan lain-lain digunakan untuk harus dikategorikan sebagai pelanggan yang dapat dipercaya
tujuan klasifikasi pola. Berfokus pada teknik klasifikasi atau mangkir berdasarkan berbagai kriteria demografis dan
data mining, dalam penelitian ini disajikan akurasi k- pembelian sebelumnya.
NN menggunakan tiga dataset dari perpustakaan
pembelajaran mesin UCI. Tujuan utama dari penelitian Perkiraan:
ini adalah untuk memberikan tinjauan untuk Model estimasi, seperti model klasifikasi, digunakan untuk
mengetahui keakuratan teknik klasifikasi k-NN menentukan nilai untuk atribut keluaran yang tidak
menggunakan dataset yang berbeda dalam data mining. diketahui. Berbeda dengan klasifikasi, atribut keluaran dari
Pengklasifikasi k-NN merupakan pendekatan yang masalah estimasi berupa angka, bukan kategorikal.
sederhana namun efisien yang digunakan untuk Pertimbangkan skenario berikut: Hitunglah gaji seseorang.
klasifikasi dalam penelitian.
Terap
Datas Mengidenti Menormalk kan k-
et fikasi an data NN
Masuk tingkat algoritma
Perbandinga kelas Menghitung
an
n akurasi akurasi
Gunakan
kebingun
matriks
gan
A. Normalisasi Diman
a:
B. Klasifikasi k-Tetangga Terdekat adalah deviasi standar dari atribut.
A. Normalisasi
Nilai dari beberapa atribut dalam kumpulan data dapat
memiliki rentang angka yang lebih tinggi, sementara
beberapa atribut lainnya mungkin memiliki rentang yang
lebih kecil [15]. Untuk menerapkan beberapa algoritma
klasifikasi seperti jaringan syaraf dan variannya, ukuran
jarak, mereka membutuhkan nilai dari semua atribut yang
kecil dalam suatu rentang [16]. Sebagai contoh, nilai input
untuk jaringan syaraf tiruan atau k-NN dapat berupa
-1, 0, atau +1.
i. Normalisasi Min-Maks
Dalam kasus di mana kita mengetahui kisaran nilai
dalam data input kita, kita menggunakan normalisasi min-
max. Pendekatan ini digunakan ketika menggunakan
jaringan saraf sebagai mesin pembelajaran atau ketika
menggunakan pengklasifikasi bayesian naif yang
mengharuskan semua fitur memiliki varians dalam kelas 0
hingga 1 [17]. Rentang minimum dan maksimum masing-
masing diatur ke 0 dan 1, dalam penelitian ini. Ini diberikan
oleh rumus :
𝑣′ = (𝑣 - min 𝐴)/(max 𝐴 - 𝑚𝑖𝑛𝐴) (1)
Dimana:
v adalah nilai asli untuk contoh atribut 'A'. v adalah
nilai baru.
minA adalah nilai minimum atribut dalam set data
asli (A).
max A adalah nilai maksimum atribut dalam set data
asli (A).
ii. Normalisasi Skor-Z
Teknik normalisasi ini didasarkan pada rata-rata dan
standar deviasi dari atribut tertentu 'A' dalam kumpulan data
[18]. Oleh karena itu, teknik ini disebut juga sebagai
normalisasi deviasi standar atau normalisasi rata-rata nol.
Pertama, rata-rata dan standar deviasi perlu dihitung secara
matematis seperti biasa dan kemudian rumusnya adalah
sebagai berikut:
𝑧 = (𝑥 - 𝐴)/𝐴 (2)
Dimana:
x adalah nilai asli untuk contoh atribut 'A'. Z adalah
nilai yang telah diubah.
adalah rata-rata dari atribut 'A'.
j adalah bilangan bulat
terkecil sehingga
max(|v′|) < 1
B. Klasifikasi k-Tetangga Terdekat
Titik data dapat diklasifikasikan berdasarkan
jaraknya dari titik-titik dalam dataset pelatihan, yang
merupakan metode dasar namun efektif untuk
melakukannya, untuk menghitung jarak, kita dapat
menggunakan berbagai ukuran, yang akan dibahas
selanjutnya.
Metrik Jarak
Berikut ini adalah jarak yang bervariasi antara
komponen xs dan yt: Diberikan sebuah matriks data
mx-by-n X, yang dapat diwakili oleh mx (1-by-n)
vektor baris x1, x2,..., xmx, dan matriks data my-by-n
Y, yang dapat diwakili oleh vektor baris y1, y2,...,
ymy.