Anda di halaman 1dari 7

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Lihat diskusi, statistik, dan profil penulis untuk publikasi ini di:https://www.researchgate.net/publication/304826093

Penerapan pendekatan K-nearest neighbor (KNN) untuk memprediksi latar


belakang teori peristiwa ekonomi

Artikel· Januari 2013

KUTIPAN BACA
432 20.362

2 penulis, termasuk:

Mohammad Bolandraftar

4PUBLIKASI477KUTIPAN

LIHAT PROFIL

Beberapa penulis publikasi ini juga mengerjakan proyek terkait berikut:

disertasi masterLihat proyek

Penelitian tersebut merupakan salah satu hasil disertasi master saya yang bertujuan memprediksi financial distress perusahaan-perusahaan IranLihat proyek

Semua konten yang mengikuti halaman ini diunggah olehMohammad Bolandraftarpada 07 Desember 2017.

Pengguna telah meminta peningkatan file yang diunduh.


SB Imandoust dkk. Int. Journal of Engineering Research and Applications Vol. 3, www.ijera.com
Edisi 5, Sep-Okt 2013, hlm.605-610

ARTIKEL PENELITIAN AKSES TERBUKA

Penerapan Pendekatan K-Nearest Neighbor (KNN) untuk


Memprediksi Economic Events: Latar Belakang Teoritis

Sadegh Bafandeh Imandoust dan Mohammad Bolandraftar


Departemen Ekonomi, Universitas Payame Noor, Teheran, Iran

Abstrak
Dalam penelitian inik-Metode klasifikasi Nearest Neighbor, telah dipelajari untuk peramalan ekonomi. Karena efek dari
kesulitan keuangan perusahaan terhadap pemangku kepentingan, model prediksi kesulitan keuangan telah menjadi
salah satu bidang yang paling menarik dalam penelitian keuangan. Dalam beberapa tahun terakhir, setelah krisis
keuangan global, jumlah perusahaan yang bangkrut meningkat. Karena kesulitan keuangan perusahaan adalah tahap
pertama kebangkrutan, menggunakan rasio keuangan untuk memprediksi kesulitan keuangan telah menarik terlalu
banyak perhatian akademisi serta lembaga ekonomi dan keuangan. Meskipun dalam beberapa tahun terakhir penelitian
tentang prediksi kesulitan keuangan perusahaan di Iran telah meningkat, sebagian besar upaya telah mengeksploitasi
metode statistik tradisional; dan hanya beberapa penelitian yang menggunakan metode nonparametrik.
Kata kunci:Memprediksi kesulitan keuangan- Pembelajaran mesin-k-Tetangga terdekat.

I. Pendahuluan pola. Kasus-kasus yang ada ini mungkin berasal dari


1.1. Penambangan data Secara singkat database sejarah, seperti orang-orang yang telah
Penambangan data adalah proses yang menggunakan berbagai alat menjalani perawatan medis tertentu atau pindah ke
analisis data untuk menemukan pola dan hubungan dalam data yang layanan jarak jauh yang baru. Mereka mungkin berasal
dapat digunakan untuk membuat prediksi yang valid. dari eksperimen di mana sampel dari seluruh database
Langkah analitis pertama dan paling sederhana dalam diuji di dunia nyata dan hasilnya digunakan untuk
penambangan data adalah mendeskripsikan data - meringkas membuat pengklasifikasi. Misalnya, sampel milis akan
atribut statistiknya (seperti rata-rata dan standar deviasi), dikirimi penawaran, dan hasil dari milis digunakan untuk
meninjaunya secara visual menggunakan bagan dan grafik, dan mengembangkan model klasifikasi yang akan diterapkan
mencari tautan yang berpotensi bermakna di antara variabel ke seluruh database. Terkadang seorang ahli
(seperti nilai yang sering terjadi bersama-sama). mengklasifikasikan sampel dari database, dan klasifikasi
Penambangan data memanfaatkan kemajuan di ini kemudian digunakan untuk membuat model yang
bidang kecerdasan buatan (AI) dan statistik. Kedua akan diterapkan ke seluruh database [6-9].
disiplin telah bekerja pada masalah pengenalan
pola dan klasifikasi. 1.4. Regresi
Peningkatan kekuatan komputer dan biayanya yang lebih Regresi menggunakan nilai-nilai yang ada untuk meramalkan
rendah, ditambah dengan kebutuhan untuk menganalisis apa yang akan menjadi nilai-nilai lain. Dalam kasus yang
kumpulan data yang sangat besar dengan jutaan baris, telah paling sederhana, regresi menggunakan teknik statistik
memungkinkan pengembangan teknik baru berdasarkan standar seperti regresi linier. Sayangnya, banyak masalah
eksplorasi bruteforce dari solusi yang mungkin [1-5]. dunia nyata bukan sekadar proyeksi linier dari nilai-nilai
sebelumnya. Misalnya, volume penjualan, harga saham, dan
1.2. Berbagai jenis prediksi menggunakan data tingkat kegagalan produk semuanya sangat sulit diprediksi
teknik pertambangan karena mungkin bergantung pada interaksi kompleks dari
(1) Klasifikasi:memprediksi ke dalam kategori atau kelas beberapa variabel prediktor. Oleh karena itu, teknik yang
apa suatu kasus jatuh. lebih kompleks mungkin diperlukan untuk meramalkan nilai
(2) Regresi: memprediksi berapa nilai angka yang akan dimiliki masa depan. Jenis model yang sama seringkali dapat
suatu variabel (jika itu adalah variabel yang bervariasi dengan waktu, digunakan untuk regresi dan klasifikasi.
itu disebut prediksi 'rangkaian waktu'). Sebagai contoh, algoritma pohon keputusan CART
(Classification and Regression Trees) dapat digunakan
1.3. Klasifikasi untuk membangun pohon klasifikasi (untuk
Masalah klasifikasi bertujuan untuk mengidentifikasi karakteristik mengklasifikasikan variabel respons kategoris) dan
yang menunjukkan kelompok yang dimiliki setiap kasus. Pola ini pohon regresi (untuk meramalkan variabel respons
dapat digunakan baik untuk memahami data yang ada maupun berkelanjutan). Metode K-Nearest Neighbor dapat
untuk memprediksi bagaimana instance baru akan berperilaku. membuat model klasifikasi dan regresi sekaligus.
Penambangan data menciptakan model klasifikasi dengan Ada berbagai macam metode data mining diantaranya
memeriksa data (kasus) yang sudah diklasifikasikan dan secara Support Vector Machines (SVM), Artificial Neural
induktif menemukan prediksi

www.ijera.com 605|Halaman
SB Imandoust dkk. Int. Journal of Engineering Research and Applications Vol. 3, www.ijera.com
Edisi 5, Sep-Okt 2013, hlm.605-610

Jaringan (ANN), Naïve Bayesian Classifier, Algoritma aturan keputusan, dengan K= 4: intinya?ditugaskan untuk
Genetika, dan K-Nearest Neighbor (KNN). kelas di sebelah kiri juga
Makalah ini bertujuan untuk menyelidiki metode KNN untuksemua sampel yang tidak diketahui UnSample(i)
dalam klasifikasi dan regresi, latar belakang sejarahnya, untuksemua sampel yang diketahui Sampel(j)
dan perbedaan penerapan metode tersebut di beberapa menghitung jarak antara
daerah. UnSamples(i) dan Sample(j)
akhir untuk

II. Latar Belakang Teoritis cari k jarak terkecil cari


2.1 KNN untuk klasifikasi sampel yang sesuai
Dalam pengenalan pola, algoritma KNN adalah Sample(j1),..,Sample(jk)
metode untuk mengklasifikasikan objek berdasarkan contoh tetapkan UnSample(i) ke kelas yang
pelatihan terdekat di ruang fitur. KNN adalah jenis lebih sering muncul
pembelajaran berbasis instance, atau pembelajaran malas di akhir untuk

mana fungsinya hanya didekati secara lokal dan semua Gambar 2.Algoritma KNN.
perhitungan ditunda hingga klasifikasi [9-12]. KNN adalah
teknik klasifikasi yang mendasar dan paling sederhana ketika Kinerja pengklasifikasi KNN terutama
hanya ada sedikit atau tidak ada pengetahuan sebelumnya ditentukan oleh pilihan K serta metrik jarak yang
tentang distribusi data [12-15]. Aturan ini hanya diterapkan [20-25]. Estimasi dipengaruhi oleh
mempertahankan seluruh set pelatihan selama pembelajaran sensitivitas pemilihan ukuran lingkungan K,
dan menugaskan ke setiap kueri sebuah kelas yang diwakili karena radius wilayah lokal ditentukan oleh jarak
oleh label mayoritas dari tetangga terdekatnya di set K ke tetangga terdekat ke kueri dan K yang
pelatihan. Aturan Nearest Neighbor (NN) adalah bentuk berbeda menghasilkan probabilitas kelas
paling sederhana dari KNN ketika K = 1. Dalam metode ini bersyarat yang berbeda. Jika K sangat kecil,
setiap sampel harus diklasifikasikan serupa dengan sampel di estimasi lokal cenderung sangat buruk karena
sekitarnya. Oleh karena itu, jika klasifikasi sampel tidak data yang jarang dan titik-titik yang berisik,
diketahui, kemudian dapat diprediksi dengan ambigu, atau salah label. Untuk lebih
mempertimbangkan klasifikasi sampel tetangga terdekatnya. memuluskan perkiraan, kita dapat
Diberikan sampel yang tidak diketahui dan set pelatihan, meningkatkan K dan memperhitungkan wilayah
semua jarak antara sampel yang tidak diketahui dan semua yang luas di sekitar kueri. Sayangnya, nilai K
sampel dalam set pelatihan dapat dihitung. Jarak dengan nilai yang besar dengan mudah membuat estimasi
terkecil sesuai dengan sampel di set pelatihan yang paling over smoothing dan kinerja klasifikasi menurun
dekat dengan sampel yang tidak diketahui. Oleh karena itu, dengan diperkenalkannya outlier dari kelas lain.
sampel yang tidak diketahui dapat diklasifikasikan Untuk mengatasi masalah tersebut,.
berdasarkan klasifikasi tetangga terdekatnya [15-20].
Bagaimana memilih ukuran lingkungan K
Gambar 1 menunjukkan aturan keputusan KNN untuk K= 1 dan yang cocok adalah masalah utama yang sangat
K= 4 untuk satu set sampel yang dibagi menjadi 2 kelas. Pada mempengaruhi kinerja klasifikasi KNN.Sedangkan
Gambar 1(a), sampel yang tidak diketahui diklasifikasikan dengan untuk KNN, ukuran sampel latih yang kecil dapat
hanya menggunakan satu sampel yang diketahui; pada Gambar sangat mempengaruhi pemilihan ukuran lingkungan
1(b) digunakan lebih dari satu sampel yang diketahui. Dalam optimal K dan penurunan kinerja klasifikasi KNN
kasus terakhir, parameter K diatur ke 4, sehingga empat sampel mudah dihasilkan oleh sensitivitas pemilihan K. Secara
terdekat dipertimbangkan untuk mengklasifikasikan yang tidak umum, hasil klasifikasi sangat sensitif untuk dua
diketahui. Tiga dari mereka milik kelas yang sama, sedangkan aspek: ketersebaran data dan titik-titik yang berisik,
hanya satu milik kelas lainnya. Dalam kedua kasus, sampel yang ambigu atau salah label jika K terlalu kecil, dan banyak
tidak diketahui diklasifikasikan sebagai milik kelas di sebelah kiri. outlier dalam lingkungan dari kelas lain jika K terlalu
Gambar 2 memberikan sketsa algoritma KNN. besar. Dari sudut pandang teoretis, kinerja klasifikasi
KNN ditentukan oleh estimasi probabilitas kelas
bersyarat dari kueri di wilayah lokal ruang data, yang
ditentukan oleh jarak tetangga terdekat K ke kueri.
Sehingga kinerja klasifikasi sangat sensitif terhadap
nilai K yang dipilih. Selanjutnya, pemungutan suara
mayoritas paling sederhana untuk menggabungkan
label kelas untuk KNN dapat menjadi masalah jika
tetangga terdekat sangat bervariasi jaraknya dan
yang lebih dekat menunjukkan kelas objek kueri
dengan lebih andal. Dengan tujuan mengatasi
masalah sensitivitas pilihan yang berbeda dari ukuran
lingkungan K, beberapa
Gambar 1.(a) Aturan keputusan 1-NN: intinya?adalah
ditugaskan ke kelas di sebelah kiri; (b) KNN

www.ijera.com 606|Halaman
SB Imandoust dkk. Int. Journal of Engineering Research and Applications Vol. 3, www.ijera.com
Edisi 5, Sep-Okt 2013, hlm.605-610

metode voting tertimbang telah dikembangkan untuk 2.2KNN untuk Regresi


KNN. 2.2.1 Teori
Itu telah ditunjukkan pada saat poin tidak Itu sama metode Bisa menjadi digunakan
terdistribusi secara merata; penentuan nilai K menjadi untuk regresi, dengan hanya menetapkan nilai properti
sulit. Umumnya, nilai K yang lebih besar lebih kebal untuk objek menjadi rata-rata dari nilai K tetangga
terhadap kebisingan yang disajikan, dan membuat terdekatnya. Akan berguna untuk menimbang kontribusi
batas lebih halus antar kelas. Akibatnya, memilih K tetangga, sehingga tetangga yang lebih dekat
yang sama (optimal) menjadi hampir tidak mungkin memberikan kontribusi rata-rata lebih banyak daripada
untuk aplikasi yang berbeda. yang lebih jauh.

Gambar 3.aturan keputusan KNN untuk regresi

Masalah regresi berkaitan dengan memprediksi hasil dari 2.2.2 Metrik Jarak
variabel dependen yang diberikan satu set variabel Sebagaimana dimaksud sebelum KNN membuat

independen. Untuk mulai dengan, kami prediksi berdasarkan hasil dariKtetangga yang paling
mempertimbangkan skema yang ditunjukkan di atas dekat dengan titik itu. Oleh karena itu, untuk
pada Gambar 3, di mana sekumpulan titik (kotak hijau) membuat prediksi dengan KNN, kita perlu
diambil dari hubungan antara variabel independenXdan menentukan metrik untuk mengukur jarak antara titik
variabel dependeny(kurva merah). Mengingat kumpulan kueri dan kasus dari sampel contoh. Salah satu pilihan
objek hijau (dikenal sebagai contoh), kami menggunakan paling populer untuk mengukur jarak ini dikenal
metode KNN untuk memprediksi hasilX(juga dikenal sebagai Euclidean. Langkah-langkah lain termasuk
sebagai titik kueri) yang diberikan kumpulan contoh Euclidean squared, City-block, dan Chebychev,
(kotak hijau). Untuk memulainya, mari pertimbangkan (  −  )2
metode 1 tetangga terdekat sebagai contoh. Dalam hal
 ,   = (  −  )2
ini kami mencari kumpulan contoh (kotak hijau) dan
menemukan yang paling dekat dengan titik kueriX. Untuk
− 
kasus khusus ini, ini terjadiX4. Hasil dariX4(yaitu,y4)  − 
dengan demikian kemudian dianggap sebagai jawaban
untuk hasil dariX (yaitu,Y). Demikian untuk1-tetangga Di manaXDanPmasing-masing adalah titik kueri dan
terdekat kita dapat menulis: Y=y4 kasus dari sampel contoh.
Untuk langkah selanjutnya, mari kita pertimbangkan2-terdekat
metode tetangga. Dalam hal ini, kami menempatkan 2.2.3 Prediksi K-Nearest Neighbor
dua titik terdekat pertamaX, yang kebetulany3Dany4. Setelah memilih nilai K, Anda dapat
Mengambil rata-rata hasil mereka, solusi untuk membuat prediksi berdasarkan contoh KNN.
Ykemudian diberikan oleh:
Untuk regresi, prediksi KNN adalah rata-rata
3+  4 dari hasil K tetangga terdekat:
 =  
2 1
Pembahasan di atas dapat diperluas menjadi  =   
 
jumlah sewenang-wenang dari tetangga terdekatK.  =1
Untuk meringkas, dalam metode KNN, hasilnyaYdari Di manaySayaadalahSayath kasus contoh sampel
titik permintaanXdiambil sebagai rata-rata dari hasil- dany adalah prediksi (outcome) dari titik query.
hasilnyaKtetangga terdekat. Berbeda dengan regresi, dalam masalah klasifikasi,

www.ijera.com 607|Halaman
SB Imandoust dkk. Int. Journal of Engineering Research and Applications Vol. 3, www.ijera.com
Edisi 5, Sep-Okt 2013, hlm.605-610

Prediksi KNN didasarkan pada skema pemungutan suara di mana semua fitur berkontribusi pada kesamaan dan dengan
pemenang digunakan untuk memberi label kueri. demikian pada klasifikasi. Dengan pemilihan fitur atau
Selama ini kita telah membahas analisis KNN tanpa pembobotan fitur yang hati-hati, hal ini dapat dihindari. Dua
memperhatikan jarak relatif dari K contoh yang terdekat kelemahan lain dari metode ini adalah:
dengan titik query. Dengan kata lain, kita membiarkan K - Pembelajaran berbasis jarak tidak jelas jenis jarak mana
tetangga memiliki pengaruh yang sama terhadap yang digunakan dan atribut mana yang digunakan untuk
prediksi terlepas dari jarak relatifnya dari titik kueri. menghasilkan hasil terbaik.
Pendekatan alternatif adalah dengan menggunakan nilai - Biaya komputasi cukup tinggi karena kita perlu
besar yang sewenang-wenangK(jika bukan seluruh menghitung jarak setiap instance query ke semua
sampel prototipe) dengan lebih mementingkan kasus sampel training.
yang paling dekat dengan titik kueri. Ini dicapai dengan
menggunakan apa yang disebut 'pembobotan jarak'. IV. Latar belakang sejarah
Klasifikasi KNN dikembangkan dari
2.2.4 Pembobotan Jarak kebutuhan untuk melakukan analisis
Karena prediksi KNN didasarkan pada diskriminan ketika perkiraan kepadatan
asumsi intuitif bahwa objek yang jaraknya dekat berpotensi probabilitas parametrik yang dapat diandalkan
serupa, masuk akal untuk membedakan antara K tetangga tidak diketahui atau sulit ditentukan. Dalam
terdekat saat membuat prediksi, yaitu, biarkan titik terdekat laporan US Air Force School of Aviation Medicine
di antara K tetangga terdekat memiliki lebih banyak yang tidak dipublikasikan pada tahun 1951, Fix
pengaruh dalam mempengaruhi hasil titik kueri. Ini dapat dan Hodges memperkenalkan metode non-
dicapai dengan memperkenalkan satu set bobot W, satu parametrik untuk klasifikasi pola yang kemudian
untuk setiap tetangga terdekat, yang ditentukan oleh dikenal dengan aturan k-nearest neighbor.
kedekatan relatif dari setiap tetangga sehubungan dengan Mereka memperkenalkan pendekatan baru
titik kueri. Dengan demikian: untuk klasifikasi nonparametrik dengan
(−   ,   ) mengandalkan 'jarak' antara titik atau distribusi.
 ,   =  
=1   (−   ,   ) Ide dasarnya adalah untuk mengklasifikasikan
Di mana   ,    adalah jarak antara titik queryXdanSaya individu ke dalam populasi yang sampelnya
kasus thPSayadari contoh sampel. Jelas bahwa bobot berisi mayoritas 'tetangga terdekat'. Kemudian
yang didefinisikan dengan cara di atas akan pada tahun 1967, beberapa sifat formal dari
memenuhi: aturan k-nearestneighbor dikerjakan; misalnya
  memberikan batas atas untuk batas risiko
 0,   = 1 pengklasifikasi tetangga terdekat.
 =1
Jadi, untuk masalah regresi, kami memiliki:
  Wagner dan Fritz memperlakukan konvergensi dari
 =  0,      tingkat kesalahan bersyarat ketika K = 1. Devroye dan
 =1 Wagner mengembangkan dan mendiskusikan properti
Untuk masalah klasifikasi, diambil nilai maksimum dari teoretis, khususnya masalah konsistensi matematis, untuk
persamaan di atas untuk masing-masing kelas variabel. Jelas aturan K-nearest-neighbor. Devroye menemukan ikatan
dari pembahasan di atas bahwa ketika K>1, seseorang dapat asimtotik untuk penyesalan sehubungan dengan
secara alami menentukan standar deviasi untuk prediksi pengklasifikasi Bayes. Devroy et al. memberikan gambaran
dalam tugas regresi menggunakan, yang sangat umum tentang konsistensi yang kuat untuk
metode tetangga terdekat. Psaltis, Snapp, dan Venkatesh
 
1 menggeneralisasikan hasil Sampul ke dimensi umum, dan
    = ∓ (  −   )2  Snapp serta Venkatesh selanjutnya memperluas hasilnya ke
−1
 =1 kasus beberapa kelas. Bax memberikan batas probabilistik
untuk tingkat kesalahan bersyarat dalam kasus di mana K = 1.
AKU AKU AKU. Keuntungan dan kerugian Kulkarni dan Posner membahas metode tetangga terdekat
3.1 Keuntungan untuk data dependen yang cukup umum, dan Holst dan Irle
KNN memiliki beberapa keunggulan utama: menyediakan
kesederhanaan, efektivitas, intuisi, dan kinerja rumus untuk batas tingkat kesalahan dalam kasus
klasifikasi kompetitif di banyak domain.Ini Kuat data yang bergantung. Penelitian terkait termasuk Györfi
untuk data pelatihan yang berisik dan efektif jika dan Györfi dan Györfi, yang menyelidiki tingkat
data pelatihannya besar. konvergensi risiko Bayes ketika K cenderung tak
terhingga ketika T meningkat.
3.2 Kerugian Karya terbaru tentang properti pengklasifikasi
Terlepas dari kelebihan yang diberikan di atas, KNN sebagian besar berfokus pada menurunkan batas
memiliki beberapa keterbatasan. KNN dapat memiliki kinerja run- atas dan bawah untuk disesalkan dalam kasus di
time yang buruk saat set pelatihan berukuran besar. Ini sangat mana masalah klasifikasi relatif sulit, misalnya, di
sensitif terhadap fitur yang tidak relevan atau berlebihan karena mana batas klasifikasi relatif tidak mulus.

www.ijera.com 608|Halaman
SB Imandoust dkk. Int. Journal of Engineering Research and Applications Vol. 3, www.ijera.com
Edisi 5, Sep-Okt 2013, hlm.605-610

Penelitian Audibert dan Tsybakov serta Kohler dan waktu untuk membeli saham, dan saham apa yang akan
Krzyzak, misalnya, termasuk dalam kategori ini. Karya dibeli.
Mammen dan Tsybakov, yang memungkinkan Beberapa aplikasi KNN lainnya di bidang keuangan
kehalusan masalah klasifikasi bervariasi dalam disebutkan di bawah ini:
kontinum, membentuk semacam jembatan antara - Peramalan pasar saham: Memprediksi harga
kasus halus, yang kami tangani, dan kasus kasar.. saham, berdasarkan ukuran kinerja
perusahaan dan data ekonomi.
V. Aplikasi - Nilai tukar mata uang
KNN sebagai teknik data mining memiliki - Kebangkrutan bank
berbagai macam aplikasi dalam klasifikasi maupun - Memahami dan mengelola risiko keuangan
regresi. Beberapa aplikasi dari metode ini - Perdagangan berjangka
disebutkan di bawah ini: - Peringkat kredit
- Manajemen pinjaman
5.1 Penambangan teks
- Profil nasabah bank
Algoritma KNN adalah salah satu algoritma paling
- Analisis pencucian uang
populer untuk kategorisasi teks atau penambangan teks.
Beberapa karya terbaru tentang topik ini misalnya. Jumlah
5.4 Obat
yang berbeda dari tetangga terdekat digunakan untuk kelas
- Memprediksi apakah seorang pasien, yang dirawat di
yang berbeda dalam pendekatan ini, bukan nomor tetap di
rumah sakit karena serangan jantung, akan mengalami
semua kelas. Dengan cara ini, satu-satunya parameter yang
serangan jantung kedua. Prediksi harus didasarkan
perlu dipilih oleh pengguna saat menggunakan KNN, nilai K,
pada demografi, diet, dan pengukuran klinis untuk
menjadi kurang masuk akal dan karenanya tidak perlu dipilih
secara hati-hati seperti pada algoritma standar. Memang,
- pasien tersebut. Perkirakan jumlah glukosa dalam darah
penderita diabetes, dari spektrum serapan infra merah
probabilitas bahwa sampel yang tidak diketahui milik suatu
darah orang tersebut.
kelas dihitung dengan hanya menggunakan beberapa
tetangga terdekat Kn teratas untuk kelas itu. Nilai Kn
- Identifikasi faktor risiko kanker prostat,
diturunkan dari K sesuai dengan ukuran kelas yang
berdasarkan variabel klinis dan demografis.
bersesuaian dalam training set. KNN yang dimodifikasi ini
Algoritma KNN juga telah diterapkan
efisien dan kurang masuk akal terhadap nilai K saat
untuk menganalisis data ekspresi gen micro-array,
diterapkan pada masalah penambangan teks.
dimana algoritma KNN telah digabungkan dengan
algoritma genetika, yang digunakan sebagai alat
5.2 Pertanian pencarian. Aplikasi lain termasuk prediksi
Secara umum, KNN diterapkan kurang dari teknik aksesibilitas pelarut dalam molekul protein, deteksi
penambangan data lainnya di bidang terkait pertanian. intrusi dalam sistem komputer, dan pengelolaan
Ini telah diterapkan, misalnya, untuk mensimulasikan
database objek bergerak seperti komputer dengan
curah hujan harian dan variabel cuaca lainnya. Aplikasi
koneksi nirkabel.
lain yang menarik adalah evaluasi inventarisasi hutan dan
pendugaan variabel hutan. Dalam aplikasi tersebut, Pengakuan
digunakan citra satelit, dengan tujuan untuk memetakan Penelitian ini telah dilakukan oleh Hibah
tutupan lahan dan penggunaan lahan dengan beberapa Keuangan Payame Noor.
kelas diskrit. Aplikasi lain dari metode k-NN di bidang
pertanian meliputi prakiraan iklim dan pendugaan Referensi
parameter air tanah. [1] Audibert, JY & Tsybakov, AB (2007) "Cepat
tingkat pembelajaran untuk pengklasifikasi plug-in di

5.3 Keuangan
bawah kondisi margin", Ann. Statist, 35: 608–633.
[2] Bailey, T. & Jain, A. (1978) "Catatan tentang aturan k-
Penambangan data sebagai proses menemukan
Nearest Neighbor dengan bobot jarak",
pola dan korelasi yang berguna memiliki ceruknya sendiri
Trans IEEE. Sistem, Manusia, Sibernetika, 8:
dalam pemodelan keuangan. Mirip dengan metode
311-313.
komputasi lainnya hampir setiap metode dan teknik
[3] Baoli, L., Shiwen, Y. & Qin, L. (2003) "Algoritma K-
penambangan data telah digunakan dalam pemodelan
Nearest Neighbor yang Ditingkatkan untuk
keuangan. Daftar lengkap mencakup berbagai model
Kategorisasi Teks, e-print Ilmu Komputer
linier dan nonlinier jaringan saraf multi-lapisan, k-means ArXiv.
dan pengelompokan hierarkis, k-tetangga terdekat, [4] Bauer, ME, Burk, TE, Ek, AR, Coppin,
analisis pohon keputusan, regresi (regresi logistik, regresi PR Lime, SD, Walsh, TA, Walters, DK,
berganda umum), ARIMA, analisis komponen utama, dan Befort, W. & Heinzen, DF (1994)
pembelajaran Bayesian. "Inventarisasi Satelit Sumber Daya Hutan
Peramalan pasar saham adalah salah satu yang paling banyak Minnesota", Rekayasa Fotogrametri dan
tugas keuangan inti KNN. Peramalan pasar saham Penginderaan Jauh, 60(3): 287–298.
mencakup mengungkap tren pasar, merencanakan
strategi investasi, mengidentifikasi yang terbaik

www.ijera.com 609|Halaman
SB Imandoust dkk. Int. Journal of Engineering Research and Applications Vol. 3, www.ijera.com
Edisi 5, Sep-Okt 2013, hlm.605-610

[5] Bax, E. (2000) "Validasi pengklasifikasi tetangga Randolph Field, Texas, Proyek 21-49-004,
terdekat", IEEE Trans. Memberitahukan. Teori, 46: Laporan No.4.
2746–2752. [21] Fritz, J. (1975) "Kesalahan eksponensial bebas
[6] Benetis, R., Jensen, C., Karciauskas, G. & distribusi terikat untuk klasifikasi pola tetangga
Saltenis, S. (2006) "Kueri Tetangga terdekat", IEEE Trans. Memberitahukan. Teori,
Terdekat dan Terbalik untuk Benda 21: 552–557.
Bergerak", Jurnal Internasional tentang [22] Fukunaga, K. & Hostetler, L. (1975) "estimasi
Basis Data Sangat Besar, 15(3) : 229–250. risiko knearest-neighbor Bayes", IEEE
[7] Bermejo, T. & Cabestany, J. (2000) "Pengklasifikasi Trans. Teori Informasi, 21(3): 285-293.
soft k-Nearest Neighbor yang adaptif", [23] Gil-Garcia, R. & Pons-Porrata, A. (2006) "Aturan
Pengenalan Pola, 33: 1999-2005. Tetangga Terdekat Baru untuk Kategorisasi
[8] Chitra, A. & Uma, S. (2010) "An Ensemble Model Teks", Catatan Kuliah di Ilmu Komputer 4225,
of Multiple Classifiers for Time Series Springer, New York, 814–823.
Prediction", Jurnal Internasional Teori dan [24] Guo, G., Wang, H., Bell, D., Bi, Y. & Greer,
Teknik Komputer, 2(3): 1793-8201. K., (2006) "Menggunakan Model KNN untuk
[9] Sampul, TM (1968) "Tingkat konvergensi untuk Kategorisasi Teks Otomatis", Soft Computing
prosedur tetangga terdekat", Dalam – Penggabungan Fondasi, Metodologi, dan
Prosiding Konferensi Internasional Hawaii Aplikasi 10(5): 423–430.
tentang Ilmu Sistem, Univ. Hawaii Press, [25] Gou, J., Du, L. Zhang, Y. & Xiong, T. (2012) "A
Honolulu, 413–415. New Distance-weighted k-nearest Neighbor
[10] Sampul, TM & Hart, PE (1967) "Klasifikasi Classifier", Journal of Information &
pola tetangga terdekat", IEEE Trans. Computational Science, 9(6): 1429 -1436.
Inf. Teori, 13: 21–27. [26] Gyorfi, L. (1978) "Pada tingkat konvergensi aturan
[11] Devroye, L. (1981) "Pada kemungkinan tetangga terdekat", IEEE Trans.
kesalahan asimtotik dalam diskriminasi Memberitahukan. Teori, 24: 509–512.
nonparametrik", Ann. Statis, 9: 1320–1327. [27] Gyorfi, L. (1981) "Tingkat konvergensi
[12] Devroye, L. (1981) "Tentang kesetaraan Cover dan estimasi regresi k−NN dan aturan
Hart dalam diskriminasi tetangga terdekat", klasifikasi", IEEE Trans. Teori Informasi, 27:
Trans IEEE. Pola Anal. Mesin lntell. 3: 75- 362–364.
78. [28] Gyorfi, L. & Gyorfi, Z. (1978) "Sebuah batas atas
[13] Devroye, L., Gyorfi, L., Krzyzak, A. & Lugosi, probabilitas kesalahan asimptotik dari aturan
G. (1994) "Pada konsistensi universal yang k-Nearest Neighbor untuk beberapa kelas",
kuat dari estimasi fungsi regresi tetangga IEEE Trans. Memberitahukan. Teori, 24: 512–
terdekat", Ann. Statis, 22: 1371– 1385. 514.
[29] Hall, P., Park, BU & Samworth, RJ (2008) "Pilihan
[14] Devroye, L. & Wagner, TJ (1977) "Konsistensi urutan tetangga dalam klasifikasi tetangga
seragam yang kuat dari estimasi kepadatan terdekat", Annals of Statistics, 36(5):
tetangga terdekat", Ann. Statis., 5: 536–540. 2135-2152.
[15] Devroye, L. & Wagner, TJ (1982) "Metode [30] Hastie, T., Tibshirani, R. & Friendman, J.
tetangga terdekat dalam diskriminasi, (2009) "Elemen Pembelajaran Statistik:
Dalam Klasifikasi, Pengenalan Pola, dan Penambangan Data, Inferensi dan Prediksi",
Pengurangan Dimensi", Handbook of Springer, Stanford, CA, USA, ISBN:
Statistics, 2: 193–197. Belanda Utara, 978-0-387-84858-7.
Amsterdam. [31] Hellman, ME, (1970) "Aturan klasifikasi tetangga
[16] Domeniconi, C., Peng, J. & Gunopulos, D. terdekat dengan opsi tolak", IEEE Trans. Sistem,
(2002) "Klasifikasi tetangga terdekat Manusia, Sibernetika, 3: 179-185.
metrik adaptif lokal", Transaksi IEEE pada [32] Hill, T. & Lewicki, P. (2007) "Statistik: Metode
Analisis Pola dan Kecerdasan Mesin. 24(9): dan Aplikasi", Statsoft, Tulsa,
1281–1285. OKE. (Versi Electric tersedia di:
[17] Dudani, SA (1976) "The distance-weighted k- www.statsoft.com/textbook/k-
nearest neighbor rule", IEEE Transactions on nearestneighbors/ )
System, Man, and Cybernetics, 6: 325-327.
[18] Eldestein, HA (1999) "Pengantar Penambangan
Data dan Penemuan Pengetahuan", Two
Crows Corporation, AS, ISBN: 1-892095- 02-5.

[19] Enas, GG & Choi, SC (1986) "Pilih parameter


pemulusan dan efisiensi klasifikasi K-
Nearest Neighbor", Comp & Maths with
Apps, 12(2): 235-244.
[20] Perbaiki, E. & Hodges, JL (1951) "Diskriminasi
Nonparametrik: Properti Konsistensi",

www.ijera.com 610|Halaman

Lihat statistik publikasi

Anda mungkin juga menyukai