K-Means Clustering
Oleh :
Pertama adalah mencari peta ruang ciri (feature space) (biasanya pelbagai
dimensi ruang vektor (vector space)) bagi set label. Secara bersamaan ia membagi
ruang ciri menjadi kawasan-kawasan, kemudian meletakkan label kepada setiap
kawasan. Algoritma yang demikian ini (contohnya the nearest neighbour algorithm)
biasanya belumlah menghasilkan kepercayaan atau class probabilities, sebelum
diterapkannya post-processing.
dimana input vektor ciri adalah , dan fungsi f biasanya diparameter oleh sebagian
parameter . Dalam pendekatan statistik Bayesian bagi masalah ini, berlainan dengan
memilih satu vektor parameter , hasil dibentuk bagi kesemua thetas yang mungkin,
dengan turutan berat bagi ketepatan berdasarkan data latihan D:
Masalah ketiga terkait dengan masalah kedua, tetapi masalahnya adalah untuk
* Klasifikasi linear
Regresi Logistik
Naive Bayes classifier
Perceptron
* Metode Nearest neighbor
* Boosting
* Decision tree
* Jaringan Saraf Tiruan
* Jaringan Bayesian
* Mesin sokongan vektor (Support vector machine)
* Model Markov Tersembunyi (Hidden Markov model)
C. Domain Aplikasi
* komputer visi
pengenalan karakter medis (Medical image analysis)]]
Pengenalan karakter optis
* Pengenalan suara (speech recognition)
* Pengenalan tulisan tangan (handwritten recognition)
* Identifikasi biometrik
* klasifikasi dokuman
* Internet
* Credit scoring
Secara sederhana, JST adalah sebuah alat pemodelan data statistik non-linier.
JST dapat digunakan untuk memodelkan hubungan yang kompleks antara input dan
output untuk menemukan pola-pola pada data.
Sejarah
Saat ini bidang kecerdasan buatan dalam usahanya menirukan intelegensi
manusia, belum mengadakan pendekatan dalam bentuk fisiknya melainkan dari sisi
yang lain. Pertama-tama diadakan studi mengenai teori dasar mekanisme proses
terjadinya intelegensi. Bidang ini disebut ‘Cognitive Science’. Dari teori dasar ini
dibuatlah suatu model untuk disimulasikan pada komputer, dan dalam
perkembangannya yang lebih lanjut dikenal berbagai sistem kecerdasan buatan yang
salah satunya adalah jaringan saraf tiruan. Dibandingkan dengan bidang ilmu yang
lain, jaringan saraf tiruan relatif masih baru. Sejumlah literatur menganggap bahwa
konsep jaringan saraf tiruan bermula pada makalah Waffen McCulloch dan Walter
Pitts pada tahun 1943. Dalam makalah tersebut mereka mencoba untuk
memformulasikan model matematis sel-sel otak. Metode yang dikembangkan
berdasarkan sistem saraf biologi ini, merupakan suatu langkah maju dalam industri
komputer.
Pengertian Dasar
Tidak ada dua otak manusia yang sama, setiap otak selalu berbeda. Beda
dalam ketajaman, ukuran dan pengorganisasiannya. Salah satu cara untuk memahami
bagaimana otak bekerja adalah dengan mengumpulkan informasi dari sebanyak
mungkin scan otak manusia dan memetakannya. Hal tersebut merupakan upaya untuk
menemukan cara kerja rata-rata otak manusia itu. Peta otak manusia diharapkan dapat
menjelaskan misteri mengenai bagaimana otak mengendalikan setiap tindak tanduk
manusia, mulai dari penggunaan bahasa hingga gerakan.
Elemen yang paling mendasar dari jaringan saraf adalah sel saraf. Sel-sel saraf
inilah membentuk bagian kesadaran manusia yang meliputi beberapa kemampuan
umum. Pada dasarnya sel saraf biologi menerima masukan dari sumber yang lain dan
mengkombinasikannya dengan beberapa cara, melaksanakan suatu operasi yang non-
linear untuk mendapatkan hasil dan kemudian mengeluarkan hasil akhir tersebut.
Dalam tubuh manusia terdapat banyak variasi tipe dasar sel saraf, sehingga
proses berpikir manusia menjadi sulit untuk direplikasi secara elektrik. Sekalipun
demikian, semua sel saraf alami mempunyai empat komponen dasar yang sama.
Keempat komponen dasar ini diketahui berdasarkan nama biologinya yaitu, dendrit,
soma, akson, dan sinapsis. Dendrit merupakan suatu perluasan dari soma yang
menyerupai rambut dan bertindak sebagai saluran masukan. Saluran masukan ini
menerima masukan dari sel saraf lainnya melalui sinapsis. Soma dalam hal ini
kemudian memproses nilai masukan menjadi sebuah output yang kemudian dikirim
ke sel saraf lainnya melalui akson dan sinapsis.
Penelitian terbaru memberikan bukti lebih lanjut bahwa sel saraf biologi
mempunyai struktur yang lebih kompleks dan lebih canggih daripada sel saraf buatan
yang kemudian dibentuk menjadi jaringan saraf buatan yang ada sekarang ini. Ilmu
biologi menyediakan suatu pemahaman yang lebih baik tentang sel saraf sehingga
memberikan keuntungan kepada para perancang jaringan untuk dapat terus
meningkatkan sistem jaringan saraf buatan yang ada berdasarkan pada pemahaman
terhadap otak biologi.
Sel saraf-sel saraf ini terhubung satu dengan yang lainnya melalui sinapsis.
Sel saraf dapat menerima rangsangan berupa sinyal elektrokimiawi dari sel saraf-sel
saraf yang lain. Berdasarkan rangsangan tersebut, sel saraf akan mengirimkan sinyal
atau tidak berdasarkan kondisi tertentu. Konsep dasar semacam inilah yang ingin
dicoba para ahli dalam menciptakan sel tiruan.
Definisi
Suatu jaringan saraf tiruan memproses sejumlah besar informasi secara paralel
dan terdistribusi, hal ini terinspirasi oleh model kerja otak biologis. Beberapa definisi
tentang jaringan saraf tiruan adalah sebagai berikut di bawah ini.
"Suatu neural network (NN), adalah suatu struktur pemroses informasi yang
terdistribusi dan bekerja secara paralel, yang terdiri atas elemen pemroses (yang
memiliki memori lokal dan beroperasi dengan informasi lokal) yang diinterkoneksi
bersama dengan alur sinyal searah yang disebut koneksi. Setiap elemen pemroses
memiliki koneksi keluaran tunggal yang bercabang (fan out) ke sejumlah koneksi
kolateral yang diinginkan (setiap koneksi membawa sinyal yang sama dari keluaran
elemen pemroses tersebut). Keluaran dari elemen pemroses tersebut dapat merupakan
sebarang jenis persamaan matematis yang diinginkan. Seluruh proses yang
berlangsung pada setiap elemen pemroses harus benar-benar dilakukan secara lokal,
yaitu keluaran hanya bergantung pada nilai masukan pada saat itu yang diperoleh
melalui koneksi dan nilai yang tersimpan dalam memori lokal".
“Sistem saraf tiruan atau jaringan saraf tiruan adalah sistem selular fisik yang
dapat memperoleh, menyimpan dan menggunakan pengetahuan yang didapatkan dari
pengalaman”.
Sebuah jaringan syaraf adalah sebuah sistem yang dibentuk dari sejumlah
elemen pemroses sederhana yang bekerja secara paralel dimana fungsinya ditentukan
oleh stuktur jaringan, kekuatan hubungan, dan pegolahan dilakukan pada komputasi
elemen atau nodes.
5. Tentukan posisi centroid baru ( k C ) dengan cara menghitung nilai rata-rata dari
6. Kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama.
Seperti yang kita tau bahwa metode K-means ini menggunakan nilai rata-rata
yang diambil dari setiap cluster. Maka berikut adalah cara bagaimana K-means
menghitung rata-rata dari setiap cluster
Ck adalah nilai rata-rata dari cluster K (contoh: C1 adalah nilai rata-rata dari cluster
X adalah data yang sedang kita tentukan ke cluster mana harus dimasukkan. Ck
adalah nilai rata-rata dari cluster k. K adalah jumlah cluster. Jadi, Cluster T
merupakan cluster yang paling cocok untuk data X, karena cluster T memiliki selisih
terkecil.
Bagaimana cara menghitung selisih? Kita bisa menggunakan berbagai macam
metode seperti Eucledian distance, Mahalanobis distance, Manhattan distance,
Normalised Cosines distance. Metode yang paling populer adalah dengan
menggunakan Eucledian distance.
Setelah kita menentukan nilai rata-rata awal dari setiap cluster, selanjutnya
algoritma akan meng-update keanggotaan dari setiap cluster. Setelah itu algoritma
akan menghitung kembali nilai rata-rata dari setiap cluster berdasarkan anggotanya
yang baru saja di-update.
Pertanyaan berikutnya, kapan berhenti? Algoritma akan berhenti ketika tidak ada
perubahan keanggotaan dari setiap cluster.
Daftar Pustaka :
http://id.wikipedia.org/wiki/Pengenalan_pola
http://www.ittelkom.ac.id/library/index.php?
view=article&catid=20%3Ainformatika&id=183%3Aalgoritma-k-
means&option=com_content&Itemid=15
http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html